データ分析の現場において、異なる二つのグループから得られた平均値を一つにまとめ、全体像を把握したい場面は多い。しかし、ここで安易に「二つの平均値を足して2で割る」という計算を行ってはならない。
グループごとのサンプルサイズ(人数や試行回数)が異なる場合、単純な平均計算では実態を歪めてしまうリスクがあるからだ。本記事では、統計的な妥当性を保ちながらデータを統合するための「重み付け平均(加重平均)」について、その必要性と具体的な算出ロジックを解説する。
「平均の平均」が引き起こす誤謬
例えば、ある試験において「グループA(10人):平均60点」と「グループB(100人):平均90点」という結果が出たと仮定する。これらを単純に平均すると $(60 + 90) \div 2 = 75$ 点となるが、これは全受験者110人の実態を正しく反映しているだろうか。
受験者の9割以上(100人)が90点という高得点を獲得しているにもかかわらず、わずか10人のグループと同じ「重み」で扱ってしまうと、全体の評価を不当に低く見積もることになる。データの信頼性はサンプルサイズに依存するため、人数の多いグループの数値をより重視するのが統計学上の原則である。
重み付け平均の計算ロジック
データの統合において守るべきルールは、「一度、個々のデータの総和に立ち返る」ことである。
【具体的な計算式】
今回の例(10人が60点、100人が90点)を統合する場合、以下の式を用いる。
$$\text{全体の平均} = \frac{(60\text{点} \times 10\text{人}) + (90\text{点} \times 100\text{人})}{10\text{人} + 100\text{人}}$$
- 各群の合計値を算出する: $60 \times 10 = 600$ 点、および $90 \times 100 = 9,000$ 点。
- 全体の総計を出す: $600 + 9,000 = 9,600$ 点。
- 全体のサンプルサイズで割る: $9,600 \div 110 \fallingdotseq 87.3$ 点。
単純平均の「75点」と比べ、人数が多いグループBのスコアに近い「87.3点」が導き出された。これが、一人ひとりのデータを等価に扱った「真の全体平均」である。
具体的な活用シーン
この手法は、ビジネスから研究まで幅広い分野で必須のスキルとなる。
- 多施設共同研究: 複数の施設で実施された試験結果を統合し、治療の平均的な有効性を評価する場合。
- マーケティング: 地域ごとに回答数が異なるアンケート結果を、全国平均として集計する場合。
- 教育評価: クラス人数が異なる複数の学級を、学年全体の平均として算出する場合。
まとめ:分析の精度は「重み」の理解に宿る
平均値は強力な指標であるが、その背後にある「サンプルサイズ」を無視した瞬間に、データは説得力を失う。二群のデータを統合する際は、常に「一人ひとりの重みは平等か」を自問自答すべきである。重み付け平均を正しく使いこなすことは、誠実で精度の高いデータ分析への第一歩と言えるだろう。




コメント