2つのグループの平均値を比較する際、多くの人がそれぞれの平均値の95%信頼区間が重なっているかどうかを見て、「統計学的に有意な差があるか」を判断しようとする。しかし、これは誤りである。実は、2つの信頼区間が重なっていたとしても、統計学的に有意な差が存在する可能性は十分にあり得る。この誤解がなぜ生じ、そして正しい判断基準が何であるかを解説する。
統計学的有意差を示している状態と各群の平均値の95%信頼区間の関係性
統計学的に2つの群の平均値に有意差があるかどうかを判断する際、個々の群の平均値の95%信頼区間が重なっているかどうかだけで結論を出すことはできない。この2つの概念は、関連性はあるものの、直接的な判断基準にはならない。
例えば、ある治療法Aと治療法Bの効果を比較し、それぞれの平均効果の95%信頼区間を算出したとする。これらの信頼区間がわずかに重なっていたとしても、必ずしも有意差がないとは限らない。この関係性を視覚的に捉えようとしても、信頼区間の図だけで統計的有意差の有無を判断することはできないのである。
誤解が生じている原因の推察
この誤解が生じる主な原因は、「差の95%信頼区間がゼロをまたぐかどうか」という正しい判断基準と、「2群の95%信頼区間が重なるかどうか」が混同されているためと考えられる。
2群間の差の信頼区間が0をまたがない場合、それは統計学的に有意な差があることを示している。しかし、個々の群の信頼区間が重なっていても、差の信頼区間が0をまたがないケースは存在する。この微妙な違いが、多くの人の間で混乱を招いていると推察できる。
正しい理解のための簡単な数値による説明
なぜ個々の信頼区間の重なりと、差の有無の判断が異なるのかを簡単に説明する。
信頼区間の幅は、その群の平均値の推定のばらつきを示している。2つの群の平均値の差を考えるとき、その差のばらつきは、個々の群のばらつきとは異なる形で計算される。
具体的には、2つの独立した群の平均値の差の標準誤差は、それぞれの群の標準誤差を二乗して足し合わせたものの平方根で計算される(実際には、サンプルサイズ、もしくは自由度を考慮するが、ここでは話を単純にするため割愛)
例として、2つの群AとBがあり、それぞれの平均値と95%信頼区間が以下のとおりだったとする。
- 群A: 平均 = 10, 95%信頼区間 = [8, 12]
- 群B: 平均 = 13, 95%信頼区間 = [11, 15]
この場合、群Aの信頼区間の上限(12)と群Bの信頼区間の下限(11)は重なっている。しかし、2つの平均値の差は 13−10=3 である。そして、この 3 の95%信頼区間が 下限・上限とも0より大きいことはある。
2つの群の平均値の差の信頼区間を考えるとき、それぞれの信頼区間のばらつきだけでなく、両者の独立性を考慮に入れる必要がある。これにより、差の信頼区間は個々の信頼区間が重なっている場合でも、ゼロをまたがないことがある。
簡単に言えば、個々の信頼区間は「その平均値がどの範囲にありそうか」を示しているのに対し、差の信頼区間は「2つの平均値の差がどの範囲にありそうか」を示しており、この2つは全く同じものではないため、異なる判断基準を要するのである。
まとめ
2群の平均値の統計学的有意差を判断する上で、それぞれの群の95%信頼区間が重なっているかどうかだけで判断することは、統計学的には誤りである。正しい判断基準は「2群間の平均値の差の95%信頼区間がゼロをまたぐかどうか」である。この点を理解し、適切な統計的判断を行うことが、データに基づいた正確な意思決定には不可欠である。
コメント