統計学を学び始めたばかりの者が最も陥りやすい罠、それが「有意差なし($p > 0.05$)」を「差がない」と解釈することである。
医学研究において、この誤解は治療の選択を誤らせる致命的なリスクを孕んでいる。本記事では、なぜ「有意差がない」ことが「差がない証明」にならないのか、その論理的帰結と正しい解釈のあり方を整理する。
統計学的検定は「不在」を証明できない
推測統計における仮説検定は、あくまで「帰無仮説(差がない)」という仮定に対し、手元のデータがどれほど矛盾しているかを測る手続きである。
$p > 0.05$ という結果は、単に「差があると言い切るには証拠が足りなかった」ことを意味するに過ぎない。これは裁判に例えると分かりやすい。証拠不十分で「無罪」判決が出たとしても、それは被告が「犯人ではないこと(潔白)」を証明したわけではないのである。
「検出力」という視点の欠如
有意差が出なかった原因は、本当に差がないからとは限らない。むしろ、「差を検出する力(検出力)」が不足していた可能性を疑うべきである。
医学実験において、サンプルサイズ(症例数)が少なすぎる場合、たとえ臨床的に意味のある差が存在していても、統計学的な網の目をすり抜けてしまう。この状態を「第2種の過誤($\beta$エラー)」と呼ぶ。
「視力の悪い検査」の比喩
1メートル先にリンゴが置かれていても、視力が極端に低ければ「リンゴはない」と報告してしまうだろう。このとき、問題なのはリンゴの不在ではなく、検査側の精度の低さである。
p値の限界と信頼区間の重要性
$p$値は「差があるか否か」の二択を迫るが、その差が「どの程度の大きさか」は教えてくれない。そこで重要になるのが95%信頼区間(CI)である。
有意差がなくても、信頼区間の端が「臨床的に無視できない効果」を含んでいるならば、それは「差がない」のではなく「判断を下すにはデータが不十分」と解釈するのが誠実な科学の態度である。
現場で求められる正しい解釈と表現
「差がない」と言い切るためには、事前に「これ以下の差なら同等とみなす」という同等性マージンを設定した特別な検定(同等性検定)が必要である。通常の検定を用いた場合は、以下の表現を徹底すべきである。
- 誤: 「両群間に差はないことが示された」
- 正: 「本研究の規模では、統計学的な有意差を認めるに至らなかった」
【保存版】p>0.05 だった時の解釈チェックリスト
医学論文を執筆・抄読する際、以下の4項目を自分に問いかけてほしい。
- [ ] 「差がない」という断定表現を避けているか
- 統計学的に言えるのは「有意な差を認めるに至らなかった」までである。
- [ ] 95%信頼区間の「幅」を確認したか
- 信頼区間が広く、臨床的に意味のある値を含んでいるなら、それは単なる「精度不足」である。
- [ ] サンプルサイズは設計どおりか(事後解析の検討)
- 症例数が少なすぎて、最初から有意差が出るはずのない試験になっていなかったか。
- [ ] 「臨床的意義」と「統計学的有意性」を混同していないか
- p値が大きくても、推定された効果(点推定値)が臨床的に重要なら、それは「将来有望な兆候」として扱うべきである。
まとめ:誠実な「判断保留」を恐れるな
「差がない」と断定することは一見、明快で魅力的な結論に見える。しかし、根拠のない断定は、本来救えたはずの患者への治療機会を奪うことにも繋がりかねない。
統計初心者こそ、$p > 0.05$ という結果を「さらなる検証が必要な、継続中の課題」として捉える勇気を持つべきである。




コメント