この記事では「P値の問題点とは?不要論もあるP値に対してアメリカ統計協会の声明が指摘していること」としてお伝えします。
医薬研究をする上で、P値は欠かせないものに感じている人は多いでしょう。
しかし近年では、P値に対しての問題点が指摘され、中には不要論も出ている論文があるぐらいです。
そのためこの記事では
- P値の問題点とは何?
- なぜP値の不要論も出ているのか?
- アメリカ統計協会(ASA)のP値に関する声明で指摘していること
- P値ではなく信頼区間を使う習慣が大事
ということでお伝えしていきますね!
P値の問題点とは?統計検定が不要論も出るぐらいの論争
最近、P値に関する問題点を耳にする場面があるかなと思います。
正しく使えば、P値は確かに有益なツール。
しかしP値に対して不要論も出るほど問題が指摘されているのは、このような事実があるからです。
どういうことかを詳しく見ていきましょう。
P値は便利すぎるので統計といえば小さいP値を出すことという誤認が広まっている
多くの研究者にとって「統計解析をする」といえば、
- 検定を実施してP値を出力すること
- 統計的有意差を見出すこと
という認識が広まっているなと思います。
それはなぜかを考えた時に、「P値は便利すぎる」という側面があるのかなと。
データが連続量でもカテゴリカルデータでも生存時間データでも、どんな解析をしたとしても、P値という一つの指標に変換でき、しかもP値は0.05を基準にして大きいか小さいかで判断できる。
これって、本当に便利だと思うんです。
そして、P値が0.05を下回れば、どんなデータであってもオールOKと結論づけることができる、という誤った認識が広まっています。
だからこそ、研究自体が「小さいP値を得ること」に重点が置かれ過ぎてしまっていることに問題点があるんです。
P値が不要という意見も
研究とは本来
- 適切な研究計画を立てる
- 研究目的を達成できるようにデータを取得する
- 適切な解析をする
- 適切な結果の解釈をする
- 適切な考察をする
ということが出来ないといけないもの。
しかしP値が小さければ良いという認識が広まっていることで、「どんなデータであろうと解析段階でいろんな解析をして0.05を切る結果が出たら、その結果に対して他の全てをこじつける」ということだってできてしまうのです。
そのような現状を受けて、2019年3月に研究者の Valentin Amrhein、Sander Greenland、BlakeMcShaneの3名の研究者は,「統計的に有意」の概念がなければもっと良くなるもしれないと提案しました。
私はここまで極端な意見を持っているわけではないですが、3名が言いたいこともすごくわかります。
P値が不要という側の意見は
- p値を重視しすぎて、様々な方法でp<0.05を求めているだけに腐心している現状
- 実際の効果の大きさへの吟味を軽視しているのではないか
というのをすごく問題視していて、「統計的に有意」の概念がなければもっと良い研究が実施できるはず、ということを指摘しているのです。
アメリカ統計協会(ASA)のP値に関する声明で指摘されていること
2016年、アメリカ統計協会(ASA)はP値に関する声明を発表しました。
指摘は全部で6つあり、6つとも全て重要な指摘なのですが、私が読んだ限り重要だと思った3つのポイントを解説します。
ASAのP値に対する指摘1:P値や統計的有意性は、効果の大きさや結果の重要性を意味しない
まずP値に対して重要なポイントは「P値や統計的有意性は、効果の大きさや結果の重要性を意味しない」という点。
どういうことかというと、P値が小さくなる要素を考えるとわかります。
例えば2群のT検定の場合。
P値が小さくなる要素は以下の3つです。
- 群間差が大きい
- ばらつきが小さい
- データ数が多い
多くの研究では「P値が小さい結果が出た=効果の群間差が大きい」ことを期待しているはず。
ですが、必ずしもそうではないことがわかります。
臨床的には意味のない群間差であっても、データ数が多いだけで小さいP値を得ることができるからです。
だからこそ、研究の計画段階で事前にサンプルサイズを決めておくことが重要になります。
ASAのP値に対する指摘2:科学的な結論や、ビジネス、政策における決定は、 P値がある値(有意水準)を超えたかどうかにのみ基づくべきではない
次に重要なポイントは「科学的な結論や、ビジネス、政策における決定は、 P値がある値(有意水準)を超えたかどうかにのみ基づくべきではない」ということ。
上記の通り、必ずしも「P値が小さい結果が出た=効果の群間差が大きい」ではないんです。
だからこそ、要約統計量やグラフなどによるデータの吟味をせずに、P値だけで結論が決まるわけがありません。
そのため、得られた結果が臨床的な仮定とどれぐらいマッチしているのかどうかという考察が重要になるんです。
ASAのP値に対する指摘3:適正な推測のためには、すべてを報告する透明性が必要である
3つ目のポイントは「適正な推測のためには、すべてを報告する透明性が必要である」という点。
一つのデータに対して解析手法は複数適用できます。
例えば、連続量の2群比較では「T検定」と「マンホイットニーU検定」が使えますよね。
2値のカテゴリカルデータに対しては、「カイ二乗検定」と「フィッシャーの正確確率検定」が使えます。
それぞれ異なる検定ですから、当然ながら出てくるP値も異なります。
であれば、ずる賢い考えがあれば「複数の検定を実施したうち、最も良い結果だけを示す」ということができてしまう。
そうなると、やっぱり問題が出てきます。
主に多重性の問題ですよね。
だからこそ、事前にどんな解析を実施し、何を報告するかという「計画の透明性」が重要なんです。
あるトップジャーナルでは「プロトコル(研究計画書)に記載していない結果はPost hoc analysisと明記して分けろ」とのガイドライン上の記載があるほどです。
P値ではなく信頼区間を使う習慣を
これまで見てきた通り、P値だけに依存すると様々な問題点があります。
しかし勘違いしていただきたくないのは、「むやみやたらにP値だけを使う」というのがNGなだけで、適切に使えばP値も有用なツールであることは間違いないこと。
ぜひ適切な場面で適切にP値を使える判断力を養いましょう。
P値に頼らず95%信頼区間を使う習慣を
P値に頼りすぎないことに関しては、P値を使いたい場面で95%信頼区間を使う習慣を持つといいかなと思います。
95%信頼区間は推定値(平均値や割合など)の精度を示す指標。
そして、95%信頼区間を見ることで有意差との関係を見ることができる場合もあります。
そのため「95%信頼区間はP値を出しているのと一緒だから問題の解決にならない!」という意見を持っている方もいるのは事実。
ですが私としては、そもそもP値と信頼区間は別ものであり、「結果的に」有意差との関係も見れる場合がある、というだけ、という意見を持っています。
95%信頼区間を適切に使って適切に解釈できるようになれば、何も問題ないですからね。
まとめ
いかがでしたか?
この記事では「P値の問題点とは?不要論もあるP値に対してアメリカ統計協会の声明が指摘していること」としてお伝えしました。
- P値の問題点とは何?
- なぜP値の不要論も出ているのか?
- アメリカ統計協会(ASA)のP値に関する声明で指摘していること
- P値ではなく信頼区間を使う習慣が大事
ということが伝わったのなら幸いです!
コメント