統計学的検定を学ぶと、必ず避けて通れない問題があります。
それが、検定の多重性。
臨床研究でも検定の多重性は重要な問題となります。
この記事では、統計学的検定で問題となる検定の多重性のについて解説します。
多重性の意味や、p値の解釈で注意しなければならないことがあるので、それを理解していきましょう。
検定の多重性とは?統計学的検定を複数回実施することで起こる問題
まずは、多重性とは何か、ということを理解しましょう。
多重性の問題を一言で表すと、こんな問題です。
多重性の問題とは?:
→検定を複数回実施すると、少なくとも一つ以上の検定結果が有意になる確率が増大する問題
あまりピンとこないかもしれませんので、さいころを例に多重性を紐解いてみます。
検定の多重性の意味を例でわかりやすく:サイコロで1回でも6が出る確率
みなさんご存知の通り、サイコロは1〜6の目がそれぞれ1/6の確率で出るようになっています。
では、6が出る確率を考えてみましょう。
1回さいころを投げて6が出る確率は、当然1/6≒17%ですね。
次からが多重性の問題。
では、2回さいころ投げて「少なくとも1回6が出る確率」はどうなるでしょうか?
あなたは答えられますか?
計算方法としては、1-(1回も6が出ない確率)を求めればよいです。
すると、1回も6が出ない確率は6以外の目が出る確率なので、5/6です。
となると、2回さいころ投げて「少なくとも1回6が出る確率」は、以下のように計算できます。
1-5/6*5/6 = 11/36 ≒ 31%
3回さいころを投げて「少なくとも1回6が出る確率」も、同様に計算してみます。
1-5/6*5/6*5/6 ≒ 42%
今までの計算を、表にまとめます。
サイコロを投げる回数 | 少なくとも1回6の目が出る確率 |
1回 | 17% |
2回 | 31% |
3回 | 42% |
さいころを投げて6の目が出る確率は1/6でした。
しかし、複数回さいころを投げることで「一回でも6の目が出る確率」は1/6よりも大きくなってしまいました。
この概念が、統計学的検定の多重性の問題と同じなのです。
統計学的検定の多重性を考える時には、検定の回数に注意
検定の多重性とは、さいころを複数回投げることと一緒です。
さいころの例のように、複数回の検定を実施することで「1回でもその結果が出る確率(検定であれば有意になる確率)」が増大してしまうという現象が起きます。
さいころの例を統計的検定に置き換えると、αエラーが1回の検定だと5%であったものが、複数回繰り返すと全体のαエラーが5%よりも大きくなってしまうということになります。
例えば、検定を2回実施した場合。
「少なくとも1つが有意になる確率」はどうなるでしょうか。
サイコロの例と同じように数式に表してみましょう。
計算方法としては、1-(1回も有意にならない確率)を求めればよいですね。
ということは、1-0.95*0.95=0.0975。
つまり、αエラーが9.75%になってしまうのです!
検定を実施する回数 | 少なくとも1回は有意になる確率 |
1回 | 5% |
2回 | 9.75% |
これは重大な問題ですね。
αエラーが増大するということは、患者さんの不利益につながります。
そのため、統計的検定は、1回だけ実施することが原則になります。
検定の多重性が発生する時には、p値の解釈にも注意する
検定の多重性が発生しているということは、αエラーが増大しているということです。
そのため、p値の解釈にも注意が必要です。
通常は有意水準を0.05に設定している場合、多重性の問題がなければp値が0.05を下回っている場合に「有意である」と結論づけることになります。
しかし、多重性の問題が発生している場合には、有意になりやすくなっている状況なので、意図的に有意になりにくいように解釈をする必要があるのです。
そのため、例えばボンフェローニ法のように検定を2回実施するのであれば、p値も0.025を下回らない限り有意とは言えない、というように、厳しくp値を解釈する必要があるのです。
αエラーとβエラーをコントロールしていないp値は、名目上のp値として位置付けられます。
名目上のp値は「それ単独で解釈できないp値(つまり、0.05を下回ったかどうかで判断できないp値)」のため、特に解釈に注意が必要です。
検定の多重性を補正するには、αエラーに着目する
上記の通り多重性の本質は、複数回検定を実施することでαエラーが増大してしまう、ということ。
ということは、実際には「複数回検定を実施する」こと自体が問題ではなく、「αエラーが増大してしまう」ということが問題です。
ということなので、たとえ複数回検定を実施することになっても、αエラーさえ増大しなければ、それはそれで複数回検定を実施してもOKということです。
多重性を回避しながら複数の検定を実施したいときにはどうすればよい?
多重性によって検定結果が信頼のおけない結果になることは分かりました。
ただそれでも、複数の項目・複数の時点で検定を実施したい場合、どうすればよいでしょうか?
- どうにかして検定を1回にする
- 検定に順番を付ける(閉手順)
- 有意水準を分ける(有名なのがボンフェローニ法)
といった方法が考えられます。
そして、多重性を考慮した検定なんかもあります。
有名なところで言うと、Tukey(テューキー)の検定、Dunnett(ダネット)の検定などです。
医薬研究で多重性が発生する場面、そして多重性を回避する方法に関しては別ページで解説しておりますので、ご参照ください。
検定の多重性の意味:数撃ちゃ当たる理論
多重性の問題は、つまるところ「数撃ちゃ当たる」ということです。
αエラーを5%にするということは、20回に1回は間違いを許容するということです。
そのため、データに対して100回ぐらい検定を実施して、P値が0.05を下回る結果があったぞー!!と言っても、それは多重性によりたまたま0.05を下回ったにすぎない可能性が高いです。
かの有名なノストラダムスも、この「多重性」を巧みに使って有名になった一人です。
ノストラダムスは、予言を何千も何万も用意していました。
たまたま、そのうちの何個かが的中したため、有名になったのです。
検定の多重性とは?まとめ
- 多重性によるαエラーの増大が、医薬品開発にとって問題となる。
- どうしても複数回の検定を実施したい場合には、全体のαエラーが5%未満になるように制御する必要がある。
コメント
コメント一覧 (6件)
[…] 検証的な性質を持つデータ比較であれば、ちゃんと事前に解析計画を立て、多重性を考慮して解析を実施する必要がありますので、その点はご注意ください。 […]
[…] 多重比較をすると問題なのが、全体的なαエラーが増大するということ。 […]
[…] 多重性は、複数回の検定(2回以上の検定)を実施する際に起こる問題です。 […]
[…] 多重比較法の中でもよく使われる方法ですので、分散分析とセットになって頻繁に登場します。 […]
[…] 3群以上の比較をしたい時、多重性の問題が発生します。 […]
[…] […]