検定の多重性とは?その意味と統計検定のp値を解釈する上で重要なこと

多重性の問題とはどんな問題なの?

統計学的検定を学ぶと、必ず避けて通れない問題があります。

それが、検定の多重性。

臨床研究でも検定の多重性は重要な問題となります。

この記事では、統計学的検定で問題となる検定の多重性のについて解説します。

多重性の意味や、p値の解釈で注意しなければならないことがあるので、それを理解していきましょう。

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

目次

検定の多重性とは?統計学的検定を複数回実施することで起こる問題

まずは、多重性とは何か、ということを理解しましょう。

多重性の問題を一言で表すと、こんな問題です。

多重性の問題とは?:
検定を複数回実施すると、少なくとも一つ以上の検定結果が有意になる確率が増大する問題

あまりピンとこないかもしれませんので、さいころを例に多重性を紐解いてみます。

検定の多重性の意味を例でわかりやすく:サイコロで1回でも6が出る確率

みなさんご存知の通り、サイコロは1〜6の目がそれぞれ1/6の確率で出るようになっています。

では、6が出る確率を考えてみましょう。

1回さいころを投げて6が出る確率は、当然1/6≒17%ですね。

次からが多重性の問題。

では、2回さいころ投げて「少なくとも1回6が出る確率」はどうなるでしょうか?

あなたは答えられますか?

計算方法としては、1-(1回も6が出ない確率)を求めればよいです。

すると、1回も6が出ない確率は6以外の目が出る確率なので、5/6です。

となると、2回さいころ投げて「少なくとも1回6が出る確率」は、以下のように計算できます

1-5/6*5/6 = 11/36 ≒ 31%

3回さいころを投げて「少なくとも1回6が出る確率」も、同様に計算してみます。

1-5/6*5/6*5/6 ≒ 42%

今までの計算を、表にまとめます。

サイコロを投げる回数少なくとも1回6の目が出る確率
1回17%
2回31%
3回42%

さいころを投げて6の目が出る確率は1/6でした。

しかし、複数回さいころを投げることで「一回でも6の目が出る確率」は1/6よりも大きくなってしまいました。

この概念が、統計学的検定の多重性の問題と同じなのです。

統計学的検定の多重性を考える時には、検定の回数に注意

検定の多重性とは、さいころを複数回投げることと一緒です。

さいころの例のように、複数回の検定を実施することで「1回でもその結果が出る確率(検定であれば有意になる確率)」が増大してしまうという現象が起きます。

さいころの例を統計的検定に置き換えると、αエラーが1回の検定だと5%であったものが、複数回繰り返すと全体のαエラーが5%よりも大きくなってしまうということになります。

例えば、検定を2回実施した場合。

「少なくとも1つが有意になる確率」はどうなるでしょうか。

サイコロの例と同じように数式に表してみましょう。

計算方法としては、1-(1回も有意にならない確率)を求めればよいですね。

ということは、1-0.95*0.95=0.0975

つまり、αエラーが9.75%になってしまうのです!

検定を実施する回数少なくとも1回は有意になる確率
1回5%
2回9.75%

これは重大な問題ですね。

αエラーが増大するということは、患者さんの不利益につながります。

そのため、統計的検定は、1回だけ実施することが原則になります。

検定の多重性が発生する時には、p値の解釈にも注意する

検定の多重性が発生しているということは、αエラーが増大しているということです。

そのため、p値の解釈にも注意が必要です。

通常は有意水準を0.05に設定している場合、多重性の問題がなければp値が0.05を下回っている場合に「有意である」と結論づけることになります。

しかし、多重性の問題が発生している場合には、有意になりやすくなっている状況なので、意図的に有意になりにくいように解釈をする必要があるのです。

そのため、例えばボンフェローニ法のように検定を2回実施するのであれば、p値も0.025を下回らない限り有意とは言えない、というように、厳しくp値を解釈する必要があるのです。

αエラーとβエラーをコントロールしていないp値は、名目上のp値として位置付けられます。

名目上のp値は「それ単独で解釈できないp値(つまり、0.05を下回ったかどうかで判断できないp値)」のため、特に解釈に注意が必要です。

>>名目上のp値とは?

検定の多重性を補正するには、αエラーに着目する

上記の通り多重性の本質は、複数回検定を実施することでαエラーが増大してしまう、ということ。

ということは、実際には「複数回検定を実施する」こと自体が問題ではなく、「αエラーが増大してしまう」ということが問題です。

ということなので、たとえ複数回検定を実施することになっても、αエラーさえ増大しなければ、それはそれで複数回検定を実施してもOKということです。

多重性を回避しながら複数の検定を実施したいときにはどうすればよい?

多重性によって検定結果が信頼のおけない結果になることは分かりました。

ただそれでも、複数の項目・複数の時点で検定を実施したい場合、どうすればよいでしょうか?

  1. どうにかして検定を1回にする
  2. 検定に順番を付ける(閉手順
  3. 有意水準を分ける(有名なのがボンフェローニ法

といった方法が考えられます。

そして、多重性を考慮した検定なんかもあります。

有名なところで言うと、Tukey(テューキー)の検定、Dunnett(ダネット)の検定などです。

>>Tukey(テューキー)の検定とは?

>>Dunnett(ダネット)の検定とは?

医薬研究で多重性が発生する場面、そして多重性を回避する方法に関しては別ページで解説しておりますので、ご参照ください。

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

検定の多重性の意味:数撃ちゃ当たる理論

多重性の問題は、つまるところ「数撃ちゃ当たる」ということです。

αエラーを5%にするということは、20回に1回は間違いを許容するということです。

そのため、データに対して100回ぐらい検定を実施して、P値が0.05を下回る結果があったぞー!!と言っても、それは多重性によりたまたま0.05を下回ったにすぎない可能性が高いです。

かの有名なノストラダムスも、この「多重性」を巧みに使って有名になった一人です。

ノストラダムスは、予言を何千も何万も用意していました。

たまたま、そのうちの何個かが的中したため、有名になったのです。

検定の多重性とは?まとめ

  • 多重性によるαエラーの増大が、医薬品開発にとって問題となる。
  • どうしても複数回の検定を実施したい場合には、全体のαエラーが5%未満になるように制御する必要がある。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

リサーチクエスチョン探し?データ分析?論文投稿?、、、で、もう悩まない!

第1章臨床研究ではなぜ統計が必要なのか?計画することの重要性
  • 推定ってどんなことをしているの?
  • 臨床研究を計画するってどういうこと?
  • どうにかして標本平均を母平均に近づけられないか?
第2章:研究目的をどれだけ明確にできるのかが重要
  • データさえあれば解析でどうにかなる、という考え方は間違い
  • 何を明らかにしたいのか? という研究目的が重要
  • 研究目的は4種類に分けられる
  • 統計専門家に相談する上でも研究目的とPICOを明確化しておく
第3章:p値で結果が左右される時代は終わりました
  • アメリカ統計協会(ASA)のp値に関する声明で指摘されていること
  • そうは言っても、本当に有意差がなくてもいいの…?
  • なぜ統計専門家はp値を重要視していないのか
  • 有意差がない時に「有意な傾向があった」といってもいい?
  • 統計を放置してしまうと非常にまずい
第4章:多くの人が統計を苦手にする理由
  • 残念ながら、セミナー受講だけで統計は使えません。
  • インプットだけで統計が使えない理由
  • どうやったら統計の判断力が鍛えられるか?
  • 統計は手段なので正解がないため、最適解を判断する力が必要
第5章:統計を使えるようになるために今日から何をすれば良いか?
  • 論文を読んで統計が使えるようになるための5ステップ
第6章:統計を学ぶために重要な環境
  • 統計の3つの力をバランスよく構築する環境

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

コメント

コメント一覧 (6件)

コメントする

目次