検定の多重性とは？その意味と統計検定のp値を解釈する上で重要なこと

2024年11月11日

統計学的検定を学ぶと、必ず避けて通れない問題があります。

それが、検定の多重性。

臨床研究でも検定の多重性は重要な問題となります。

この記事では、統計学的検定で問題となる検定の多重性のについて解説します。

多重性の意味や、p値の解釈で注意しなければならないことがあるので、それを理解していきましょう。

＞＞もう統計で悩むのは終わりにしませんか？

↑1万人以上の医療従事者が購読中

検定の多重性とは？統計学的検定を複数回実施することで起こる問題

まずは、多重性とは何か、ということを理解しましょう。

多重性の問題を一言で表すと、こんな問題です。

多重性の問題とは？：
→検定を複数回実施すると、少なくとも一つ以上の検定結果が有意になる確率が増大する問題

あまりピンとこないかもしれませんので、さいころを例に多重性を紐解いてみます。

検定の多重性の意味を例でわかりやすく：サイコロで1回でも6が出る確率

みなさんご存知の通り、サイコロは1〜6の目がそれぞれ1/6の確率で出るようになっています。

では、６が出る確率を考えてみましょう。

1回さいころを投げて6が出る確率は、当然1/6≒17%ですね。

次からが多重性の問題。

では、2回さいころ投げて「少なくとも1回6が出る確率」はどうなるでしょうか？

あなたは答えられますか？

計算方法としては、1-（１回も6が出ない確率）を求めればよいです。

すると、１回も６が出ない確率は６以外の目が出る確率なので、5/6です。

となると、2回さいころ投げて「少なくとも1回6が出る確率」は、以下のように計算できます。

1-5/6*5/6 = 11/36 ≒ 31%

3回さいころを投げて「少なくとも1回6が出る確率」も、同様に計算してみます。

1-5/6*5/6*5/6 ≒ 42%

今までの計算を、表にまとめます。

サイコロを投げる回数	少なくとも1回6の目が出る確率
1回	17%
2回	31%
3回	42%

さいころを投げて6の目が出る確率は1/6でした。

しかし、複数回さいころを投げることで「一回でも6の目が出る確率」は1/6よりも大きくなってしまいました。

この概念が、統計学的検定の多重性の問題と同じなのです。

統計学的検定の多重性を考える時には、検定の回数に注意

検定の多重性とは、さいころを複数回投げることと一緒です。

さいころの例のように、複数回の検定を実施することで「1回でもその結果が出る確率（検定であれば有意になる確率）」が増大してしまうという現象が起きます。

さいころの例を統計的検定に置き換えると、αエラーが1回の検定だと5%であったものが、複数回繰り返すと全体のαエラーが5%よりも大きくなってしまうということになります。

例えば、検定を２回実施した場合。

「少なくとも1つが有意になる確率」はどうなるでしょうか。

サイコロの例と同じように数式に表してみましょう。

計算方法としては、1-（１回も有意にならない確率）を求めればよいですね。

ということは、1-0.95*0.95＝0.0975。

つまり、αエラーが9.75%になってしまうのです！

検定を実施する回数	少なくとも1回は有意になる確率
1回	5%
2回	9.75%

これは重大な問題ですね。

αエラーが増大するということは、患者さんの不利益につながります。

そのため、統計的検定は、1回だけ実施することが原則になります。

検定の多重性が発生する時には、p値の解釈にも注意する

検定の多重性が発生しているということは、αエラーが増大しているということです。

そのため、p値の解釈にも注意が必要です。

通常は有意水準を0.05に設定している場合、多重性の問題がなければp値が0.05を下回っている場合に「有意である」と結論づけることになります。

しかし、多重性の問題が発生している場合には、有意になりやすくなっている状況なので、意図的に有意になりにくいように解釈をする必要があるのです。

そのため、例えばボンフェローニ法のように検定を2回実施するのであれば、p値も0.025を下回らない限り有意とは言えない、というように、厳しくp値を解釈する必要があるのです。

αエラーとβエラーをコントロールしていないp値は、名目上のp値として位置付けられます。

名目上のp値は「それ単独で解釈できないp値（つまり、0.05を下回ったかどうかで判断できないp値）」のため、特に解釈に注意が必要です。

＞＞名目上のp値とは？

検定の多重性を補正するには、αエラーに着目する

上記の通り多重性の本質は、複数回検定を実施することでαエラーが増大してしまう、ということ。

ということは、実際には「複数回検定を実施する」こと自体が問題ではなく、「αエラーが増大してしまう」ということが問題です。

ということなので、たとえ複数回検定を実施することになっても、αエラーさえ増大しなければ、それはそれで複数回検定を実施してもOKということです。

多重性を回避しながら複数の検定を実施したいときにはどうすればよい？

多重性によって検定結果が信頼のおけない結果になることは分かりました。

ただそれでも、複数の項目・複数の時点で検定を実施したい場合、どうすればよいでしょうか？

どうにかして検定を1回にする
検定に順番を付ける（閉手順）
有意水準を分ける（有名なのがボンフェローニ法）

といった方法が考えられます。

そして、多重性を考慮した検定なんかもあります。

有名なところで言うと、Tukey（テューキー）の検定、Dunnett（ダネット）の検定などです。

＞＞Tukey（テューキー）の検定とは？

＞＞Dunnett（ダネット）の検定とは？

医薬研究で多重性が発生する場面、そして多重性を回避する方法に関しては別ページで解説しておりますので、ご参照ください。

＞＞もう統計で悩むのは終わりにしませんか？

↑1万人以上の医療従事者が購読中

検定の多重性の意味：数撃ちゃ当たる理論

多重性の問題は、つまるところ「数撃ちゃ当たる」ということです。

αエラーを5%にするということは、20回に1回は間違いを許容するということです。

そのため、データに対して100回ぐらい検定を実施して、P値が0.05を下回る結果があったぞー！！と言っても、それは多重性によりたまたま0.05を下回ったにすぎない可能性が高いです。

かの有名なノストラダムスも、この「多重性」を巧みに使って有名になった一人です。

ノストラダムスは、予言を何千も何万も用意していました。

たまたま、そのうちの何個かが的中したため、有名になったのです。

検定の多重性とは？まとめ

多重性によるαエラーの増大が、医薬品開発にとって問題となる。
どうしても複数回の検定を実施したい場合には、全体のαエラーが5%未満になるように制御する必要がある。

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

リサーチクエスチョン探し？データ分析？論文投稿？、、、で、もう悩まない！

第1章：臨床研究ではなぜ統計が必要なのか？計画することの重要性

推定ってどんなことをしているの？
臨床研究を計画するってどういうこと？
どうにかして標本平均を母平均に近づけられないか？

第2章：研究目的をどれだけ明確にできるのかが重要

データさえあれば解析でどうにかなる、という考え方は間違い
何を明らかにしたいのか？という研究目的が重要
研究目的は4種類に分けられる
統計専門家に相談する上でも研究目的とPICOを明確化しておく

第3章：p値で結果が左右される時代は終わりました

アメリカ統計協会（ASA）のp値に関する声明で指摘されていること
そうは言っても、本当に有意差がなくてもいいの…？
なぜ統計専門家はp値を重要視していないのか
有意差がない時に「有意な傾向があった」といってもいい？
統計を放置してしまうと非常にまずい

第4章：多くの人が統計を苦手にする理由

残念ながら、セミナー受講だけで統計は使えません。
インプットだけで統計が使えない理由
どうやったら統計の判断力が鍛えられるか？
統計は手段なので正解がないため、最適解を判断する力が必要

第5章：統計を使えるようになるために今日から何をすれば良いか？

論文を読んで統計が使えるようになるための5ステップ

第6章：統計を学ぶために重要な環境

統計の3つの力をバランスよく構築する環境

『統計を身につける5つのステップ』を
通常1,650円 → メルマガ登録で無料でプレゼント

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

~~通常価格：1,650円~~　→　無料でお届け

【無料】統計を使いこなすための秘策を学ぶ

コメント一覧（6件）

2群間の比較の統計解析は？検定やグラフを簡単にわかりやすく｜一番優しい、医薬品開発に必要な統計学の教本 より:

2019年6月11日 2:58 PM

[…] 検証的な性質を持つデータ比較であれば、ちゃんと事前に解析計画を立て、多重性を考慮して解析を実施する必要がありますので、その点はご注意ください。 […]

返信
ボンフェローニ法とは？統計検定で多重比較を補正する方法の計算式｜一番優しい、医薬品開発に必要な統計学の教本 より:

2019年6月11日 3:07 PM

[…] 多重比較をすると問題なのが、全体的なαエラーが増大するということ。 […]

返信
多重性の調整方法は？統計学的検定の多重性を補正する３つの方法｜一番優しい、医薬品開発に必要な統計学の教本 より:

2019年6月11日 5:05 PM

[…] 多重性は、複数回の検定（2回以上の検定）を実施する際に起こる問題です。 […]

返信
テューキー検定とは？T検定や他の多重比較法との違いを解説！｜いちばんやさしい、医療統計 より:

2021年5月19日 4:30 PM

[…] 多重比較法の中でもよく使われる方法ですので、分散分析とセットになって頻繁に登場します。 […]

返信
JMPでパラメトリックな多重比較！Tukey検定とDunnett検定を実施する方法｜いちばんやさしい、医療統計 より:

2021年11月5日 9:19 AM

[…] 3群以上の比較をしたい時、多重性の問題が発生します。 […]

返信
False Discovery Rate（FDR）とは？意味や使い方を解説！｜いちばんやさしい、医療統計 より:

2022年3月11日 11:28 AM

[…] […]

返信

検定の多重性とは？その意味と統計検定のp値を解釈する上で重要なこと

検定の多重性とは？統計学的検定を複数回実施することで起こる問題

検定の多重性の意味を例でわかりやすく：サイコロで1回でも6が出る確率

統計学的検定の多重性を考える時には、検定の回数に注意

検定の多重性が発生する時には、p値の解釈にも注意する

検定の多重性を補正するには、αエラーに着目する

多重性を回避しながら複数の検定を実施したいときにはどうすればよい？

検定の多重性の意味：数撃ちゃ当たる理論

検定の多重性とは？まとめ

リサーチクエスチョン探し？データ分析？論文投稿？、、、で、もう悩まない！

『統計を身につける5つのステップ』を通常1,650円 → メルマガ登録で無料でプレゼント

関連記事

コメント

コメント一覧 （6件）

コメントする コメントをキャンセル

『統計を身につける5つのステップ』を
通常1,650円 → メルマガ登録で無料でプレゼント

コメント一覧（6件）

コメントするコメントをキャンセル