統計学的検定 – いちばんやさしい、医療統計

多重性の調整方法は？閉手順など検定の多重性を補正する3つの方法

beat1115 — Mon, 21 Jul 2025 01:00:07 +0000

統計学的検定の多重性は、医薬研究でかなり問題となります。

多重性の問題が、試験の計画段階で統計の専門家が一番頭を悩ませる点といっても過言ではありません。

そんな検定の多重性の問題ですが、調整する方法はあるのでしょうか？

この記事では、まずは医薬研究で多重性が発生する状況をまとめます。

そして、統計学的検定の多重性を補正する方法を3つ紹介します！

多重性を調整する必要がある状況：検定を2回以上実施すれば多重性の問題は起こる

多重性は、複数回の検定（2回以上の検定）を実施する際に起こる問題です。

なぜ２回以上検定をすると問題なのか。

それは、試験全体としてαエラーが大きくなってしまうからです。

統計的検定が有意水準を５％として設定していることは、誰もが知っていますよね。

そのαエラーが５％を超えてしまうということは、とても重大な問題であると認識できるかと思います。

それでは、臨床試験ではどのような状況で多重性の問題が出てくるでしょうか？

具体的には以下の３つの状況が考えられます。

主要エンドポイントが2つ以上ある場合
比較する群が複数ある場合
解析する時点が複数ある場合

どういう状況か、もう少し考えてみましょう。

多重性の調整が必要な状況1：主要エンドポイントが複数ある場合

これは一番イメージしやすい状況かもしれません。

主要エンドポイントを複数設定し、そのうち「どれか一つでも達成」すれば試験の目的を達成する。

そんな状況であれば、多重性の問題が発生します。

例えば、アトピー性皮膚炎という疾患があります。

この疾患は、皮膚炎とかゆみの2つの特徴を持つ疾患です。

その時、主要エンドポイントを「皮膚炎の改善」と「かゆみの改善」の2つにしたとします。

皮膚炎だけが改善すればアトピー性皮膚炎の薬として申請し、かゆみだけが改善すればアトピー性皮膚炎に伴うかゆみの改善薬として申請する。

上記のような戦略を取るのであれば、どっちかのエンドポイントで達成できなくても、申請ができる。

これではいいとこ取りになりますよね。

つまり、多重性の問題があるということになります。

多重性の調整が必要な状況2：比較する群が複数ある場合

この状況も、多重性の問題が出てきます。

例えば、Phase II試験までに用量を決めきれずに、実薬群は低用量と高用量の2用量でPhase III試験を実施したとします。

すると、

プラセボ群
低用量実薬群
高用量実薬群

の3群で試験を実施することになります。

この時Phase IIIの比較は「プラセボ群vs低用量群」「プラセボ群vs高用量群」の2つの比較をすることになります。

その際に、どちらか一方でも有意になればその用量で申請するという戦略にしている場合、この時にも多重性の問題が出てきます。

多重性の調整が必要な状況3：解析する時点が複数ある場合

2つ目の状況は、解析する時点が複数ある場合です。

具体的にいうと、中間解析を実施する場合です。

例えば、1年間の試験の場合に、半年時点で一回解析を計画するような場合。

この時に、

試験開始から半年後に1度検定する
試験開始から1年後に2回目の検定をする

というように、2回の検定をすることになりますね。

そして、半年時点もしくは1年時点のいずれかの結果が有意であれば試験の目的を達成するという状況であれば、これも多重性の問題が出て来ます。

また、中間解析ではなくとも、経時的にデータを取得し、いずれかの時点で有意かどうかを判定する際にも、多重性の問題が発生します。

複数検定する場合でも、多重性の調整が必要ない状況

複数の検定を実施する場合でも、多重性の問題が出てこない状況があります。

それは「複数の検定全てで有意になる場合に目的を達成する」場合です。

例えば2つの主要エンドポイントがあった時に、どちらか一方が有意になれば試験の目的を達成する場合には多重性の問題が出てきますが、どちらも有意にならない限り試験の目的を達成しない、というような場合には多重性の問題が出てきません。

さいころの例だと、2回投げた時に、どちらか1回でも6が出る確率というのが多重性の問題が発生する状況ですが、2回とも6が出る確率というのは1回よりも厳しくなります。

そのため、αエラーという観点では、「どちらか一方をいいとこ取りする」という状況でなければ多重性の問題が発生しないのです。

AもしくはBの状況では多重性の問題が発生しますが、AかつBの状況では多重性の問題が発生しません。

少しだけ、αエラーを図式化してみます。

1回だけ検定をした場合、αエラーは全体（100%）の中で5%を占めますね。

では、２回検定をした場合。

その場合には、以下のような図になります。

１回目のαエラーと２回目のαエラーがあり、その一部が重なっているような図です。

この時、「もしくは」の状況（１回でもαエラーが生じる確率）は二つの円の総面積になります。

つまり、0.05+0.05-0.05*0.05=0.0975となります。この0.0975が0.05より大きいため、問題となります。

ですが、「かつ」の状況（２回ともαエラーが生じる確率）は二つの円が重なっている面積になります。

つまり、0.05*0.05=0.0025となります。この0.0025は0.05よりも大きいので、多重性という点では問題ないことになります。

閉手順など多重性を回避する３つの方法は？

複数回検定してそのうちどれかが有意になる場合、多重性の問題が生じます。

では、どうすれば多重性の問題を回避することが出来るでしょうか？

よく行われる回避方法としては、3つ挙げられます。

検定をどうにかして一つにする
検定に順番を付ける
有意水準を調整する

では、この３つに関して詳細にみていきましょう。

多重性の回避方法1：検定をどうにか一つにする

これは、多重性を回避するのに一番シンプルな方法です。

複数回の検定に問題があるのであれば、一つにすればよいということです。

主要エンドポイントが複数あれば、一つに選ぶか、複数のエンドポイントを合成して一つにしてしまう（合成変数の作成）がアイデアとして挙げられます。

合成変数を作成する場合には、その変数がちゃんと使えるかどうかという評価をしなければならない、という新たな問題が出てくるため、一つに選ぶという方法が一番シンプルになります。

多重性の回避方法2：閉手順（検定に順番を付ける）

これは、閉手順という用語として知られる手法です。

複数回検定をする場合であっても、そこに順番を付けることで多重性を回避することが出来ます。

具体的には、このような手順です。

1番目の検定を実施し、有意であった場合に次の検定に移ります。

⬇︎

もし有意でない場合には、それ以降の検定は実施しません。

⬇︎

そして、2番目の検定を実施して、有意であった場合に次の検定に移ります。

⬇︎

もし有意でない場合には、それ以降の検定は実施しません。これを繰り返していくということです。

この方法によってなぜ多重性の問題が回避できるのか。

それは、「いずれかが有意である」という状況を避けることができるからです。

多重性の問題とは、複数回検定をする、ということ自体に問題があるわけではありません。

複数回検定をして、どれか一つが有意になればOKという状況にある、ということが問題です。

そのため、「いずれかが有意である」という状況を避けることができるこの「検定に順番をつける」というのは多重性の問題の回避につながるのです。

そして、ここも重要なのですが、この検定の順番というのも、事前に決める必要があることに注意しなければなりません。

多重性の回避方法3：有意水準を調整する

これは最終的な手段になります。

どうしても複数回の検定を実施し、いずれかの結果によって試験の目的を達成することを言いたい場合、有意水準を調整する必要があります。

例えばボンフェローニ法の場合、2回の検定を実施するのであれば、通常は5%にしている有意水準を2.5%にして2回検定を実施します。

その場合には、P値は0.025を下回らなければ有意という結論は出せなくなります。

多重性の調整方法まとめ

医薬研究で多重性の問題が発生する状況として3つ例をあげました。

主要エンドポイントが2つ以上ある場合
比較する群が複数ある場合
解析する時点が複数ある場合

よく行われる多重性の回避方法も3つあります。

検定をどうにかして一つにする
検定に順番を付ける
有意水準を調整する

ただし、複数回の検定が発生したら必ず多重性の調整をしなければならないかといえば、実はそうではない状況もあります。

研究自体が探索的であれば多重性の問題はあると認識しつつ、多重性の調整は実施しない、という選択肢もあります。

その場合のP値は、名目上のP値になりますので、取り扱いには注意しましょう。

ボンフェローニ法での補正は多重比較検定で重要！計算方法やメリットデメリット

beat1115 — Tue, 17 Jun 2025 23:00:58 +0000

この記事では、ボンフェローニ法（Bonferroni法）による統計学的検定の多重比較でどのような計算をしたらいいのか、そしてメリットやデメリットをお伝えします。

統計学的検定では、様々な場面で多重性の問題が発生します。

臨床試験の場合にも例に漏れず、多重性の問題は統計担当者が一番頭を悩ませる問題。

多重比較をすると問題なのが、全体的なαエラーが増大するということ。

αエラーの増大を防ぐために、対処する方法は3つあります。

このページでは、その対処法の中で３つ目の「有意水準を補正する」方法を紹介します。

最も有名なのがボンフェローニ法（Bonferroni法）と呼ばれる補正方法です。

ボンフェローニ法とは？統計検定で多重比較の際に有意水準を補正する方法

検定の多重性を回避する方法として、有意水準を補正する方法がありました。

どんな場面で有意水準を補正するか。

検定を一つにも絞れず、かつ検定の優先順位（順番）もつけることができない場合

そんな場面であれば、有意水準を調整する方法にします。

つまり、最終手段の方法ですね。

ではなぜ、検定を1つに絞ったり、優先順位をつけたりする方法を優先して使ったほうがいいのか。

その理由は、明確なメリットがあるからです。

検定を1つに絞ったり、優先順位をつけたりする方法のメリット。

有意水準を５％にしたまま検定できる

だから、最初は検定を1つに絞ったり、優先順位をつけたりする方法を検討したほうがいいのです。

では、どうしようもなく検定を複数回実施しなければならない場合。

有意水準を補正します。

そして有意水準を調整する方法がいくつか開発されています。

具体的にはボンフェローニ（Bonferroni）法、ホルム（Holm）法、そして多重比較検定であるダネット（Dunnett）検定やテューキー（Tukey）検定などです。

今回の記事では、直感的かつ数学的にもイメージしやすいボンフェローニ法を紹介します。

ボンフェローニ法で有意水準を補正する場合、どんな計算式なのか

ボンフェローニ法の有意水準の補正方法は簡単です。

通常の有意水準をα（普通は0.05）、実施する検定の数をNとする場合に、一つ一つの検定の有意水準をα/Nにするという方法です。

例えば、有意水準が0.05で、検定を２回実施したい時。

それぞれの検定の有意水準を0.05/2=0.025に調整するのです。

そして検定の結果、P値が0.025を下回れば、有意になります。

決して、0.05を下回ったからといって、有意にはならないので注意してください！

重要なのでもう一度書きます。

検定を２回実施した場合、Bonferroni法で有意水準を調整して検定したら、P値が0.025を下回って初めて有意になる

では、検定が５つの場合は。

一つ一つの検定の有意水準を0.05/5=0.01にして、P値が0.01を下回る場合に有意という結論を得ます。

つまり、このようになりますね。

この方法はとても直観的であり、かつ簡単に実施しやすい方法ではあります。

ですが、他の有意水準の調整方法よりも一番厳しい、つまり一番有意になりにくい方法であるといえます。

ボンフェローニ法などを使って有意水準を補正するとなぜαエラーが増大しないのか？

ボンフェローニ法で有意水準を補正する計算式はわかりました。

αエラーを検定の回数で割るだけなので、特に難しくありませんでしたね。

では、なぜそのような有意水準の補正をするだけで、αエラーの増大が防げるのか？ということです。

以下の図のように、1回だけ検定をした場合、αエラーは全体（100%）の中で5%を占めます。

では、2回検定をした場合にはどうなるでしょうか。

その場合にαエラーは以下のようになります。

1回目のαエラーと2回目のαエラーがあり、その一部が重なっているような図です。

このとき、2回検定をして1回でもαエラーが生じる確率は、2つの円の総面積になります。

つまり、このときのαエラー「0.05+0.05-0.05*0.05=0.0975」となってしまうのです。

0.0975は有意水準で設定した0.05より大きいため、問題となります。

しかし、ボンフェローニ法で有意水準を補正してあげると、1つ1つのアルファエラーが0.025になるため、以下のような図になります。

そのため、2回検定をして1回でもαエラーが生じる確率は、2つの円の総面積の0.049375となります。

そうすると、有意水準である0.05よりも小さいαエラーで2回の検定をすることができることになります。

ボンフェローニ法で有意水準を補正するデメリット

計算が簡単で、直感的に理解しやすいボンフェローニ法。

しかし、この方法には問題点があります。

それは検出力が低くなってしまうこと。

検出力が低いということは、本来であれば有意差が出るはずのデータなのに有意差が付きにくい、ということです。

統計的な用語を使うと「保守的な」検定方法です。

なぜならば、本当は有意水準を0.05として設定していいですが、前述の通り2回検定した場合に0.049375のαエラーになります。

0.05-0.04375=0.00625だけ、有意差が付きにくくなっている、ということ。

ほんのちょっとの違いのように思いますが、この数字の差はかなり大きいのです。

この保守的な側面を解決するために、ホルム（Holm）法や多重比較検定であるダネット（Dunnett）検定やテューキー（Tukey）検定などが開発されました。

ボンフェローニ法に関するまとめ

多重性の対処法の中で、有意水準を調整する方法は、最後に選択する最終手段。

Bonferroni法は直感的で、簡単に実施しやすい調整方法。

しかし、他の調整法と比べて有意になりにくい、保守的な方法とも言える。

Bonferroni法は分散分析の後の事後検定としても使われることがあります。

動画でも多重性の問題とボンフェローニ法の解説をしていますので、記事内容と合わせてご確認いただけると理解が進むかと思います。

サンプルサイズの決め方は？臨床研究で統計的な検出力を保持する計算式

beat1115 — Mon, 24 Feb 2025 23:00:43 +0000

突然ですが、臨床研究でのサンプルサイズの決め方を知っていますか？

統計学的検定をする際にとても重要なこと。

それが、サンプルサイズを事前に決めることです。

なぜかというと、統計学的検定とは、事前に検出力を保った上で検定する必要があるから。

そうでなければ、いくらP値が0.05を下回ったところで、有意差が出たというその結果は「たまたま」にしか過ぎないからです。

今回の記事では、なぜサンプルサイズを決めなければならないのか、そして、サンプルサイズを決めるには何を意識すれば良いのか、論文の書き方についてお伝えします。

臨床研究でのサンプルサイズの決め方は？なぜ必要症例数は事前に決めなければならないの？

サンプルサイズは、事前に決める必要があることをお伝えしました。

しかし、なぜ事前に決めなければならないのか？という疑問が出てきますよね。

そのために、T検定を例にしてなぜ事前に決めなければならないのかを解説します。

サンプルサイズが大きいとP値が小さくなる：T検定を例にして計算式を理解する

T検定でやっていることは、以下の4つの手順です。

プラセボ群や実薬群の平均値、標準偏差を算出する
T統計量を算出する
P値を算出する（T統計量が大きいと、P値は小さくなる）
P値が有意水準（α=0.05）を下回っているかどうかを判断する

この時、T統計量がどんな計算式で求められるかを確認してみます。

T統計量とは、以下の式です。（Nがサンプルサイズ、SDが標準偏差を示しています）

この時、プラセボ群のSDと被験薬群のSDが同じと仮定し、式展開してみます。

すると、以下のような式になります。

この式を見ると、3つのことに気づきます。

サンプルサイズ（N）を大きくすると、T統計量が大きくなる（つまり、P値が小さくなる）
群間の差が大きいと、T統計量が大きくなる（つまり、P値が小さくなる）
標準偏差（SD）が小さいと、T統計量が大きくなる（つまり、P値が小さくなる）

そう、P値が小さくなる要素は、群間の差が大きいだけじゃないんです。

サンプルサイズが大きくても、P値は小さくなります。

サンプルサイズを事前に決めないとなぜP値が小さくなったかわからなくなる

そのため、サンプルサイズを事前に決めなかった場合に、有意差が出た時。

2つの解釈ができることになります。

群間の差が大きくてP値が小さくなった可能性
サンプルサイズが大きくてP値が小さくなった可能性

私たちが得たいのは、1の「群間の差が大きくてP値が小さくなった」という結果です。

しかしながら、サンプルサイズを事前に決めておかないと、P値が小さくなった要因が「群間差がある」と「サンプルサイズが大きい」の2つの可能性が残ってしまうことになってしまうのです。

そのため、サンプルサイズを事前に決める理由をまとめます。

P値が小さくなった時に、「群間差があってP値が小さくなった」のか「サンプルサイズが大きいためにP値が小さくなったのか」の2つの可能性が残ってしまうため

これはぜひ理解してください。

サンプルサイズの決め方は？検出力を確保するために考えること

サンプルサイズを事前に決めておく重要性を理解しました。

ということで、サンプルサイズの決め方です。

サンプルサイズを決めるためには、4つを決める必要があります。

群間の効果の差
ばらつき
αエラー
βエラー

逆にいうと、上記の4つを決めてしまえばサンプルサイズは自動で決まります。

そのため、この4つに症例数を加えた5つを五角形に見立てて、症例数を決めるペンタゴンという場合があります。

サンプルサイズが変動する要因は？検出力を保つために

群間の効果の差、ばらつき、αエラー、βエラーの4つを動かせば、サンプルサイズが変動することがわかりました。

では、各4つの要素をどう動かすと、サンプルサイズが多くなるか、を見てみます。

群間の効果の差が小さいと、サンプルサイズは多くなる
ばらつきが大きいと、サンプルサイズは多くなる
αエラーが小さいと、サンプルサイズは多くなる
βエラーが小さい（検出力が大きい）と、サンプルサイズは多くなる

このような動きになります。

上記の4つの動きに関しては、絶対に覚えておきましょう。

丸暗記でもいいぐらいです。

ちなみに、βエラーに関しては、検出力で表現する場合があります。

検出力とは（1-βエラー）で表現できるため、βエラーが小さいというのは、検出力が大きい、と等しいことです。

サンプルサイズの決め方は、薬の開発状況によって変わる

サンプルサイズを決めるのは、群間の効果の差、ばらつき、αエラー、βエラーの4つでした。

そして、それぞれが変化すると、サンプルサイズが大きくなったり小さくなったりします。

では、開発費用や開発期間が限られた中で、サンプルサイズをできるだけ小さくするには、どこをどうすれば良いでしょうか？

それは、その薬の開発状況に応じて変化させる必要があります。

第III相試験であれば、αエラーは5%以下にしなければならないと明確に決まっているため、αエラーを変えることが出来ません。

しかし第II相試験であれば、企業リスクを受け入れる形で、αエラーを10%にしてみることも可能です。

ですがやはり一番に考えるのは、薬効の効果の差と、そのばらつきを変えることが出来ないか？ということです。

薬効の効果の差を大きくするためには、試験に組み入れる患者を、薬剤が効く集団に限定するように、組み入れ基準や除外基準を決めるということを考えます。

しかし、薬が効く集団だけで試験をするとなると、母集団がどこになるのか、そして一般化可能性を考える必要があります。

そうして限定された集団で試験をすると、薬として発売されたとしても投与できる集団が限定されて、結局売り上げが伸びないといったことにつながる可能性が出てきます。

このように、開発コストの面と、一般化可能性の面を天秤に掛けて、常に試験の集団を考えなければいけません。

論文にもサンプルサイズをMethodに記載する。書き方は？

サンプルサイズが事前に決まっているかどうか、論文ではMethodを読むことで確認することが出来ます。

ここでサンプルサイズのことが書いていない論文については、どれだけ素晴らしい結果（P値が小さい結果）であろうと、たまたま出た結果であることが否定できません。

つまり、その試験をもう一度実施したら、全く違った結果が出る可能性があるということです。

なぜなら、前述の通り、本当に薬に効果があったためにP値が小さくなったのか、サンプルサイズが大きかったためにP値が小さくなったのかが分からないためです。

そして、あなたの研究でもサンプルサイズを記載する必要があります。

サンプルサイズの論文への書き方に関しては、他の論文を参考にすることでOK。

例えば、こちらの論文を見てみます。

DOI: 10.1056/NEJMoa2203094

Methodを見ると、下記のようなサンプルサイズ計算の記載があります。

We estimated that 25% of the patients in the acetazolamide group would have successful decongestion within 3 days after randomization; 25% was chosen to represent a clear, meaningful absolute benefit of 10 percentage points as compared with placebo. Assuming a two-sided alpha of 0.05 and a statistical power of 80%, we calculated the targeted sample size for the trial to be 494, and to account for a potential withdrawal of 5% of the patients, we calculated that the trial would need to enroll 519 patients.

サンプルサイズ計算をしていれば、その通りに記載すればいいのですが、探索的な研究の場合には事前にサンプルサイズ計算をしていない場合もあるはず。

事前にサンプルサイズ計算をしていない場合でも、Methodにはその旨を記載します。

例えばこちらの論文を参考にしてみます。

https://doi.org/10.1111/bjd.14207

Methodを見ると、下記のようなサンプルサイズ計算の記載があります。

No statistical sample size calculations were conducted. However, a sample size of nine patients per group gave post hoc powers of 43%, 40% and 31% to detect differences in mean of 30%, 29% and 25%, respectively, for pruritus VAS score at week 4, assuming a common SD of 33%, using a two‐group t‐test with a two‐sided significance level of P < 0·05 for percentage change from baseline between placebo and each active group.

最初に「No statistical sample size calculations were conducted.」と、潔く記載していることがわかります。

そして、事前にサンプルサイズ計算をしていない代わりに、事後的な検出力を計算して記載しています。

このような書き方もOKです。

＞＞EZRで検出力計算をするには？

サンプルサイズの重要性：統計的に有意な差と、臨床的に意味のある差は違うことを理解する

サンプルサイズが大きくなると、P値が小さくなることを学びました。

この事実を知っていると、「統計的に有意な差」と「臨床的に意味のある差」は異なるということがわかります。

私は豊富な資金と期間があれば、どんなデータにでも有意な差を付けることが出来ます。

例えば、東京都の20歳と神奈川県の20歳の収縮期血圧に有意な差をつけることも可能です。

それが例え1mmHgの差であったとしてもです。

1万人ずつ被験者さんがいれば、1mmHgの差で統計的な有意差を付けることが出来ます。

でも、考えてみてください。収縮期血圧の1mmHgの差は、臨床的にどれだけ意味のある差でしょうか？

同じ人でも血圧を2回測定したら、それだけで1mmHgの違いなんて簡単に出てきます。

まったく臨床的に意味はない差ですよね。

そのため臨床研究を行う私たちが気にしなければいけないことは、臨床的に意味のある差を統計学的に検出できているのか？ということです。

この視点がない限り、統計は単なる数値のお遊びでしかなくなります。

ぜひ論文を読む際にも、統計学的に差がつけられたこの数値は、臨床的に意味のある差なのか？という観点で読んでみてください。

サンプルサイズに関するまとめ

統計的検定を厳密に実施するためには、事前にサンプルサイズを決める必要がある。

サンプルサイズを決めずに得た検定結果は、、本当に薬に効果があったためにP値が小さくなったのか、サンプルサイズが大きかったためにP値が小さくなったのかが分からない。

サンプルサイズを決めるのは、群間の効果の差、ばらつき、αエラー、βエラーの4つである。

＞＞EZRでサンプルサイズを計算する方法

＞＞JMPでサンプルサイズを計算する方法

統計に関するご質問があれば、メルマガにご登録の上ご質問くださいませ！

＞＞メルマガ登録はこちら（無料プレゼントあります。）

検定の多重性とは？その意味と統計検定のp値を解釈する上で重要なこと

beat1115 — Sun, 10 Nov 2024 23:00:07 +0000

統計学的検定を学ぶと、必ず避けて通れない問題があります。

それが、検定の多重性。

臨床研究でも検定の多重性は重要な問題となります。

この記事では、統計学的検定で問題となる検定の多重性のについて解説します。

多重性の意味や、p値の解釈で注意しなければならないことがあるので、それを理解していきましょう。

検定の多重性とは？統計学的検定を複数回実施することで起こる問題

まずは、多重性とは何か、ということを理解しましょう。

多重性の問題を一言で表すと、こんな問題です。

多重性の問題とは？：
→検定を複数回実施すると、少なくとも一つ以上の検定結果が有意になる確率が増大する問題

あまりピンとこないかもしれませんので、さいころを例に多重性を紐解いてみます。

検定の多重性の意味を例でわかりやすく：サイコロで1回でも6が出る確率

みなさんご存知の通り、サイコロは1〜6の目がそれぞれ1/6の確率で出るようになっています。

では、６が出る確率を考えてみましょう。

1回さいころを投げて6が出る確率は、当然1/6≒17%ですね。

次からが多重性の問題。

では、2回さいころ投げて「少なくとも1回6が出る確率」はどうなるでしょうか？

あなたは答えられますか？

計算方法としては、1-（１回も6が出ない確率）を求めればよいです。

すると、１回も６が出ない確率は６以外の目が出る確率なので、5/6です。

となると、2回さいころ投げて「少なくとも1回6が出る確率」は、以下のように計算できます。

1-5/6*5/6 = 11/36 ≒ 31%

3回さいころを投げて「少なくとも1回6が出る確率」も、同様に計算してみます。

1-5/6*5/6*5/6 ≒ 42%

今までの計算を、表にまとめます。

サイコロを投げる回数	少なくとも1回6の目が出る確率
1回	17%
2回	31%
3回	42%

さいころを投げて6の目が出る確率は1/6でした。

しかし、複数回さいころを投げることで「一回でも6の目が出る確率」は1/6よりも大きくなってしまいました。

この概念が、統計学的検定の多重性の問題と同じなのです。

統計学的検定の多重性を考える時には、検定の回数に注意

検定の多重性とは、さいころを複数回投げることと一緒です。

さいころの例のように、複数回の検定を実施することで「1回でもその結果が出る確率（検定であれば有意になる確率）」が増大してしまうという現象が起きます。

さいころの例を統計的検定に置き換えると、αエラーが1回の検定だと5%であったものが、複数回繰り返すと全体のαエラーが5%よりも大きくなってしまうということになります。

例えば、検定を２回実施した場合。

「少なくとも1つが有意になる確率」はどうなるでしょうか。

サイコロの例と同じように数式に表してみましょう。

計算方法としては、1-（１回も有意にならない確率）を求めればよいですね。

ということは、1-0.95*0.95＝0.0975。

つまり、αエラーが9.75%になってしまうのです！

検定を実施する回数	少なくとも1回は有意になる確率
1回	5%
2回	9.75%

これは重大な問題ですね。

αエラーが増大するということは、患者さんの不利益につながります。

そのため、統計的検定は、1回だけ実施することが原則になります。

検定の多重性が発生する時には、p値の解釈にも注意する

検定の多重性が発生しているということは、αエラーが増大しているということです。

そのため、p値の解釈にも注意が必要です。

通常は有意水準を0.05に設定している場合、多重性の問題がなければp値が0.05を下回っている場合に「有意である」と結論づけることになります。

しかし、多重性の問題が発生している場合には、有意になりやすくなっている状況なので、意図的に有意になりにくいように解釈をする必要があるのです。

そのため、例えばボンフェローニ法のように検定を2回実施するのであれば、p値も0.025を下回らない限り有意とは言えない、というように、厳しくp値を解釈する必要があるのです。

αエラーとβエラーをコントロールしていないp値は、名目上のp値として位置付けられます。

名目上のp値は「それ単独で解釈できないp値（つまり、0.05を下回ったかどうかで判断できないp値）」のため、特に解釈に注意が必要です。

＞＞名目上のp値とは？

検定の多重性を補正するには、αエラーに着目する

上記の通り多重性の本質は、複数回検定を実施することでαエラーが増大してしまう、ということ。

ということは、実際には「複数回検定を実施する」こと自体が問題ではなく、「αエラーが増大してしまう」ということが問題です。

ということなので、たとえ複数回検定を実施することになっても、αエラーさえ増大しなければ、それはそれで複数回検定を実施してもOKということです。

多重性を回避しながら複数の検定を実施したいときにはどうすればよい？

多重性によって検定結果が信頼のおけない結果になることは分かりました。

ただそれでも、複数の項目・複数の時点で検定を実施したい場合、どうすればよいでしょうか？

どうにかして検定を1回にする
検定に順番を付ける（閉手順）
有意水準を分ける（有名なのがボンフェローニ法）

といった方法が考えられます。

そして、多重性を考慮した検定なんかもあります。

有名なところで言うと、Tukey（テューキー）の検定、Dunnett（ダネット）の検定などです。

＞＞Tukey（テューキー）の検定とは？

＞＞Dunnett（ダネット）の検定とは？

医薬研究で多重性が発生する場面、そして多重性を回避する方法に関しては別ページで解説しておりますので、ご参照ください。

検定の多重性の意味：数撃ちゃ当たる理論

多重性の問題は、つまるところ「数撃ちゃ当たる」ということです。

αエラーを5%にするということは、20回に1回は間違いを許容するということです。

そのため、データに対して100回ぐらい検定を実施して、P値が0.05を下回る結果があったぞー！！と言っても、それは多重性によりたまたま0.05を下回ったにすぎない可能性が高いです。

かの有名なノストラダムスも、この「多重性」を巧みに使って有名になった一人です。

ノストラダムスは、予言を何千も何万も用意していました。

たまたま、そのうちの何個かが的中したため、有名になったのです。

検定の多重性とは？まとめ

多重性によるαエラーの増大が、医薬品開発にとって問題となる。
どうしても複数回の検定を実施したい場合には、全体のαエラーが5%未満になるように制御する必要がある。

ノンパラメトリック検定とパラメトリック検定とは？意味や種類をわかりやすく

beat1115 — Fri, 25 Oct 2024 00:00:53 +0000

統計的検定を勉強していると、必ず出てくる「パラメトリック検定」と「ノンパラメトリック検定」。

T検定はパラメトリック検定で、ウィルコクソン順位和検定はノンパラメトリック検定です、と教科書に書いてあります。

・・・で、その２つの違いは何？

ってなりますよね。

今回の記事では、「パラメトリック検定」と「ノンパラメトリック検定」の意味や検定の種類に関して、例を交えてわかりやすく簡単に説明します。

パラメトリック検定とはどんな意味なの？

パラメトリック検定というのは、「事前にデータの分布を仮定している検定」になります。

例えば、パラメトリック検定で一番有名なT検定。

T検定の場合、データは正規分布に従っていることが前提になります。

正規分布は、平均値と標準偏差が決まればその形が決まります。

言い換えると、平均値と標準偏差が正規分布の形を決める重要な要素です。

正規分布における平均値と標準偏差のように、分布を決める時の重要な要素を、パラメータと呼びます。

そのため、「平均値と標準偏差は、正規分布のパラメータである」と言うことができます。

T検定がやっていることは、二つの正規分布がどれぐらい離れているのか？を調べているということ。

この特性から、一つ言えることがあります。

T検定は、正規分布に従っていないデータでは、有意になりにくい。

もう少し具体的に言うと、外れ値があった場合に、T検定は有意になりにくいです。

平均値は外れ値にかなり影響を受けます。

そして、計算式の中で平均値を使っている標準偏差も、外れ値にかなり影響を受けます。

パラメトリック検定を用いるのがふさわしい場面

パラメトリック検定は、事前にデータの分布を知っている必要があります。

つまり、パラメトリック検定を用いたい場面は「すでに多くの研究でデータの分布がある程度わかっている場合」です。

例えば、身長や体重などは正規分布に従う事が知られています。

ということは、身長や体重の平均値を比較する時には、パラメトリック検定であるT検定を使えば問題ありません。

ノンパラメトリック検定とはどんな意味なの？

ノンパラメトリック検定とは、パラメトリックじゃない検定です。

つまり、「事前にデータの分布を仮定しない検定」になります。

例えば、ウィルコクソンの順位和検定というのが、ノンパラメトリック検定の一つになります。

この場合、データがどんな分布（正規分布や対数正規分布など、何でも）であっても、有意になりやすさというのは同じになります。

有意になりやすさを表にしてみるとこんな感じです。

データの分布	T検定（パラメトリック）	ウィルコクソンの順位和検定（ノンパラメトリック）
正規分布	◎	◯
正規分布ではない	×	◯

注目したいのは、ウィルコクソンの順位和検定のオールマイティな性質です。

データが正規分布であっても、正規分布でなくとも、有意になりやすさが一定です。

ノンパラメトリック検定の利点は？こんな時に使いやすい例

ノンパラメトリック検定は「事前にデータの分布を考慮しなくても良い」という点でとても便利です。

身長や体重など、すでにそのデータの分布がわかっているデータに関しては、パラメトリックな検定をすればOKです。

しかしながら、例えば新規に作成したアンケートのデータなど、事前にデータがどのような分布になっているのかが想像もできない、というデータも世の中には存在します。

その場合には、ノンパラメトリック検定を実施する事がオススメ。

ノンパラメトリック検定とパラメトリック検定ではどっちを使えばいいの？使い分けの判断は？

ではパラメトリック検定とノンパラメトリック検定の、どちらを使えばよいか？というのが疑問になると思います。

ですが、そこには答えはありません。

大事な考え方は、「母集団がどのような分布になるか」を考えて決めるということです。

決して「得られたデータに一番フィットするという考え方で検定方法を決めてはいけない」のが重要です。

例えば、身長や体重などは正規分布に従うことが知られています。

そのため、今回の研究で得られているデータが正規分布っぽくなさそうでも、それはたまたまであると考えられ、母集団のデータは正規分布である、と考えることができます。

そのため、パラメトリック検定であるT検定を用いても、その解析手法は間違っているとは言えないのです。

ノンパラメトリック検定とパラメトリック検定まとめ

パラメトリック検定とノンパラメトリック検定の違いは、「事前にデータの分布を仮定しているかどうか」の違いです。

パラメトリック検定はデータの分布を仮定するため、すでにたくさんの研究がされてデータの分布がわかっている場合に有用です。

またノンパラメトリック検定は、アンケート調査など、新規にデータを取得する場合に特に有効です。

片側検定と両側検定の違いや使い分けは？有意水準や棄却域はどう設定？

beat1115 — Sun, 11 Aug 2024 04:00:50 +0000

統計学的検定を勉強していくと、「片側検定」と「両側検定」という用語に出会います。

あなたはこの「片側検定と両側検定の違い」を説明できますか？

違いを一言でいうと、「興味のある方向が1つだけかそうじゃないか」ということです。

…おそらく、これだけでは何のことかわかりませんね。

今回の記事は、そんな片側検定と両側検定の違いについて。

有意水準や棄却域の設定方法に関しても解説します。

片側検定と両側検定の違いや使い分けは？

片側検定と両側検定の違いに関して、コイン投げを例にして考えてみます。

例えばコインを100回、投げることにします。

その時に、「表が出る回数が極端に多いかどうか」に興味があって、それを検定する場合には片側検定になります。

そうではなく、「表か裏の、どちらかが出る回数が極端に多いかどうか」に興味があったとして、それを検定する場合には両側検定になります。

コイントスの結果は、「表が出る」か「裏が出るか」の2択です。

その時に”表か裏のどちらか一方”の結果だけに興味があれば片側検定。

”表か裏のどっちでもいいから”極端な結果になるかどうかに興味があれば、両側検定です。

片側検定と両側検定の違いをコイントスの例で考えてみる

ちょっとイメージが難しい片側検定と両側検定。

ですが帰無仮説と対立仮説を考えると、実は両者の違いは明確です。

まずは両側検定の場合の帰無仮説と対立仮説を確認してみます。

両側検定の場合の帰無仮説と対立仮説

帰無仮説H0：表が出る確率＝裏が出る確率

対立仮説H1：表が出る確率≠裏が出る確率

次に、片側検定の場合の帰無仮説と対立仮説です。

片側検定の場合の帰無仮説と対立仮説

帰無仮説H0：表が出る確率＝裏が出る確率

対立仮説H1：表が出る確率＞裏が出る確率

つまり、両側検定と片側検定では、帰無仮説は一緒ですが、証明したい対立仮説が異なるということです。

片側検定と両側検定の違いをT検定で考えてみる

では次に、片側検定と両側検定の違いをT検定で考えてみます。

T検定の帰無仮説と対立仮説は何かを見てみましょう。（A群とB群の2標本のT検定の場合）

まずは両側検定の場合の帰無仮説と対立仮説を確認してみます。

両側検定の場合の帰無仮説と対立仮説

帰無仮説H0：A群の母平均＝B群の母平均

対立仮説H1：A群の母平均≠B群の母平均

次に、片側検定（A群の平均値の方が大きいと考える）の場合の帰無仮説と対立仮説です。

片側検定の場合の帰無仮説と対立仮説

帰無仮説H0：

A群の母平均＝B群の母平均

対立仮説H1：A群の母平均＞B群の母平均

先ほどのコイン投げの例と全く同じですね。

両側検定と片側検定では、帰無仮説は一緒ですが、証明したい対立仮説が異なるということです。

ちなみに、B群の平均値の方が大きいと考える場合は、不等号の向きを変えて「A群の母平均＜B群の母平均」とすればOKです。

臨床試験では片側検定と両側検定のどっちを使う？どっちに興味がある？

臨床試験で新薬とプラセボを比較する状況での片側検定と両側検定を考えます。

すると、帰無仮説は“新薬の効果はプラセボの効果と同じ”です。

この帰無仮説は、片側検定でも両側検定でも同じですね。

片側検定の場合の対立仮説は、“新薬の効果はプラセボの効果よりも大きい“です。

つまり、数式では“新薬の効果＞プラセボの効果”となります。

両側検定の場合の対立仮説は、“新薬の効果はプラセボの効果とは異なる”です。

つまり、数式では“新薬の効果≠プラセボの効果”となります。

臨床試験では、一方にしか興味がないことが多いですね。

一方にしか興味がないというのはつまり、「新薬の効果　＞　プラセボの効果」ということにしか興味がない場合です。

「新薬の効果　＜　プラセボの効果」には興味がないですよね。

そのため、臨床試験では全て片側検定でも良いのですが、なぜか慣例的に両側検定を使用しています。

ここには特に理由はありません。

私が担当した試験では片側検定で実施した試験もありますので、両側検定でなければダメだ、ということはありません。

片側検定と両側検定で有意水準や棄却域はどうなるの？

片側検定と両側検定の違いは理解できましたか？

では次に、片側検定と両側検定の違いが、有意水準や棄却域に対してどう関わってくるのかを確認します。

αエラー（第1種の過誤）は5%と明確に定められています。

では、その5％を片側検定で使えたら、かなり有利になると思いませんか？

新薬とプラセボの差は、片側にしか興味がない（新薬＞プラセボ）ので、全て片側検定にして、有意水準を5％にする。

しかしながら、ICH E9（「臨床試験のための統計的原則」について）では、有意水準を明確に決めています。

つまり、片側検定をする場合には有意水準を2.5%とし、両側検定の場合には5%とすること、が明記されています。

よって片側検定をする場合であっても5%のエラーを許容されていないということです。

そのため、慣例的に臨床試験では両側検定で、有意水準を5%に設定する、ということが行われています。

Rで片側検定と両側検定を実践する！

実際に、サンプルデータを用いて片側検定と両側検定を実施します。

Rをダウンロードした際に含まれている「iris」というデータを使い、対応のないt検定とWilcoxonの順位和検定の2つを用いて実施します。

Rではt.test()関数やwilcox.test()関数の中で、alternative=””を指定することにより、片側検定か両側検定かを指定することができます。

alternative=””を指定しなければ、両側検定を実施します。alternative=””では下記の3つを指定することができます。

two.sided：両側検定
less：1つ目に指定した変数が2つ目に指定した変数より小さいという片側検定
greater：1つ目に指定した変数が2つ目に指定した変数より大きいという片側検定

# データの読み込み
data("iris")

# データの確認
head(iris)

# SetosaとVersicolorのデータ抽出
setosa <- subset(iris, Species == "setosa")
versicolor <- subset(iris, Species == "versicolor")

# 対応のないt検定での両側検定と片側検定
t_test_two <- t.test(setosa$Sepal.Length, versicolor$Sepal.Length, alternative = "two.sided")
t_test_less <- t.test(setosa$Sepal.Length, versicolor$Sepal.Length, alternative = "less")
t_test_greater <- t.test(setosa$Sepal.Length, versicolor$Sepal.Length, alternative = "greater")

print(t_test_two) 
print(t_test_less)
print(t_test_greater)

上記のプログラムを実行すると、下記のように結果得られます。（見やすさの観点から、p値のみ記載します。）

alternative=””の指定	p値
two.sided	2.2e-16
less	2.2e-16
greater	1

e-16は、10のマイナス16乗の意味です。そのため「めちゃめちゃ小さいp値である」ということがわかります。

次に、ウィルコクソンの順位和検定で両側検定と片側検定を実施します。

# ウィルコクソンの順位和検定での両側検定と片側検定
wilcox_test_two <- wilcox.test(setosa$Sepal.Length, versicolor$Sepal.Length, alternative = "two.sided")
wilcox_test_less <- wilcox.test(setosa$Sepal.Length, versicolor$Sepal.Length, alternative = "less")
wilcox_test_greater <- wilcox.test(setosa$Sepal.Length, versicolor$Sepal.Length, alternative = "greater")

print(wilcox_test_two) 
print(wilcox_test_less)
print(wilcox_test_greater)

alternative=””の指定	p値
two.sided	8.346e-14
less	4.173e-14
greater	1

片側検定と両側検定の違いや使い分けまとめ

片側検定と両側検定の違いは「どちらに興味があるのか」という違いでした。

臨床試験では「新薬の効果＞プラセボの効果」にしか興味がないため、片側検定でも成り立ちます。

ですが、慣例的には両側検定で5％の有意水準を設定して試験を実施する事が多いです。

F検定とは？わかりやすくF分布のグラフからP値の読み取り方まで

beat1115 — Thu, 08 Aug 2024 09:40:30 +0000

データの分散が等しいかどうかを検定する時に用いるF検定。

F検定は、T検定の前に、等分散かどうかを確かめるときによく用います。

ではF検定はどのようなことが行われているのでしょうか?

また、T検定との関係はどういったものなのでしょうか?

この記事ではF検定について、わかりやすく説明していきます。

F検定とは?わかりやすく説明するとどんな検定？

F検定とは、ズバリ、”分散が等しい”かどうかを調べる検定です。

”分散”は、データのばらつきを示す指標ですよね。

なぜばらつきが等しいかどうかを調べなきゃいけないの？

どんな時に分散を調べる必要があるの？

というのが疑問です。

F検定とT検定との関係

F検定がもっともよく使われるのは、間違いなくT検定のとき。

T検定では、比較する群が等分散か、等分散ではないかで、統計の手法が変わってきます。

比較する群が等分散（分散が等しい）のときは、スチューデントのT検定、
等分散ではないときはウェルチのT検定を用います。

そのため、等分散か、等分散ではないか、を調べるときにF検定を使います。

しかし、T検定前に等分散かどうかの検定を行うとは正しくないという意見もあり、今ではF検定を行わずに、等分散の仮定が不要な、ウェルチのT検定を用いたりします。

>>T検定とは？帰無仮説と対立仮説を必ず確認！F検定で等分散の確認が必要？

（ちなみに私はF検定使用しない方がいい派です。）

では、F検定ってどういうときに使うのでしょうか?

F検定はいつ使われるのか?

F検定はT検定のときは、あまり使われなくなりました。

しかし、それでもF検定はたくさん使われています。

それは、「分散分析: ANOVA (analysis of variance)」です。

２つのグループの平均の違いを調べるのがT検定でしたが、

分散分析では3つ以上のグループのときに、用いる方法です。

>>>分散分析とは？分散分析表の見方やf値とp値の意味もわかりやすく！　

では、F検定が実際にどのようなものかをみていきましょう。

F検定を知る上で重要なF分布をわかりやすく！

F検定を説明するうえで欠かせないのがF分布です。

F分布の式はややこしいのでここでは説明しませんが、ここでは、F分布はどんなものかを説明します。

ちなみにF分布はこういう形をしています。

F分布の特徴は、正規分布とは異なり、左右対称ではないことです。

あた、この分布の形は２つの自由度から求めることができますが、自由度については後ほど説明します。

もう一点重要なこととして、F分布を説明するにはカイ二乗分布がかかせません。

どういうことかと言いますと、次のような法則あるからです。

標準正規分布に従う独立なn個の変数がありこれらをu₁、u₂、・・・u_nとします。

>>>標準正規分布表の見方について！標準化やZ値の計算式はどうすればいい？

このとき、u₁、u₂、・・・u_nの変数の2乗和は、

x=u₁²+u₂²+・・・+u_n²

と表すことができます。

このときのxは自由度nのカイ二乗分布に従う。

このxは分散をnで割っていないだけの値ですよね。

これは、一つの分布についての法則です。

F分布は2つの分布を比べるときに出てくる法則です。

自由度k₁のカイ二乗分布に従う変数をu₁ 、自由度k₂のカイ二乗分布に従う変数をu₂、のカイ二乗値の比

$$F = \frac{\chi^2_1 / k_1}{\chi^2_2 / k_2} = \frac{\chi^2_1 / (n_1 – 1)}{\chi^2_2 / (n_2 – 1)} = \frac{\frac{(n_1 – 1)s_1^2}{\sigma_1^2} / (n_1 – 1)}{\frac{(n_2 – 1)s_2^2}{\sigma_2^2} / (n_2 – 1)} = \frac{s_1^2 / \sigma_1^2}{s_2^2 / \sigma_2^2}$$

はF分布に従う。

要するに、分散の比がF分布に従うということ。

F分布はこの法則にしたがっており、F検定ではF分布を用いて検定を行います。

また、F検定は通常、データが正規分布をしていることが前提なのも注意が必要です。

そのため、近年は正規分布に従わなくても使える検定法も考案されています。

自由度k₁のカイ二乗分布に従う変数をu₁ 、自由度k₂のカイ二乗分布に従う変数をu₂、のカイ二乗値の比はF分布に従う。$$F = \frac{\chi^2_1 / k_1}{\chi^2_2 / k_2} = \frac{\chi^2_1 / (n_1 – 1)}{\chi^2_2 / (n_2 – 1)} = \frac{\frac{(n_1 – 1)s_1^2}{\sigma_1^2} / (n_1 – 1)}{\frac{(n_2 – 1)s_2^2}{\sigma_2^2} / (n_2 – 1)} = \frac{s_1^2 / \sigma_1^2}{s_2^2 / \sigma_2^2}$$
F検定は通常、データが正規分布をしていることが前提

F検定における自由度とは？

ここで自由度が出てきたので、説明しましょう。

カイ二乗検定における自由度に関しては、こちらの記事をご参照ください。

自由度とは、変数のうち独立に選べるものの数のことをいいます。

ここでは例として、三角形の内角の和を考えます。

角A、B、Cからなる三角形の内角の和は180°です。

このとき、三角形の自由度は2です。

理由は、自由に決めれる内角は2つしかないからです。

例えば、角Aを60°と決めたとします。

このとき、BとCの合計が120°になれば、あとはBとCの内角は自由に決めることができます。

次にBを30°と決めたとします。

すると、Cは90°と決まってしまします。

角Aと角Bの２つは自由に決められたが、AとB が決まるとCが勝手に決まるので、

このときは自由度2といいます。

カイ二乗分布やF分布では、何個の確率変数をとれるかが、自由度に対応しています。

通常、自由度は標本のデータ数から1を引いた値を用います。

F検定の帰無仮説と対立仮説：P値が有意になったらどんな結論？

それでは、F検定について考えていきます。

F検定では次のような帰無仮説と対立仮説を立てます。

帰無仮説：2グループの分散に差がない
対立仮説：2グループの分散に差がある

有意水準が0.05であれば、

上の図の面積が0.05以下のときに、帰無仮説が棄却されることになり、2つのグループの分散には差があると結論づけられます。

F分布表では、二つの自由度から、面積が0.05になる横軸の値が書かれています。

二つの自由度はそれぞれの標本のデータ数から1を引いた値を用います。

そのため、その値よりも横軸が大きければ、有意に分散が違うということができます。

ちなみに上の図では、自由度が10と10になるため、有意になる横軸の値は2.98です。

F検定をわかりやすく！まとめ

ここでは、F検定について見ていきました。

F検定は分散の違いに関する検定で、T検定を実施する前に使われることが多いです。

しかし、どのT検定を使うのかという判断に対してF検定を使うことには議論があって、私自身はF検定は不要だと思っております。

F検定は二つの自由度を用いて行います。

P値とはどんな意味？p-valueの手計算方法や求め方を例でわかりやすく

beat1115 — Mon, 07 Aug 2023 10:10:05 +0000

あなたは、P値って何なのか、考えたことはあるでしょうか？

以前、参加したことのある統計セミナーで「P値を説明してください」という問題が出たことがあります。

あなたはどう回答しますか？

そのセミナーの中で、面白かった回答がありました。

「0.05を切ったら嬉しいもの」

まぁ確かにな、と思いました。

P値ほど、誤解されて使われているものはありません。

とりあえず0.05を下回ったら、何も考えずにOK。

そんな使い方をされていることが多い。

でも、実はそれ以上にP値は深い意味を持っています。

このページでぜひともP値は何かを学んでいきましょう！

手計算での求め方を、コイン投げを例にして解説しますね！

P値とはどんな意味かをわかりやすく教えて！

まずは、P値って何かを考えたことはありますか？

P値。ピーチ。

・・・桃？？

冗談はさておき、P値は「何かの確率」を示しています。

ちなみにP値の「P」は「Probability」の略です。「確率」ですね。

重要なのは、「何の」確率か、ということです。

P値（p-value）の意味は帰無仮説下で、その結果以上（以下）が出る確率である

正解を先に言います。

P値は以下の言葉で言い換えることができます。

P値とは？

帰無仮説を考えている時に、得られた結果より極端な結果が出る確率

わかりますか？

おそらく文字だけで説明されても全然わからないと思いますので、コインを例に考えてみましょう。

P値の求め方を手計算で求めながら、意味をコイン投げの事例で学ぶ

コイントスで、表が出たら1万円をもらえる、裏が出たら1万円を支払う、という場面を想定します。

そしてあなたは、そのコインがイカサマであれば参加しない。

つまり裏が出やすいコインである、ということであれば参加したくないと思っています。

では、その「イカサマなコインである」を統計学的に証明していきましょう。

まずは、帰無仮説と対立仮説を考えます。

今回のコイン投げの場合、帰無仮説と対立仮説はどのようになるでしょうか？

このようになりますね。

コイン投げの場合の帰無仮説と対立仮説

帰無仮説は「コインはイカサマでない」

対立仮説は「コインはイカサマである」

ではここで一つ問題です。

帰無仮説「コインはイカサマでない」という前提に立った場合に、裏（若しくは表）が出る確率はどうなるでしょうか？

帰無仮説を考えている場合とは言い換えると、「コインはイカサマではない」という場合を想定しています。

つまり、あなたが普段持っている100円玉を投げた時に、どんな確率で裏（もしくは表）が出るかということです。

当然わかりますよね。

帰無仮説「コインはイカサマでない」という前提に立った場合に、裏（若しくは表）が出る確率は1/2である

P値を手計算するために10人のコイン投げの結果を観察してみる

そして、このコインがイカサマかどうかを確かめるために、自分より前の10人の結果を調べることにしました。

10人の結果を見てみましょう。

帰無仮説では表が出る確率は1/2であるため、10回中５回は表が出るはずです。

ですが、たまたま表が７回でたり、反対に２回しか出ない時もあります。

つまり、10人のコイン投げで表が出る回数は、0〜10回があり得ます。

あなたの想像の通り、10回コインを投げたうち、10回表が出ることは稀で、0回表が出ることも稀です。

そんなあなたの考えを確率で表現したのが以下の表です。

表が出る回数	0	1	2	3	4	5	6	7	8	9	10
確率	0.001	0.010	0.044	0.117	0.205	0.246	0.205	0.117	0.044	0.010	0.001
累積確率	0.001	0.011	0.055	00.172	0.377	0.623	0.828	0.945	0.989	0.999	1.000

これは、二項確率というものを計算しています。

例えば「表が出る回数3」の確率というのは、10回コイン投げをした場合に、3回表が出る確率を二項確率の計算式を元に計算しています。

表を見ると、あなたが想像している通り、10回中５回表が出る確率が24.6%と一番高いです。

一方で、０回や10回表が出る確率は0.1%と、一番小さい確率です。

一番下の行は、累積確率と呼ばれ、左から順に確率を足し合わせたものになります。

例えば「表が出る回数が2回」のところにある累積確率（0.055）は、0回の確率と1回の確率と2回の確率を全て足し合わせた結果になっています。

つまり、0.001+0.010+0.044=0.055です。

P値とは累積確率

そして、この「累積確率」がP値になります。

・・・たぶん、ぽかーんとしている方が大半かもしれません。。

ですが、そうなのです。

一般化してP値を言葉で置き換えます。

P値とは、帰無仮説下（表が出る確率は1/2である）での、その結果より極端な結果が出る確率

このP値が0.05より小さければ、想定している仮説（帰無仮説）の下では、その結果が出る確率は0.05以下でしかない。

このコイン投げの例でいうと、「1/2は表が出ると想定しているのに、その結果が出る確率は0.05以下しかない」

そのような結果が出た場合に、想定している仮説が間違っている（＝帰無仮説が間違っている）んじゃないか。

と考えます。

つまり、帰無仮説を棄却し、対立仮説を採択するのです。

このコインの例では、表が1回以下である確率が0.011であり、2回以下である確率が0.055です。

そのため、イカサマであると判断する数値的な閾値を0.05とした場合には、10回分の結果から、表が1回以下であればこのコインはイカサマであると結論付け、ゲームには参加しないという判断を下すという流れです。

数値としてのp値は「要約統計量の一つ」である

統計学としての理論的なp値は、上記で解説した「確率」として定義されるものです。

しかしそれはあくまで、数学的概念としてのp値。

一方で、出力された「数字としてのp値」は、検定統計量を変換して計算された、要約指標の一種です。

確率変数と言っても良い指標であり、確率変数であれば何らかの確率分布に従う。（引用：医学のための因果推論I, p51）

特に気をつけていただきたいのは、サンプルサイズが小さい時には、p値の確率的変動は不安定で、到底信頼できるものではないということ。

仮説検定の目標は、αエラーとβエラーを制御することであって、適切なサンプルサイズ設計がなされていることが前提。

医学研究では、p値はデータの要約指標という観点で扱うのがよく、その意味では推定値や信頼区間など大差ないのだから、特別扱いすべきではありません。

むしろ、信頼区間の方が情報量が多く、データを理解するために役立つ指標です。

P値に関するまとめ

P値は帰無仮説下で、その結果以上（以下）が出る確率である。

つまり、帰無仮説下での確率が有意水準の0.05を下回った場合、帰無仮説を考えていることが間違っているのではないかと判断して棄却し、対立仮説を採択する。

P値に関して動画で解説しています。

ぜひブログ記事を併せて確認してみてください。