0.05 – いちばんやさしい、医療統計

サンプルサイズの決め方は？臨床研究で統計的な検出力を保持する計算式

beat1115 — Mon, 24 Feb 2025 23:00:43 +0000

突然ですが、臨床研究でのサンプルサイズの決め方を知っていますか？

統計学的検定をする際にとても重要なこと。

それが、サンプルサイズを事前に決めることです。

なぜかというと、統計学的検定とは、事前に検出力を保った上で検定する必要があるから。

そうでなければ、いくらP値が0.05を下回ったところで、有意差が出たというその結果は「たまたま」にしか過ぎないからです。

今回の記事では、なぜサンプルサイズを決めなければならないのか、そして、サンプルサイズを決めるには何を意識すれば良いのか、論文の書き方についてお伝えします。

臨床研究でのサンプルサイズの決め方は？なぜ必要症例数は事前に決めなければならないの？

サンプルサイズは、事前に決める必要があることをお伝えしました。

しかし、なぜ事前に決めなければならないのか？という疑問が出てきますよね。

そのために、T検定を例にしてなぜ事前に決めなければならないのかを解説します。

サンプルサイズが大きいとP値が小さくなる：T検定を例にして計算式を理解する

T検定でやっていることは、以下の4つの手順です。

プラセボ群や実薬群の平均値、標準偏差を算出する
T統計量を算出する
P値を算出する（T統計量が大きいと、P値は小さくなる）
P値が有意水準（α=0.05）を下回っているかどうかを判断する

この時、T統計量がどんな計算式で求められるかを確認してみます。

T統計量とは、以下の式です。（Nがサンプルサイズ、SDが標準偏差を示しています）

この時、プラセボ群のSDと被験薬群のSDが同じと仮定し、式展開してみます。

すると、以下のような式になります。

この式を見ると、3つのことに気づきます。

サンプルサイズ（N）を大きくすると、T統計量が大きくなる（つまり、P値が小さくなる）
群間の差が大きいと、T統計量が大きくなる（つまり、P値が小さくなる）
標準偏差（SD）が小さいと、T統計量が大きくなる（つまり、P値が小さくなる）

そう、P値が小さくなる要素は、群間の差が大きいだけじゃないんです。

サンプルサイズが大きくても、P値は小さくなります。

サンプルサイズを事前に決めないとなぜP値が小さくなったかわからなくなる

そのため、サンプルサイズを事前に決めなかった場合に、有意差が出た時。

2つの解釈ができることになります。

群間の差が大きくてP値が小さくなった可能性
サンプルサイズが大きくてP値が小さくなった可能性

私たちが得たいのは、1の「群間の差が大きくてP値が小さくなった」という結果です。

しかしながら、サンプルサイズを事前に決めておかないと、P値が小さくなった要因が「群間差がある」と「サンプルサイズが大きい」の2つの可能性が残ってしまうことになってしまうのです。

そのため、サンプルサイズを事前に決める理由をまとめます。

P値が小さくなった時に、「群間差があってP値が小さくなった」のか「サンプルサイズが大きいためにP値が小さくなったのか」の2つの可能性が残ってしまうため

これはぜひ理解してください。

サンプルサイズの決め方は？検出力を確保するために考えること

サンプルサイズを事前に決めておく重要性を理解しました。

ということで、サンプルサイズの決め方です。

サンプルサイズを決めるためには、4つを決める必要があります。

群間の効果の差
ばらつき
αエラー
βエラー

逆にいうと、上記の4つを決めてしまえばサンプルサイズは自動で決まります。

そのため、この4つに症例数を加えた5つを五角形に見立てて、症例数を決めるペンタゴンという場合があります。

サンプルサイズが変動する要因は？検出力を保つために

群間の効果の差、ばらつき、αエラー、βエラーの4つを動かせば、サンプルサイズが変動することがわかりました。

では、各4つの要素をどう動かすと、サンプルサイズが多くなるか、を見てみます。

群間の効果の差が小さいと、サンプルサイズは多くなる
ばらつきが大きいと、サンプルサイズは多くなる
αエラーが小さいと、サンプルサイズは多くなる
βエラーが小さい（検出力が大きい）と、サンプルサイズは多くなる

このような動きになります。

上記の4つの動きに関しては、絶対に覚えておきましょう。

丸暗記でもいいぐらいです。

ちなみに、βエラーに関しては、検出力で表現する場合があります。

検出力とは（1-βエラー）で表現できるため、βエラーが小さいというのは、検出力が大きい、と等しいことです。

サンプルサイズの決め方は、薬の開発状況によって変わる

サンプルサイズを決めるのは、群間の効果の差、ばらつき、αエラー、βエラーの4つでした。

そして、それぞれが変化すると、サンプルサイズが大きくなったり小さくなったりします。

では、開発費用や開発期間が限られた中で、サンプルサイズをできるだけ小さくするには、どこをどうすれば良いでしょうか？

それは、その薬の開発状況に応じて変化させる必要があります。

第III相試験であれば、αエラーは5%以下にしなければならないと明確に決まっているため、αエラーを変えることが出来ません。

しかし第II相試験であれば、企業リスクを受け入れる形で、αエラーを10%にしてみることも可能です。

ですがやはり一番に考えるのは、薬効の効果の差と、そのばらつきを変えることが出来ないか？ということです。

薬効の効果の差を大きくするためには、試験に組み入れる患者を、薬剤が効く集団に限定するように、組み入れ基準や除外基準を決めるということを考えます。

しかし、薬が効く集団だけで試験をするとなると、母集団がどこになるのか、そして一般化可能性を考える必要があります。

そうして限定された集団で試験をすると、薬として発売されたとしても投与できる集団が限定されて、結局売り上げが伸びないといったことにつながる可能性が出てきます。

このように、開発コストの面と、一般化可能性の面を天秤に掛けて、常に試験の集団を考えなければいけません。

論文にもサンプルサイズをMethodに記載する。書き方は？

サンプルサイズが事前に決まっているかどうか、論文ではMethodを読むことで確認することが出来ます。

ここでサンプルサイズのことが書いていない論文については、どれだけ素晴らしい結果（P値が小さい結果）であろうと、たまたま出た結果であることが否定できません。

つまり、その試験をもう一度実施したら、全く違った結果が出る可能性があるということです。

なぜなら、前述の通り、本当に薬に効果があったためにP値が小さくなったのか、サンプルサイズが大きかったためにP値が小さくなったのかが分からないためです。

そして、あなたの研究でもサンプルサイズを記載する必要があります。

サンプルサイズの論文への書き方に関しては、他の論文を参考にすることでOK。

例えば、こちらの論文を見てみます。

DOI: 10.1056/NEJMoa2203094

Methodを見ると、下記のようなサンプルサイズ計算の記載があります。

We estimated that 25% of the patients in the acetazolamide group would have successful decongestion within 3 days after randomization; 25% was chosen to represent a clear, meaningful absolute benefit of 10 percentage points as compared with placebo. Assuming a two-sided alpha of 0.05 and a statistical power of 80%, we calculated the targeted sample size for the trial to be 494, and to account for a potential withdrawal of 5% of the patients, we calculated that the trial would need to enroll 519 patients.

サンプルサイズ計算をしていれば、その通りに記載すればいいのですが、探索的な研究の場合には事前にサンプルサイズ計算をしていない場合もあるはず。

事前にサンプルサイズ計算をしていない場合でも、Methodにはその旨を記載します。

例えばこちらの論文を参考にしてみます。

https://doi.org/10.1111/bjd.14207

Methodを見ると、下記のようなサンプルサイズ計算の記載があります。

No statistical sample size calculations were conducted. However, a sample size of nine patients per group gave post hoc powers of 43%, 40% and 31% to detect differences in mean of 30%, 29% and 25%, respectively, for pruritus VAS score at week 4, assuming a common SD of 33%, using a two‐group t‐test with a two‐sided significance level of P < 0·05 for percentage change from baseline between placebo and each active group.

最初に「No statistical sample size calculations were conducted.」と、潔く記載していることがわかります。

そして、事前にサンプルサイズ計算をしていない代わりに、事後的な検出力を計算して記載しています。

このような書き方もOKです。

＞＞EZRで検出力計算をするには？

サンプルサイズの重要性：統計的に有意な差と、臨床的に意味のある差は違うことを理解する

サンプルサイズが大きくなると、P値が小さくなることを学びました。

この事実を知っていると、「統計的に有意な差」と「臨床的に意味のある差」は異なるということがわかります。

私は豊富な資金と期間があれば、どんなデータにでも有意な差を付けることが出来ます。

例えば、東京都の20歳と神奈川県の20歳の収縮期血圧に有意な差をつけることも可能です。

それが例え1mmHgの差であったとしてもです。

1万人ずつ被験者さんがいれば、1mmHgの差で統計的な有意差を付けることが出来ます。

でも、考えてみてください。収縮期血圧の1mmHgの差は、臨床的にどれだけ意味のある差でしょうか？

同じ人でも血圧を2回測定したら、それだけで1mmHgの違いなんて簡単に出てきます。

まったく臨床的に意味はない差ですよね。

そのため臨床研究を行う私たちが気にしなければいけないことは、臨床的に意味のある差を統計学的に検出できているのか？ということです。

この視点がない限り、統計は単なる数値のお遊びでしかなくなります。

ぜひ論文を読む際にも、統計学的に差がつけられたこの数値は、臨床的に意味のある差なのか？という観点で読んでみてください。

サンプルサイズに関するまとめ

統計的検定を厳密に実施するためには、事前にサンプルサイズを決める必要がある。

サンプルサイズを決めずに得た検定結果は、、本当に薬に効果があったためにP値が小さくなったのか、サンプルサイズが大きかったためにP値が小さくなったのかが分からない。

サンプルサイズを決めるのは、群間の効果の差、ばらつき、αエラー、βエラーの4つである。

＞＞EZRでサンプルサイズを計算する方法

＞＞JMPでサンプルサイズを計算する方法

統計に関するご質問があれば、メルマガにご登録の上ご質問くださいませ！

＞＞メルマガ登録はこちら（無料プレゼントあります。）

ノンパラメトリック検定とパラメトリック検定とは？意味や種類をわかりやすく

beat1115 — Fri, 25 Oct 2024 00:00:53 +0000

統計的検定を勉強していると、必ず出てくる「パラメトリック検定」と「ノンパラメトリック検定」。

T検定はパラメトリック検定で、ウィルコクソン順位和検定はノンパラメトリック検定です、と教科書に書いてあります。

・・・で、その２つの違いは何？

ってなりますよね。

今回の記事では、「パラメトリック検定」と「ノンパラメトリック検定」の意味や検定の種類に関して、例を交えてわかりやすく簡単に説明します。

パラメトリック検定とはどんな意味なの？

パラメトリック検定というのは、「事前にデータの分布を仮定している検定」になります。

例えば、パラメトリック検定で一番有名なT検定。

T検定の場合、データは正規分布に従っていることが前提になります。

正規分布は、平均値と標準偏差が決まればその形が決まります。

言い換えると、平均値と標準偏差が正規分布の形を決める重要な要素です。

正規分布における平均値と標準偏差のように、分布を決める時の重要な要素を、パラメータと呼びます。

そのため、「平均値と標準偏差は、正規分布のパラメータである」と言うことができます。

T検定がやっていることは、二つの正規分布がどれぐらい離れているのか？を調べているということ。

この特性から、一つ言えることがあります。

T検定は、正規分布に従っていないデータでは、有意になりにくい。

もう少し具体的に言うと、外れ値があった場合に、T検定は有意になりにくいです。

平均値は外れ値にかなり影響を受けます。

そして、計算式の中で平均値を使っている標準偏差も、外れ値にかなり影響を受けます。

パラメトリック検定を用いるのがふさわしい場面

パラメトリック検定は、事前にデータの分布を知っている必要があります。

つまり、パラメトリック検定を用いたい場面は「すでに多くの研究でデータの分布がある程度わかっている場合」です。

例えば、身長や体重などは正規分布に従う事が知られています。

ということは、身長や体重の平均値を比較する時には、パラメトリック検定であるT検定を使えば問題ありません。

ノンパラメトリック検定とはどんな意味なの？

ノンパラメトリック検定とは、パラメトリックじゃない検定です。

つまり、「事前にデータの分布を仮定しない検定」になります。

例えば、ウィルコクソンの順位和検定というのが、ノンパラメトリック検定の一つになります。

この場合、データがどんな分布（正規分布や対数正規分布など、何でも）であっても、有意になりやすさというのは同じになります。

有意になりやすさを表にしてみるとこんな感じです。

データの分布	T検定（パラメトリック）	ウィルコクソンの順位和検定（ノンパラメトリック）
正規分布	◎	◯
正規分布ではない	×	◯

注目したいのは、ウィルコクソンの順位和検定のオールマイティな性質です。

データが正規分布であっても、正規分布でなくとも、有意になりやすさが一定です。

ノンパラメトリック検定の利点は？こんな時に使いやすい例

ノンパラメトリック検定は「事前にデータの分布を考慮しなくても良い」という点でとても便利です。

身長や体重など、すでにそのデータの分布がわかっているデータに関しては、パラメトリックな検定をすればOKです。

しかしながら、例えば新規に作成したアンケートのデータなど、事前にデータがどのような分布になっているのかが想像もできない、というデータも世の中には存在します。

その場合には、ノンパラメトリック検定を実施する事がオススメ。

ノンパラメトリック検定とパラメトリック検定ではどっちを使えばいいの？使い分けの判断は？

ではパラメトリック検定とノンパラメトリック検定の、どちらを使えばよいか？というのが疑問になると思います。

ですが、そこには答えはありません。

大事な考え方は、「母集団がどのような分布になるか」を考えて決めるということです。

決して「得られたデータに一番フィットするという考え方で検定方法を決めてはいけない」のが重要です。

例えば、身長や体重などは正規分布に従うことが知られています。

そのため、今回の研究で得られているデータが正規分布っぽくなさそうでも、それはたまたまであると考えられ、母集団のデータは正規分布である、と考えることができます。

そのため、パラメトリック検定であるT検定を用いても、その解析手法は間違っているとは言えないのです。

ノンパラメトリック検定とパラメトリック検定まとめ

パラメトリック検定とノンパラメトリック検定の違いは、「事前にデータの分布を仮定しているかどうか」の違いです。

パラメトリック検定はデータの分布を仮定するため、すでにたくさんの研究がされてデータの分布がわかっている場合に有用です。

またノンパラメトリック検定は、アンケート調査など、新規にデータを取得する場合に特に有効です。

片側検定と両側検定の違いや使い分けは？有意水準や棄却域はどう設定？

beat1115 — Sun, 11 Aug 2024 04:00:50 +0000

統計学的検定を勉強していくと、「片側検定」と「両側検定」という用語に出会います。

あなたはこの「片側検定と両側検定の違い」を説明できますか？

違いを一言でいうと、「興味のある方向が1つだけかそうじゃないか」ということです。

…おそらく、これだけでは何のことかわかりませんね。

今回の記事は、そんな片側検定と両側検定の違いについて。

有意水準や棄却域の設定方法に関しても解説します。

片側検定と両側検定の違いや使い分けは？

片側検定と両側検定の違いに関して、コイン投げを例にして考えてみます。

例えばコインを100回、投げることにします。

その時に、「表が出る回数が極端に多いかどうか」に興味があって、それを検定する場合には片側検定になります。

そうではなく、「表か裏の、どちらかが出る回数が極端に多いかどうか」に興味があったとして、それを検定する場合には両側検定になります。

コイントスの結果は、「表が出る」か「裏が出るか」の2択です。

その時に”表か裏のどちらか一方”の結果だけに興味があれば片側検定。

”表か裏のどっちでもいいから”極端な結果になるかどうかに興味があれば、両側検定です。

片側検定と両側検定の違いをコイントスの例で考えてみる

ちょっとイメージが難しい片側検定と両側検定。

ですが帰無仮説と対立仮説を考えると、実は両者の違いは明確です。

まずは両側検定の場合の帰無仮説と対立仮説を確認してみます。

両側検定の場合の帰無仮説と対立仮説

帰無仮説H0：表が出る確率＝裏が出る確率

対立仮説H1：表が出る確率≠裏が出る確率

次に、片側検定の場合の帰無仮説と対立仮説です。

片側検定の場合の帰無仮説と対立仮説

帰無仮説H0：表が出る確率＝裏が出る確率

対立仮説H1：表が出る確率＞裏が出る確率

つまり、両側検定と片側検定では、帰無仮説は一緒ですが、証明したい対立仮説が異なるということです。

片側検定と両側検定の違いをT検定で考えてみる

では次に、片側検定と両側検定の違いをT検定で考えてみます。

T検定の帰無仮説と対立仮説は何かを見てみましょう。（A群とB群の2標本のT検定の場合）

まずは両側検定の場合の帰無仮説と対立仮説を確認してみます。

両側検定の場合の帰無仮説と対立仮説

帰無仮説H0：A群の母平均＝B群の母平均

対立仮説H1：A群の母平均≠B群の母平均

次に、片側検定（A群の平均値の方が大きいと考える）の場合の帰無仮説と対立仮説です。

片側検定の場合の帰無仮説と対立仮説

帰無仮説H0：

A群の母平均＝B群の母平均

対立仮説H1：A群の母平均＞B群の母平均

先ほどのコイン投げの例と全く同じですね。

両側検定と片側検定では、帰無仮説は一緒ですが、証明したい対立仮説が異なるということです。

ちなみに、B群の平均値の方が大きいと考える場合は、不等号の向きを変えて「A群の母平均＜B群の母平均」とすればOKです。

臨床試験では片側検定と両側検定のどっちを使う？どっちに興味がある？

臨床試験で新薬とプラセボを比較する状況での片側検定と両側検定を考えます。

すると、帰無仮説は“新薬の効果はプラセボの効果と同じ”です。

この帰無仮説は、片側検定でも両側検定でも同じですね。

片側検定の場合の対立仮説は、“新薬の効果はプラセボの効果よりも大きい“です。

つまり、数式では“新薬の効果＞プラセボの効果”となります。

両側検定の場合の対立仮説は、“新薬の効果はプラセボの効果とは異なる”です。

つまり、数式では“新薬の効果≠プラセボの効果”となります。

臨床試験では、一方にしか興味がないことが多いですね。

一方にしか興味がないというのはつまり、「新薬の効果　＞　プラセボの効果」ということにしか興味がない場合です。

「新薬の効果　＜　プラセボの効果」には興味がないですよね。

そのため、臨床試験では全て片側検定でも良いのですが、なぜか慣例的に両側検定を使用しています。

ここには特に理由はありません。

私が担当した試験では片側検定で実施した試験もありますので、両側検定でなければダメだ、ということはありません。

片側検定と両側検定で有意水準や棄却域はどうなるの？

片側検定と両側検定の違いは理解できましたか？

では次に、片側検定と両側検定の違いが、有意水準や棄却域に対してどう関わってくるのかを確認します。

αエラー（第1種の過誤）は5%と明確に定められています。

では、その5％を片側検定で使えたら、かなり有利になると思いませんか？

新薬とプラセボの差は、片側にしか興味がない（新薬＞プラセボ）ので、全て片側検定にして、有意水準を5％にする。

しかしながら、ICH E9（「臨床試験のための統計的原則」について）では、有意水準を明確に決めています。

つまり、片側検定をする場合には有意水準を2.5%とし、両側検定の場合には5%とすること、が明記されています。

よって片側検定をする場合であっても5%のエラーを許容されていないということです。

そのため、慣例的に臨床試験では両側検定で、有意水準を5%に設定する、ということが行われています。

Rで片側検定と両側検定を実践する！

実際に、サンプルデータを用いて片側検定と両側検定を実施します。

Rをダウンロードした際に含まれている「iris」というデータを使い、対応のないt検定とWilcoxonの順位和検定の2つを用いて実施します。

Rではt.test()関数やwilcox.test()関数の中で、alternative=””を指定することにより、片側検定か両側検定かを指定することができます。

alternative=””を指定しなければ、両側検定を実施します。alternative=””では下記の3つを指定することができます。

two.sided：両側検定
less：1つ目に指定した変数が2つ目に指定した変数より小さいという片側検定
greater：1つ目に指定した変数が2つ目に指定した変数より大きいという片側検定

# データの読み込み
data("iris")

# データの確認
head(iris)

# SetosaとVersicolorのデータ抽出
setosa <- subset(iris, Species == "setosa")
versicolor <- subset(iris, Species == "versicolor")

# 対応のないt検定での両側検定と片側検定
t_test_two <- t.test(setosa$Sepal.Length, versicolor$Sepal.Length, alternative = "two.sided")
t_test_less <- t.test(setosa$Sepal.Length, versicolor$Sepal.Length, alternative = "less")
t_test_greater <- t.test(setosa$Sepal.Length, versicolor$Sepal.Length, alternative = "greater")

print(t_test_two) 
print(t_test_less)
print(t_test_greater)

上記のプログラムを実行すると、下記のように結果得られます。（見やすさの観点から、p値のみ記載します。）

alternative=””の指定	p値
two.sided	2.2e-16
less	2.2e-16
greater	1

e-16は、10のマイナス16乗の意味です。そのため「めちゃめちゃ小さいp値である」ということがわかります。

次に、ウィルコクソンの順位和検定で両側検定と片側検定を実施します。

# ウィルコクソンの順位和検定での両側検定と片側検定
wilcox_test_two <- wilcox.test(setosa$Sepal.Length, versicolor$Sepal.Length, alternative = "two.sided")
wilcox_test_less <- wilcox.test(setosa$Sepal.Length, versicolor$Sepal.Length, alternative = "less")
wilcox_test_greater <- wilcox.test(setosa$Sepal.Length, versicolor$Sepal.Length, alternative = "greater")

print(wilcox_test_two) 
print(wilcox_test_less)
print(wilcox_test_greater)

alternative=””の指定	p値
two.sided	8.346e-14
less	4.173e-14
greater	1

片側検定と両側検定の違いや使い分けまとめ

片側検定と両側検定の違いは「どちらに興味があるのか」という違いでした。

臨床試験では「新薬の効果＞プラセボの効果」にしか興味がないため、片側検定でも成り立ちます。

ですが、慣例的には両側検定で5％の有意水準を設定して試験を実施する事が多いです。

P値とはどんな意味？p-valueの手計算方法や求め方を例でわかりやすく

beat1115 — Mon, 07 Aug 2023 10:10:05 +0000

あなたは、P値って何なのか、考えたことはあるでしょうか？

以前、参加したことのある統計セミナーで「P値を説明してください」という問題が出たことがあります。

あなたはどう回答しますか？

そのセミナーの中で、面白かった回答がありました。

「0.05を切ったら嬉しいもの」

まぁ確かにな、と思いました。

P値ほど、誤解されて使われているものはありません。

とりあえず0.05を下回ったら、何も考えずにOK。

そんな使い方をされていることが多い。

でも、実はそれ以上にP値は深い意味を持っています。

このページでぜひともP値は何かを学んでいきましょう！

手計算での求め方を、コイン投げを例にして解説しますね！

P値とはどんな意味かをわかりやすく教えて！

まずは、P値って何かを考えたことはありますか？

P値。ピーチ。

・・・桃？？

冗談はさておき、P値は「何かの確率」を示しています。

ちなみにP値の「P」は「Probability」の略です。「確率」ですね。

重要なのは、「何の」確率か、ということです。

P値（p-value）の意味は帰無仮説下で、その結果以上（以下）が出る確率である

正解を先に言います。

P値は以下の言葉で言い換えることができます。

P値とは？

帰無仮説を考えている時に、得られた結果より極端な結果が出る確率

わかりますか？

おそらく文字だけで説明されても全然わからないと思いますので、コインを例に考えてみましょう。

P値の求め方を手計算で求めながら、意味をコイン投げの事例で学ぶ

コイントスで、表が出たら1万円をもらえる、裏が出たら1万円を支払う、という場面を想定します。

そしてあなたは、そのコインがイカサマであれば参加しない。

つまり裏が出やすいコインである、ということであれば参加したくないと思っています。

では、その「イカサマなコインである」を統計学的に証明していきましょう。

まずは、帰無仮説と対立仮説を考えます。

今回のコイン投げの場合、帰無仮説と対立仮説はどのようになるでしょうか？

このようになりますね。

コイン投げの場合の帰無仮説と対立仮説

帰無仮説は「コインはイカサマでない」

対立仮説は「コインはイカサマである」

ではここで一つ問題です。

帰無仮説「コインはイカサマでない」という前提に立った場合に、裏（若しくは表）が出る確率はどうなるでしょうか？

帰無仮説を考えている場合とは言い換えると、「コインはイカサマではない」という場合を想定しています。

つまり、あなたが普段持っている100円玉を投げた時に、どんな確率で裏（もしくは表）が出るかということです。

当然わかりますよね。

帰無仮説「コインはイカサマでない」という前提に立った場合に、裏（若しくは表）が出る確率は1/2である

P値を手計算するために10人のコイン投げの結果を観察してみる

そして、このコインがイカサマかどうかを確かめるために、自分より前の10人の結果を調べることにしました。

10人の結果を見てみましょう。

帰無仮説では表が出る確率は1/2であるため、10回中５回は表が出るはずです。

ですが、たまたま表が７回でたり、反対に２回しか出ない時もあります。

つまり、10人のコイン投げで表が出る回数は、0〜10回があり得ます。

あなたの想像の通り、10回コインを投げたうち、10回表が出ることは稀で、0回表が出ることも稀です。

そんなあなたの考えを確率で表現したのが以下の表です。

表が出る回数	0	1	2	3	4	5	6	7	8	9	10
確率	0.001	0.010	0.044	0.117	0.205	0.246	0.205	0.117	0.044	0.010	0.001
累積確率	0.001	0.011	0.055	00.172	0.377	0.623	0.828	0.945	0.989	0.999	1.000

これは、二項確率というものを計算しています。

例えば「表が出る回数3」の確率というのは、10回コイン投げをした場合に、3回表が出る確率を二項確率の計算式を元に計算しています。

表を見ると、あなたが想像している通り、10回中５回表が出る確率が24.6%と一番高いです。

一方で、０回や10回表が出る確率は0.1%と、一番小さい確率です。

一番下の行は、累積確率と呼ばれ、左から順に確率を足し合わせたものになります。

例えば「表が出る回数が2回」のところにある累積確率（0.055）は、0回の確率と1回の確率と2回の確率を全て足し合わせた結果になっています。

つまり、0.001+0.010+0.044=0.055です。

P値とは累積確率

そして、この「累積確率」がP値になります。

・・・たぶん、ぽかーんとしている方が大半かもしれません。。

ですが、そうなのです。

一般化してP値を言葉で置き換えます。

P値とは、帰無仮説下（表が出る確率は1/2である）での、その結果より極端な結果が出る確率

このP値が0.05より小さければ、想定している仮説（帰無仮説）の下では、その結果が出る確率は0.05以下でしかない。

このコイン投げの例でいうと、「1/2は表が出ると想定しているのに、その結果が出る確率は0.05以下しかない」

そのような結果が出た場合に、想定している仮説が間違っている（＝帰無仮説が間違っている）んじゃないか。

と考えます。

つまり、帰無仮説を棄却し、対立仮説を採択するのです。

このコインの例では、表が1回以下である確率が0.011であり、2回以下である確率が0.055です。

そのため、イカサマであると判断する数値的な閾値を0.05とした場合には、10回分の結果から、表が1回以下であればこのコインはイカサマであると結論付け、ゲームには参加しないという判断を下すという流れです。

数値としてのp値は「要約統計量の一つ」である

統計学としての理論的なp値は、上記で解説した「確率」として定義されるものです。

しかしそれはあくまで、数学的概念としてのp値。

一方で、出力された「数字としてのp値」は、検定統計量を変換して計算された、要約指標の一種です。

確率変数と言っても良い指標であり、確率変数であれば何らかの確率分布に従う。（引用：医学のための因果推論I, p51）

特に気をつけていただきたいのは、サンプルサイズが小さい時には、p値の確率的変動は不安定で、到底信頼できるものではないということ。

仮説検定の目標は、αエラーとβエラーを制御することであって、適切なサンプルサイズ設計がなされていることが前提。

医学研究では、p値はデータの要約指標という観点で扱うのがよく、その意味では推定値や信頼区間など大差ないのだから、特別扱いすべきではありません。

むしろ、信頼区間の方が情報量が多く、データを理解するために役立つ指標です。

P値に関するまとめ

P値は帰無仮説下で、その結果以上（以下）が出る確率である。

つまり、帰無仮説下での確率が有意水準の0.05を下回った場合、帰無仮説を考えていることが間違っているのではないかと判断して棄却し、対立仮説を採択する。

P値に関して動画で解説しています。

ぜひブログ記事を併せて確認してみてください。