医療系に限らず、統計を用いた研究の大きな目的のひとつに「介入に効果があるといえるのか」というものがあります。
この介入効果の指標として、治癒率や副反応発生率のようなイベントの発生率を用いる場合、最もシンプルな検証方法に二項検定(Binomial test)があります。
二項検定そのものは研究シーンにおいて多用されているわけではありませんが、他の多くの分析のベースとなる発想であり、また、サンプルサイズと統計的有意差の関係を理解する助けにもなります。
この二項検定について解説していきます。
二項検定とは?に関してわかりやすく!
二項検定は、outcomeが2つのカテゴリーに分類されるとき、その比率が基準となる比率に対して有意に偏っているかどうかを検証する統計的仮説検定です。
例えば、ある疾患に対し、従来の治療法では60%の人に改善効果がある(改善率60%)とします。
ここで今、新しい治療法が提案されており、この治療法は従来のものよりも多くの人が改善するものと見込まれていたとする。
そこで、この新しい治療法を4人の人に試したところ3人に改善効果が認められました。
4人中3人が改善しているので、サンプルにおける改善率は75%となり、従来の治療法より優れているようにも思われますよね。
さて、この結果から、他のすべての対象者(母集団)においても、新しい治療法が従来の治療法より優れた改善率をもたらすと言えるのかどうかを検証するのが二項検定。
二項検定の帰無仮説、対立仮説
二項検定の帰無仮説、対立仮説は両側検定の場合、
となります。
片側検定の場合には、
となります。
先ほどのある疾患に対し、従来の治療法では60%の人に改善効果があり、新しい治療法はより多くの人に改善効果が見込まれる例では
という帰無仮説、対立仮説のもと、片側検定を行うことになります。
二項検定のp値の計算方法
二項検定のp値は二項分布を用いて
で計算されます。
仰々しい数式に見えますが、シグマ記号の後ろ側が二項分布の確率計算と同じになっていることに気づいてもらえればそれで十分です。
シグマ記号は足し合わせる記号ですので、二項分布で求めた確率を合計してp値を求めているということだけおさえてください。
いったい何を足し合わせているのかを具体例で見ていきます。
具体例で二項検定のp値を計算してみる
先ほどの従来の治療法での改善率が60%の疾患において、新しい治療法を4人の人に試したところ3人に改善効果が認められた例で考えると、従来の改善率(60%)を前提に4人中3人が改善する確率は、二項分布により、
となります。
また、より大きい効果として4人中4人、つまり全員に改善効果が認められる確率は
となります。
この2つの確率を合計したものが今回のp値となり
となります。
有意水準を5%とするならば、帰無仮説は棄却されず、母集団における改善率が60%を上回るとまでは言えません。
二項検定のp値のもつ意味
さて、この二項検定のp値は何を意味しているのでしょうか。
二項検定のp値は、二項分布を用いて計算した各確率を合計しています。
(結果の発生確率を直接計算する「直接確率検定」の1種)
上の例でいえば、4人中3人が改善する確率と4人中4人が改善する確率を足しています。
つまり、4人中3人以上が改善する確率を表現していることになります。
新しい治療法の改善率が従来の治療法と同じ60%であるとしても、サンプルの結果と同等以上の結果である4人中3人以上に改善が見られる確率は約48%もあり、これはあり得ないことではない(有意水準である5%を超える)から
「新しい治療法の改善率が60%を上回るとまでは言えない」
という判断に至ったということです。
二項検定におけるサンプル数とp値の関係
4人中3人が改善した改善率75%では有意差が認められませんでしたが、被験者も改善者も10倍となる40人中30人に改善が見られた(サンプルにおける改善率は同じ75%)という結果が出た場合、二項検定の結果はどうなるでしょう。
この場合のp値は40人中30人以上が改善する確率ですので、二項分布を用いて40人中30人が改善する確率から40人中40人が改善する確率まで順に足していくことになります。
すなわち
となり、これを計算すると、約0.035で有意差ありとなります。
同じ改善率75%というサンプルの結果であっても、それが4人に対して行われた場合と40人に対して行われた場合とで結論が逆転することになります。
4人中3人に改善が見られた場合よりも40人中30人に改善が見られた場合のほうが、改善率75%という数字に信用がもてるという直感とp値の大小が一致していると見ることもできますね。
このように、サンプルでの結果が同等であっても、サンプル数が多くなればp値が小さくなる、つまり有意差が出やすくなることがわかります。
これを逆手にとって、新しい治療法の改善率に見通しを立てた上で、(真に効果があるのであれば)有意差が出るように、サンプル数を決めることがサンプルサイズの計算につながる話になります。
二項検定は統計的仮説検定のベースである符号検定とも関連が!
これまで見てきたように、二項検定は二項分布を用いて計算されます。
この二項分布は、多くのパラメトリック検定で使われている、正規分布やt分布、カイ2乗分布、F分布のもとになる分布です。
この点から、二項検定は様々なパラメトリック検定のベースになっていると捉えることができます。
また、二項検定において、基準となる発生率を「発生がまったくのランダムである」、すなわち50%であると設定し、両側検定で行う場合には、特別に、符号検定とよばれます。
この符号検定は、マン・ホイットニーのU検定やウィルコクソンの符号付順位和検定のようなノンパラメトリック検定のベースとなる考え方です。
このように、二項検定は様々な統計的仮説検定のベースとなる検定です。
まとめ
二項検定は二項分布を用いて、2つに分割されたカテゴリーの発生率が基準となる比率から偏っているかを検証する統計的仮説検定です。
投稿論文等の研究シーンで多用される手法ではありませんが、そのp値の計算方法は比較的シンプルで飲み込みやすく、仮説検定に対する理解の助けになるものであるとともに、サンプルサイズ計算の必要性も教えてくれます。
さらには、他のあらゆる仮説検定のもとになっている手法でもありますから、その構造を理解しておくことは統計分析全体を理解する上でも価値のあることです。
コメント