アンケートで「支持率が50%を超えた」、あるいは施策によって「クリック率が向上した」といったデータが得られた際、我々はよく2項検定を用いる。これは、得られた結果が「統計的に有意な差(たまたまではない差)か」を判定するためである。
しかし、p値(有意確率)のみを見て「有意差があったから成功だ」と結論づけるのは早計である。そこで重要となるのが、結果の実質的なインパクトを示す「効果量」という指標だ。
本記事では、2項検定における効果量の意味、計算方法、そして実務に不可欠なサンプルサイズ設計をRで行う方法までを詳しく解説する。
なぜp値だけでは不十分なのか?
統計学には、「サンプルサイズ(データの数)が大きければ大きいほど、ごくわずかな差でも『有意』になりやすい」という性質がある。
例えば、1万人に調査を行い「支持率が50%か、51%か」を調べたとする。このわずか1%の差であっても、人数が多ければ統計的には「有意(たまたまではない)」と判定されることが少なくない。
しかし、その1%の差にビジネスや研究上の「実質的な価値」があるかどうかは別問題である。
したがって、「差があると言えるか(p値)」だけでなく、「どの程度のインパクトがある差なのか(効果量)」を併せて評価することが、正しい意思決定には不可欠となる。
2項検定の効果量「g」とその判断基準
2項検定の効果量は、一般的に $g$ という指標で表される。計算式は以下の通り、非常にシンプルである。
$$g = |P – \pi|$$
- $P$:実際に観測された割合(サンプルの成功率など)
- $\pi$:比較対象とする理論上の割合(期待値)
効果量の判断基準(コエンの基準)
算出された $g$ の値がどの程度のインパクトを持つかについては、以下の目安(Cohen, 1988)が一般的に用いられる。
| 効果の大きさ | 効果量 g の目安 | 解釈のイメージ |
| 小 (Small) | 0.05 | わずかな差 |
| 中 (Medium) | 0.15 | 目に見えてわかる程度の差 |
| 大 (Large) | 0.25 | 実用上、非常に大きな差 |
実践:Rによるサンプルサイズ計算
調査を開始する前に「どの程度のデータを集めれば、想定した差を『有意』として検出できるか」を見積もることをサンプルサイズ設計と呼ぶ。
Rの pwr パッケージでは、割合の差をより正確に扱うため、単純な差($g$)ではなく、逆正弦変換(arcsin変換)を施した効果量 ES.h を使用する。
なぜ ES.h を使うのか?
割合(0%〜100%)のデータは、中心付近(50%)と端(0%や100%付近)では、同じ「5%の差」であっても統計的な重みが異なる。ES.h 関数を用いて変換を行うことで、どの範囲の割合であっても公平に「差の大きさ」を評価し、精度の高いサンプルサイズを算出することが可能になる。
Rコードの実行例
# パッケージのインストール(未導入の場合)
# install.packages("pwr")
# パッケージの読み込み
library(pwr)
# 1. 逆正弦変換を用いた効果量(h)を計算する
# ES.h(予想される割合, 比較基準とする割合)
h_val <- ES.h(0.65, 0.50)
# 2. サンプルサイズを計算する
# sig.level: 有意水準(0.05), power: 検出力(0.8)
result <- pwr.p.test(h = h_val,
sig.level = 0.05,
power = 0.80,
alternative = "two.sided")
print(result)
実行結果の読み方
コードを実行すると、以下の出力が得られる。
proportion power calculation for binomial distribution (arcsine transformation)
h = 0.3046927
n = 84.54397
sig.level = 0.05
power = 0.8
alternative = two.sided
最も注目すべきは n の値である。
- h (0.3046…):
ES.hにより算出された変換後の効果量である。 - n (84.54…): 必要なサンプルサイズを示す。小数点以下は切り上げて考えるため、この場合は「最低でも85人(85回)のデータが必要」と判断する。
つまり、「基準の50%に対して、実際は65%程度の結果になりそうだ」と予測した場合、それを統計的に立証するには85人以上の調査が必要であるという根拠が得られる。
まとめ:信頼される分析のために
2項検定を実施する際は、以下の3つのステップを意識されたい。
- p値により「たまたまではないこと」を確認する。
- 効果量 $g$ により「実質的に意味のある差か」を評価する。
- 調査前に、
ES.hを用いて適切なサンプルサイズを設計する。
p値と効果量の「両輪」を正しく使いこなすことが、データ分析の説得力を高める鍵となる。
クイックガイド:あなたのデータで計算するには?
もし予想される割合が異なる場合は、Rコードの ES.h(0.65, 0.50) の数値を書き換えるだけでよい。例えば、支持率が70%(0.70)に達すると見込むなら ES.h(0.70, 0.50) とし、再度実行してみよう。必要なサンプルサイズがどのように変化するかを確認するだけでも、統計的な感覚を養う一助となるはずだ。
分析の目的に合わせて、適切な効果量を選択し、精度の高い調査設計を目指してほしい。




コメント