MENU

【無料プレゼント付き】学会発表・論文投稿に必要な統計を最短で学ぶことができる無料メルマガ

2項検定の効果量とは?計算方法からRでのサンプルサイズ設計まで徹底解説


アンケートで「支持率が50%を超えた」、あるいは施策によって「クリック率が向上した」といったデータが得られた際、我々はよく2項検定を用いる。これは、得られた結果が「統計的に有意な差(たまたまではない差)か」を判定するためである。

しかし、p値(有意確率)のみを見て「有意差があったから成功だ」と結論づけるのは早計である。そこで重要となるのが、結果の実質的なインパクトを示す「効果量」という指標だ。

本記事では、2項検定における効果量の意味、計算方法、そして実務に不可欠なサンプルサイズ設計をRで行う方法までを詳しく解説する。


>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

目次

なぜp値だけでは不十分なのか?

統計学には、「サンプルサイズ(データの数)が大きければ大きいほど、ごくわずかな差でも『有意』になりやすい」という性質がある。

例えば、1万人に調査を行い「支持率が50%か、51%か」を調べたとする。このわずか1%の差であっても、人数が多ければ統計的には「有意(たまたまではない)」と判定されることが少なくない。

しかし、その1%の差にビジネスや研究上の「実質的な価値」があるかどうかは別問題である。

したがって、「差があると言えるか(p値)」だけでなく、「どの程度のインパクトがある差なのか(効果量)」を併せて評価することが、正しい意思決定には不可欠となる。


2項検定の効果量「g」とその判断基準

2項検定の効果量は、一般的に $g$ という指標で表される。計算式は以下の通り、非常にシンプルである。

$$g = |P – \pi|$$

  • $P$:実際に観測された割合(サンプルの成功率など)
  • $\pi$:比較対象とする理論上の割合(期待値)

効果量の判断基準(コエンの基準)

算出された $g$ の値がどの程度のインパクトを持つかについては、以下の目安(Cohen, 1988)が一般的に用いられる。

効果の大きさ効果量 g の目安解釈のイメージ
小 (Small)0.05わずかな差
中 (Medium)0.15目に見えてわかる程度の差
大 (Large)0.25実用上、非常に大きな差

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

実践:Rによるサンプルサイズ計算

調査を開始する前に「どの程度のデータを集めれば、想定した差を『有意』として検出できるか」を見積もることをサンプルサイズ設計と呼ぶ。

Rの pwr パッケージでは、割合の差をより正確に扱うため、単純な差($g$)ではなく、逆正弦変換(arcsin変換)を施した効果量 ES.h を使用する。

なぜ ES.h を使うのか?

割合(0%〜100%)のデータは、中心付近(50%)と端(0%や100%付近)では、同じ「5%の差」であっても統計的な重みが異なる。ES.h 関数を用いて変換を行うことで、どの範囲の割合であっても公平に「差の大きさ」を評価し、精度の高いサンプルサイズを算出することが可能になる。

Rコードの実行例

# パッケージのインストール(未導入の場合)
# install.packages("pwr")
# パッケージの読み込み
library(pwr)

# 1. 逆正弦変換を用いた効果量(h)を計算する
# ES.h(予想される割合, 比較基準とする割合)
h_val <- ES.h(0.65, 0.50)

# 2. サンプルサイズを計算する
# sig.level: 有意水準(0.05), power: 検出力(0.8)
result <- pwr.p.test(h = h_val, 
                     sig.level = 0.05, 
                     power = 0.80, 
                     alternative = "two.sided")

print(result)

実行結果の読み方

コードを実行すると、以下の出力が得られる。

     proportion power calculation for binomial distribution (arcsine transformation) 

              h = 0.3046927
              n = 84.54397
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

最も注目すべきは n の値である。

  • h (0.3046…): ES.h により算出された変換後の効果量である。
  • n (84.54…): 必要なサンプルサイズを示す。小数点以下は切り上げて考えるため、この場合は「最低でも85人(85回)のデータが必要」と判断する。

つまり、「基準の50%に対して、実際は65%程度の結果になりそうだ」と予測した場合、それを統計的に立証するには85人以上の調査が必要であるという根拠が得られる。


まとめ:信頼される分析のために

2項検定を実施する際は、以下の3つのステップを意識されたい。

  1. p値により「たまたまではないこと」を確認する。
  2. 効果量 $g$ により「実質的に意味のある差か」を評価する。
  3. 調査前に、ES.h を用いて適切なサンプルサイズを設計する。

p値と効果量の「両輪」を正しく使いこなすことが、データ分析の説得力を高める鍵となる。


クイックガイド:あなたのデータで計算するには?

もし予想される割合が異なる場合は、Rコードの ES.h(0.65, 0.50) の数値を書き換えるだけでよい。例えば、支持率が70%(0.70)に達すると見込むなら ES.h(0.70, 0.50) とし、再度実行してみよう。必要なサンプルサイズがどのように変化するかを確認するだけでも、統計的な感覚を養う一助となるはずだ。


分析の目的に合わせて、適切な効果量を選択し、精度の高い調査設計を目指してほしい。

おすすめ書籍

誰も教えてくれなかった 医療統計の使い分け〜迷いやすい解析手法の選び方が,Rで実感しながらわかる!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

リサーチクエスチョン探し?データ分析?論文投稿?、、、で、もう悩まない!

第1章臨床研究ではなぜ統計が必要なのか?計画することの重要性
  • 推定ってどんなことをしているの?
  • 臨床研究を計画するってどういうこと?
  • どうにかして標本平均を母平均に近づけられないか?
第2章:研究目的をどれだけ明確にできるのかが重要
  • データさえあれば解析でどうにかなる、という考え方は間違い
  • 何を明らかにしたいのか? という研究目的が重要
  • 研究目的は4種類に分けられる
  • 統計専門家に相談する上でも研究目的とPICOを明確化しておく
第3章:p値で結果が左右される時代は終わりました
  • アメリカ統計協会(ASA)のp値に関する声明で指摘されていること
  • そうは言っても、本当に有意差がなくてもいいの…?
  • なぜ統計専門家はp値を重要視していないのか
  • 有意差がない時に「有意な傾向があった」といってもいい?
  • 統計を放置してしまうと非常にまずい
第4章:多くの人が統計を苦手にする理由
  • 残念ながら、セミナー受講だけで統計は使えません。
  • インプットだけで統計が使えない理由
  • どうやったら統計の判断力が鍛えられるか?
  • 統計は手段なので正解がないため、最適解を判断する力が必要
第5章:統計を使えるようになるために今日から何をすれば良いか?
  • 論文を読んで統計が使えるようになるための5ステップ
第6章:統計を学ぶために重要な環境
  • 統計の3つの力をバランスよく構築する環境

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

この記事を書いた人

統計 ER ブログ執筆者

元疫学研究者

コメント

コメントする

目次