MENU

【無料プレゼント付き】学会発表・論文投稿に必要な統計を最短で学ぶことができる無料メルマガ

アンバランスな2群のサンプルサイズ計算ガイド:平均・割合・生存率のケース別解説


実務で統計を扱っていると、「比較したい2つのグループの人数がどうしても同じにならない」という場面に頻繁に遭遇する。例えば、希少疾患の治験で「新薬群」の患者確保が難しかったり、Webマーケティングで「新デザイン」をリスク回避のために一部のユーザーにのみ先行公開したりする場合だ。

バランスの取れた2群(1:1)の計算はシンプルだが、アンバランスな(人数比が異なる)場合は少し計算のコツが必要である。この記事では、初心者に向けて主要な3つのケース(平均、割合、生存率)における計算の考え方を解説する。


>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

目次

アンバランスな2群におけるサンプルサイズ計算の基本

まず前提として、2群の人数比を $1 : k$ と置く($k$ は「割り付け比」と呼ばれる)。

1:1の時に必要な「各群の人数」を $n$ とした場合、合計人数が最小になるのは当然 $k=1$(1:1)の時である。アンバランスになればなるほど、同じ検出力(差を見つける力)を維持するために必要な「合計人数」は増えていく。これは、統計学的な「効率」が低下するためである。


平均値の差の検定:アンバランスな場合の計算方法

血圧や売上金額など、数値の平均を比べる場合である。

  • 考え方: 2群の分散(データのバラツキ)が等しいと仮定すると、1:1の時に必要な1群あたりの人数 $n$ に対し、以下のように調整する。
  • 計算のコツ:
    • グループ1(人数が少ない方): $n_1 = \frac{(k+1)n}{2k}$
    • グループ2(人数が多い方): $n_2 = k \times n_1$

例えば、1:2に分ける場合($k=2$)、1:1なら各群100人(計200人)で済むところを、1:2では「75人と150人(計225人)」が必要になる。合計人数が1割強増える計算だ。


>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

割合の差の検定:アンバランスな場合の計算方法

コンバージョン率や病気の治癒率など、「YesかNoか」の割合を比べる場合である。

  • 考え方: 基本的には平均値の計算と同様だが、割合の場合は「その割合自体(10%なのか50%なのか)」によって必要な人数が大きく変動する。
  • 計算のコツ: 1:1の計算式における「標準誤差」の部分に、割り付け比 $k$ を反映させた「重み付き平均」を組み込む。多くの統計ソフト(EZRやSASなど)では、単純に「Allocation ratio」の項目に $k$ の値を入力するだけで算出可能である。

生存率の比(ハザード比)の検定:アンバランスな場合の計算方法

生存期間やイベント発生までの期間を比較する場合である。

  • 考え方: 生存時間解析(ログランク検定など)では、必要なのは人数そのものよりも、「何件のイベント(死亡や再発など)が発生するか」である。
  • 計算のコツ:全イベント数 $E$ を求めた後、各群の人数を $n_1, n_2$ とすると、統計学的な分散効率は $\frac{k}{(1+k)^2}$ の比率で変化する。

【コラム:分散効率とは?】

この数式は「データの密度の濃さ」を表すスコアのようなものだ。$k=1$(1:1)の時、この値は最大値の $0.25$ となり、最も効率よく差を検出できる。しかし、例えば 1:4($k=4$)にすると値は $0.16$ まで低下する。

片方の人数をいくら増やしても、もう片方の人数(イベント数)が少ないと、比較の精度は低い方に引きずられてしまう。そのため、アンバランスになればなるほど、全体でより多くのイベント数が必要になるのである。


おすすめはバランスが取れた2群 ― その理由

実務上の制約がない限り、統計学的には「1:1」が最も推奨される。理由は主に3つある。

  1. 最小のサンプルサイズで済む: 1:1が最も効率よく差を検出できるため、コストや時間を最小限に抑えられる。
  2. 頑健性(ロバスト性): 「等分散性(バラツキが同じであること)」の仮定が崩れた時、人数が不均衡だと検定結果の信頼性が低くなりやすい。
  3. 解釈がシンプル: 第三者が見た際にも「公平な比較」として受け入れられやすく、説明コストが下がる。

まとめ

アンバランスな2群のサンプルサイズ計算は、「1:1の時の必要人数をベースに、割り付け比 $k$ を加味して調整する」のが基本である。

  • 平均・割合: 合計人数は増えるが、ソフトを使えば計算自体は容易。
  • 生存率: 分散効率が低下し、イベント確保のための観察期間が延びるリスクがある。
  • 鉄則: 可能な限り1:1を目指し、やむを得ない場合のみアンバランスを受け入れる。

まずは、手持ちの統計ソフトやオンライン計算ツールに「Allocation Ratio = 2」などを入力し、人数がどう変化するかシミュレーションしてみることから始めてほしい。

おすすめ書籍

誰も教えてくれなかった 医療統計の使い分け〜迷いやすい解析手法の選び方が,Rで実感しながらわかる!


よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

リサーチクエスチョン探し?データ分析?論文投稿?、、、で、もう悩まない!

第1章臨床研究ではなぜ統計が必要なのか?計画することの重要性
  • 推定ってどんなことをしているの?
  • 臨床研究を計画するってどういうこと?
  • どうにかして標本平均を母平均に近づけられないか?
第2章:研究目的をどれだけ明確にできるのかが重要
  • データさえあれば解析でどうにかなる、という考え方は間違い
  • 何を明らかにしたいのか? という研究目的が重要
  • 研究目的は4種類に分けられる
  • 統計専門家に相談する上でも研究目的とPICOを明確化しておく
第3章:p値で結果が左右される時代は終わりました
  • アメリカ統計協会(ASA)のp値に関する声明で指摘されていること
  • そうは言っても、本当に有意差がなくてもいいの…?
  • なぜ統計専門家はp値を重要視していないのか
  • 有意差がない時に「有意な傾向があった」といってもいい?
  • 統計を放置してしまうと非常にまずい
第4章:多くの人が統計を苦手にする理由
  • 残念ながら、セミナー受講だけで統計は使えません。
  • インプットだけで統計が使えない理由
  • どうやったら統計の判断力が鍛えられるか?
  • 統計は手段なので正解がないため、最適解を判断する力が必要
第5章:統計を使えるようになるために今日から何をすれば良いか?
  • 論文を読んで統計が使えるようになるための5ステップ
第6章:統計を学ぶために重要な環境
  • 統計の3つの力をバランスよく構築する環境

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

この記事を書いた人

統計 ER ブログ執筆者

元疫学研究者

コメント

コメントする

目次