3群比較のサンプルサイズはどう計算する？閉手順の場合と多重性を考慮した検定の場合

2025年6月20日

この記事では「3群比較のサンプルサイズはどう計算する？閉手順の場合と多重性を考慮した検定の場合」としてお伝えしていきます。

2群比較の場合は比較がシンプルですが、3群以上の場合になると、ちょっと複雑になります。

そのため今回の記事では

3群以上の比較でのサンプルサイズ計算はどうやればいい？
3群以上の比較でのサンプルサイズ計算は多重性を考慮すべき
3群比較のサンプルサイズ計算を具体例を用いてフリーソフトEZRで計算してみる

ということをわかりやすくお伝えしますね！

＞＞もう統計で悩むのは終わりにしませんか？

↑1万人以上の医療従事者が購読中

3群以上の比較でのサンプルサイズ計算はどうやればいい？

サンプルサイズ設計と言えば、通常は2群比較の場合を想定しています。

プラセボ vs 実薬群、のような状況です。

しかし実際の試験や研究は、2群の比較だけではないですよね。

3群以上の比較をしたい試験や研究も出てくるはず。

そんな場合のサンプルサイズ計算はどうすればいいでしょうか？

3群比較のサンプルサイズ計算では最終的な目的を決めないと決めることができない

3群以上で試験を実施した場合に何が一番の問題になるかというと、「比較できる部分が複数箇所出てくる」ということです。

プラセボ vs 実薬群、のような2群比較であれば、プラセボ vs 実薬群という比較しかやりようがありません。

しかし例えば「プラセボ vs 低用量 vs 高用量」で試験を実施したとき、比較は4通り考えることができます。

「プラセボ vs 低用量 vs 高用量」の3群の中でどこかに差がある、という分散分析的な比較
「プラセボ vs 低用量」の比較
「プラセボ vs 高用量」の比較
「低用量 vs 高用量」の比較

上記の4通りの比較に対して、どこが一番重要な結果になりうるのかを考えない限り、サンプルサイズ計算ができません。

そして4通りの比較が考えられるため、場合によっては多重性の問題への考慮も必要になります。

そのため、3群以上のサンプルサイズ計算をする前に、以下の2つのことを考えておく必要があります。

どの比較を実施したら試験目的を達成することができるのか？
その比較に際して多重性の問題は発生するのか？発生するなら考慮は必要か？

まずは上記2つのことを決めましょう。

3群以上の比較でのサンプルサイズ計算は多重性を考慮すべき

上述の通り、3群以上の比較では多くの場合に多重性の問題が発生します。

そのため、対処すべきか・対処するならどんな方法を用いるのか、を考えなければいけません。

例えば、「プラセボ」「低用量」「高用量」の3群に対して、「プラセボ vs 低用量」「プラセボ vs 高用量」の2つの検定をしたい。

その場合には、主に2つの方法があります。

検定に順番をつける（閉手順を用いる）
多重性を考慮した検定をする（ボンフェローニ法、Tukey法など）

閉手順の場合のサンプルサイズ計算

検定に順番をつける場合、通常は「最も大事な比較」か「理論的に考えて有意になりやすい順番」を考えていきます。

「プラセボ」「低用量」「高用量」の3群であれば、理論的に考えて「プラセボ vs 高用量」の比較が有意差が出やすく、「プラセボ vs 低用量」の比較は相対的に有意差が出にくいと考えられます。

そのため、「プラセボ vs 高用量」の比較を最初に実施し、有意差が出た場合に「プラセボ vs 低用量」の比較を実施すればOK。

ではこの場合のサンプルサイズ計算では、どのように計算するでしょうか。

考え方に正解はないですが、考え方の一つとしては「サンプルサイズが多くなるように設定する」ということ。

「プラセボ vs 低用量」の比較の方が有意差が出にくいと考えられるのであれば、「プラセボ vs 低用量」の比較の方がサンプルサイズが多く必要になる。

なので、「プラセボ vs 低用量」の2群の比較でサンプルサイズを計算します。

この場合、有意水準は0.05でOKです。

そして、計算の結果として1群あたりの必要症例数が出ますので、それを高用量群でも同じだけ集める、とすればいいのです。

なのでまとめると、以下の通りになります。

閉手順の場合の3群比較のサンプルサイズ計算

有意になりにくい比較を考える
その比較に対して2群の比較のサンプルサイズ計算を実施する
得られた1群あたりの症例数を、残りの群でも同じだけ集めるとする

「プラセボ vs 高用量」のサンプルサイズ計算をしていないじゃないか！と思われるかもしれませんが、厳密に計算すると、サンプルサイズは群間でアンバランスになります。

そうなると、症例を群間に割り当てる（ランダマイズさせる）場合にかなり煩雑になります。

そのため、群ごとに全て同じ症例数にすることで試験を円滑に進めることができますし、必要なサンプルサイズを確保できるのでOKということになります。

閉手順の場合のサンプルサイズ計算を用いた論文例

閉手順を用いた場合のサンプルサイズ計算をしている論文を紹介します。

Ruzicka, T. et al. (2017) ‘Anti–Interleukin‑31 receptor A antibody for atopic dermatitis’, The New England Journal of Medicine, 376(9), pp. 826–835. doi:10.1056/NEJMoa1606490.

こちらの論文は、臨床試験のPhase2試験で、「プラセボ、低用量、中用量、高用量」という、群の試験です。

比較自体は「プラセボ vs 高用量」「プラセボ vs 中用量」「プラセボ vs 低用量」の3つの比較をしています。

この試験でのサンプルサイズ計算は、Methodにこう書かれてあります。

サンプルサイズ計算の引用

We determined that a sample size of 43 patients per group would provide a power of 90% to detect a between-group difference of 25 percentage points in the change from baseline in the score on the pruritus visual-analogue scale, assuming a standard deviation of 35 for the change from baseline to week 12, using a two-sided t-test at the 0.05 significance level.

1群あたり43例と計算できており、その根拠としては2群比較の計算で成り立っています。