この記事では「多変量解析でのサンプルサイズの決め方求め方は?サンプル数少ないのは致命的」ということでお伝えします。
- 多変量解析をやっている論文でもサンプルサイズ計算はT検定でやっているけど、それっていいの?
- 予測モデル構築のためにはサンプルサイズはどれぐらい必要?
ということが疑問になることも多いかなと思います。
そのため本記事では「群間比較を目的とする多変量解析」と「予測モデルを構築するための多変量解析」に分けてサンプルサイズの決め方をお伝えします!
多変量解析が使われる研究目的
それらを整理すると、医学研究では主にこの4つの研究目的で使われるかなと思います。
多変量解析のサンプルサイズ計算だけを考えた場合、「介入研究での群間比較」と「それ以外」で意味合いが異なります。
群間比較が目的であれば、いわゆるT検定ベースなどのサンプルサイズが必要。
それ以外の目的であれば、「どれほどの数の説明変数を入れることができるか」という意味合いが強い、ということ。
そのためこの記事では「群間比較」と「それ以外の3つの目的」の2つに分けてサンプルサイズの決め方について考えます。
多変量解析を群間比較の目的で使う場合のサンプルサイズの求め方
まずは、多変量解析を群間比較の目的で使う場合のサンプルサイズ計算についてお伝えします。
多変量解析を群間比較の目的で使う場合とは、例えば、新薬開発でのRCTなどの場合が容易に想定できますよね。
この場合、多変量解析を使う目的は「アウトカムに対して介入の有無がどう違いをもたらすか?」が分かれば良いのです。
他の説明変数は交絡調整のために含めるもので、モデル自体がどうか、という議論はなしでOK。
そのためあくまで目的は「群間比較」する部分に対してサンプルサイズ計算ができればOKなんです。
群間比較のための多変量解析ではT検定ベースやカイ二乗検定ベースでのサンプルサイズ計算で良い
この目的の場合に、実際にはどうやってサンプルサイズを計算するか?
ですが、結論としては以下の通り。
例えば、EZRでサンプルサイズ計算をするように、統計解析ソフトでポチポチと計算することができます。
しかしそこで疑問が生まれますよね。
という疑問です。
その疑問に関していえば、厳密に多変量解析でできるのであればそれでやってもいいです。
しかし多変量解析でサンプルサイズ計算を実施するには統計ソフトで簡単に計算できず、シミュレーションで実施するしかありません。
かなりハードル高いです。
それに、群間比較のサンプルサイズ計算はそれほど厳密さが要求されないんです。
どういうことかと言うと、群間比較のサンプルサイズ計算で必要な検出力に関して、80%や90%という値がそもそも厳密な値ではないですよね。
検出力の設定は、研究者の匙加減で決まります。
また、想定する平均やSDも、先行研究やプレのデータから「今回もこのぐらいは期待できるかな」という、厳密な値ではないはず。
そのため、厳密ではない値を用いて、厳密に多変量解析をしても、あまり意味はない、というのが「群間比較のサンプルサイズ計算はそれほど厳密さが要求されない」という理由です。
それよりも、計算されたサンプルサイズをちゃんと確保する努力をすることがとても重要になります。
多変量解析をモデル作成(予測モデルなど)で使う場合のサンプルサイズの決め方
では次に、多変量解析をモデル作成(予測モデルなど)で使う場合のサンプルサイズの決め方についてです。
この時の目的は「予測モデル」を作ることなので、モデルに含まれる説明変数の数も重要。
じゃあ説明変数を入れれるだけ入れればいいのか?と言われれば、そうではありません。
なぜなら、説明変数をモデルに入れ過ぎてしまうとモデルの結果が不安定になってしまうから。
なので、サンプル数の小さな研究ではモデルに加えられる説明変数の数は限られるんです。
ではどのぐらいのサンプルサイズが必要か?と言われれば、絶対的な正解はありません。
ですが一応の目安はあって、新谷先生や神田先生が目安を示してくれています。
下記の数値は、サンプルサイズに対する説明変数の数なので、サンプルサイズは逆算すればOKです。
- 共分散分析だったら全データの1/15程度まで
- ロジスティック回帰ならイベント有無の少ない方の1/10程度まで
- Cox回帰ならイベントの数の1/10程度まで
繰り返しになりますが、あくまで目安であり、正解はないし、説明変数の数は少なければ少ないほどいいです。
そのため一つ言えることは、統計学はデータ数が命であるということ。
少ないサンプルサイズで「あれもやろう」「これもやろう」は無理なんです。
統計は魔法ではないので、ぜひサンプル数の確保は重要な点として認識しておきましょう。
まとめ
いかがでしたか?
この記事では「多変量解析でのサンプルサイズの決め方求め方は?サンプル数少ないのは致命的」ということでお伝えしました。
- 多変量解析をやっている論文でもサンプルサイズ計算はT検定でやっているけど、それっていいの?
- 予測モデル構築のためにはサンプルサイズはどれぐらい必要?
ということに対して理解が深まったのなら幸いです!
こちらの内容は動画でも解説していますので、あわせてご確認くださいませ。
コメント