相関と回帰分析

多変量解析でのサンプルサイズの決め方求め方は?サンプル数少ないのは致命的

この記事では「多変量解析でのサンプルサイズの決め方求め方は?サンプル数少ないのは致命的」ということでお伝えします。

  • 多変量解析をやっている論文でもサンプルサイズ計算はT検定でやっているけど、それっていいの?
  • 予測モデル構築のためにはサンプルサイズはどれぐらい必要?

ということが疑問になることも多いかなと思います。

そのため本記事では「群間比較を目的とする多変量解析」と「予測モデルを構築するための多変量解析」に分けてサンプルサイズの決め方をお伝えします!

 

>>もう統計で悩むのは終わりにしませんか? 

↑期間・数量限定で無料プレゼント中!

多変量解析が使われる研究目的

多変量解析は、医学研究で多くの目的で使われます。

それらを整理すると、医学研究では主にこの4つの研究目的で使われるかなと思います。

  1. アウトカムの原因(要因)の同定に関する観察研究
  2. 介入研究(ランダム化・非ランダム化)
  3. 診断に関する研究
  4. 予後に関する研究

多変量解析のサンプルサイズ計算だけを考えた場合、「介入研究での群間比較」と「それ以外」で意味合いが異なります。

群間比較が目的であれば、いわゆるT検定ベースなどのサンプルサイズが必要。

それ以外の目的であれば、「どれほどの数の説明変数を入れることができるか」という意味合いが強い、ということ。

そのためこの記事では「群間比較」と「それ以外の3つの目的」の2つに分けてサンプルサイズの決め方について考えます。

 

多変量解析を群間比較の目的で使う場合のサンプルサイズの求め方

まずは、多変量解析を群間比較の目的で使う場合のサンプルサイズ計算についてお伝えします。

多変量解析を群間比較の目的で使う場合とは、例えば、新薬開発でのRCTなどの場合が容易に想定できますよね。

この場合、多変量解析を使う目的は「アウトカムに対して介入の有無がどう違いをもたらすか?」が分かれば良いのです。

他の説明変数は交絡調整のために含めるもので、モデル自体がどうか、という議論はなしでOK。

そのためあくまで目的は「群間比較」する部分に対してサンプルサイズ計算ができればOKなんです。

 

群間比較のための多変量解析ではT検定ベースやカイ二乗検定ベースでのサンプルサイズ計算で良い

この目的の場合に、実際にはどうやってサンプルサイズを計算するか?

ですが、結論としては以下の通り。

通常の「T検定ベース」や「カイ二乗検定ベース」で計算してOK

例えば、EZRでサンプルサイズ計算をするように、統計解析ソフトでポチポチと計算することができます。

 

しかしそこで疑問が生まれますよね。

実際には多変量解析(共分散分析やロジスティック回帰分析)をするから多変量解析を用いてサンプルサイズ計算をしなきゃいけないのでは?

という疑問です。

 

その疑問に関していえば、厳密に多変量解析でできるのであればそれでやってもいいです。

しかし多変量解析でサンプルサイズ計算を実施するには統計ソフトで簡単に計算できず、シミュレーションで実施するしかありません。

かなりハードル高いです。

それに、群間比較のサンプルサイズ計算はそれほど厳密さが要求されないんです。

どういうことかと言うと、群間比較のサンプルサイズ計算で必要な検出力に関して、80%や90%という値がそもそも厳密な値ではないですよね。

検出力の設定は、研究者の匙加減で決まります。

また、想定する平均やSDも、先行研究やプレのデータから「今回もこのぐらいは期待できるかな」という、厳密な値ではないはず。

そのため、厳密ではない値を用いて、厳密に多変量解析をしても、あまり意味はない、というのが「群間比較のサンプルサイズ計算はそれほど厳密さが要求されない」という理由です。

 

それよりも、計算されたサンプルサイズをちゃんと確保する努力をすることがとても重要になります。

 

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

多変量解析をモデル作成(予測モデルなど)で使う場合のサンプルサイズの決め方

では次に、多変量解析をモデル作成(予測モデルなど)で使う場合のサンプルサイズの決め方についてです。

この時の目的は「予測モデル」を作ることなので、モデルに含まれる説明変数の数も重要

じゃあ説明変数を入れれるだけ入れればいいのか?と言われれば、そうではありません。

なぜなら、説明変数をモデルに入れ過ぎてしまうとモデルの結果が不安定になってしまうから。

なので、サンプル数の小さな研究ではモデルに加えられる説明変数の数は限られるんです。

 

ではどのぐらいのサンプルサイズが必要か?と言われれば、絶対的な正解はありません。

ですが一応の目安はあって、新谷先生や神田先生が目安を示してくれています。

下記の数値は、サンプルサイズに対する説明変数の数なので、サンプルサイズは逆算すればOKです。

繰り返しになりますが、あくまで目安であり、正解はないし、説明変数の数は少なければ少ないほどいいです。

そのため一つ言えることは、統計学はデータ数が命であるということ。

少ないサンプルサイズで「あれもやろう」「これもやろう」は無理なんです。

統計は魔法ではないので、ぜひサンプル数の確保は重要な点として認識しておきましょう。

 

まとめ

いかがでしたか?

この記事では「多変量解析でのサンプルサイズの決め方求め方は?サンプル数少ないのは致命的」ということでお伝えしました。

  • 多変量解析をやっている論文でもサンプルサイズ計算はT検定でやっているけど、それっていいの?
  • 予測モデル構築のためにはサンプルサイズはどれぐらい必要?

ということに対して理解が深まったのなら幸いです!

 

こちらの内容は動画でも解説していますので、あわせてご確認くださいませ。

期間・数量限定!書籍「統計を身につける5つのステップ」を無料プレゼント

第1章:臨床研究ではなぜ統計が必要なのか?計画することの重要性

第2章:研究目的をどれだけ明確にできるのかが重要

第3章:p値で結果が左右される時代は終わりました

第4章:多くの人が統計を苦手にする理由

第5章:統計を使えるようになるために今日から何をすれば良いか?

第6章:統計を学ぶために重要な環境

 

もしあなたがこれまでに、何とか統計をマスターしようと散々苦労し、何冊もの統計の本を読み、セミナーに参加してみたのに、それでも統計が苦手なら…

私からプレゼントする内容は、あなたがずっと待ちわびていたものです。

 

↓今すぐ無料で学会発表や論文投稿までに必要な統計を学ぶ↓

↑無料で学会発表や論文投稿に必要な統計を最短で学ぶ↑