多変量解析でのサンプルサイズの決め方求め方は?サンプル数少ないのは致命的

多変量解析でのサンプルサイズの決め方に関するブログ記事

この記事では「多変量解析でのサンプルサイズの決め方求め方は?サンプル数少ないのは致命的」ということでお伝えします。

  • 多変量解析をやっている論文でもサンプルサイズ計算はT検定でやっているけど、それっていいの?
  • 予測モデル構築のためにはサンプルサイズはどれぐらい必要?

ということが疑問になることも多いかなと思います。

そのため本記事では「群間比較を目的とする多変量解析」と「予測モデルを構築するための多変量解析」に分けてサンプルサイズの決め方をお伝えします!

 

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

目次

多変量解析が使われる研究目的

多変量解析は、医学研究で多くの目的で使われます。

それらを整理すると、医学研究では主にこの4つの研究目的で使われるかなと思います。

  1. アウトカムの原因(要因)の同定に関する観察研究
  2. 介入研究(ランダム化・非ランダム化)
  3. 診断に関する研究
  4. 予後に関する研究

多変量解析のサンプルサイズ計算だけを考えた場合、「介入研究での群間比較」と「それ以外」で意味合いが異なります。

群間比較が目的であれば、いわゆるT検定ベースなどのサンプルサイズが必要。

それ以外の目的であれば、「どれほどの数の説明変数を入れることができるか」という意味合いが強い、ということ。

そのためこの記事では「群間比較」と「それ以外の3つの目的」の2つに分けてサンプルサイズの決め方について考えます。

 

多変量解析を群間比較の目的で使う場合のサンプルサイズの求め方

まずは、多変量解析を群間比較の目的で使う場合のサンプルサイズ計算についてお伝えします。

多変量解析を群間比較の目的で使う場合とは、例えば、新薬開発でのRCTなどの場合が容易に想定できますよね。

この場合、多変量解析を使う目的は「アウトカムに対して介入の有無がどう違いをもたらすか?」が分かれば良いのです。

他の説明変数は交絡調整のために含めるもので、モデル自体がどうか、という議論はなしでOK。

そのためあくまで目的は「群間比較」する部分に対してサンプルサイズ計算ができればOKなんです。

 

群間比較のための多変量解析ではT検定ベースやカイ二乗検定ベースでのサンプルサイズ計算で良い

この目的の場合に、実際にはどうやってサンプルサイズを計算するか?

ですが、結論としては以下の通り。

通常の「T検定ベース」や「カイ二乗検定ベース」で計算してOK

例えば、EZRでサンプルサイズ計算をするように、統計解析ソフトでポチポチと計算することができます。

 

しかしそこで疑問が生まれますよね。

実際には多変量解析(共分散分析やロジスティック回帰分析)をするから多変量解析を用いてサンプルサイズ計算をしなきゃいけないのでは?

という疑問です。

 

その疑問に関していえば、厳密に多変量解析でできるのであればそれでやってもいいです。

しかし多変量解析でサンプルサイズ計算を実施するには統計ソフトで簡単に計算できず、シミュレーションで実施するしかありません。

かなりハードル高いです。

それに、群間比較のサンプルサイズ計算はそれほど厳密さが要求されないんです。

どういうことかと言うと、群間比較のサンプルサイズ計算で必要な検出力に関して、80%や90%という値がそもそも厳密な値ではないですよね。

検出力の設定は、研究者の匙加減で決まります。

また、想定する平均やSDも、先行研究やプレのデータから「今回もこのぐらいは期待できるかな」という、厳密な値ではないはず。

そのため、厳密ではない値を用いて、厳密に多変量解析をしても、あまり意味はない、というのが「群間比較のサンプルサイズ計算はそれほど厳密さが要求されない」という理由です。

 

それよりも、計算されたサンプルサイズをちゃんと確保する努力をすることがとても重要になります。

 

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

多変量解析をモデル作成(予測モデルなど)で使う場合のサンプルサイズの決め方

では次に、多変量解析をモデル作成(予測モデルなど)で使う場合のサンプルサイズの決め方についてです。

この時の目的は「予測モデル」を作ることなので、モデルに含まれる説明変数の数も重要

じゃあ説明変数を入れれるだけ入れればいいのか?と言われれば、そうではありません。

なぜなら、説明変数をモデルに入れ過ぎてしまうとモデルの結果が不安定になってしまうから。

なので、サンプル数の小さな研究ではモデルに加えられる説明変数の数は限られるんです。

 

ではどのぐらいのサンプルサイズが必要か?と言われれば、絶対的な正解はありません。

ですが一応の目安はあって、新谷先生や神田先生が目安を示してくれています。

下記の数値は、サンプルサイズに対する説明変数の数なので、サンプルサイズは逆算すればOKです。

多変量解析での説明変数の数の上限目安

  • 共分散分析だったら全データの1/15程度まで
  • ロジスティック回帰ならイベント有無の少ない方の1/10程度まで
  • Cox回帰ならイベントの数の1/10程度まで

繰り返しになりますが、あくまで目安であり、正解はないし、説明変数の数は少なければ少ないほどいいです。

そのため一つ言えることは、統計学はデータ数が命であるということ。

少ないサンプルサイズで「あれもやろう」「これもやろう」は無理なんです。

統計は魔法ではないので、ぜひサンプル数の確保は重要な点として認識しておきましょう。

 

まとめ

いかがでしたか?

この記事では「多変量解析でのサンプルサイズの決め方求め方は?サンプル数少ないのは致命的」ということでお伝えしました。

  • 多変量解析をやっている論文でもサンプルサイズ計算はT検定でやっているけど、それっていいの?
  • 予測モデル構築のためにはサンプルサイズはどれぐらい必要?

ということに対して理解が深まったのなら幸いです!

 

こちらの内容は動画でも解説していますので、あわせてご確認くださいませ。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

リサーチクエスチョン探し?データ分析?論文投稿?、、、で、もう悩まない!

第1章臨床研究ではなぜ統計が必要なのか?計画することの重要性
  • 推定ってどんなことをしているの?
  • 臨床研究を計画するってどういうこと?
  • どうにかして標本平均を母平均に近づけられないか?
第2章:研究目的をどれだけ明確にできるのかが重要
  • データさえあれば解析でどうにかなる、という考え方は間違い
  • 何を明らかにしたいのか? という研究目的が重要
  • 研究目的は4種類に分けられる
  • 統計専門家に相談する上でも研究目的とPICOを明確化しておく
第3章:p値で結果が左右される時代は終わりました
  • アメリカ統計協会(ASA)のp値に関する声明で指摘されていること
  • そうは言っても、本当に有意差がなくてもいいの…?
  • なぜ統計専門家はp値を重要視していないのか
  • 有意差がない時に「有意な傾向があった」といってもいい?
  • 統計を放置してしまうと非常にまずい
第4章:多くの人が統計を苦手にする理由
  • 残念ながら、セミナー受講だけで統計は使えません。
  • インプットだけで統計が使えない理由
  • どうやったら統計の判断力が鍛えられるか?
  • 統計は手段なので正解がないため、最適解を判断する力が必要
第5章:統計を使えるようになるために今日から何をすれば良いか?
  • 論文を読んで統計が使えるようになるための5ステップ
第6章:統計を学ぶために重要な環境
  • 統計の3つの力をバランスよく構築する環境

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

コメント

コメントする

目次