MENU

【無料プレゼント付き】学会発表・論文投稿に必要な統計を最短で学ぶことができる無料メルマガ

傾向スコア作成時に説明変数はいくつ入れてよいのか

傾向スコア作成時に、説明変数はいくついれてもよいのだろうか

最終モデルに交絡因子をたくさん入れないようにしたくて傾向スコアを使いたい場合利点があるのだろうか

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

目次

ロジスティック回帰分析における説明変数の数

傾向スコアは、ロジスティック回帰分析モデルを借りて計算する

では、ロジスティック回帰分析モデルは、説明変数はいくつ入れてよいのだろうか

「ロジスティック回帰分析を行う場合、イベントの少ないほうの発生サンプル数は共変量の数の10倍の例数が必要である。例えば、目的変数が「再発あり・なし」で共変量が4つあった場合、少ないほう(例えば「再発あり」のデータが40例以上必要ということになる」

出典:https://www.jstage.jst.go.jp/article/tenrikiyo/19/2/19_19-008/_pdf/-char/ja
(リンク先PDF3枚目。新谷歩先生の書籍を参考文献に挙げている)

つまり、いくつでも入れてよいということにはならない

アウトカムの二値カテゴリカルデータで、少ないほうのカテゴリの 10 分の 1 までがよいとされているという制限にかかる

「一般に2群比較で、1群当たり「因子数×10~15例」が、イベント発生の少ない群に必要な数とされます。」
「ロジステック回帰分析:因子数×10例
コックス比例ハザードモデル:因子数×10例
線形回帰モデル:因子数×15例」
(注:因子数とはこの場合、独立変数の数)

出典:https://www.med.hirosaki-u.ac.jp/~uro/docs/research/clinical/Statistical_Analysis_v3.pdf
(リンク先 PDF 39 枚目)

上記の目安でも、説明変数の 10 倍は、二値カテゴリカルデータの少ないほうのカテゴリの人数が必要とされている

「説明変数は入れすぎてもよい、らしい」

出典:(同上 PDF 71 枚目)

だが、説明変数は入れ過ぎてもよいという情報もあり、期待してしまうのは事実

傾向スコアを作成する際の説明変数の数の考え方

  • アウトカムに関連する因子はすべて投入する
  • 治療にだけ関連してアウトカムに関連しない因子は投入しない

上記 2 つを守るのが大事である

以下の論文で書かれている内容である

結局は、イベント(この場合は、処方ありもしくはなし)の数の 10 分の 1 の交絡因子に留めたほうが無難と言える

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

まとめ

傾向スコアを作成するときに交絡因子と考える説明変数はいくつ入れてもよいかという質問に対する答えとしては、「処方ありもしくはなしの症例数の 10 分の 1 に留めたほうが無難」となる

アウトカムに直結する推定値ではないにしても、推定するからには、バイアスを生じない回帰モデルが望ましいと考えるのは無理がないだろう

そのため、傾向スコアを作成するときの交絡因子は、無限に入れてよいわけではなく、アウトカムに関連していて、傾向スコア作成の群である処方にも関連している因子に厳選するのが良いだろう

特に、サンプルサイズが限定的な臨床データの場合は、交絡因子の投入しすぎに気を付けたほうが良い

参考になれば

参考文献

Propensity score methods to control for confounding in observational cohort studies: a statistical primer and application to endoscopy research – PMC

関連記事

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

リサーチクエスチョン探し?データ分析?論文投稿?、、、で、もう悩まない!

第1章臨床研究ではなぜ統計が必要なのか?計画することの重要性
  • 推定ってどんなことをしているの?
  • 臨床研究を計画するってどういうこと?
  • どうにかして標本平均を母平均に近づけられないか?
第2章:研究目的をどれだけ明確にできるのかが重要
  • データさえあれば解析でどうにかなる、という考え方は間違い
  • 何を明らかにしたいのか? という研究目的が重要
  • 研究目的は4種類に分けられる
  • 統計専門家に相談する上でも研究目的とPICOを明確化しておく
第3章:p値で結果が左右される時代は終わりました
  • アメリカ統計協会(ASA)のp値に関する声明で指摘されていること
  • そうは言っても、本当に有意差がなくてもいいの…?
  • なぜ統計専門家はp値を重要視していないのか
  • 有意差がない時に「有意な傾向があった」といってもいい?
  • 統計を放置してしまうと非常にまずい
第4章:多くの人が統計を苦手にする理由
  • 残念ながら、セミナー受講だけで統計は使えません。
  • インプットだけで統計が使えない理由
  • どうやったら統計の判断力が鍛えられるか?
  • 統計は手段なので正解がないため、最適解を判断する力が必要
第5章:統計を使えるようになるために今日から何をすれば良いか?
  • 論文を読んで統計が使えるようになるための5ステップ
第6章:統計を学ぶために重要な環境
  • 統計の3つの力をバランスよく構築する環境

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

この記事を書いた人

統計 ER ブログ執筆者

元疫学研究者

コメント

コメントする

目次