傾向スコア作成時に、説明変数はいくついれてもよいのだろうか
最終モデルに交絡因子をたくさん入れないようにしたくて傾向スコアを使いたい場合利点があるのだろうか
ロジスティック回帰分析における説明変数の数
傾向スコアは、ロジスティック回帰分析モデルを借りて計算する
では、ロジスティック回帰分析モデルは、説明変数はいくつ入れてよいのだろうか
「ロジスティック回帰分析を行う場合、イベントの少ないほうの発生サンプル数は共変量の数の10倍の例数が必要である。例えば、目的変数が「再発あり・なし」で共変量が4つあった場合、少ないほう(例えば「再発あり」のデータが40例以上必要ということになる」
出典:https://www.jstage.jst.go.jp/article/tenrikiyo/19/2/19_19-008/_pdf/-char/ja
(リンク先PDF3枚目。新谷歩先生の書籍を参考文献に挙げている)
つまり、いくつでも入れてよいということにはならない
アウトカムの二値カテゴリカルデータで、少ないほうのカテゴリの 10 分の 1 までがよいとされているという制限にかかる
「一般に2群比較で、1群当たり「因子数×10~15例」が、イベント発生の少ない群に必要な数とされます。」
「ロジステック回帰分析:因子数×10例
コックス比例ハザードモデル:因子数×10例
線形回帰モデル:因子数×15例」
(注:因子数とはこの場合、独立変数の数)
出典:https://www.med.hirosaki-u.ac.jp/~uro/docs/research/clinical/Statistical_Analysis_v3.pdf
(リンク先 PDF 39 枚目)
上記の目安でも、説明変数の 10 倍は、二値カテゴリカルデータの少ないほうのカテゴリの人数が必要とされている
「説明変数は入れすぎてもよい、らしい」
出典:(同上 PDF 71 枚目)
だが、説明変数は入れ過ぎてもよいという情報もあり、期待してしまうのは事実
傾向スコアを作成する際の説明変数の数の考え方
- アウトカムに関連する因子はすべて投入する
- 治療にだけ関連してアウトカムに関連しない因子は投入しない
上記 2 つを守るのが大事である
以下の論文で書かれている内容である
結局は、イベント(この場合は、処方ありもしくはなし)の数の 10 分の 1 の交絡因子に留めたほうが無難と言える
まとめ
傾向スコアを作成するときに交絡因子と考える説明変数はいくつ入れてもよいかという質問に対する答えとしては、「処方ありもしくはなしの症例数の 10 分の 1 に留めたほうが無難」となる
アウトカムに直結する推定値ではないにしても、推定するからには、バイアスを生じない回帰モデルが望ましいと考えるのは無理がないだろう
そのため、傾向スコアを作成するときの交絡因子は、無限に入れてよいわけではなく、アウトカムに関連していて、傾向スコア作成の群である処方にも関連している因子に厳選するのが良いだろう
特に、サンプルサイズが限定的な臨床データの場合は、交絡因子の投入しすぎに気を付けたほうが良い
参考になれば
コメント