傾向スコア作成時に説明変数はいくつ入れてよいのか

2024年10月18日

傾向スコア作成時に、説明変数はいくついれてもよいのだろうか

最終モデルに交絡因子をたくさん入れないようにしたくて傾向スコアを使いたい場合利点があるのだろうか

＞＞もう統計で悩むのは終わりにしませんか？

↑1万人以上の医療従事者が購読中

ロジスティック回帰分析における説明変数の数

傾向スコアは、ロジスティック回帰分析モデルを借りて計算する

では、ロジスティック回帰分析モデルは、説明変数はいくつ入れてよいのだろうか

「ロジスティック回帰分析を行う場合、イベントの少ないほうの発生サンプル数は共変量の数の10倍の例数が必要である。例えば、目的変数が「再発あり・なし」で共変量が4つあった場合、少ないほう（例えば「再発あり」のデータが40例以上必要ということになる」

出典：https://www.jstage.jst.go.jp/article/tenrikiyo/19/2/19_19-008/_pdf/-char/ja
（リンク先PDF3枚目。新谷歩先生の書籍を参考文献に挙げている）

つまり、いくつでも入れてよいということにはならない

アウトカムの二値カテゴリカルデータで、少ないほうのカテゴリの 10 分の 1 までがよいとされているという制限にかかる

「一般に2群比較で、1群当たり「因子数×10～15例」が、イベント発生の少ない群に必要な数とされます。」
「ロジステック回帰分析：因子数×10例
コックス比例ハザードモデル：因子数×10例
線形回帰モデル：因子数×15例」
（注：因子数とはこの場合、独立変数の数）

出典：https://www.med.hirosaki-u.ac.jp/~uro/docs/research/clinical/Statistical_Analysis_v3.pdf
（リンク先 PDF 39 枚目）

上記の目安でも、説明変数の 10 倍は、二値カテゴリカルデータの少ないほうのカテゴリの人数が必要とされている

「説明変数は入れすぎてもよい、らしい」

出典：（同上 PDF 71 枚目）

だが、説明変数は入れ過ぎてもよいという情報もあり、期待してしまうのは事実

傾向スコアを作成する際の説明変数の数の考え方

アウトカムに関連する因子はすべて投入する
治療にだけ関連してアウトカムに関連しない因子は投入しない

上記 2 つを守るのが大事である

以下の論文で書かれている内容である

結局は、イベント（この場合は、処方ありもしくはなし）の数の 10 分の 1 の交絡因子に留めたほうが無難と言える

＞＞もう統計で悩むのは終わりにしませんか？

↑1万人以上の医療従事者が購読中

まとめ

傾向スコアを作成するときに交絡因子と考える説明変数はいくつ入れてもよいかという質問に対する答えとしては、「処方ありもしくはなしの症例数の 10 分の 1 に留めたほうが無難」となる

アウトカムに直結する推定値ではないにしても、推定するからには、バイアスを生じない回帰モデルが望ましいと考えるのは無理がないだろう

そのため、傾向スコアを作成するときの交絡因子は、無限に入れてよいわけではなく、アウトカムに関連していて、傾向スコア作成の群である処方にも関連している因子に厳選するのが良いだろう

特に、サンプルサイズが限定的な臨床データの場合は、交絡因子の投入しすぎに気を付けたほうが良い

参考になれば

参考文献

Propensity score methods to control for confounding in observational cohort studies: a statistical primer and application to endoscopy research – PMC

リサーチクエスチョン探し？データ分析？論文投稿？、、、で、もう悩まない！

第1章：臨床研究ではなぜ統計が必要なのか？計画することの重要性

推定ってどんなことをしているの？
臨床研究を計画するってどういうこと？
どうにかして標本平均を母平均に近づけられないか？

第2章：研究目的をどれだけ明確にできるのかが重要

データさえあれば解析でどうにかなる、という考え方は間違い
何を明らかにしたいのか？という研究目的が重要
研究目的は4種類に分けられる
統計専門家に相談する上でも研究目的とPICOを明確化しておく

第3章：p値で結果が左右される時代は終わりました

アメリカ統計協会（ASA）のp値に関する声明で指摘されていること
そうは言っても、本当に有意差がなくてもいいの…？
なぜ統計専門家はp値を重要視していないのか
有意差がない時に「有意な傾向があった」といってもいい？
統計を放置してしまうと非常にまずい

第4章：多くの人が統計を苦手にする理由

残念ながら、セミナー受講だけで統計は使えません。
インプットだけで統計が使えない理由
どうやったら統計の判断力が鍛えられるか？
統計は手段なので正解がないため、最適解を判断する力が必要

第5章：統計を使えるようになるために今日から何をすれば良いか？

論文を読んで統計が使えるようになるための5ステップ

第6章：統計を学ぶために重要な環境

統計の3つの力をバランスよく構築する環境

『統計を身につける5つのステップ』を
通常1,650円 → メルマガ登録で無料でプレゼント

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

~~通常価格：1,650円~~　→　無料でお届け

【無料】統計を使いこなすための秘策を学ぶ

この記事を書いた人

toukei-er

統計 ER ブログ執筆者

元疫学研究者

コメント一覧（1件）

傾向スコア法バランスが取れないときの対処法 – 統計ER より:

2025年5月1日 9:18 PM

[…] 参考：傾向スコア作成の際の変数の選び方 […]

返信

【無料プレゼント付き】学会発表・論文投稿に必要な統計を最短で学ぶことができる無料メルマガ

傾向スコア作成時に説明変数はいくつ入れてよいのか

ロジスティック回帰分析における説明変数の数

傾向スコアを作成する際の説明変数の数の考え方

まとめ

参考文献

関連記事

リサーチクエスチョン探し？データ分析？論文投稿？、、、で、もう悩まない！

『統計を身につける5つのステップ』を
通常1,650円 → メルマガ登録で無料でプレゼント

この記事を書いた人

コメント

コメント一覧（1件）

コメントするコメントをキャンセル

【無料プレゼント付き】学会発表・論文投稿に必要な統計を最短で学ぶことができる無料メルマガ

傾向スコア作成時に説明変数はいくつ入れてよいのか

ロジスティック回帰分析における説明変数の数

傾向スコアを作成する際の説明変数の数の考え方

まとめ

参考文献

関連記事

リサーチクエスチョン探し？データ分析？論文投稿？、、、で、もう悩まない！

『統計を身につける5つのステップ』を通常1,650円 → メルマガ登録で無料でプレゼント

この記事を書いた人

関連記事

コメント

コメント一覧 （1件）

コメントする コメントをキャンセル

『統計を身につける5つのステップ』を
通常1,650円 → メルマガ登録で無料でプレゼント

コメント一覧（1件）

コメントするコメントをキャンセル