傾向スコア法の利点と交絡因子の決め方

2024年8月31日

傾向スコア法は、交絡因子調整という点では、線形の多変量解析、例えば重回帰分析やロジスティック回帰分析と同様である

しかし、線形回帰モデルとは異なる利点が存在する

どんなときに傾向スコア法を用いるのが良いのか

＞＞もう統計で悩むのは終わりにしませんか？

↑1万人以上の医療従事者が購読中

傾向スコア法と多変量解析の比較

傾向スコア法が多変量解析より優れている状況については、以下の記事がとても勉強になる

傾向（プロペンシティ）スコアの各使用法の仮定・解釈の違いを比較してみた – Unboundedly

出典：
傾向スコアと普通の（アウトカム）回帰モデルの比較

4 つのポイント

ポイント	多変量解析	傾向スコア
モデルの仮定の違い	アウトカムと共変量の関係性	曝露と共変量の関係性（共変量のバランスを評価することができる）
p-hacking 予防	都合よい有意差が出るまでモデルをこねくり回せる	バランスが取れた時点でモデルの設定が終了
positivity チェック	曝露ありのみ、曝露なしのみの層を調べない	曝露ありなしのバランスを確認する
レアな二値アウトカム	アウトカムがレアな場合はバイアスが大きくなる	アウトカムがレアでもバイアスはほぼ均一

以上をまとめると、

曝露と共変量の関係性が強いとき
探索的な比較より仮説ベースの比較にしたいとき
曝露あり・なしのバランスがより重要なとき
アウトカムがレアなとき

これらのときに傾向スコア法は、多変量解析よりも利点があると言える

サンプルサイズが小さい場合

また、サンプルサイズが小さいときは、傾向スコア法のほうが利点があるとの記述もある

説明変数一つに対して、8 例以上のイベントがある場合は、ロジスティック回帰のほうがよい。7 例以下の場合は、傾向スコア法（5 分割法）のほうがよい

Comparison of Logistic Regression versus Propensity Score When the Number of Events Is Low and There Are Multiple Confounders | American Journal of Epidemiology | Oxford Academic

傾向スコアを作成する際の交絡因子の選び方

では、次に傾向スコアを作成する際に、交絡因子はどのように選んだらよいだろうか

再度、傾向（プロペンシティ）スコアの各使用法の仮定・解釈の違いを比較してみた – Unboundedly から引用する

とにかくなんでもAに関連するものをモデルにいれて割付確率Pr(A=1|L)を精度良く予測すればいいという話ではない

重要なのは、傾向スコアが正しく機能するためには
1. どのLを条件づければバイアスがなくなるのかがわかっている(Conditional Exchangeabilityの成立条件をドメイン知識に基づき決める）
2. それらLのデータが（正しく）測定されている
の２条件が必須だということ。

また、以下のような記載もある

そもそも傾向スコアを推定するモデルに含めるべき変数はConditional Exchangeabilityを得るのに必要なL（＋非colliderなアウトカムYの予測因子）*1のみ

Conditional Exchangeability とは、L （交絡因子のセット）が同じであれば、フェアな比較ができるだろうと仮定を置くということで、論理的に決めるということ

Collider とは、合流点とも訳され、2 つ以上の他の変数から因果的な影響を受けている場合に使われる用語
合流点（統計学）- Wikipedia

非 collider とは、そのような 2 つ以上の他の変数から因果的な影響は受けていないという意味になる

交絡因子候補を無限に投入すればよいということではない
研究分野の知識を基に論理的に決める
合流点ではないアウトカムの予測因子

また、以下の論文にも、アウトカムの予測因子の側面が記載されている

アウトカムに関連する因子はすべて投入する
治療にだけ関連してアウトカムに関連しない因子は投入しない

Propensity score methods to control for confounding in observational cohort studies: a statistical primer and application to endoscopy research
Step1: Select Covariates 参照

論理的に決めないといけないというほかに、C 統計量（AUC）で決めるのは誤解とする記事がある
傾向スコアを使う前に知っておくべき事 TOP 5【重要】

モデル内で有意だから含める・有意でないから含めないとか、単変量解析で有意だから含める・有意でないから含めないなど、完全に検定に依存した決め方は、避けたほうがよい

C 統計量など予測性能も参考にしつつ、先行研究も参考に、論理（つまり理屈）も考えながら、交絡因子を決めるという進め方がよいようだ

＞＞もう統計で悩むのは終わりにしませんか？

↑1万人以上の医療従事者が購読中

まとめ

傾向スコア法は、

サンプルサイズが小さめで、アウトカムがレアで共変量との相関が強く、曝露有り無しのバランスが大事で、仮説ベースの比較時に、線形回帰モデルより有利
交絡因子候補とするものは、予後因子は含め、曝露のみに関連している変数は含めず、検定に頼った変数選択はせず、研究分野の知識と理論をもとに決定する

というふうにまとめられる

何らか参考になれば

参考サイト

傾向スコアを使うとなぜいいのか
傾向（プロペンシティ）スコアの各使用法の仮定・解釈の違いを比較してみた – Unboundedly

傾向スコアを使うべき状況は決まっている
傾向スコアを使う前に知っておくべき事 TOP 5【重要】 – Riklog

傾向スコア法の基本
傾向スコアマッチング法（プロペンシティスコア）をわかりやすく解説！｜いちばんやさしい、医療統計

Comparison of Logistic Regression versus Propensity Score When the Number of Events Is Low and There Are Multiple Confounders | American Journal of Epidemiology | Oxford Academic

Propensity score methods to control for confounding in observational cohort studies: a statistical primer and application to endoscopy research

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

リサーチクエスチョン探し？データ分析？論文投稿？、、、で、もう悩まない！

第1章：臨床研究ではなぜ統計が必要なのか？計画することの重要性

推定ってどんなことをしているの？
臨床研究を計画するってどういうこと？
どうにかして標本平均を母平均に近づけられないか？

第2章：研究目的をどれだけ明確にできるのかが重要

データさえあれば解析でどうにかなる、という考え方は間違い
何を明らかにしたいのか？という研究目的が重要
研究目的は4種類に分けられる
統計専門家に相談する上でも研究目的とPICOを明確化しておく

第3章：p値で結果が左右される時代は終わりました

アメリカ統計協会（ASA）のp値に関する声明で指摘されていること
そうは言っても、本当に有意差がなくてもいいの…？
なぜ統計専門家はp値を重要視していないのか
有意差がない時に「有意な傾向があった」といってもいい？
統計を放置してしまうと非常にまずい

第4章：多くの人が統計を苦手にする理由

残念ながら、セミナー受講だけで統計は使えません。
インプットだけで統計が使えない理由
どうやったら統計の判断力が鍛えられるか？
統計は手段なので正解がないため、最適解を判断する力が必要

第5章：統計を使えるようになるために今日から何をすれば良いか？

論文を読んで統計が使えるようになるための5ステップ

第6章：統計を学ぶために重要な環境

統計の3つの力をバランスよく構築する環境

『統計を身につける5つのステップ』を
通常1,650円 → メルマガ登録で無料でプレゼント

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

~~通常価格：1,650円~~　→　無料でお届け

【無料】統計を使いこなすための秘策を学ぶ

この記事を書いた人

toukei-er

統計 ER ブログ執筆者

元疫学研究者

コメント一覧（1件）

傾向スコア作成時に説明変数はいくつ入れてよいのか – 統計ER より:

2024年10月18日 8:27 PM

[…] 傾向スコア法の利点と交絡因子の決め方 […]

返信

【無料プレゼント付き】学会発表・論文投稿に必要な統計を最短で学ぶことができる無料メルマガ

傾向スコア法の利点と交絡因子の決め方