傾向スコア法は、交絡因子調整という点では、線形の多変量解析、例えば重回帰分析やロジスティック回帰分析と同様である
しかし、線形回帰モデルとは異なる利点が存在する
どんなときに傾向スコア法を用いるのが良いのか
傾向スコア法と多変量解析の比較
傾向スコア法が多変量解析より優れている状況については、以下の記事がとても勉強になる
傾向(プロペンシティ)スコアの各使用法の仮定・解釈の違いを比較してみた – Unboundedly
4 つのポイント
ポイント | 多変量解析 | 傾向スコア |
モデルの仮定の違い | アウトカムと共変量の関係性 | 曝露と共変量の関係性(共変量のバランスを評価することができる) |
p-hacking 予防 | 都合よい有意差が出るまでモデルをこねくり回せる | バランスが取れた時点でモデルの設定が終了 |
positivity チェック | 曝露ありのみ、曝露なしのみの層を調べない | 曝露ありなしのバランスを確認する |
レアな二値アウトカム | アウトカムがレアな場合はバイアスが大きくなる | アウトカムがレアでもバイアスはほぼ均一 |
以上をまとめると、
- 曝露と共変量の関係性が強いとき
- 探索的な比較より仮説ベースの比較にしたいとき
- 曝露あり・なしのバランスがより重要なとき
- アウトカムがレアなとき
これらのときに傾向スコア法は、多変量解析よりも利点があると言える
サンプルサイズが小さい場合
また、サンプルサイズが小さいときは、傾向スコア法のほうが利点があるとの記述もある
説明変数一つに対して、8 例以上のイベントがある場合は、ロジスティック回帰のほうがよい。7 例以下の場合は、傾向スコア法(5 分割法)のほうがよい
傾向スコアを作成する際の交絡因子の選び方
では、次に傾向スコアを作成する際に、交絡因子はどのように選んだらよいだろうか
再度、傾向(プロペンシティ)スコアの各使用法の仮定・解釈の違いを比較してみた – Unboundedly から引用する
とにかくなんでもAに関連するものをモデルにいれて割付確率Pr(A=1|L)を精度良く予測すればいいという話ではない
重要なのは、傾向スコアが正しく機能するためには
1. どのLを条件づければバイアスがなくなるのかがわかっている(Conditional Exchangeabilityの成立条件をドメイン知識に基づき決める)
2. それらLのデータが(正しく)測定されている
の2条件が必須だということ。
また、以下のような記載もある
そもそも傾向スコアを推定するモデルに含めるべき変数はConditional Exchangeabilityを得るのに必要なL(+非colliderなアウトカムYの予測因子)*1のみ
Conditional Exchangeability とは、L (交絡因子のセット)が同じであれば、フェアな比較ができるだろうと仮定を置くということで、論理的に決めるということ
Collider とは、合流点とも訳され、2 つ以上の他の変数から因果的な影響を受けている場合に使われる用語
合流点(統計学)- Wikipedia
非 collider とは、そのような 2 つ以上の他の変数から因果的な影響は受けていないという意味になる
- 交絡因子候補を無限に投入すればよいということではない
- 研究分野の知識を基に論理的に決める
- 合流点ではないアウトカムの予測因子
また、以下の論文にも、アウトカムの予測因子の側面が記載されている
- アウトカムに関連する因子はすべて投入する
- 治療にだけ関連してアウトカムに関連しない因子は投入しない
Propensity score methods to control for confounding in observational cohort studies: a statistical primer and application to endoscopy research
Step1: Select Covariates 参照
論理的に決めないといけないというほかに、C 統計量(AUC)で決めるのは誤解とする記事がある
傾向スコアを使う前に知っておくべき事 TOP 5【重要】
モデル内で有意だから含める・有意でないから含めないとか、単変量解析で有意だから含める・有意でないから含めないなど、完全に検定に依存した決め方は、避けたほうがよい
C 統計量など予測性能も参考にしつつ、先行研究も参考に、論理(つまり理屈)も考えながら、交絡因子を決めるという進め方がよいようだ
まとめ
傾向スコア法は、
- サンプルサイズが小さめで、アウトカムがレアで共変量との相関が強く、曝露有り無しのバランスが大事で、仮説ベースの比較時に、線形回帰モデルより有利
- 交絡因子候補とするものは、予後因子は含め、曝露のみに関連している変数は含めず、検定に頼った変数選択はせず、研究分野の知識と理論をもとに決定する
というふうにまとめられる
何らか参考になれば
参考サイト
傾向スコアを使うとなぜいいのか
傾向(プロペンシティ)スコアの各使用法の仮定・解釈の違いを比較してみた – Unboundedly
傾向スコアを使うべき状況は決まっている
傾向スコアを使う前に知っておくべき事 TOP 5【重要】 – Riklog
コメント
コメント一覧 (1件)
[…] 傾向スコア法の利点と交絡因子の決め方 […]