MENU

【無料プレゼント付き】学会発表・論文投稿に必要な統計を最短で学ぶことができる無料メルマガ

傾向スコア法の利点と交絡因子の決め方

傾向スコア法は、交絡因子調整という点では、線形の多変量解析、例えば重回帰分析やロジスティック回帰分析と同様である

しかし、線形回帰モデルとは異なる利点が存在する

どんなときに傾向スコア法を用いるのが良いのか

>>もう統計で悩むのを終わりにしませんか?


↑1万人以上の医療従事者が購読中

目次

傾向スコア法と多変量解析の比較

傾向スコア法が多変量解析より優れている状況については、以下の記事がとても勉強になる

傾向(プロペンシティ)スコアの各使用法の仮定・解釈の違いを比較してみた – Unboundedly

出典:
傾向スコアと普通の(アウトカム)回帰モデルの比較

4 つのポイント

ポイント多変量解析傾向スコア
モデルの仮定の違いアウトカムと共変量の関係性曝露と共変量の関係性(共変量のバランスを評価することができる)
p-hacking 予防都合よい有意差が出るまでモデルをこねくり回せるバランスが取れた時点でモデルの設定が終了
positivity チェック曝露ありのみ、曝露なしのみの層を調べない曝露ありなしのバランスを確認する
レアな二値アウトカムアウトカムがレアな場合はバイアスが大きくなるアウトカムがレアでもバイアスはほぼ均一

以上をまとめると、

  • 曝露と共変量の関係性が強いとき
  • 探索的な比較より仮説ベースの比較にしたいとき
  • 曝露あり・なしのバランスがより重要なとき
  • アウトカムがレアなとき

これらのときに傾向スコア法は、多変量解析よりも利点があると言える

サンプルサイズが小さい場合

また、サンプルサイズが小さいときは、傾向スコア法のほうが利点があるとの記述もある

説明変数一つに対して、8 例以上のイベントがある場合は、ロジスティック回帰のほうがよい。7 例以下の場合は、傾向スコア法(5 分割法)のほうがよい

Comparison of Logistic Regression versus Propensity Score When the Number of Events Is Low and There Are Multiple Confounders | American Journal of Epidemiology | Oxford Academic

傾向スコアを作成する際の交絡因子の選び方

では、次に傾向スコアを作成する際に、交絡因子はどのように選んだらよいだろうか

再度、傾向(プロペンシティ)スコアの各使用法の仮定・解釈の違いを比較してみた – Unboundedly から引用する

とにかくなんでもAに関連するものをモデルにいれて割付確率Pr(A=1|L)を精度良く予測すればいいという話ではない

重要なのは、傾向スコアが正しく機能するためには
1. どのLを条件づければバイアスがなくなるのかがわかっている(Conditional Exchangeabilityの成立条件をドメイン知識に基づき決める)
2. それらLのデータが(正しく)測定されている
の2条件が必須だということ。

また、以下のような記載もある

そもそも傾向スコアを推定するモデルに含めるべき変数はConditional Exchangeabilityを得るのに必要なL(+非colliderなアウトカムYの予測因子)*1のみ

Conditional Exchangeability とは、L (交絡因子のセット)が同じであれば、フェアな比較ができるだろうと仮定を置くということで、論理的に決めるということ

    Collider とは、合流点とも訳され、2 つ以上の他の変数から因果的な影響を受けている場合に使われる用語
    合流点(統計学)- Wikipedia

    非 collider とは、そのような 2 つ以上の他の変数から因果的な影響は受けていないという意味になる

    • 交絡因子候補を無限に投入すればよいということではない
    • 研究分野の知識を基に論理的に決める
    • 合流点ではないアウトカムの予測因子

    また、以下の論文にも、アウトカムの予測因子の側面が記載されている

    • アウトカムに関連する因子はすべて投入する
    • 治療にだけ関連してアウトカムに関連しない因子は投入しない

    Propensity score methods to control for confounding in observational cohort studies: a statistical primer and application to endoscopy research
    Step1: Select Covariates 参照

    論理的に決めないといけないというほかに、C 統計量(AUC)で決めるのは誤解とする記事がある
    傾向スコアを使う前に知っておくべき事 TOP 5【重要】

    モデル内で有意だから含める・有意でないから含めないとか、単変量解析で有意だから含める・有意でないから含めないなど、完全に検定に依存した決め方は、避けたほうがよい

    C 統計量など予測性能も参考にしつつ、先行研究も参考に、論理(つまり理屈)も考えながら、交絡因子を決めるという進め方がよいようだ

    >>もう統計で悩むのを終わりにしませんか?


    ↑1万人以上の医療従事者が購読中

    まとめ

    傾向スコア法は、

    • サンプルサイズが小さめで、アウトカムがレアで共変量との相関が強く、曝露有り無しのバランスが大事で、仮説ベースの比較時に、線形回帰モデルより有利
    • 交絡因子候補とするものは、予後因子は含め、曝露のみに関連している変数は含めず、検定に頼った変数選択はせず、研究分野の知識と理論をもとに決定する

    というふうにまとめられる

    何らか参考になれば

    参考サイト

    傾向スコアを使うとなぜいいのか
    傾向(プロペンシティ)スコアの各使用法の仮定・解釈の違いを比較してみた – Unboundedly

    傾向スコアを使うべき状況は決まっている
    傾向スコアを使う前に知っておくべき事 TOP 5【重要】 – Riklog

    傾向スコア法の基本
    傾向スコアマッチング法(プロペンシティスコア)をわかりやすく解説!|いちばんやさしい、医療統計

    Comparison of Logistic Regression versus Propensity Score When the Number of Events Is Low and There Are Multiple Confounders | American Journal of Epidemiology | Oxford Academic

    Propensity score methods to control for confounding in observational cohort studies: a statistical primer and application to endoscopy research

    よかったらシェアしてね!
    • URLをコピーしました!
    • URLをコピーしました!

    この記事を書いた人

    統計 ER ブログ執筆者

    元疫学研究者

    統計解析が趣味

    コメント

    コメントする

    目次