MENU

【無料プレゼント付き】学会発表・論文投稿に必要な統計を最短で学ぶことができる無料メルマガ

説明変数の選び方:統制すべき共変量に関するまとめ


統計的分析、特に「ある行動(処置)が、どのような結果(アウトカム)をもたらすか」を知りたい因果推論を行う際、どの変数をモデルに入れるか(=説明変数として統制するか)は非常に重要である。

間違った変数を選んでしまうと、せっかくの分析が台無しになってしまうこともある。

本記事では、統計的因果推論の文脈で説明変数をどのように選び、何を統制(コントロール)すべきか、その基本的な考え方をわかりやすく解説する。


>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

目次

説明変数の分類:分析における変数の役割

まず、分析で扱う変数を、その役割に応じて3つに分類する。

変数の種類別名・役割意味合い
処理変数処置変数、介入変数、原因知りたい原因(例:新薬を投与したか、広告を見たか)
結果変数アウトカム変数、応答変数知りたい結果(例:病気が治ったか、商品の売上)
共変量統制変数、調整変数、交絡因子など処理変数と結果変数以外の、モデルに含める可能性のある変数

因果推論の目的は、「処理変数 $\rightarrow$ 結果変数」の関係を正しく推定することであり、そのために共変量を適切に扱う必要がある。


結果変数に関連するが処理変数に関連しない変数はどうするか

このような変数は、一般的にモデルに含めなくても、推定される因果効果(処理変数と結果変数の関係)のバイアスにはならない

ただし、モデルに含めることで、残差(予測と実際の値の差)が小さくなり、モデルの精度が向上し、処理効果の推定の分散を減らすことができる。推定をより確実にするために、できれば含めるのが良いとされる。

  • 含めることで推定の精度が向上する

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

結果変数に関連していて処理変数にも関連している交絡因子(Confounder)

これは統計的因果推論において最も注意が必要な変数である。交絡因子は、処理変数と結果変数の両方に関連しており、この変数を統制しないと、見かけ上の相関を因果関係だと誤って解釈してしまうバイアス(交絡バイアス)が生じる。

  • 例えば、「コーヒーを飲む量」と「心臓病」の関係を調べたいとする。
  • 「喫煙の有無」は、コーヒーを飲む人にも多く、心臓病の原因にもなる。
  • このとき、「喫煙の有無」は交絡因子である。喫煙の有無を統制(モデルに含める)しないと、「コーヒーを飲むと心臓病になる」という誤った結論を導きかねない。

交絡因子は、必ずモデルに含めて統制しなければならない。

  • ⚠️ 必ず含めて統制する必要がある(統制しないとバイアスが生じる)

処置変数には関連しているが結果変数には関連していない変数はどうするか

このような変数は、一般的にモデルに含める必要はない。含めても因果効果の推定のバイアスにはならないが、モデルの複雑さが増すだけで、特にメリットはない。

  • 含める必要はない

しかし、モデルに含めても、偏りに悪影響はない。当該の変数が結果変数に影響するかどうかわからないならば、入れておくほうが安全と考えられる。


多重共線性が疑われる変数はどうするか

多重共線性とは、複数の説明変数(共変量)の間で強い相関がある状態を指す。

  • 問題点: 多重共線性があると、個々の説明変数の係数(効果の大きさ)の推定が不安定になり、標準誤差が大きくなる(信頼性が低くなる)。
  • 対策:
    1. 強く相関している変数の一方、あるいは両方をモデルから除外する。
    2. 相関する複数の変数を、何らかの合成変数(例:主成分分析で作成した因子)に置き換える。

ただし、多重共線性の影響は処理変数とその結果変数の関係(因果効果)の推定には直接影響しないことが多い。もし、交絡因子としての役割を果たすために必要な変数であれば、多重共線性を許容してでもモデルに含める必要がある。

  • 💡 原則として取り除くか合成するが、交絡因子であれば含める必要性を優先する

処置群と統制群で回帰直線の傾きが異なると考えられる場合は交互作用項が必要

統制すべき共変量が、処理変数結果変数の関係の強さを変える場合がある。

  • 例えば、ある薬(処理変数)の効果(結果変数)は、患者の年齢(共変量)によって異なるかもしれない。若い人には効果が大きく、高齢者には効果が小さい、といった場合である。
  • この場合、モデルに処理変数と共変量の「交互作用項」(処理変数 $\times$ 共変量)を含める必要がある。

交互作用項を含めることで、「処理変数の効果が、共変量のレベルによってどう変わるか」を推定できるようになる。

  • 処理効果が共変量の値によって異なる場合は含める

まとめ:変数選択の基本方針

変数のパターン統制(モデルに含めること)の必要性理由・効果
交絡因子 (処理・結果の両方に関連)必須統制しないと因果効果の推定にバイアスが生じる
結果変数にのみ関連推奨統制することでモデルの精度が向上する
処理変数にのみ関連不要統制してもバイアスは生じないが、メリットも少ない

統計的因果推論における説明変数の選択は、いかに交絡因子を見つけ出し、適切にモデルに含めるか(統制するか)が鍵となる。交絡因子を見落とすと、すべてが水の泡になりかねない。分析を行う際は、理論的な背景や先行研究を参考に、なぜその変数が交絡因子となり得るのかを常に考えるようにすべきである。


参考書籍

統計的因果推論の理論と実装

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

リサーチクエスチョン探し?データ分析?論文投稿?、、、で、もう悩まない!

第1章臨床研究ではなぜ統計が必要なのか?計画することの重要性
  • 推定ってどんなことをしているの?
  • 臨床研究を計画するってどういうこと?
  • どうにかして標本平均を母平均に近づけられないか?
第2章:研究目的をどれだけ明確にできるのかが重要
  • データさえあれば解析でどうにかなる、という考え方は間違い
  • 何を明らかにしたいのか? という研究目的が重要
  • 研究目的は4種類に分けられる
  • 統計専門家に相談する上でも研究目的とPICOを明確化しておく
第3章:p値で結果が左右される時代は終わりました
  • アメリカ統計協会(ASA)のp値に関する声明で指摘されていること
  • そうは言っても、本当に有意差がなくてもいいの…?
  • なぜ統計専門家はp値を重要視していないのか
  • 有意差がない時に「有意な傾向があった」といってもいい?
  • 統計を放置してしまうと非常にまずい
第4章:多くの人が統計を苦手にする理由
  • 残念ながら、セミナー受講だけで統計は使えません。
  • インプットだけで統計が使えない理由
  • どうやったら統計の判断力が鍛えられるか?
  • 統計は手段なので正解がないため、最適解を判断する力が必要
第5章:統計を使えるようになるために今日から何をすれば良いか?
  • 論文を読んで統計が使えるようになるための5ステップ
第6章:統計を学ぶために重要な環境
  • 統計の3つの力をバランスよく構築する環境

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

この記事を書いた人

統計 ER ブログ執筆者

元疫学研究者

コメント

コメントする

目次