統計的分析、特に「ある行動(処置)が、どのような結果(アウトカム)をもたらすか」を知りたい因果推論を行う際、どの変数をモデルに入れるか(=説明変数として統制するか)は非常に重要である。
間違った変数を選んでしまうと、せっかくの分析が台無しになってしまうこともある。
本記事では、統計的因果推論の文脈で説明変数をどのように選び、何を統制(コントロール)すべきか、その基本的な考え方をわかりやすく解説する。
説明変数の分類:分析における変数の役割
まず、分析で扱う変数を、その役割に応じて3つに分類する。
| 変数の種類 | 別名・役割 | 意味合い |
| 処理変数 | 処置変数、介入変数、原因 | 知りたい原因(例:新薬を投与したか、広告を見たか) |
| 結果変数 | アウトカム変数、応答変数 | 知りたい結果(例:病気が治ったか、商品の売上) |
| 共変量 | 統制変数、調整変数、交絡因子など | 処理変数と結果変数以外の、モデルに含める可能性のある変数 |
因果推論の目的は、「処理変数 $\rightarrow$ 結果変数」の関係を正しく推定することであり、そのために共変量を適切に扱う必要がある。
結果変数に関連するが処理変数に関連しない変数はどうするか
このような変数は、一般的にモデルに含めなくても、推定される因果効果(処理変数と結果変数の関係)のバイアスにはならない。
ただし、モデルに含めることで、残差(予測と実際の値の差)が小さくなり、モデルの精度が向上し、処理効果の推定の分散を減らすことができる。推定をより確実にするために、できれば含めるのが良いとされる。
- ✅ 含めることで推定の精度が向上する
結果変数に関連していて処理変数にも関連している交絡因子(Confounder)
これは統計的因果推論において最も注意が必要な変数である。交絡因子は、処理変数と結果変数の両方に関連しており、この変数を統制しないと、見かけ上の相関を因果関係だと誤って解釈してしまうバイアス(交絡バイアス)が生じる。
- 例えば、「コーヒーを飲む量」と「心臓病」の関係を調べたいとする。
- 「喫煙の有無」は、コーヒーを飲む人にも多く、心臓病の原因にもなる。
- このとき、「喫煙の有無」は交絡因子である。喫煙の有無を統制(モデルに含める)しないと、「コーヒーを飲むと心臓病になる」という誤った結論を導きかねない。
交絡因子は、必ずモデルに含めて統制しなければならない。
- ⚠️ 必ず含めて統制する必要がある(統制しないとバイアスが生じる)
処置変数には関連しているが結果変数には関連していない変数はどうするか
このような変数は、一般的にモデルに含める必要はない。含めても因果効果の推定のバイアスにはならないが、モデルの複雑さが増すだけで、特にメリットはない。
- ❌ 含める必要はない
しかし、モデルに含めても、偏りに悪影響はない。当該の変数が結果変数に影響するかどうかわからないならば、入れておくほうが安全と考えられる。
多重共線性が疑われる変数はどうするか
多重共線性とは、複数の説明変数(共変量)の間で強い相関がある状態を指す。
- 問題点: 多重共線性があると、個々の説明変数の係数(効果の大きさ)の推定が不安定になり、標準誤差が大きくなる(信頼性が低くなる)。
- 対策:
- 強く相関している変数の一方、あるいは両方をモデルから除外する。
- 相関する複数の変数を、何らかの合成変数(例:主成分分析で作成した因子)に置き換える。
ただし、多重共線性の影響は処理変数とその結果変数の関係(因果効果)の推定には直接影響しないことが多い。もし、交絡因子としての役割を果たすために必要な変数であれば、多重共線性を許容してでもモデルに含める必要がある。
- 💡 原則として取り除くか合成するが、交絡因子であれば含める必要性を優先する
処置群と統制群で回帰直線の傾きが異なると考えられる場合は交互作用項が必要
統制すべき共変量が、処理変数と結果変数の関係の強さを変える場合がある。
- 例えば、ある薬(処理変数)の効果(結果変数)は、患者の年齢(共変量)によって異なるかもしれない。若い人には効果が大きく、高齢者には効果が小さい、といった場合である。
- この場合、モデルに処理変数と共変量の「交互作用項」(処理変数 $\times$ 共変量)を含める必要がある。
交互作用項を含めることで、「処理変数の効果が、共変量のレベルによってどう変わるか」を推定できるようになる。
- ✨ 処理効果が共変量の値によって異なる場合は含める
まとめ:変数選択の基本方針
| 変数のパターン | 統制(モデルに含めること)の必要性 | 理由・効果 |
| 交絡因子 (処理・結果の両方に関連) | 必須 | 統制しないと因果効果の推定にバイアスが生じる |
| 結果変数にのみ関連 | 推奨 | 統制することでモデルの精度が向上する |
| 処理変数にのみ関連 | 不要 | 統制してもバイアスは生じないが、メリットも少ない |
統計的因果推論における説明変数の選択は、いかに交絡因子を見つけ出し、適切にモデルに含めるか(統制するか)が鍵となる。交絡因子を見落とすと、すべてが水の泡になりかねない。分析を行う際は、理論的な背景や先行研究を参考に、なぜその変数が交絡因子となり得るのかを常に考えるようにすべきである。




コメント