「あの薬を飲んだ者は、飲まなかった者より病気が治る割合が高い」――このような研究結果を聞いたとき、あなたは素直に「その薬が効いたのだ!」と信じるだろうか。
実は、データの世界では、二つの事象(例:薬の服用と病気の回復)の間に見かけ上の関連があるだけで、本当に原因と結果の関係にあるとは限らないことがよくある。この見かけ上の関連を生み出す邪魔な要因こそが、「交絡因子(こうらくいんし)」である。
本記事では、データ分析や研究結果を正しく理解するために不可欠な「交絡因子調整(こうらくいんしちょうせい)」について、具体的な例を交えながら初心者にもわかりやすく解説する。
目的と方法のざっくりとした説明
目的:真の関係性を見つける
交絡因子調整の目的は、知りたい二つの変数(原因と結果)の間に存在する「純粋な」関係性を明らかにすることにある。
例えば、「新しい学習法が試験の成績を上げるか?」を知りたいとき、この学習法を使っている者たちが元々、単に「熱心な学生」だっただけかもしれない。この「熱心さ」という要因の影響を取り除き、学習法そのものの効果だけを測るのが、交絡因子調整の役割である。
方法:影響を取り除くテクニック
交絡因子の影響を取り除く具体的な方法としては、主に以下の2つがよく使われる。
- 層別解析(そうべつかいせき): 交絡因子(例:年齢)ごとにグループを分けて(例:20代のグループ、60代のグループなど)分析し、それぞれのグループ内で結果を比較する方法。
- 統計モデルの利用: 回帰分析などの統計的手法を用い、知りたい関係性から交絡因子の影響を数学的に「差し引く」方法。
具体例:血圧降下薬と年齢
ここでは、血圧降下薬の効果を検証する例を用いて、交絡因子の影響と調整の重要性をみていく。
シナリオ設定
- 知りたい関係: 血圧降下薬 $\to$ 血圧の低下
- 関心のある薬: 新薬(A)と従来薬(B)
- 交絡因子: 年齢(一般に年齢が高いほど血圧が高い傾向がある)
ある研究で、新薬(A)を服用したグループと従来薬(B)を服用したグループの血圧低下効果を単純に比較した。
| グループ | 平均血圧低下幅 |
| 新薬(A) | 10 mmHg |
| 従来薬(B) | 15 mmHg |
この結果だけを見ると、「新薬(A)は従来薬(B)よりも効果が低い」ように見える。しかし、ここで交絡因子「年齢」を考慮する必要がある。
1. 交絡因子調整で見かけの関連が消える例
実は、新薬(A)は主に高齢者に、従来薬(B)は主に若年層に処方されていたとする。
- 高齢者は元々血圧が高い。
- 若年層は元々血圧が低い。
この場合、新薬(A)グループの血圧低下幅が小さいのは、薬が効かなかったのではなく、高齢で元々血圧が高い者が多かった(=血圧調整が難しい者が多かった)せいかもしれない。
そこで、「年齢」を交絡因子調整(例:年齢層ごとに区切って比較)したところ、以下の結果が得られた。
| 年齢層 | 新薬(A)の平均血圧低下幅 | 従来薬(B)の平均血圧低下幅 |
| 若年層 | 12 mmHg | 12 mmHg |
| 高齢層 | 8 mmHg | 8 mmHg |
結果:年齢の影響を取り除くと、新薬(A)と従来薬(B)の効果に差はないことがわかった。最初に見た「新薬の方が効果が低い」という見かけの関連は、「年齢」という交絡因子によって生み出されていたのだ。
注:イメージをつかんでもらうため n を省略し簡略化した結果例を示している。以下同様
2. 交絡因子調整で隠れた関連性が現れる例
では、逆のパターンを考えてみよう。
単純な比較では、新薬(A)と従来薬(B)の血圧低下幅がどちらも12 mmHgで差がないように見えたとする。
しかし、もし新薬(A)が若年層に、従来薬(B)が高齢層に多く処方されていたらどうなるだろうか。
- 若年層(新薬Aが多い)は元々血圧が低い。
- 高齢層(従来薬Bが多い)は元々血圧が高い。
この場合、新薬(A)が血圧の低い若年層に投与されているにも関わらず、従来薬(B)と同じだけの血圧低下効果を出していることは、実は新薬(A)が非常に優れている証拠かもしれない。
ここで年齢を交絡因子調整すると、以下の結果が得られた。
| 年齢層 | 新薬(A)の平均血圧低下幅 | 従来薬(B)の平均血圧低下幅 |
| 若年層 | 15 mmHg | 12 mmHg |
| 高齢層 | 10 mmHg | 12 mmHg |
結果:「年齢」という交絡因子の影響を取り除いたところ、実際には新薬(A)の方が従来薬(B)よりも優れた効果を持つことが隠れた関連性として明らかになった。
正確な説明:交絡因子の定義と条件
交絡因子調整の重要性が分かったところで、交絡因子の定義を正確に理解する。
交絡因子(Confounding Factor)とは、知りたい二つの変数(「原因候補」と「結果」)の両方と関連を持つ、第三の変数のことである。
ある変数が交絡因子と見なされるには、次の3つの条件をすべて満たす必要がある。
- 原因候補と関連している:その交絡因子が、私たちが効果を知りたい原因候補(例:薬の種類)の割り当てに影響を与えていること。
- 例:「年齢」が高いほど、ある特定の薬(例:従来薬)を飲む傾向がある。
- 結果と関連している:その交絡因子が、私たちが知りたい結果(例:血圧低下幅)と独立して関連していること(原因候補の影響ではない)。
- 例:「年齢」が高いほど、もともと血圧が高い(血圧低下幅が小さくなる傾向がある)。
- 原因候補の結果ではない:その交絡因子が、原因候補(例:薬の種類)によって引き起こされた結果ではないこと(媒介因子との区別)。
交絡因子調整とは、この3つの条件を満たす変数の影響を統計的に打ち消す(調整する)プロセスなのである。
まとめ
交絡因子調整は、データ分析において「それは本当にそのせいなのか?」という疑問に答えるための、最も基本的ながら強力な手法である。
- 交絡因子:知りたい原因と結果の両方に影響を与え、見かけ上の関連を生み出す邪魔な要因(第三の変数)。
- 交絡因子調整の役割:この邪魔な影響を取り除き、純粋な因果関係を正確に評価すること。
研究論文やニュース記事で「〜を調整した結果」という表現を見かけたら、それは分析者が交絡因子の影響を真剣に取り除こうとした証拠である。この知識があれば、あなたは提示されたデータや結論をより批判的かつ正確に読み解くことができるだろう。




コメント