データ分析をする際には、多重共線性というものを考慮しなければならないことがあります。
多重共線性を考慮しないと間違った分析結果が出てしまうという問題点があるからです。
しかし実際の現場では、多重共線性を考慮せずに間違った結果を出してしまっているケースが非常に多くみられます。
データ分析をするなら、多重共線性は必ず知っておいてほしい知識です。
でも、多重共線性とは一体何のことでしょうか?
VIFや相関係数といった共線性の基準についてご存知でしょうか?
この記事では多重共線性の問題点や、VIFと相関係数のどちらが基準として適切か、なるべくわかりやすく解説していきます。
多重共線性を学んで正しい分析ができるようになりましょう!
多重共線性とは?
まずは多重共線性の正しい意味をみてみましょう。
重回帰分析において、いくつかの説明変数間で線形関係(一次従属)が認められる場合、共線性があるといい、共線性が複数認められる場合は多重共線性があると言う。
※統計WEBより引用
「説明変数?線形関係?何のこっちゃ?」となりますよね。
安心してください!
かなり噛み砕いて説明していきますね!
共線性とは、説明変数のある変数とある変数がお互いに強く相関しすぎている状態です。
例えば”座高”と”身長”のような場合です。
座高が高ければ身長もたいてい高くなりますよね?
この場合、”座高”と”身長”に共線性を認めています。
この共線性が多変量解析で複数起きている状態を、多重共線性が生じている状態と表現します。
複数の変数を扱う解析の場合、共線性が単発で生じることはほとんどなく、たいてい多重共線性が生じてきます。
そのため多変量解析を行うときは、多重共線性を考慮した上で分析を行います。
多重共線性とは、「説明変数同士で相関があること」と覚えておきましょう。
多重共線性の問題点は?
多重共線性の問題点は、目的変数と有意に影響を与える変数を見逃してしまうことです。
統計用語を使うとβエラー(第二種の過誤)が起きやすくなるということです。
ここからはもう少し簡単にしていきましょう。
なぜそうなってしまうのか、例を使って説明していきますね。
多重共線性の問題を例でわかりやすく!
“脚の速さ”を決める因子を見つけるために、多変量解析をするとしましょう。
そして、説明変数の中に”身長”と”座高”が含まれているとします。
先ほどご説明した通り、”身長”と”座高”はお互いに強く相関しますので、共線性の問題を認めます。
“身長”は”脚の速さ”を決める因子に含まれそうな気がしますが、”座高”は”脚の速さ”に直接は関連しない因子ですよね。
ですが”身長”と相関する”座高”は”脚の速さ”と偽相関してしまいます。
そのため分析の仮定で、どちらが”脚の速さ”を決める因子なのかわからなくなって計算式に不具合が出てきてしまいます。
「”脚の速さ”と”身長”も”座高”もどっちも関係しそうだぞ?でも”身長”と”座高”も無関係じゃなさそうだ。よく分からないからどちらも誤差を大きくして結果を出しておこう!」
という判断を(勝手に統計ソフトが)下してしまい、不当に大きな標準誤差が出力される結果になります。
誤差が大きくなればなるほど、有意な関係は得られにくくなるため、誤差を異常に大きくされた”身長”と”座高”はどちらも”脚の速さ”に関係しないとされてしまうことに。
要するに多重共線性の問題点は、”共線性を認める説明変数の標準誤差が異常に大きくなってしまうため、有意な関係が得られなくなってしまう”ことです。
今の説明で納得できなかった人のために、もう少し突っ込んだ話をしましょう。
本来、重回帰分析やロジスティック回帰分析のような多変量解析は、説明変数同士が相関しないことを仮定した上で行う分析。
ですので、そもそも多重共線性を認める場合は、多変量解析を使ってはダメで、正しい結果が出なくて当然なんです。
多変量解析を行う際は、必ず多重共線性の確認をするようにしましょう。
多重共線性があるか判断する基準は?
ここまで読んでいただければ、多重共線性がいかに問題かご理解いただけたかと思います。
次の問題は、”多重共線性があるかないか、どう判断すればいいのか?”ですよね。
結論から言えば、多重共線性の判断はVIF(分散拡大係数)をみるのが手っ取り早いです。
VIFについての詳細は難しい話になるので省略しますが、多重共線性を判定するために算出するものだと覚えておいて問題ないです。
SPSSなどの統計ソフトであれば簡単に出せますのでご安心ください。
VIFがいくつなら多重共線性の問題があるの?
実は、多重共線性を判断するVIFの正確な基準値は決まっていません。
ただよく言われる基準は、”10″です。
VIFが10を超えると多重共線性を認めていると言えるわけです。
ただVIFが10というのは、かなり甘めの基準ではあります。
先ほどご説明した通り、本来多変量解析は説明変数同士が全く相関していない状態であることを仮定しています。
そう考えると、VIFが3を超えた時点ですでに結果は多少歪み始めていると考えていいでしょう。
VIFがいくつまで許容するかは統計家の中でも意見が分かれますが、個人的な意見としては最低でもVIFが5以下に収まるようにしておいた方が無難かと思います。
イメージとしてはVIFが3で「ちょっとまずい」、5で「まあまあまずい」、10で「かなりまずい」でいいかなと。
多重共線性の基準はVIFが最も適しており、VIFが高ければ高いほど多重共線性を強く認めることだけは覚えておきましょう。
ちなみに多重共線性を認めた場合の対処法ですが、共線性の関係にある変数のどちらか(または複数)を削除してしまうことです。
どちらを残し、どちらを削除するかは臨床的な意義を考えて実施するのがいいですね。
VIFか相関係数か?多重共線性の判定に適した基準は?
ここまでの説明を聞いて、勘のいい方なら「VIFなんか使わずに相関係数じゃだめなのか?」と感じるかもしれません。
結論から言いますと、多重共線性の判定に相関係数だけでは不適切。
なぜなら相関係数は2変数間の関係だけしか見ていないからです。
実は、「2変数間ではそんなに相関しないけど、3変数間だとお互い相関しあっている」なんて場合があります。
多変量解析の分析なら、多変量の相関で考えるべきなので、2変数間の関係しかみれない相関係数だと、不十分なのです。
それに対してVIFは全ての変数を使って計算していますので、多変数間の相関も考慮してくれます。
「相関係数で見たときは問題なかったけど、VIFで見ると問題だった」というケースはあります。
よほどの事情がなければ、多重共線性の判定にはVIFを使うほうが無難ですね。
ただし多重共線性の問題は、相関係数がかなり高い値じゃないと生じないのも事実。
目安としては、0.7とかそれ以上の相関係数の場合に考えなければならないことです。
そして今までの経験上、医学系のデータで0.7以上の相関を持つ変数ってなかなかないんですよね。。
0.3ぐらいあれば「お、関連があるかも」と考え出すレベルなので。
なので、0.4以下の相関係数であればVIFを確認せずとも多重共線性の問題はないとして解析を進めていいのではと、個人的には思います。
まとめ
最後におさらいをしましょう。
- 多重共線性とは説明変数同士に相関がみられること
- 多重共線性があると、間違った分析結果になる(βエラーの増加)
- 多重共線性の判定には相関係数ではなくVIFを用いる
- VIFの基準は一般的には10だが、5以下が理想
いかがでしょうか?
多重共線性は分析結果にかなり影響するため、多変量解析を行うなら必須の知識です。
ですが、多重共線性を知らずに多変量解析を使っている方も多くいます。
間違った解析をしないためにも、是非多重共線性について覚えていただければ幸いです。
コメント
コメント一覧 (3件)
[…] 主成分分析によって得られた主成分は互いに独立なので、縮小された変数を用いた回帰分析では、多重共線性を気にしなくて済む、というメリットもあります。 […]
途中から説明変数を目的変数と誤って記載しているような気がします。
ご指摘ありがとうございます!
修正させていただきました^^