相関と回帰はどう違うか? 両方とも2つのデータの関係性を見ているわけで、とても似ている。相関と回帰の違いについて、まとめてみる。
相関と回帰の根本的な違いは?
相関は、相関係数が中心で、 データXとデータYの お互いの関係性を見る。 相関分析には、 Y = aX + b みたいな式は出て来ない。
回帰は、回帰式(Y = aX + b みたいな式)が中心で、 データXによるデータYの予測のための式を作るもの。 その式によって、新たなデータXからデータYを予測できる。
Y = aX + b の式のaとbを推定する。ただ、推定したaとbを使って、XからYを計算しても、 実際観測されたYとはずれる。 そのずれを残差と言う。
残差を小さくするようにしてaとbを求める。 この方法が最小二乗法。
相関には出てこない登場人物がたくさん出てくるのが、回帰の特徴だ。
相関と回帰の考え方の違いは?
相関は、XとYとが関係しているかもしれないとは考えているが、 どちらが原因でどちらが結果かを考えていない。
回帰は、Xが原因でYが結果であると想定して、話を進めているのが特徴。 必ずYを結果として考えて、想定する式が Y = aX + b だ。
相関と回帰の検定の違いは?
相関は、 母集団での相関係数(母相関係数) がゼロかどうかの検定を行う。 帰無仮説は母相関係数がゼロ。 統計学的有意になり、母相関係数がゼロではないとの結果であれば、標本の相関係数の大きさから、意味がある相関関係かどうかを見極める。
回帰は、回帰式 Y = aX + b の回帰係数 a、 つまり1次直線の傾きが ゼロかどうかの検定を行う。 仮説検定が統計学的に有意であれば、 回帰係数がゼロではないと結論できて、 回帰式に意味があると言える。 ただし、予測性能は別問題。 別途、チェックする必要がある。
相関係数と回帰係数の計算式の違いは?
相関係数は、XとYの共変動をXの変動とYの変動の平方根の積で割ったものである。
$$ \frac{\sum (X – \bar{X}) (Y – \bar{Y})}{\sqrt{\sum (X – \bar{X})^2} \sqrt{\sum (Y – \bar{Y})^2}} $$
$ \bar{X} $, $ \bar{Y} $ は、それぞれ X の平均、Y の平均である。
回帰係数は、XとYの共変動をXの変動で割ったものである。
$$ \frac{\sum (X – \bar{X}) (Y – \bar{Y})}{\sum(X – \bar{X})^2} $$
なので、値は当然異なる。
まとめ
根本的な違い:相関と回帰の違いは、 データ X と データ Y がお互い同じ程度の影響力(同様の役割)と考える相関か、 データXでデータYを予測すると考える回帰かの違い。
考え方の違い:原因と結果を意識しない相関か、 原因と結果を意識する回帰かの違い。
検定の違い:母相関係数がゼロかどうかの検定をするのが相関で、 回帰係数がゼロかどうかの検定をするのが回帰。
計算式の違い:相関係数と回帰係数は計算式が異なる。
コメント
コメント一覧 (1件)
[…] 相関と回帰の違いは何か? 相関と回帰はどう違うか? […]