相関と回帰の違いは何か？

2018年8月30日2024年10月13日

相関と回帰はどう違うか？両方とも2つのデータの関係性を見ているわけで、とても似ている。相関と回帰の違いについて、まとめてみる。

＞＞もう統計で悩むのは終わりにしませんか？

↑1万人以上の医療従事者が購読中

相関と回帰の根本的な違いは？

相関は、相関係数が中心で、データXとデータYのお互いの関係性を見る。相関分析には、 Y = aX + b みたいな式は出て来ない。

回帰は、回帰式（Y = aX + b みたいな式）が中心で、データXによるデータYの予測のための式を作るもの。その式によって、新たなデータXからデータYを予測できる。

Y = aX + b の式のaとbを推定する。ただ、推定したaとbを使って、XからYを計算しても、実際観測されたYとはずれる。そのずれを残差と言う。

残差を小さくするようにしてaとbを求める。この方法が最小二乗法。

相関には出てこない登場人物がたくさん出てくるのが、回帰の特徴だ。

相関と回帰の考え方の違いは？

相関は、XとYとが関係しているかもしれないとは考えているが、どちらが原因でどちらが結果かを考えていない。

回帰は、Xが原因でYが結果であると想定して、話を進めているのが特徴。必ずYを結果として考えて、想定する式が Y = aX + b だ。

＞＞もう統計で悩むのは終わりにしませんか？

↑1万人以上の医療従事者が購読中

相関と回帰の検定の違いは？

相関は、母集団での相関係数(母相関係数) がゼロかどうかの検定を行う。帰無仮説は母相関係数がゼロ。統計学的有意になり、母相関係数がゼロではないとの結果であれば、標本の相関係数の大きさから、意味がある相関関係かどうかを見極める。

回帰は、回帰式 Y = aX + b の回帰係数 a、つまり1次直線の傾きがゼロかどうかの検定を行う。仮説検定が統計学的に有意であれば、回帰係数がゼロではないと結論できて、回帰式に意味があると言える。ただし、予測性能は別問題。別途、チェックする必要がある。

相関係数と回帰係数の計算式の違いは？

相関係数は、ＸとＹの共変動をＸの変動とＹの変動の平方根の積で割ったものである。

$$ \frac{\sum (X – \bar{X}) (Y – \bar{Y})}{\sqrt{\sum (X – \bar{X})^2} \sqrt{\sum (Y – \bar{Y})^2}} $$

$ \bar{X} $, $ \bar{Y} $ は、それぞれ X の平均、Y の平均である。

回帰係数は、XとYの共変動をXの変動で割ったものである。

$$ \frac{\sum (X – \bar{X}) (Y – \bar{Y})}{\sum(X – \bar{X})^2} $$

なので、値は当然異なる。

まとめ

根本的な違い：相関と回帰の違いは、データ X とデータ Y がお互い同じ程度の影響力（同様の役割）と考える相関か、データXでデータYを予測すると考える回帰かの違い。

考え方の違い：原因と結果を意識しない相関か、原因と結果を意識する回帰かの違い。

検定の違い：母相関係数がゼロかどうかの検定をするのが相関で、回帰係数がゼロかどうかの検定をするのが回帰。

計算式の違い：相関係数と回帰係数は計算式が異なる。