相関とは何?どう解釈すればよいの?

複数の変数(データ)がある場合の解析手法として、回帰分析を紹介しました。

そして回帰分析と同様、複数の変数がある場合の解析手法として、この章では相関を紹介します。

まずは、相関係数に関する基礎知識。

そして、相関と回帰分析の違いについて解説。

最後に、相関を解釈するときのP値に関する注意点を記載します。

 

 

広告

相関係数とは?基礎的な知識

2つの変数間の相関を知るために用いる指標は、相関係数という値です。

相関係数は、以下のような4つの特徴を持っています。

 

  1. 単位がない
  2. -1から1までの実数である
  3. 1に近いときは、2つの確率変数には正の相関があるといい、-1に近ければ負の相関があるという。0に近いときには相関が弱い
  4. 直線関係の強さを表している。

3つ目の特徴を図で示すと、以下のようになります。

また、4つ目の特徴を図で説明すると、以下のようになります。

相関と回帰はどう違う?

相関係数の特徴はわかりました。

ですが、ここで1つ疑問が。

2つの変数の比例関係を見る点では、相関も回帰分析も変わらないように感じます

どう違うでしょうか?

あなたは答えられますか?

 

実は、かなりの違いがあります。

相関は、2つの変数がどれくらい散らばっているかを表している解析になります。

一方で回帰分析は、一方の変数から他方の変数を予測するために最も都合の良い直線を引いています

つまり、相関ではxとyが、どっちがどっちでもいいのです。

ピアソンの積率相関係数の数式を眺めてみます。

詳しいことは把握しなくても大丈夫です。

わかっていただきたいことはただ一つ。

この数式で、xとyを入れ替えたとしても、相関係数(r)の値は全く変わらないということです。

一方で回帰分析は、一方の変数(x)から他方の変数(y)を予測するために最も都合の良い直線を引いている、ということでした。

つまり、回帰分析ではちらがxでどちらがyか、ということがとても重要になってくるのです。

相関係数のP値はどんな意味があるか?

たまにこのような意見を聞くことがあります。

「検定で有意でなければ「相関が高い」とはいえない」

あなたはどう思いますか?

すごく正当なことを言っているように思えます。

ですが、ちゃんと把握してもらう必要があるのは、次のことです。

「相関係数が大きいことと、相関係数の検定が有意であることは、切り離して考える」

 

なぜか。

基本に立ち返って考えてみましょう。

検定をするからには、帰無仮説と対立仮説があるはずです。

相関係数の検定に関する帰無仮説と対立仮説は何であるか、分かりますか?

答えは、以下の通りです。

帰無仮説:相関係数=0

対立仮説:相関係数≠0

つまり、相関係数のP値が0.05を下回った時に言えることは、「相関係数が0ではなさそうだ」ということだけです。

「相関が高い」ということは言えません。

 

相関係数が0.1であっても、P<0.05の場合があります。

一方で、相関係数が0.8であっても、P>0.05の場合もあります。

 

この時、前者が「相関が高い」後者が「相関が低い」と言えるでしょうか?

言えないですよね。

なぜかというと、P値は相関係数の大乗だけでなく、データの数に依存するからです。

T検定などとも一緒ですよね。

T検定では、2群の差の大きさだけでなく、データの数にも依存してP値が変わります。

そのような背景があるため、相関係数が高いことと相関係数の検定が有意であることは、切り離して考える必要があります。

まとめ

複数の変数を解析する手法の一つが相関。

相関係数は、以下の4つの性質がある。

  1. 単位がない
  2. -1から1までの実数である
  3. 1に近いときは、2つの確率変数には正の相関があるといい、-1に近ければ負の相関があるという。0に近いときには相関が弱い
  4. 直線関係の強さを表している。

相関係数のP値と、相関の大きさは切り離して考える。

 

統計検定2級対策もできる

無料動画の統計授業

 

 

無料動画で統計を学びませんか?

 

・この数式、何を言っているのか全くわからない・・・ 

・統計を学びたいけど、何から手をつけていいのだろう・・・

・統計検定2級を受験したいけど、どう勉強したら・・・

・もう自力で統計を学ぶのに疲れました・・・

 

あなたはそんな悩みを抱えていませんか?

大丈夫です。

最後の手段があります。

どこにもない、統計の無料メルマガ。

 

最新情報をチェックしよう!