回帰分析の用語と解釈を徹底解説!

2種類のデータがあった時。

例えば、体重と身長のデータがあった時。

あなたは、どんな解析をしますか?

どんな解析をしたとしても、特に正解や不正解があるわけではありません。

私がやるとしたら、こんな解析をしてみます。

 

各データで要約統計量を計算してみる

各データでヒストグラムを作り、可視化してみる

X軸に身長、Y軸に体重を示した、散布図を書いてみる。

回帰分析や、相関を算出してみる

 

最初にやっぱりそれぞれのデータがどうなっているか確認しますね。

そして、より複雑な解析に移動していく。

このページでは、私の中で最後に実施する、回帰分析の話をします。

 

 

広告

回帰分析とは、何をやっているの?

回帰分析ってよく聞くけど、何をやっているのかわからない。。

あなたもそんな1人かもしれません。

中学校で必ず学ぶこの方程式。

Y=ax+b

懐かしいなーと思う方が多いと思います。

中学校では、こんな問題が出ますよね。

「(2,8),(4,14)の2点を通る直線y=ax+bのaとbを求めよ」

この時に、連立方程式を解いて、a=3, b=2という答えを導き出しました。

回帰分析でやっていることは、これと同じです。

まずは、回帰分析の式を見てみます。

式は、以下の通りです。

Y=ax+b+誤差

中学校で習った方程式と一緒じゃないですか?

唯一違うのが、最後に「誤差」がある点。

 

最後の誤差は何者?

回帰分析で特徴的な最後の誤差。

これがあることで、一気に難しくなった感じがしますよね。

でも、何のことはないです。

 

統計の基礎を思い出してください。

データはばらつきます

このばらつきを、最後の誤差で表現しているにすぎません。

例えば、身長が170センチの男性。

同じ170センチでも、体重は50kgの人がいたり、100kgの人がいたりしますよね。

つまり、以下のような方程式を作った場合。

Y(体重)=ax(身長)+b+誤差

Xに170を入れたとしても、Yが50だったり100だったりします。

 

つまり、aとbが決まったとしても、170センチの身長の人が全員同じ体重になりませんよね。

統計用語で言えば、バラつきがあるということ。

そのバラつきを、最後の「誤差」で表現しているのです。

全てのデータが一直線上に乗るようなデータであれば誤差は0なので、中学校で習った方程式と一緒になります。

でも、現実世界のデータでそのような一直線になる関係は絶対にありえないのです。

そのため、最後に「誤差」があるのです。

どうやってaとbを決めるか?

全てのデータが完全に直線上に乗るのであれば、aとbはすぐに決まりました。

でも、バラついたデータでは、aとbは簡単には決められないのです。

なぜなら、データに対して様々な直線を引く選択肢が出てくるからです。

この無数の選択肢がありそうな直線の中から、「良い」直線を選ぶ方法が必要になります。

あなたならどういった直線が「良い」直線と思うでしょうか?

統計の世界では、「良い」直線を決めるための方法の1つに最小二乗法という方法を採用しています。

もしかしたら、聞いたことがあるかもしれませんね。

最小二乗法は何をやっているのかというと、以下の3つです。

 

  1. 直線とデータの差を二乗する。
  2. データの数だけ1番目を足し合わせる
  3. 2番目が一番小さくなるaとbを選ぶ。

専門用語を使って、この1-3を表現すると以下のようになります。

 

  1. 偏差を二乗する。
  2. 偏差平方和を算出する
  3. 偏差平方和が一番小さくなるaとbを選ぶ。

最も小さい偏差平方(二乗)和を求めるので、最小二乗法と言います。

用語の整理

今後の説明がスムーズになるように、用語を整理しておきます。

Y=ax+b+誤差
    Y:応答変数
    X:説明変数 
    A:係数
    B:切片
    誤差:誤差項

これだけ覚えておけば、他の教科書を見てもスムーズに理解できると思います。

 

単回帰分析と重回帰分析の違いは?

ちなみに、説明変数が一つの場合に「単回帰分析」と言います。

説明変数が2つ以上の場合に「重回帰分析」と言います。

Y(体重)=a*x(身長)+b+誤差

は単回帰分析。

Y(体重)=a*x1(身長)+c*x2(年齢)+b+誤差

は重回帰分析です。