相関と回帰分析

回帰分析とは?例題でp値の意味も簡単にわかりやすく!

「回帰分析」という解析手法を知っていますか?

回帰分析とは、2群のデータ(2種類のデータ)を解析する時に用いる手法ですね。

「回帰分析」という名前で、「難しそう」と思ってしまいますが、実は簡単なんです!

どれぐらい簡単かというと、中学校で学んだ「y=ax+b」が分かれば、理解できます

ということで、この記事では回帰分析について例題を用いながらわかりやすく簡単に解説します!

 

2種類以上のデータがあった時にやる解析

2種類以上のデータがあった時。

あなたはどんな解析をしますか?

例えば、体重と身長のデータがあった時。

 

どんな解析をしたとしても、特に正解や不正解があるわけではありません。

私がやるとしたら、こんな解析をしてみます。

 

各データで要約統計量を計算してみる
   ↓
各データでヒストグラム箱ひげ図を作り、可視化してみる
   ↓
X軸に身長、Y軸に体重を示した、散布図を書いてみる。
   ↓
回帰分析や、相関を算出してみる

 

最初にやっぱりそれぞれのデータがどうなっているか確認しますね。

そして、より複雑な解析に移動していく。

このページでは、私の中で最後に実施する、回帰分析の話をします。

 

回帰分析とは何をやっているか例を用いて

回帰分析ってよく聞くけど、何をやっているのかわからない。。

あなたもそんな1人かもしれません。

中学校で必ず学ぶこの方程式。

 

Y=ax+b

懐かしいなーと思う方が多いと思います。

中学校では、こんな問題が出ますよね。

「(2,8),(4,14)の2点を通る直線y=ax+bのaとbを求めよ」

この時に、連立方程式を解いて、a=3, b=2という答えを導き出しました

 

回帰分析でやっていることは、これと同じです。

まずは、回帰分析の式を見てみます。

式は、以下の通りです。

Y=ax+b+誤差

中学校で習った方程式と一緒じゃないですか?

唯一違うのが、最後に「誤差」がある点

 

最後の誤差は何者?

回帰分析で特徴的な最後の誤差。

これがあることで、一気に難しくなった感じがしますよね。

でも、何のことはないです。

 

統計の基礎を思い出してください。

データはばらつきます

このばらつきを、最後の誤差で表現しているにすぎません

 

例を用いて概要を理解してみる

例えば、身長が170センチの男性。

この男性の体重を知りたいとします。

でも、同じ170センチだったとしても、体重は50kgの人がいたり、100kgの人がいたりしますよね

つまり、以下のような方程式を作った場合。

Y(体重)=ax(身長)+b+誤差

Xに170を入れたとしても、Yが50だったり100だったりします

 

つまり、aとbが決まったとしても、170センチの身長の人が全員同じ体重になりませんよね。

統計用語で言えば、バラつきがあるということ。

そのバラつきを、最後の「誤差」で表現しているのです。

全てのデータが一直線上に乗るようなデータであれば誤差は0なので、中学校で習った方程式と一緒になります。

でも、現実世界のデータでそのような一直線になる関係は絶対にありえないのです

そのため、最後に「誤差」があるのです。

 

どうやってaとbを決めるか?

全てのデータが完全に直線上に乗るのであれば、aとbはすぐに決まりました。

でも、バラついたデータでは、aとbは簡単には決められないのです。

なぜなら、データに対して様々な直線を引く選択肢が出てくるからです。


この無数の選択肢がありそうな直線の中から、「良い」直線を選ぶ方法が必要になります

あなたならどういった直線が「良い」直線と思うでしょうか?

統計の世界では、「良い」直線を決めるための方法の1つに最小二乗法という方法を採用しています

もしかしたら、聞いたことがあるかもしれませんね。

最小二乗法は何をやっているのかというと、以下の3つです。

 

  1. 直線とデータの差を二乗する。
  2. データの数だけ1番目を足し合わせる
  3. 2番目が一番小さくなるaとbを選ぶ。

 

専門用語を使って、この1-3を表現すると以下のようになります。

 

  1. 偏差を二乗する。
  2. 偏差平方和を算出する
  3. 偏差平方和が一番小さくなるaとbを選ぶ。

 

最も小さい偏差平方(二乗)和を求めるので、最小二乗法と言います。

 

 

用語の整理

今後の説明がスムーズになるように、用語を整理しておきます。

 

Y=ax+b+誤差

Y:応答変数

X:説明変数

A:係数

B:切片

誤差:誤差項

 

これだけ覚えておけば、他の教科書を見てもスムーズに理解できると思います。

 

単回帰分析と重回帰分析の違いは?

ちなみに、説明変数が一つの場合に「単回帰分析」と言います。

説明変数が2つ以上の場合に「重回帰分析」と言います。

Y(体重)=a*x(身長)+b+誤差

は単回帰分析。

Y(体重)=a*x1(身長)+c*x2(年齢)+b+誤差

は重回帰分析です。

 

解析結果の例からp値の意味を理解する

理論的なことはこれだけなのですが、実際の解析結果の例を見ながら、さらに理解していきましょう。

回帰分析ではp値が出てきますが、その意味は?というのも解説します。

 

例えば、統計検定2級の2018年6月の問題から


このような出力結果があった時の、結果の解釈を理解してみましょう。

 

回帰式を思い浮かべる

このような出力結果が出てきた時に、真っ先に以下のような回帰式を思い浮かべてください。

 

 

回帰式の定義をもう一度復習しておきます。

Y=ax+b+誤差

これに、当てはめただけなので、そんなに難しいことはないはずです。

 

p値の解釈は?

この出力結果にp値が出ていますよね。

悩ましいのが、この解釈かなと思います。

 

p値が出てきた時、当然、何かの統計学的な検定をしているはずです。

検定が出てきたら気にすべきこと。

ありましたよね。

そうです、帰無仮説と対立仮説を確認することです。

回帰分析での帰無仮説と対立仮説もあるんです。

 

帰無仮説:回帰係数=0

対立仮説:回帰係数≠0

 

これが帰無仮説と対立仮説です。

で、p値が0.05を下回ったら有意差がある。

つまり、解釈としてはこうなります。

 

回帰係数のp値が0.05を下回った場合、有意差がある。

つまり、その回帰係数が0であるという帰無仮説を棄却する。

 

これがp値が0.05を下回った場合の解釈です。

 

回帰係数が0である、ってどういうこと?

p値が0.05を下回れば、回帰係数が0ではない、ということが言えました。

重要なのが、その意味です。

意味を解釈するには、まずは回帰係数が0である、ということを理解する必要があります

回帰係数が0って、どう意味かわかりますか?

 

回帰係数が0の場合、その変数(Xの値)がどのような値を取ろうとも、Yには全く影響を与えませんよね。

例えば、「体重=0×身長+50+誤差」という式があった時。

変数である「身長」の回帰係数が0です。

この時、身長が150センチだろうが、200センチだろうが、体重は変わりません。

だって、回帰係数が0だから。

体重(Y)に対して、身長(X)が全く影響を与えない

 

ここが重要なのです。

長々と書いてしまったので、簡潔にまとめます。

 

回帰係数が0の場合、その変数(X)は応答変数(Y)に影響の与えない因子である。

逆に、回帰係数が0ではない時には、その変数(X)は応答変数(Y)に影響の与える因子である。

 

この解釈を、ぜひ理解してください。

 

 

回帰分析から、共分散分析へ

回帰分析を学ぶことで、XとYの関係を知ることができます。

また、p値の解釈ができると、その結果の見方がかなり変わります。

ぜひ、なんども読んで理解してみてくださいね。

 

そして、回帰分析を理解することは、共分散分析を理解することにつながります。

医薬統計をやっていると、共分散分析は絶対に避けては通れないので、ぜひその意味でも回帰分析をちゃんと理解しましょう。

 

まとめ

回帰分析とは、中学校で学んだ「Y=ax+b」という式と同じ。

上記の式に誤差を含んだもの。

aとbを求めるために、最小二乗法という方法を用いている。

回帰分析を学ぶことで、共分散分析を理解することができる。

論文化に必要な統計に絞った地図あります

 

  • パソコンに向かってもなぜか筆が進まない…
  • 学会発表は結構たくさんしているのに、なぜ論文が出ないのだろう…
  • こんなに忙しいのに、いつ論文を書いたらいいのか…
  • 一度は書いたはずの論文がお蔵入りに…どうすればいいの…
  • データはあるのになぜ論文化まで持っていけないんだろう…
  • このデータ、どうやって解析すればいいんだろう…

 

その悩みこの無料メルマガで全て解決するかもしれません

 

↓今すぐ無料で論文化までの最短距離を歩く↓

↑無料で論文化に必要な統計を最短で学ぶ↑