重回帰分析は偏回帰係数を求めて予測式(回帰式)を作り、標準化偏回帰係数の計算、回帰式の有意性の分散分析、決定係数の算出、偏回帰係数の検定、など行うが、実際どんな計算をしているのか?
実際どんな計算をしているかわかると、偏回帰係数や標準化偏回帰係数の意味合い、検定の意味合いがよりよく理解できると思う。
重回帰分析の第一目標は重回帰式を推定することである
重回帰分析の中心的な目標は、重回帰式を推定することである。
重回帰式は、単に回帰式と呼ばれることもある。
単変量でも多変量でもあまり区別しないということだ。
重が付く場合は、多変量を意識している。
以降は、重回帰式を、単に回帰式と表現する。
回帰式は、切片と呼ばれる定数と、各説明変数に掛け合わせる偏回帰係数と呼ばれる係数から構成される。
切片を
回帰式で予測される目的変数を
また
標準化偏回帰係数を
SPSSでは、非標準化偏回帰係数を B、標準化偏回帰係数をベータと表示し分けている。
また、厳密には、モデルの記述で、母集団のパラメータを意味しているときはギリシャ文字、推定値はアルファベットのようにかき分けたりもする。
この記事ではそこまで厳密にはかき分けずに進めることにする。
重回帰分析の計算方法 偏回帰係数
回帰式のうち、
目的変数
上記で登場した予測された目的変数(予測値)
偏回帰係数
回帰式は、実測の目的変数
この「なるべく近い」というのが、実測値と予測値の差(これを残差と呼ぶ)
なるべく小さくするときには、合計して合計値が一番小さいなどとしたいわけだが、残差はプラスもマイナスもあって、「小さい」というのがわかりにくい。
全部がプラス(正)であると大きい小さいがわかりやすい。
そこで、差を2乗して、全部を正にしてしまってから、合計する。
こうすると残差を最小にする条件を見出すことができる。
これが最小2乗法と呼ばれている方法だ。
重回帰分析の計算方法 最小2乗法
まず残差を2乗して合計する。
イメージをつかむための式と割り切り、単純化のため、添え字は極力省略している。
予測値

この式を
2次式の1次微分が0となるときが最大値という意味である。

変数
それぞれ、式変形しておく。
ある変数、例えば
なぜなら、それが平均値の特徴だからである。
この平均値の特徴を利用した式変形である。
同様に


というふうに変形できる。
と書ける。
ここまで準備してから、上記で偏微分した3つの式を整理していく。

なので、

上記で計算した、変動・共変動を使って整理すると、
となる。
同様に、

となったあと、上記で計算しておいた変動・共変動を代入して整理すると、
となる。
これらの2つの式を連立方程式として解くことにより、偏回帰係数
より一般的な表記としては、行列で表現すると簡単になる。
行列を文字であらわすように変更する。
というふうに定義すると、以下のように書ける。
定数項
ここまでで、回帰式
重回帰分析の計算方法 標準化偏回帰係数
次に出てくる疑問として、
だが、偏回帰係数は、それぞれの連続データ
そこで、平均0分散1に標準化して、どの変数も平均とばらつきを同じにして揃えたら、比較できるだろうと考えるわけである。
これが標準化偏回帰係数である。
標準化偏回帰係数は、最初に説明変数及び目的変数を標準化して、計算することもできる。
一方で、偏回帰係数から計算で標準化偏回帰係数を求めることもできる。
ここで
以下のスクショは、偏回帰係数を計算したのちに標準化偏回帰係数を求めた age, WBC.entry と、標準化した(Z.age, Z.WBC.entry)後に重回帰分析を行って偏回帰係数を求めた結果が一致していることを示している。

重回帰分析の計算方法 回帰モデルの有意性検定
偏回帰係数の有意性が気になるところであるが、その前に、回帰モデル自体の統計学的有意性の検定を説明する。
最終的に F 分布に従う F 値を計算する点、そこに至る過程で、変動平方和、平均平方和を計算する点で、一元配置分散分析と同様の計算を行う。
そのために、回帰の分散分析と呼ばれる。
いままでは、あえて回帰式に誤差
ちなみに、誤差の推定値
つまり重回帰モデル(説明変数2つ版)は以下のように書ける。
予測値
つまり、
分散分析では、まず、この残差の平方和
次に、全体の変動要因として、平方和
これは、実測値
この全体の変動要因から、回帰で説明できた変動要因
例えば説明変数が2つの場合は以下のような計算になる。
回帰の平方和
ここで
そして最終的に
有意確率が計算されて、有意水準以下であれば、統計学的有意に回帰モデルが意味があると言える。
表にまとめると以下のようになる。
変動要因 | 平方和 | 自由度 | 平均平方 | F 値 |
---|---|---|---|---|
回帰 | ||||
残差 | ||||
全体 |
重回帰分析の計算方法 決定係数
回帰モデルの有意性を見たついでに、回帰モデルによる目的変数の説明の程度を表していて、当てはまりの指標でもある、決定係数の計算方法を見ておく。
決定係数は0から1の値を取り、1に近いほど回帰モデルが目的変数の変動を説明できていると理解して、モデルがデータに当てはまっていると評価する。
慣例として0.5以上が望ましいとされるが、研究分野によってはもっと低くてもよいとされることもある。
決定係数の目安については、こちらも参照。

決定係数
回帰の分散分析で計算した平方和を用いて計算されている。
説明変数の数を増やしていくと、決定係数はだんだんと1に近づく性質がある。
これだと追加した説明変数のために説明できる部分が増えたのか、単に説明変数が増えたから上昇したのかがわからない。
説明変数の数を増やしたときに、説明変数の数が増えたからだけではなく実質的に決定係数が上昇したことを示すのが、自由度調整済み決定係数
平方和を自由度で割り、平均平方にして計算する。
モデルの当てはまりや有用性を判断するには自由度調整済み決定係数を用いるほうが良い。
なお、決定係数は、寄与率と呼ばれることもある。
重回帰分析の計算方法 偏回帰係数の検定
さて、やはり一番気になるのは、偏回帰係数は統計学的に意味があるのだろうか?である。
偏回帰係数が母集団でゼロでないことが言えれば、意味があるだろう。
偏回帰係数が母集団でゼロかどうかの検定が、偏回帰係数の検定である。
もしゼロでないことが言えなければ、その偏回帰係数及びそれがかかっている変数は、あってもなくても意味がない。
母集団の偏回帰係数がゼロである帰無仮説が棄却されれば、偏回帰係数は統計学的に有意(ゼロではなく意味がある)と判断できる。
偏回帰係数の検定のためには偏回帰係数の標準誤差が必要である。
ここで、
例えば1番目の偏回帰係数であれば、逆行列
つまり、説明変数が2つの場合は、以下のように計算される。
そして、偏回帰係数と標準誤差の比の値が、自由度
回帰モデルの前提は誤差が正規分布していること
最後に、回帰モデルの前提について説明しておく。
ほかの記事でも、まとめたものがあるので、参考まで。

回帰モデルの前提で一番気になる点は、誤差項
説明変数が2つ版の回帰式、
の最後の
これは、上記の回帰の分散分析や、偏回帰係数の検定の際、検定統計量の分母に誤差(残差)の平均平方が来ていることからも理にかなっている。
F分布やt分布を使った検定は、母集団が正規分布であることを仮定しているという大前提がある。
F値の分子である回帰部分の平均平方やt値の分子である偏回帰係数は、回帰モデルから計算されている値で、これ自体はどんな分布をするかは不明であるが、少なくとも分母の残差の平均平方は正規分布していることが検定の条件であることは理解しやすい。
以上のことから、回帰モデルの誤差項(の推定値の残差)が正規分布していることは、回帰分析に関する検定が適切に実施される必要条件と言える。
まとめ
重回帰分析の計算方法について、順を追って確認してみた。
また、重回帰分析の前提は、誤差(残差)が正規分布していることであることについて付け加えた。
何らか参考になれば。
コメント