線形回帰の種類をわかりやすく解説。
線形回帰とは?
線形回帰の線形の由来は、線形結合からきている。
線形結合とは、以下のような式で表されることを意味している。
$$ \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_n $$
ここで β は (偏) 回帰係数の推定値、X は変数である。
偏にカッコがついているのは、しばしば省略されるためで、単に回帰係数と聞いても、多変量解析の場合、偏回帰係数のことを言っていると思うとよい。
この線形結合の式は、推定値と変数とが掛け合わさって、足し合わさるという式だ。
この式が目的変数を予測する式になるというのが線形モデルで、その総称として回帰分析(広義)と通常呼ばれているものになる。
線形回帰の種類
線形回帰(広義の線形モデル)には、さまざまな派生形が存在する。
混乱をきたしていると思うので、ここで整理してみたい。
以下のように分類されると考えるとすっきりすると思う。
- 線形モデル(狭義)linear model
- 一般線形モデル general linear model
- (線形) 混合 (効果) モデル (linear) mixed (effect) model
- 一般化線形モデル generalized linear model
- 一般化線形混合モデル generalized linear mixed model
一つ一つ少し説明を加えたい。
一般と一般化があるのが、一番混乱していると思う。
線形モデル(狭義)
線形モデルという名称を狭義で使った場合、目的変数が連続データの単回帰モデルもしくは重回帰モデルを指している。
単回帰モデルは、説明変数が一つ、目的変数が一つの、回帰直線を求める話だ。
重回帰モデルは、説明変数が多数、目的変数が一つの、多変量回帰分析である。
一般線形モデル
これがあまりきちんと理解されていないため、一般化線形モデルと混同されていたり、一般化線形モデルを一般線形モデルと呼んでしまっていたりすると思う。
一般線形モデルは、分散分析、共分散分析、多変量分散分析、多変量共分散分析を言っている。
目的変数が1つの場合、つまり分散分析や共分散分析は、重回帰モデルと一致するため、重回帰モデルも一般線形モデルに含めることもある。
(線形) 混合 (効果) モデル
線形にカッコがついているのは、ほとんどの場合は省略されるからである。
また効果にカッコがついているのは、効果もついていたり、省略されたりするからだ。
なので、バリエーションは、以下のようになるが、すべて同じものだ。
- 混合モデル
- 線形混合モデル
- 混合効果モデル
- 線形混合効果モデル
これは、目的とすれば、反復測定連続データを重回帰モデルで扱うために考えられたモデルだ。
変量効果という効果を考えることで、対象者が複数回測定しているデータを扱うことができるようになる。
固定効果と呼ぶ線形モデル(狭義)の部分と、変量効果と呼ぶ反復測定の部分が混じっているので混合モデルと言われる。
一般化線形モデル
一般化線形モデルの代表例はロジスティック回帰モデルである。
線形モデル(狭義)は誤差項が正規分布に従うという規則があるが、その規則がない一般化した線形モデルという意味である。
目的変数が2値のロジスティック回帰モデルの誤差項は正規分布に従わないので、モデルの当てはまりの診断は、線形モデル(狭義)とは異なる方法で、実施される。
ポアソン分布に従うイベントを目的変数とした、ポアソン回帰モデルもこのグループである。
もちろん、誤差項が正規分布していてもよいので、一般化線形モデルに、重回帰モデルを含めて話すこともある。
こういう点がややこしいのだと思う。
一般化線形混合モデル
一般化線形モデル、例えばロジスティック回帰モデルに、反復測定データを使えるようにしたのが、一般化線形混合モデルとなる。
割合がエンドポイントで、複数回測定している場合は、このモデルを使うことになる。
まとめ
線形回帰モデル(広義)の中には、さまざまな派生形がある。
特に、一般と一般化が混乱・混同を来たし、線形を省略した混合という言葉が突然出てきたり、かたや線形混合と言ってみたりして、ややこしいことこの上ない。
わかりにくいのは仕方ないことなので、せめてそれらをまとめたサイトがあればと思い、まとめてみた。
コメント