回帰分析は、変数間の関係性を明らかにする強力な統計ツールだ。その結果を解釈する際、$t$ 値や $F$ 値といった統計量を目にすることが多いだろう。特に、単回帰分析においては、回帰係数の $t$ 値の2乗が、回帰モデル全体の有意性を検定する $F$ 値と常に一致するという興味深い性質がある。
これは偶然ではない。実は、数学的にこの2つの値は等しくなることが証明できる。今回は、その証明を数式を交えながら分かりやすく解説し、この統計的性質の奥深さを探っていく。
なぜこの関係が重要なのか?
この関係を理解することは、単回帰分析において以下の点で役立つ。
- 解釈の統一性: 個々の説明変数の有意性($t$ 検定)とモデル全体の有意性($F$ 検定)が、単回帰では同じ情報を伝えていることを理解できる。
- 統計的基礎の理解: 統計検定の背後にある数学的なつながりを深めることができる。
- 多変量への発展: 単回帰でのこの関係が、多重回帰になるとどのように変わるのかを考えるきっかけになる。
単回帰モデルのおさらい
まず、単回帰モデルを定義しよう。
目的変数 $Y$ と説明変数 $X$ の関係を、以下の線形モデルで表す。
$$Y_i = \beta_0 + \beta_1 X_i + \epsilon_i$$
ここで、$i$ は $i$ 番目の観測値を表し、$\beta_0$ は切片、$\beta_1$ は回帰係数、$\epsilon_i$ は誤差項で、平均0、分散 $\sigma^2$ の正規分布に従うと仮定する。
最小二乗法により推定された回帰係数 $\hat{\beta}_1$ は、以下の式で与えられる。
$$\hat{\beta}_1 = \frac{\sum_{i=1}^n (X_i – \bar{X})(Y_i – \bar{Y})}{\sum_{i=1}^n (X_i – \bar{X})^2}$$
ここで、$\bar{X}$ と $\bar{Y}$ はそれぞれ $X$ と $Y$ の標本平均である。
回帰係数 $\hat{\beta}_1$ の $t$ 値
回帰係数 $\hat{\beta}_1$ の有意性を検定するための $t$ 値は、以下の式で計算される。
$$t = \frac{\hat{\beta}_1 – 0}{SE(\hat{\beta}_1)}$$
ここで、$SE(\hat{\beta}_1)$ は $\hat{\beta}_1$ の標準誤差である。通常、帰無仮説は $\beta_1 = 0$ であるため、分子は $\hat{\beta}_1$ となる。
$SE(\hat{\beta}_1)$ は以下の式で与えられる。
$$SE(\hat{\beta}_1) = \frac{s_e}{\sqrt{\sum_{i=1}^n (X_i – \bar{X})^2}}$$
ここで、$s_e$ は、母集団の誤差の標準偏差の推定値と捉えれば「残差の標準誤差」(または残差のばらつきの指標と捉えれば「残差の標準偏差」)であり、以下の式で計算される。
$$s_e = \sqrt{\frac{SSE}{n-2}}$$
$SSE$ は残差平方和 (Sum of Squares Error) であり、次のように定義される。
$$SSE = \sum_{i=1}^n (Y_i – \hat{Y}_i)^2$$
ここで、$\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i$ は回帰モデルによる$Y_i$の予測値である。
これらの式を組み合わせると、$t$値の式は以下のようになる。
$$t = \frac{\hat{\beta}_1}{\frac{\sqrt{SSE/(n-2)}}{\sqrt{\sum_{i=1}^n (X_i – \bar{X})^2}}} = \hat{\beta}_1 \frac{\sqrt{\sum_{i=1}^n (X_i – \bar{X})^2}}{\sqrt{SSE/(n-2)}}$$
$t$ 値の2乗を考えると、
$$t^2 = \hat{\beta}_1^2 \frac{\sum_{i=1}^n (X_i – \bar{X})^2}{SSE/(n-2)} \quad (*)$$
回帰モデルの $F$ 値 (分散分析)
次に、回帰モデル全体の有意性を検定するための $F$ 値を見てみよう。分散分析(ANOVA)では、総平方和 (Total Sum of Squares, $SST$) を、回帰平方和 (Regression Sum of Squares, $SSR$) と残差平方和 ($SSE$) に分解する。
$$SST = SSR + SSE$$
それぞれの定義は以下の通りである。
- 総平方和 ($SST$): $Y_i$の総変動。
$$SST = \sum_{i=1}^n (Y_i – \bar{Y})^2$$ - 回帰平方和 ($SSR$): 回帰モデルによって説明される変動。
$$SSR = \sum_{i=1}^n (\hat{Y}_i – \bar{Y})^2$$ - 残差平方和 ($SSE$): 回帰モデルで説明できない残差の変動。
$$SSE = \sum_{i=1}^n (Y_i – \hat{Y}_i)^2$$
$F$ 値は、回帰の平均平方 ($MSR$) を残差の平均平方 ($MSE$) で割ることで計算される。
$$F = \frac{MSR}{MSE}$$
ここで、
- $MSR = \frac{SSR}{df_1}$ (回帰の自由度 $df_1 = 1$ (単回帰の場合))
- $MSE = \frac{SSE}{df_2}$ (残差の自由度 $df_2 = n-2$)
したがって、$F$ 値の式は以下のようになる。
$$F = \frac{SSR/1}{SSE/(n-2)} = \frac{SSR}{SSE/(n-2)} \quad (**)$$
$SSR$ と $\hat{\beta}_1$ の関係
ここで、$SSR$ を $\hat{\beta}_1$ を用いて表現できることを示す。単回帰の場合、$SSR$ は次のようになる。
$$SSR = \sum_{i=1}^n (\hat{Y}_i – \bar{Y})^2$$
$\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i$ であり、$\bar{Y} = \hat{\beta}_0 + \hat{\beta}_1 \bar{X}$ (回帰直線は標本平均 $(\bar{X}, \bar{Y})$ を通るため) であることを利用すると、
$$\hat{Y}_i – \bar{Y} = (\hat{\beta}_0 + \hat{\beta}_1 X_i) – (\hat{\beta}_0 + \hat{\beta}_1 \bar{X}) = \hat{\beta}_1 (X_i – \bar{X})$$
これを$SSR$の式に代入すると、
$$SSR = \sum_{i=1}^n [\hat{\beta}_1 (X_i – \bar{X})]^2 = \sum_{i=1}^n \hat{\beta}_1^2 (X_i – \bar{X})^2 = \hat{\beta}_1^2 \sum_{i=1}^n (X_i – \bar{X})^2$$
証明:$t^2 = F$
これで全てのピースが揃った。先ほど求めた $SSR$ の式を、$F$ 値の式 $(**)$ に代入してみよう。
$$F = \frac{\hat{\beta}_1^2 \sum_{i=1}^n (X_i – \bar{X})^2}{SSE/(n-2)}$$
この$F$値の式と、先に求めた $t^2$ の式 $(*)$ を比較してみてほしい。
$$t^2 = \hat{\beta}_1^2 \frac{\sum_{i=1}^n (X_i – \bar{X})^2}{SSE/(n-2)}$$
$$F = \hat{\beta}_1^2 \frac{\sum_{i=1}^n (X_i – \bar{X})^2}{SSE/(n-2)}$$
ご覧の通り、両者は全く同じ数式になっている。
$$t^2 = F$$
したがって、単回帰分析において、回帰係数の $t$ 値の2乗は、回帰モデル全体の有意性検定における $F$ 値と数学的に同値であることが証明された。
まとめ
単回帰分析では、説明変数が1つしかないため、その説明変数の効果の有無を検定する $t$ 検定と、モデル全体が統計的に有意かどうかを検定する $F$ 検定は、本質的に同じことを評価している。そのため、統計量も数学的に結びついているのだ。この関係は、統計の美しさと、異なる統計検定がどのように関連し合っているかを示す良い例である。
多重回帰分析になると、各回帰係数の $t$ 値はその係数単独の有意性を示し、モデル全体の $F$ 値は複数の説明変数がまとめてモデルに寄与しているかを示す。この場合、$t^2=F$の関係は成立しないが、それはまた別の話になる。
今回の記事で、回帰分析の理解が深まれば幸いだ。
コメント