MENU

【無料プレゼント付き】学会発表・論文投稿に必要な統計を最短で学ぶことができる無料メルマガ

回帰分析の奥深さ:$t$ 値の2乗と$F$ 値が等しい理由を解き明かす!


回帰分析は、変数間の関係性を明らかにする強力な統計ツールだ。その結果を解釈する際、$t$ 値や $F$ 値といった統計量を目にすることが多いだろう。特に、単回帰分析においては、回帰係数の $t$ 値の2乗が、回帰モデル全体の有意性を検定する $F$ 値と常に一致するという興味深い性質がある。

これは偶然ではない。実は、数学的にこの2つの値は等しくなることが証明できる。今回は、その証明を数式を交えながら分かりやすく解説し、この統計的性質の奥深さを探っていく。

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

目次

なぜこの関係が重要なのか?

この関係を理解することは、単回帰分析において以下の点で役立つ。

  • 解釈の統一性: 個々の説明変数の有意性($t$ 検定)とモデル全体の有意性($F$ 検定)が、単回帰では同じ情報を伝えていることを理解できる。
  • 統計的基礎の理解: 統計検定の背後にある数学的なつながりを深めることができる。
  • 多変量への発展: 単回帰でのこの関係が、多重回帰になるとどのように変わるのかを考えるきっかけになる。

単回帰モデルのおさらい

まず、単回帰モデルを定義しよう。
目的変数 $Y$ と説明変数 $X$ の関係を、以下の線形モデルで表す。

$$Y_i = \beta_0 + \beta_1 X_i + \epsilon_i$$

ここで、$i$ は $i$ 番目の観測値を表し、$\beta_0$ は切片、$\beta_1$ は回帰係数、$\epsilon_i$ は誤差項で、平均0、分散 $\sigma^2$ の正規分布に従うと仮定する。

最小二乗法により推定された回帰係数 $\hat{\beta}_1$ は、以下の式で与えられる。

$$\hat{\beta}_1 = \frac{\sum_{i=1}^n (X_i – \bar{X})(Y_i – \bar{Y})}{\sum_{i=1}^n (X_i – \bar{X})^2}$$

ここで、$\bar{X}$ と $\bar{Y}$ はそれぞれ $X$ と $Y$ の標本平均である。

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

回帰係数 $\hat{\beta}_1$ の $t$ 値

回帰係数 $\hat{\beta}_1$ の有意性を検定するための $t$ 値は、以下の式で計算される。

$$t = \frac{\hat{\beta}_1 – 0}{SE(\hat{\beta}_1)}$$

ここで、$SE(\hat{\beta}_1)$ は $\hat{\beta}_1$ の標準誤差である。通常、帰無仮説は $\beta_1 = 0$ であるため、分子は $\hat{\beta}_1$ となる。

$SE(\hat{\beta}_1)$ は以下の式で与えられる。

$$SE(\hat{\beta}_1) = \frac{s_e}{\sqrt{\sum_{i=1}^n (X_i – \bar{X})^2}}$$

ここで、$s_e$ は、母集団の誤差の標準偏差の推定値と捉えれば「残差の標準誤差」(または残差のばらつきの指標と捉えれば「残差の標準偏差」)であり、以下の式で計算される。

$$s_e = \sqrt{\frac{SSE}{n-2}}$$

$SSE$ は残差平方和 (Sum of Squares Error) であり、次のように定義される。

$$SSE = \sum_{i=1}^n (Y_i – \hat{Y}_i)^2$$

ここで、$\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i$ は回帰モデルによる$Y_i$の予測値である。

これらの式を組み合わせると、$t$値の式は以下のようになる。

$$t = \frac{\hat{\beta}_1}{\frac{\sqrt{SSE/(n-2)}}{\sqrt{\sum_{i=1}^n (X_i – \bar{X})^2}}} = \hat{\beta}_1 \frac{\sqrt{\sum_{i=1}^n (X_i – \bar{X})^2}}{\sqrt{SSE/(n-2)}}$$

$t$ 値の2乗を考えると、

$$t^2 = \hat{\beta}_1^2 \frac{\sum_{i=1}^n (X_i – \bar{X})^2}{SSE/(n-2)} \quad (*)$$

回帰モデルの $F$ 値 (分散分析)

次に、回帰モデル全体の有意性を検定するための $F$ 値を見てみよう。分散分析(ANOVA)では、総平方和 (Total Sum of Squares, $SST$) を、回帰平方和 (Regression Sum of Squares, $SSR$) と残差平方和 ($SSE$) に分解する。

$$SST = SSR + SSE$$

それぞれの定義は以下の通りである。

  • 総平方和 ($SST$): $Y_i$の総変動。
    $$SST = \sum_{i=1}^n (Y_i – \bar{Y})^2$$
  • 回帰平方和 ($SSR$): 回帰モデルによって説明される変動。
    $$SSR = \sum_{i=1}^n (\hat{Y}_i – \bar{Y})^2$$
  • 残差平方和 ($SSE$): 回帰モデルで説明できない残差の変動。
    $$SSE = \sum_{i=1}^n (Y_i – \hat{Y}_i)^2$$

$F$ 値は、回帰の平均平方 ($MSR$) を残差の平均平方 ($MSE$) で割ることで計算される。

$$F = \frac{MSR}{MSE}$$

ここで、

  • $MSR = \frac{SSR}{df_1}$ (回帰の自由度 $df_1 = 1$ (単回帰の場合))
  • $MSE = \frac{SSE}{df_2}$ (残差の自由度 $df_2 = n-2$)

したがって、$F$ 値の式は以下のようになる。

$$F = \frac{SSR/1}{SSE/(n-2)} = \frac{SSR}{SSE/(n-2)} \quad (**)$$

$SSR$ と $\hat{\beta}_1$ の関係

ここで、$SSR$ を $\hat{\beta}_1$ を用いて表現できることを示す。単回帰の場合、$SSR$ は次のようになる。

$$SSR = \sum_{i=1}^n (\hat{Y}_i – \bar{Y})^2$$

$\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i$ であり、$\bar{Y} = \hat{\beta}_0 + \hat{\beta}_1 \bar{X}$ (回帰直線は標本平均 $(\bar{X}, \bar{Y})$ を通るため) であることを利用すると、

$$\hat{Y}_i – \bar{Y} = (\hat{\beta}_0 + \hat{\beta}_1 X_i) – (\hat{\beta}_0 + \hat{\beta}_1 \bar{X}) = \hat{\beta}_1 (X_i – \bar{X})$$

これを$SSR$の式に代入すると、

$$SSR = \sum_{i=1}^n [\hat{\beta}_1 (X_i – \bar{X})]^2 = \sum_{i=1}^n \hat{\beta}_1^2 (X_i – \bar{X})^2 = \hat{\beta}_1^2 \sum_{i=1}^n (X_i – \bar{X})^2$$

証明:$t^2 = F$

これで全てのピースが揃った。先ほど求めた $SSR$ の式を、$F$ 値の式 $(**)$ に代入してみよう。

$$F = \frac{\hat{\beta}_1^2 \sum_{i=1}^n (X_i – \bar{X})^2}{SSE/(n-2)}$$

この$F$値の式と、先に求めた $t^2$ の式 $(*)$ を比較してみてほしい。

$$t^2 = \hat{\beta}_1^2 \frac{\sum_{i=1}^n (X_i – \bar{X})^2}{SSE/(n-2)}$$

$$F = \hat{\beta}_1^2 \frac{\sum_{i=1}^n (X_i – \bar{X})^2}{SSE/(n-2)}$$

ご覧の通り、両者は全く同じ数式になっている。

$$t^2 = F$$

したがって、単回帰分析において、回帰係数の $t$ 値の2乗は、回帰モデル全体の有意性検定における $F$ 値と数学的に同値であることが証明された。

まとめ

単回帰分析では、説明変数が1つしかないため、その説明変数の効果の有無を検定する $t$ 検定と、モデル全体が統計的に有意かどうかを検定する $F$ 検定は、本質的に同じことを評価している。そのため、統計量も数学的に結びついているのだ。この関係は、統計の美しさと、異なる統計検定がどのように関連し合っているかを示す良い例である。

多重回帰分析になると、各回帰係数の $t$ 値はその係数単独の有意性を示し、モデル全体の $F$ 値は複数の説明変数がまとめてモデルに寄与しているかを示す。この場合、$t^2=F$の関係は成立しないが、それはまた別の話になる。

今回の記事で、回帰分析の理解が深まれば幸いだ。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

リサーチクエスチョン探し?データ分析?論文投稿?、、、で、もう悩まない!

第1章臨床研究ではなぜ統計が必要なのか?計画することの重要性
  • 推定ってどんなことをしているの?
  • 臨床研究を計画するってどういうこと?
  • どうにかして標本平均を母平均に近づけられないか?
第2章:研究目的をどれだけ明確にできるのかが重要
  • データさえあれば解析でどうにかなる、という考え方は間違い
  • 何を明らかにしたいのか? という研究目的が重要
  • 研究目的は4種類に分けられる
  • 統計専門家に相談する上でも研究目的とPICOを明確化しておく
第3章:p値で結果が左右される時代は終わりました
  • アメリカ統計協会(ASA)のp値に関する声明で指摘されていること
  • そうは言っても、本当に有意差がなくてもいいの…?
  • なぜ統計専門家はp値を重要視していないのか
  • 有意差がない時に「有意な傾向があった」といってもいい?
  • 統計を放置してしまうと非常にまずい
第4章:多くの人が統計を苦手にする理由
  • 残念ながら、セミナー受講だけで統計は使えません。
  • インプットだけで統計が使えない理由
  • どうやったら統計の判断力が鍛えられるか?
  • 統計は手段なので正解がないため、最適解を判断する力が必要
第5章:統計を使えるようになるために今日から何をすれば良いか?
  • 論文を読んで統計が使えるようになるための5ステップ
第6章:統計を学ぶために重要な環境
  • 統計の3つの力をバランスよく構築する環境

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

この記事を書いた人

統計 ER ブログ執筆者

元疫学研究者

コメント

コメントする

目次