決定係数とモデルの有意性の分散分析 ― 重回帰モデルの評価としての意義

2022年7月18日2024年9月23日

重回帰モデルの評価指標の決定係数とモデルの有意性の分散分析の検定はどのように使い分ければよいのか？

＞＞もう統計で悩むのは終わりにしませんか？

↑1万人以上の医療従事者が購読中

決定係数とは？

決定係数とは、推定された重回帰モデルが実際のデータにどの程度当てはまっているかを表す指標である。

０から１の範囲の数値をとり、１が完全に当てはまっていると解釈する。

計算式は以下のとおりである。

$$ R^2 = \frac{\sum (\hat{y} – \bar{y})^2}{\sum (y – \bar{y})^2} $$

$ R^2 $ は決定係数を表すときに用いられる一般的な表記である。

y が、従属変数の実測値、$ \bar{y} $ が、従属変数の実測値の平均値、$ \hat{y} $ が、従属変数の予測値である。

従属変数の予測値は、重回帰モデルで予測した値である。

ちなみに、イメージをつかみやすいように式をシンプルにする目的で、添え字は省略してある。

この式がどこから来たのかと言うと、以下の式から来ている。

$$ \sum (y – \bar{y})^2 = \sum (\hat{y} – \bar{y})^2 + \sum (y – \hat{y})^2 $$

これは従属変数の全変動を、回帰で説明できる変動と残差の変動に分けることができるという式である。

左辺が従属変数の全変動、右辺の第1項が回帰による変動、第2項が残差による変動である。

両辺を、左辺の従属変数の全変動で割ると、右辺の第1項が決定係数になる。

$$ \frac{\sum (y – \bar{y})^2}{\sum (y – \bar{y})^2} = \frac{\sum (\hat{y} – \bar{y})^2}{\sum (y – \bar{y})^2} + \frac{\sum (y – \hat{y})^2}{\sum (y – \bar{y})^2} $$

決定係数は、回帰変動が全変動に対してどれだけの割合を占めるか（それゆえ、寄与率とも言われる）、ということを意味している。

右辺第 1 項と左辺を入れ替えて符号も入れ替えると、以下のようにもなる

$$ \frac{\sum (\hat{y} – \bar{y})^2}{\sum (y – \bar{y})^2} = 1 – \frac{\sum (y – \hat{y})^2}{\sum (y – \bar{y})^2} $$

つまり、残差変動が小さい（予測値が実測値に近い）と、右辺第 2 項が小さくなり、決定係数は 1 に近づく

決定係数が 1 に近づくと、回帰変動が全変動に近い、つまり、重回帰モデルで、全変動の多くの部分を説明できる、すなわち、重回帰モデルがデータに当てはまっている、というふうに解釈するわけである。

決定係数は、1 に近いとより当てはまっているという評価が可能である点で、指標としてわかりやすい。

ちなみに、決定係数がどのくらいであればよいかは、過去記事参照。

モデルの有意性の分散分析

では、重回帰モデルの有意性の分散分析はどのようになっているか。

重回帰モデルの有意性の分散分析というのは、重回帰モデルの統計学的有意性の検定である。

帰無仮説は、「重回帰モデルは統計学的に意味がない」。

有意水準5％で棄却されれば、重回帰モデルが統計学的に意味がある、と言える。

重回帰モデルの有意性の分散分析は以下のように計算される。

変動の種類	平方和	自由度	平均平方	F	有意確率
回帰	$ \sum (\hat{y} – \bar{y})^2 $	m	\begin{align} \frac{\sum (\hat{y} – \bar{y})^2}{m} \\ = MS_{REG} \end{align}	$$ \frac{MS_{REG}}{MS_{ERR}} $$	p
残差	$ \sum (y – \hat{y})^2 $	n – m – 1	\begin{align} \frac{\sum (y – \hat{y})^2}{n – m – 1} \\ = MS_{ERR} \end{align}
全体	$ \sum (y – \bar{y})^2 $	n – 1

ここでも変動が登場する。

回帰の変動と全体の変動の比が、決定係数であることは上記で述べたが、決定係数に登場する変動がこちらにも登場しているわけである。

ここで、回帰変動の自由度 m は、独立変数の数である。

n はサンプルサイズである。

変動は平方和とも呼ばれる。

何かの差の2乗（平方）の合計（和）になっているからである。

自由度で割ると平均平方と呼ばれる。

回帰の平均平方（ $ MS_{REG} $）と残差の平均平方（$ MS_{ERR} $）の比が、Ｆ分布に従うＦ値であり、その検定結果が有意確率ｐとなる。

なので、回帰と残差の比ではあるものの、決定係数とよく似た計算をしているのがわかる。

＞＞もう統計で悩むのは終わりにしませんか？

↑1万人以上の医療従事者が購読中

決定係数とモデル有意性の分散分析の違いは何か？

決定係数は全体の変動のうち、回帰の変動がどのくらいを占めているかというものだったのに対し、モデルの有意性の分散分析は、回帰の変動が残差の変動（全体の変動からの差分）よりどのくらい大きいかで、回帰モデルの有意性を検討する形になっている。

つまり、決定係数もモデルの分散分析も、同じような計算値を用いて、同じようなことを示していると言える。

ただ、決定係数は大小が検討できる数値であるのに対し、モデルの有意性の分散分析は有意水準以下かどうかで統計学的有意かどうかしかわからないという点が大きな違いである。

しかしながら、どちらか一つあれば決定的ということはないため、どちらの指標も重要な指標である。

ゆえに、使い分けるわけではなく、常に同時に計算して提示するのが良い。

事実、EZRでは、同時に出力される。

報告する際にもどちらも提示するとよいだろう。

EZRの出力結果で確認してみる

以下は、EZRでの出力例である。

このように決定係数0.1309、とモデルの有意性の分散分析の結果としてF値とp値が同時に出力される。

この重回帰モデルの分散分析表を表示してみると以下のようになる。

この値を使って回帰の変動を計算すると1.2154（= 0.0808 + 0.2464 + 0.8882）と計算される。

また、全体の変動は、9.2839（= 1.2154 + 8.0685）と計算される。

回帰の変動と全体の変動の比を取ると0.1309148（= 1.2154 / 9.2839）となり、決定係数0.1309と一致する。

以下は、Rのコンソールで計算した結果である。

> 0.0808+0.2464+0.8882
[1] 1.2154
> 0.0808+0.2464+0.8882+8.0685
[1] 9.2839
> 1.2154/9.2839
[1] 0.1309148

このように決定係数とモデルの有意性の分散分析はつながっている。

まとめ

重回帰モデルの評価としての決定係数とモデルの有意性の分散分析について、詳しく見てきた。

どちらも回帰モデルの当てはまり（回帰変動）をもとに、指標化した数値で表すか、検定で統計学的有意性を検討しているかの違いと言える。

どちらか一方で必要十分ということでもないため、使い分けるということでもなく、重回帰モデルの評価指標として、どちらも提示するのがよい。

参考になれば。

参考サイト

27-5. 決定係数と重相関係数 | 統計学の時間 | 統計WEB

27-6. 回帰の有意性の検定 | 統計学の時間 | 統計WEB

参考書籍

SPSSによる応用多変量解析

作者:三輪哲,林雄亮
オーム社

Amazon

EZR公式マニュアル

EZRでやさしく学ぶ統計学改訂3版〜EBMの実践から臨床研究まで〜

作者:神田善伸
中外医学社

Amazon

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

リサーチクエスチョン探し？データ分析？論文投稿？、、、で、もう悩まない！

第1章：臨床研究ではなぜ統計が必要なのか？計画することの重要性

推定ってどんなことをしているの？
臨床研究を計画するってどういうこと？
どうにかして標本平均を母平均に近づけられないか？

第2章：研究目的をどれだけ明確にできるのかが重要

データさえあれば解析でどうにかなる、という考え方は間違い
何を明らかにしたいのか？という研究目的が重要
研究目的は4種類に分けられる
統計専門家に相談する上でも研究目的とPICOを明確化しておく

第3章：p値で結果が左右される時代は終わりました

アメリカ統計協会（ASA）のp値に関する声明で指摘されていること
そうは言っても、本当に有意差がなくてもいいの…？
なぜ統計専門家はp値を重要視していないのか
有意差がない時に「有意な傾向があった」といってもいい？
統計を放置してしまうと非常にまずい

第4章：多くの人が統計を苦手にする理由

残念ながら、セミナー受講だけで統計は使えません。
インプットだけで統計が使えない理由
どうやったら統計の判断力が鍛えられるか？
統計は手段なので正解がないため、最適解を判断する力が必要

第5章：統計を使えるようになるために今日から何をすれば良いか？

論文を読んで統計が使えるようになるための5ステップ

第6章：統計を学ぶために重要な環境

統計の3つの力をバランスよく構築する環境

『統計を身につける5つのステップ』を
通常1,650円 → メルマガ登録で無料でプレゼント

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

~~通常価格：1,650円~~　→　無料でお届け

【無料】統計を使いこなすための秘策を学ぶ

この記事を書いた人

toukei-er

統計 ER ブログ執筆者

元疫学研究者

【無料プレゼント付き】学会発表・論文投稿に必要な統計を最短で学ぶことができる無料メルマガ

決定係数とモデルの有意性の分散分析 ― 重回帰モデルの評価としての意義

決定係数とは？

モデルの有意性の分散分析

決定係数とモデル有意性の分散分析の違いは何か？

EZRの出力結果で確認してみる

まとめ

参考サイト

参考書籍

リサーチクエスチョン探し？データ分析？論文投稿？、、、で、もう悩まない！

『統計を身につける5つのステップ』を
通常1,650円 → メルマガ登録で無料でプレゼント

この記事を書いた人

コメント

コメントするコメントをキャンセル

【無料プレゼント付き】学会発表・論文投稿に必要な統計を最短で学ぶことができる無料メルマガ

決定係数とモデルの有意性の分散分析 ― 重回帰モデルの評価としての意義

決定係数とは？

モデルの有意性の分散分析

決定係数とモデル有意性の分散分析の違いは何か？

EZRの出力結果で確認してみる

まとめ

参考サイト

参考書籍

リサーチクエスチョン探し？データ分析？論文投稿？、、、で、もう悩まない！

『統計を身につける5つのステップ』を通常1,650円 → メルマガ登録で無料でプレゼント

この記事を書いた人

関連記事

コメント

コメントする コメントをキャンセル

『統計を身につける5つのステップ』を
通常1,650円 → メルマガ登録で無料でプレゼント

コメントするコメントをキャンセル