分散分析とはどんな検定?分散分析表の解説も踏まえて分かりやすく!

データを解析したことのあるあなたなら、一度は目にしているであろう分散分析。

「分散」分析というだけあって、分散を検定している??

そんなイメージを持っているのはあなただけではないでしょう。

何を隠そう、私も最初はそうだったのでww

あれ、F検定と何が違うの?って感じでした。

今日はそんな分散分析の話です。

 

 

広告

分散分析は何を検定しているの?

分散分析ほど、その検定の名前と何を検定しているかのギャップが多いものはないだろう。

だって分散と言いながら、母平均を検定しているのだから。

つまり、T検定と一緒

ではなぜ分散分析と呼ぶかというと、分散を使って母平均を検定しているから。

ややこしいですよね。

まぁでも一度覚えてしまえば忘れないと思いますので、ぜひこの機会に覚えてください。

ではT検定と何が違うのか。

それは、T検定は1群と2群の時でしたが、分散分析は3群以上の時に使う検定です。

どのように検定しているのかを知りたいのであれば、T検定のページでも解説したように「帰無仮説と対立仮説」を確認しましょう。

帰無仮説と対立仮説に関しては、下記のページで確認してみてくださいね。

 

一番優しい、医薬品開発に必要な統計学の教本

検定とは何でしょうか?P値と有意水準の違いは?結果が良ければそれは真実?検定の便利な点と、安易に検定をする怖さを解説…

 

分散分析の帰無仮説と対立仮説

では早速、分散分析の帰無仮説と対立仮説は何かを見てみましょう。

簡単のために、3群の分散分析の場合を記載しますね。

帰無仮説H0:A群の母平均=B群の母平均=C群の母平均

対立仮説H1:A群の母平均、B群の母平均、C群の母平均の中に異なる値がある

 

注目したい対立仮説

分散分析ほど、ちゃんと帰無仮説と対立仮説を確認したほうがいい検定はないですね。

注目してほしいのは、対立仮説。

もう一度対立仮説を記載しておきます。

対立仮説H1:A群の母平均、B群の母平均、C群の母平均の中に異なる値がある

この対立仮説は何を言っているのか。

こんなことを言っています。

 

A群の母平均≠B群の母平均=C群の母平均、という結果が出たとしても有意になります。

A群の母平均=B群の母平均≠C群の母平均、という結果が出たとしても有意になります。

 

逆にいうと、こういうことです。

 

「分散分析で有意になったとしても、どの群の間の平均が異なるか、ということまでは分からない」

 

これ、めちゃめちゃ重要です!

ぜひとも、しっかりと把握してください。

 

分散分析の後に、多重比較をする意味

前述の通り、分散分析の対立仮説を読み解くと、「分散分析で有意になったとしても、どの群の間の平均が異なるか、ということまでは分からない」ということになります。

じゃあ次に考えられるのは、分散分析をした後に2群検定の多重比較をする、ということですね。

つまり、以下のような手順で検定をするということです。

  1. 分散分析をする。
  2. 分散分析で有意だったら、A群vsB群、B群vsC群、C群vsA群、の2群検定を3つ実施する

分散分析ではどの群の間で有意になったのか分からない。

だったら分散分析の後に、どの群間で違いがあるかを見ようじゃないか。

そんな発想です。

自然な気がしますね。

 

ですが私は、その手順を全然推奨しません

理由は明確。

分散分析と2群検定では、知りたいことが違うからです。

 

全群で差がないことを積極的に知りたいとき。

そんな時には、分散分析を使う。

どこかで差があることを積極的に知りたいとき。

そんなときには、2群検定の多重比較を使う。

 

私の中のイメージは、上記のような感じです。

 

分散分析と2群比較を使う場面を考えてみる

分散分析と2群比較の使い分けに関して、例を出して考えましょう。

例えば、東京、大阪、福岡の3都市の出生時の体重の違いを比較する。

これ、別に積極的に差があることを言いたいわけじゃないですよね。

そんな時は、念のため分散分析をする。

 

では、プラセボ、新薬、標準治療の3つの治療での違いを比較する。

この時、分散分析をしたってしょうがないですよね。

だって、プラセボvs新薬、プラセボvs標準治療の2つは、積極的に差が言いたいから。

分散分析をして有意でした!ってなったとき。

プラセボ、新薬、標準治療の3つの治療の「どこかに差がある」ということです。

「で?」って感じですよね。

それなら最初から、プラセボvs新薬、プラセボvs標準治療、新薬vs標準治療、の2群比較を、多重性を考慮しながら3つ実施したほうが素直です。

 

分散分析表を解説

分散分析に関しても細かい数式は載せないつもりです。

でも、分散分析表に関しては覚えておいていいと思っているので、ちょっとだけ解説します。

分散分析表は以下のような表です。

要因

平方和S

自由度df

不偏分散V

F値

S(群)

df(群)

(群の数-1)

V(群)

(=S(群)/df(群))

V(群)/V(残)

残差

S(残)

df(残)

(全データ-群の数)

V(残)

(=S(残)/df(残))

 

全体

S(全)

df(全)

 

 



平方和、自由度、不偏分散があって、F値が出てきます。

そしてF値は、群の不偏分散と残差の不偏分散の比です。

これが、分散分析と言われる理由です。

そして、F値が大きいとP値が小さくなります。

じゃあF値が大きくなる時は?

それは、群の要因における分散(バラツキ)のほうが、残差の要因における分散よりも大きいときです。

つまり、偶然による誤差よりも、群による誤差のほうが大きいから、どこかの群間に違いが出ている、と結論付けるのです。

 

ちょっとした知識

ちょっとした知識です。

読み飛ばしても、あなたのこれからの統計ライフに影響はないでしょう。

でも、知ると「えー!!」ってなります。

分散分析は3群以上での母平均の比較でしたね。

じゃあ、2群で分散分析やってみたらどうなるか?

あなたはどうなると思いますか?

実は、T検定と同じことをやっています!

これは面白いですよね。

証明はややこしいので、スキップします。笑

 

まとめ

  • 分散分析は、3群以上の母平均の検定である。
  • 帰無仮説と対立仮説を確認すると、分散分析で有意になったとしても、どの群の間の平均が異なるか、ということまでは分からない、ということが言える。
  • 分散分析をした後に2群検定の多重比較は推奨しない。

 

統計検定2級対策もできる

無料動画の統計授業

 

 

無料動画で統計を学びませんか?

 

・この数式、何を言っているのか全くわからない・・・ 

・統計を学びたいけど、何から手をつけていいのだろう・・・

・統計検定2級を受験したいけど、どう勉強したら・・・

・もう自力で統計を学ぶのに疲れました・・・

 

あなたはそんな悩みを抱えていませんか?

大丈夫です。

最後の手段があります。

どこにもない、統計の無料メルマガ。

 

最新情報をチェックしよう!