分散分析とはどんな検定?分散分析表の解説も踏まえて分かりやすく!

データを解析したことのあるあなたなら、一度は目にしているであろう分散分析。

「分散」分析というだけあって、分散を検定している??

そんなイメージを持っているのはあなただけではないでしょう。

何を隠そう、私も最初はそうだったのでww

あれ、分散を検定しているなら、F検定と何が違うの?って感じでした。

 

今日はそんな分散分析の解説を分かりやすく。

分散分析表の見方も解説しています。

 

 

広告

分散分析は何を検定しているの?

まずは、分散分析が何を検定しているのか、結論を述べましょう。

 

分散分析は、母平均を検定している。(T検定と同じ)

 

分散分析ほど、その検定の名前と、何を検定しているかのギャップが大きいものはない。

だって分散と言いながら、母平均を検定しているのだから。

つまり、T検定と一緒

ではなぜ分散分析と呼ぶかというと、分散を使って母平均を検定しているから。

ややこしいですよね。

まぁでも一度覚えてしまえば忘れないと思いますので、ぜひこの機会に覚えてください。

 

ではT検定と何が違うのか。

それは、T検定は1群と2群の時でしたが、分散分析は3群以上の時に使う検定です。

 

 

では、どのように検定しているのか。

それを知りたいのであれば、T検定のページでも解説したように「帰無仮説と対立仮説」を確認するのでしたね。

帰無仮説と対立仮説に関しては、下記のページで確認してみてくださいね。

 

一番優しい、医薬品開発に必要な統計学の教本

検定とは何でしょうか?P値と有意水準の違いは?結果が良ければそれは真実?検定の便利な点と、安易に検定をする怖さを解説…

 

分散分析の帰無仮説と対立仮説

では早速、分散分析の帰無仮説と対立仮説を見てみましょう。

簡単のために、3群の分散分析の場合を記載します。

 

  • 帰無仮説H0:A群の母平均=B群の母平均=C群の母平均
  • 対立仮説H1:A群の母平均、B群の母平均、C群の母平均の中に異なる値がある

 

注目したい対立仮説

帰無仮説と対立仮説が確認できました。

分散分析ほど、ちゃんと帰無仮説と対立仮説を確認したほうがいい検定はないですね。

 

というのも、注目してほしいのが、対立仮説。

もう一度対立仮説を記載しておきます。

対立仮説H1:A群の母平均、B群の母平均、C群の母平均の中に異なる値がある

この対立仮説は何を言っているのか。

こんなことを言っています。

 

  • A群の母平均≠B群の母平均=C群の母平均、という結果が出たとしても有意になります。
  • A群の母平均=B群の母平均≠C群の母平均、という結果が出たとしても有意になります。

 

逆にいうと、こういうことです。

 

分散分析で有意になったとしても、どの群の間の平均が異なるか、ということまでは分からない

 

これ、めちゃめちゃ重要です!

ぜひとも、しっかりと把握してください。

 

例えば以下の図で、どちらの状況もP<0.05であるとします。

同じ「P<0.05」だったとしても、左の図のようにA群とB群で差があるのかもしれないし、右の図のようにA群とC群で差があるのかもしれない。

分散分析のP値をみても、どの群間で差があるのかが分からないのです。

 

一元配置や二元配置って何?

分散分析を調べていると、必ず出てくる「一元配置分散分析」や「二元配置分散分析」という言葉。

私も統計を学び始めた時につまずいた用語なので、ここで整理しておきます。

 

一元配置分散分析とは?

一元配置分散分析とは、1つの因子による平均値のさを分析する方法です。

「一元配置」という用語が難しく思いますが、要は1種類の因子(データ)の影響による、水準間の平均値の差を解析する場合に用いる手法です。

例えば、上記の例にある「A群、B群、C群」の3水準のデータを持った「群」という1つの因子で平均値の差がどうであるかを解析するとき。

そんな時は、一元配置分散分析を使う、ということになります。

 

二元配置分散分析とは?

一方、二元配置分散分析とは、2つの因子による平均値の差を分析する方法です。

例えば、「A群、B群、C群」の3水準のデータを持った「群」という因子と、「男性、女性」という2水準のデータを持った「性別」という因子の、2つの因子の組み合わせでの平均値の差を分析したい場合。

そんな時は、二元配置分散分析を使う、ということになります。

 

この「群」と「性別」で二元配置分散分析をする場合には、目的は3つあります。

  1. 「群」の3水準間で平均値に違いがあるかを知りたい
  2. 「性別」の2水準間で平均値に違いがあるかを知りたい
  3. 群と性別の組み合わせの6水準間(3水準×2水準)で平均値に違いがあるかを知りたい

 

分散分析の後に、多重比較をする意味

前述の通り、分散分析の対立仮説を読み解くと、「分散分析で有意になったとしても、どの群の間の平均が異なるか、ということまでは分からない」ということになります。

では、どの群の間での平均値が異なるかを調べよう、と思いますよね。

つまり、分散分析をした後に2群検定の多重比較をする、ということですね。

 

すると、以下のような手順で検定をするということになります。

  1. 分散分析をする。
  2. 分散分析で有意だったら、A群vsB群、B群vsC群、C群vsA群、の2群検定を3つ実施する

分散分析ではどの群の間で有意になったのか分からない。

だったら分散分析の後に、どの群間で違いがあるかを見ようじゃないか。

そんな発想です。

自然な気がしますね。

 

ですが私は、その手順を全然推奨しません

理由は明確。

分散分析と2群検定では、知りたいことが違うからです。

 

さらに、検定を2回以上実施すると、多重性の問題という新たな問題が発生してしまいます。

多重性に関して知りたい場合はこちらをご覧ください。

さいころを例にして、多重性の問題を考えてみる

 

 

分散分析と2群比較を使う場面を考えてみる

では、分散分析と2群検定の多重比較の使い分けはどのようにすれば良いのでしょうか。

私が使い分けるとしたら、このように使い分けます。

 

  • 分散分析:全群で差がないことを積極的に知りたいとき。
  • 2群検定の多重比較:どこかで差があることを積極的に知りたいとき。

 

具体的にどういう場合か、例を出して考えてみましょう。

例えば、東京、大阪、福岡の3都市の出生時の体重の違いを比較する。

これ、別に積極的に差があることを言いたいわけじゃないですよね。

そんな時は、念のため分散分析をする。

 

では、プラセボ、新薬、標準治療の3つの治療での違いを比較する。

この時、分散分析をしたってしょうがないですよね。

だって、プラセボvs新薬、プラセボvs標準治療の2つは、積極的に差が言いたいから。

分散分析をして有意でした!ってなったとき。

プラセボ、新薬、標準治療の3つの治療の「どこかに差がある」ということです。

「で?」って感じですよね。

それなら最初から、プラセボvs新薬、プラセボvs標準治療、新薬vs標準治療、の2群比較を、多重性を考慮しながら3つ実施したほうが素直です。

 

分散分析表を解説

分散分析に関しても細かい数式は載せないつもりです。

でも、分散分析表に関しては覚えておいていいと思っているので、ちょっとだけ解説します。

分散分析表は以下のような表です。

要因

平方和S

自由度df

不偏分散V

F値

S(群)

df(群)

(群の数-1)

V(群)

(=S(群)/df(群))

V(群)/V(残)

残差

S(残)

df(残)

(全データ-群の数)

V(残)

(=S(残)/df(残))

全体

S(全)

df(全)



平方和、自由度、不偏分散があって、F値が出てきます。

そしてF値は、群の不偏分散と残差の不偏分散の比です。

これが、分散分析と言われる理由です。

そして、F値が大きいとP値が小さくなります。

じゃあF値が大きくなる時は?

それは、群の要因における分散(バラツキ)のほうが、残差の要因における分散よりも大きいときです。

つまり、偶然による誤差よりも、群による誤差のほうが大きいから、どこかの群間に違いが出ている、と結論付けるのです。

 

自由度に関しては、こちらの記事にまとめていますので、ご覧ください。

自由度とは??求め方とその解説を5分で理解できます!

 

ちょっとした知識

ちょっとした知識です。

読み飛ばしても、あなたのこれからの統計ライフに影響はないでしょう。

でも、知ると「えー!!」ってなります。

分散分析は3群以上での母平均の比較でしたね。

じゃあ、2群で分散分析やってみたらどうなるか?

あなたはどうなると思いますか?

実は、T検定と同じことをやっています!

これは面白いですよね。

証明はややこしいので、スキップします。笑

 

ちなみに、T検定ってどんな検定だっけ?と思ったなら、こちらの記事をどうぞ。

T検定は何してる?有意差を見るだけじゃつまらないからイメージで全貌を理解しよう

 

まとめ

  • 分散分析は、3群以上の母平均の検定である。
  • 帰無仮説と対立仮説を確認すると、分散分析で有意になったとしても、どの群の間の平均が異なるか、ということまでは分からない、ということが言える。
  • 分散分析をした後に2群検定の多重比較は推奨しない。

統計検定2級の解説付き

無料動画の統計授業

 

 

無料動画で統計を学びませんか?

 

・この数式、何を言っているのか全くわからない・・・ 

・統計を学びたいけど、何から手をつけていいのだろう・・・

・統計検定2級を受験したいけど、どう勉強したら・・・

・もう自力で統計を学ぶのに疲れました・・・

 

あなたはそんな悩みを抱えていませんか?

大丈夫です。

最後の手段があります。

どこにもない、統計の無料メールセミナー。