Oops! It appears that you have disabled your Javascript. In order for you to see this page as it is meant to appear, we ask that you please re-enable your Javascript!
分かりやすい分割表

自由度とは?カイ二乗検定での求め方とその意味を分割表を使って解説

カイ二乗検定が出てきたので、自由度の解説をします。

自由度って、何となく分かるようで分からないですよね。

 

  • 自由度とはどうやって求めればいいのか。。
  • そもそも、自由度の意味って?

 

そう思っているのは、あなただけではありません。

ちなみに私は、この自由度の概念がわかるまで3年ぐらいかかりました。。。

というのも、本を読んでも全然イメージができなかったのです。

でもあなたは大丈夫です。

私がかみ砕いて解説しますね!

 

この記事では、カイ二乗検定での求め方とその意味を、分割表を使って解説します。

 

自由度とは?その意味を解説。

まずは自由度の定義を理解しておきましょう。

自由度の定義

自由度とは、ある代表値や合計値があるときに、自由に値を取れる数。

 

これです。

この定義でイメージ出来て、完璧に理解出来たら、もう先を読まなくてもいいです!笑

でも、イメージ難しくないですか?

私には、さっぱり何のことやらって感じでした。。

 

カイ二乗検定での自由度を例にしてみる

言葉や定義で分からないときは、例を考えるのが一番早いです。

ということで、カイ二乗検定の例。

 

突然ですが問題です。

2×2分割表での自由度はいくつでしょうか?

あなたはわかりますか??

おそらく定義がわからなければ考えてもわからないかと思います。。

 

では正解。

正解は1です!

 

定義としては、(2-1)×(2-1)=1ですね。

2×2分割表なので上記の式ですが、例えば3×2分割表の場合だと、自由度は(3-1)×(2-1)=2になります。

そのため、一般化すると、m×n分割表の自由度は(m-1)×(n-1)となります。

一応、定義がわかったところで、なぜそのような式になるのかを考えていきます。

 

カイ二乗検定のページで出てきたこの表

治った 治らなかった 合計
薬剤群 13 7 20
コントロール群 5 15 20
合計 18 22 40

 

この表で自由度を考えてみます。

自由度とは、「ある代表値や合計値があるときに、自由に値を取れる数」でした。

つまり合計値だけがある場合を考えてみます。

 

こんな感じ。

4つのセルの数字がない分割表ですね。

 

治った 治らなかった 合計
薬剤群 20
コントロール群 20
合計 18 22 40

 

この時、4つのセルのうち、どこでもいいので自由に1つ数値を入れてみます。

例として、薬剤群の治った人のセルに15を入れてみます。

すると、こうなりますね。

 

治った 治らなかった 合計
薬剤群 15 20
コントロール群 20
合計 18 22 40

 

すると、残りのセルは3つ。

では次に、他の3つのセルのうち、どこでもいいので自由に1つ数値を入れてみます。

 

・・・これ以上自由に数字を入れることってできますか?

 

だって、薬剤群の治った人は15人です。

薬剤群は全部で20人です。

ということは、薬剤群で治らなかった人は、自動的に5人になりませんか?

 

他のセルも同様です。

治った人の合計は18人と決まっているので、コントロール群で治った人は、自動的に3人になります。

2×2分割表では、4つのセルのうち1つのセルの値が決まれば、残りの3つが自動的に決まってしまいます。

つまり、自由に値を決められるのは1つだけということです。

 

これが自由度の概念です。

 

 

T検定で自由度の求め方と意味を考える

T検定の自由度は「データの数-群の数」です。

これは結構有名ですね。

T検定の自由度は、T分布表と見比べる時に重要になるので、是非とも覚えておきたい概念です。

 

では、なぜこのような自由度の定義「データの数-群の数」なのか。

考えてみましょう。

もう一度、自由度の定義を再掲しておきますね。

 

自由度の定義

自由度とは、ある代表値や合計値があるときに、自由に値を取れる数。

 

T検定は平均値を比較する検定手法です。

ということは、自由度を考える際の代表値は、平均値です。

平均値を出すとき、自由にとれるデータの数は?

 

例えば、以下の10個のデータがあったとき。

 

a b c d e f g h i j 平均値
5 8 3 5 3 6 2 7 4 4 4.7

 

平均値は4.7です。

では、4.7という平均値が固定されていた場合、何個のデータを自由に決めることができるでしょうか?

自由に決めることができるのは、9個ですよね。

9個のデータが決まったら、残り一つは自動的に決まりませんか?

「j」にある「4」の数字がなかったとしても、平均値が4.7とわかっていたら、jは自動的に4しか入ることができません。

 

一般化すると、n個のデータがあった時、平均値が与えられた元で自由にデータを決めることができる数はn-1個です

 

これが、T検定の自由度が「データの数-群の数」である理由。

2群のT検定の場合、もちろん平均値は2つあることになりますね。

各群1つずつ平均値があって、それを比較するので。

なので、全データから2を引いたものが自由度になります。

 

スポンサーリンク

まとめ

  • 自由度とは、ある代表値や合計値があるときに、自由に値を取れる数。
  • m×n分割表の自由度は(m-1)×(n-1)となる。
  • T検定の自由度は、データの数-群の数となる。
論文化に必要な統計に絞った地図あります

 

  • パソコンに向かってもなぜか筆が進まない…
  • 学会発表は結構たくさんしているのに、なぜ論文が出ないのだろう…
  • こんなに忙しいのに、いつ論文を書いたらいいのか…
  • 一度は書いたはずの論文がお蔵入りに…どうすればいいの…
  • データはあるのになぜ論文化まで持っていけないんだろう…
  • このデータ、どうやって解析すればいいんだろう…

 

その悩みこの無料メルマガで全て解決するかもしれません

 

↓今すぐ無料で論文化までの最短距離を歩く↓

↑無料で論文化に必要な統計を最短で学ぶ↑