この記事では、統計学での自由度に関して例題を使って求め方をわかりやすく解説します。
統計学において、何となくわかるようでわかりにくい自由度。
- 自由度とはどうやって求めればいいのか。。
- そもそも、自由度の意味って?
- カイ二乗検定での自由度は?
- T検定での自由度は?
そう思っているのは、あなただけではありません。
ちなみに私は、この自由度の概念がわかるまで3年ぐらいかかりました。。。
というのも、本を読んでも自由度を全然イメージができなかったのです。。
この記事では、カイ二乗検定とT検定の自由度のでの求め方とその意味を、例題を使って解説します。
自由度とは?求め方や意味をわかりやすく
まずは自由度の定義を理解しておきましょう。
この定義でイメージ出来て、自由度を完璧に理解出来たら、もう先を読まなくてもいいです!笑
でも、この定義をみても自由度をイメージ難しくないですか?
私には、さっぱり何のことやらって感じでした。。
そのため、カイ二乗検定とT検定を例にして自由度を解説していきますね。
自由度をカイ二乗検定の例で理解する
言葉や定義で分からないときは、例を考えるのが一番早いです。
ということで、カイ二乗検定の例。
突然ですが問題です。
2×2分割表での自由度はいくつでしょうか?
あなたはわかりますか??
おそらく定義がわからなければ考えてもわからないかと思います。。
では正解。
正解は1です!
定義としては、(2-1)×(2-1)=1ですね。
2×2分割表なので上記の式ですが、例えば3×2分割表の場合だと、自由度は(3-1)×(2-1)=2になります。
そのため、一般化すると、m×n分割表の自由度は(m-1)×(n-1)となります。
一応、定義がわかったところで、なぜそのような式になるのかを考えていきます。
カイ二乗検定での自由度の求め方を例題で理解する
治った | 治らなかった | 合計 | |
薬剤群 | 13 | 7 | 20 |
コントロール群 | 5 | 15 | 20 |
合計 | 18 | 22 | 40 |
この表で自由度を考えてみます。
自由度とは、「ある代表値や合計値があるときに、自由に値を取れる数」でした。
つまり合計値だけがある場合を考えてみます。
こんな感じ。
4つのセルの数字がない分割表ですね。
治った | 治らなかった | 合計 | |
薬剤群 | 20 | ||
コントロール群 | 20 | ||
合計 | 18 | 22 | 40 |
この時、4つのセルのうち、どこでもいいので自由に1つ数値を入れてみます。
例として、薬剤群の治った人のセルに15を入れてみます。
すると、こうなりますね。
治った | 治らなかった | 合計 | |
薬剤群 | 15 | 20 | |
コントロール群 | 20 | ||
合計 | 18 | 22 | 40 |
すると、残りのセルは3つ。
では次に、他の3つのセルのうち、どこでもいいので自由に1つ数値を入れてみます。
・・・これ以上自由に数字を入れることってできますか?
だって、薬剤群の治った人は15人です。
薬剤群は全部で20人です。
ということは、薬剤群で治らなかった人は、自動的に5人になりませんか?
他のセルも同様です。
治った人の合計は18人と決まっているので、コントロール群で治った人は、自動的に3人になります。
2×2分割表では、4つのセルのうち1つのセルの値が決まれば、残りの3つが自動的に決まってしまいます。
つまり、自由に値を決められるのは1つだけということです。
これが自由度の概念です。
自由度をT検定の例で理解する
T検定の自由度は「データの数-群の数」です。
これは結構有名ですね。
T検定の自由度は、T分布表と見比べる時に重要になるので、是非とも覚えておきたい概念です。
では、なぜこのような自由度の定義「データの数-群の数」なのか。
考えてみましょう。
もう一度、自由度の定義を再掲しておきますね。
T検定は平均値を比較する検定手法です。
ということは、自由度を考える際の代表値は、平均値です。
平均値を出すとき、自由にとれるデータの数は?
T検定での自由度の求め方を例題で理解する
例えば、以下の10個のデータがあったとき。
a | b | c | d | e | f | g | h | i | j | 平均値 |
5 | 8 | 3 | 5 | 3 | 6 | 2 | 7 | 4 | 4 | 4.7 |
平均値は4.7です。
では、4.7という平均値が固定されていた場合、何個のデータを自由に決めることができるでしょうか?
自由に決めることができるのは、9個ですよね。
9個のデータが決まったら、残り一つは自動的に決まりませんか?
「j」にある「4」の数字がなかったとしても、平均値が4.7とわかっていたら、jは自動的に4しか入ることができません。
一般化すると、n個のデータがあった時、平均値が与えられた元で自由にデータを決めることができる数はn-1個です。
これが、T検定の自由度が「データの数-群の数」である理由。
2群のT検定の場合、もちろん平均値は2つあることになりますね。
各群1つずつ平均値があって、それを比較するので。
なので、全データから2を引いたものが自由度になります。
自由度とは?まとめ
- 自由度とは、ある代表値や合計値があるときに、自由に値を取れる数。
- m×n分割表の自由度は(m-1)×(n-1)となる。
- T検定の自由度は、データの数-群の数となる。
自由度に関しては、こちらの動画でも解説しておりますので、併せてご確認くださいませ^^
コメント
コメント一覧 (2件)
[…] 一番優しい、医薬品開発に必要な統計学の教本 自由度とは??求め方とその解説を5分で理解できます! […]
[…] 一番優しい、医薬品開発に必要な統計学の教本 自由度とは??求め方とその解説を5分で理解できます! […]