MENU

【無料プレゼント付き】学会発表・論文投稿に必要な統計を最短で学ぶことができる無料メルマガ

t 分布 と t 検定の関係

t分布とは何か?t検定とどう関係するのか?

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

目次

t分布とはいったい何なのか?

t検定とはよく聞くが、それとt分布は関係あるのか?

t分布は要するに何なのか?

実は、t分布は標準正規分布の代わりだ。

どんなときに代わりとして使うか。

2つ条件がある。

  1. 母分散が未知の場合。
  2. サンプルサイズが小さい場合。

統計学の演習課題では、母分散がわかっていることが多いが、現実的にはわからない。

ゆえに母分散は未知と考えるほうが自然だ。

標準正規分布であれば、p=0.975のクォンタイルが1.96である。

しかし、t分布では、サンプルサイズが500を超えないと、p=0.975のクォンタイルが1.96にならない。

サンプルサイズが小さいときは、1.96 よりも大きくなってしまう。

> qt(p=0.975,df=400)
[1] 1.965912
> qt(p=0.975,df=500)
[1] 1.96472
> qt(p=0.975,df=600)
[1] 1.963926

よって、どんなときも、現実の統計学では、標準正規分布を使いたい場面では、t分布を使うのが適切なのだ。

クォンタイルについては、こちらを参照。

t分布はどんな形をしているか?

標準正規分布をなだらかにした形をしている。

実線が自由度8のt分布。

点線が標準正規分布。

各群5例で、t検定をするとすれば、自由度8のt分布を使う。

n1 <- 5
n2 <- 5
df <- n1+n2-2
curve(dt(x, df), -4, 4, las=1, xlab="t")
curve(dnorm(x), -4, 4, lty=2, add=T)

ほぼ同じように見えるが、サンプルサイズが小さい検定の場合は、 t分布を使ったほうがよい。

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

t検定とt分布はどう関係する?

t検定は、独立2群の平均値の差の検定とも呼ばれる。

t検定では、各群の母平均が等しいという帰無仮説から物事を考え始める。

大事なのは検定統計量tを計算することだ。

tはこんな式で計算される。

$$ t = \frac{\overline{x_1} – \overline{x_2}}{\sqrt{U_e \left( \frac{1}{n_1 – 1} + \frac{1}{n_2 – 1} \right)}} $$

ここで、$ \overline{x_1} $ と $ \overline{x_2} $ は、それぞれの群の平均値。

$ n_1 $ と $ n_2 $ はそれぞれの群のサンプルサイズ。

$ U_e $ は両群を合わせた分散の推定値。計算式は以下の通り。

$$ U_e = \frac{(n_1 – 1) U_1 + (n_2 – 1) U_2}{n_1 – 1 + n_2 – 1} $$

$ U_1 $ と $ U_2 $ はそれぞれの群の不偏分散。

分子は、平均値の差、分母は、平均値の差の標準誤差。

言葉で書けば、

$$ t = \frac{平均値の差}{標準誤差} = \frac{効果}{ノイズ} $$

と言える。

つまり、サンプルサイズの小ささやデータのばらつきなど、効果を検出するための「ノイズ」を超えて、効果が大きいと判断できれば、母集団でも違いがあると判断出来る。

結論は、統計学的有意な差がある(統計学的有意差がある)となる。

統計学的有意と判断する閾値(しきいち)は、絶対値で2くらいだ。

統計学的有意の閾値の2くらいとは?

検定では、慣例として、5%未満をまれなこととしている。

20回に1回はまれ。

まれに間違うことを許容している。

5%未満のことが起きたとすれば、まれなことが起きたとして、仮説が間違っていたと考える。

つまり、帰無仮説を捨てて、母平均に差があると結論付ける。

この5%をどうやって判断しているかというと、先ほどの検定統計量より絶対値が大きな値になる確率が5%未満かどうかで判断している。

絶対値が大きくなる条件は3つ。

  1. 平均値の差が大きくなること
  2. 各群の分散が小さくなること
  3. 各群のサンプルサイズが大きくなること

サンプルサイズが両群合わせて500を超えるなら、97.5パーセンタイルや2.5パーセンタイルの時のクォンタイルは±1.96だ。

サンプルサイズが小さくなると、2に近づき、2を超えてくる。

> qt(p=0.975, df=100)
[1] 1.983972
> qt(p=0.975, df=50)
[1] 2.008559
> qt(p=0.975, df=20)
[1] 2.085963
> qt(p=0.975, df=10)
[1] 2.228139

このクォンタイルのことを閾値と呼び、2くらいと表現した。

「閾値より大きい」を図に表すとどうなるか?

自由度8のt分布を使って、上側2.5%、下側2.5%のところを塗りつぶす。

これが閾値よりも絶対値で大きいときの確率を表している。

パーセンタイルでいうと、上側は97.5パーセンタイル、下側は2.5パーセンタイル。

n1 <- 5
n2 <- 5
df <- n1+n2-2
curve(dt(x, df), -4, 4, las=1, xlab="t")
arrows(qt(0.975,df),0,qt(0.975,df),dt(qt(0.975,df),df),0)
arrows(qt(0.025,df),0,qt(0.025,df),dt(qt(0.025,df),df),0)
xvalu <- seq(qt(0.975,df),4,length=20)
dvalu <- dt(xvalu, df)
polygon(c(xvalu, rev(xvalu)), c(rep(0,20), rev(dvalu)),col="skyblue")
xvall <- seq(-4, qt(0.025,df),length=20)
dvall <- dt(xvall, df)
polygon(c(xvall, rev(xvall)), c(rep(0,20), rev(dvall)),col="skyblue")

塗りつぶした図がこちら。

これがp値が0.05のときの状態。

つまり、p値は割合=確率=面積なのだ。

もしt値が1.5と計算されたとしよう。

するとt=1.5は上側の青い面積には入らない。

arrows(1.5, 0, 1.5, dt(1.5, df), 0)

ゆえに統計学的有意でない。

ちなみに自由度8でt=1.5の場合、91.4パーセンタイル。

上側8.6パーセント。

これは100から91.4を引いて計算してる。

両側検定であれば、2倍の0.172

これがp値となる。

> pt(1.5, df=8)
[1] 0.9139984
> 1-pt(1.5, df=8)
[1] 0.08600165
> (1-pt(1.5, df=8))*2
[1] 0.1720033

R で t 分布をずらして一度に表示させる方法

帰無仮説のt分布と対立仮説のt分布の説明の時に、t分布をずらして2つ並べて表示したいことがある。

そんなときは、以下のように、描画範囲を広げて、例えば-4から4を-4から7などにして、平均をずらすために、クォンタイルから例えば3を引いてx-3などとして描画すると、2つのt分布を並べることができる。

curve(dt(x, 8), -4, 7, las=1, xlab="t")
curve(dt(x-3, 8), -4, 7, lty=2, add=T)

自由度8のt分布をクォンタイル3だけずらして2つ並べて描画した。

まとめ

t分布は、母分散がわからないとき、サンプルサイズが小さいときの、標準正規分布の代替分布。

独立2群の平均値の差の検定である、t検定で使用される。

標準正規分布で閾値だった1.96から少し大きめで2くらいだが、これはサンプルサイズから計算される自由度による。

t検定から計算されるp値は、いまよりももっと効果がある場合の確率の合計で、図で表すと面積になる。

参考書籍

The R Tips 第3版: データ解析環境Rの基本技・グラフィックス活用集
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

リサーチクエスチョン探し?データ分析?論文投稿?、、、で、もう悩まない!

第1章臨床研究ではなぜ統計が必要なのか?計画することの重要性
  • 推定ってどんなことをしているの?
  • 臨床研究を計画するってどういうこと?
  • どうにかして標本平均を母平均に近づけられないか?
第2章:研究目的をどれだけ明確にできるのかが重要
  • データさえあれば解析でどうにかなる、という考え方は間違い
  • 何を明らかにしたいのか? という研究目的が重要
  • 研究目的は4種類に分けられる
  • 統計専門家に相談する上でも研究目的とPICOを明確化しておく
第3章:p値で結果が左右される時代は終わりました
  • アメリカ統計協会(ASA)のp値に関する声明で指摘されていること
  • そうは言っても、本当に有意差がなくてもいいの…?
  • なぜ統計専門家はp値を重要視していないのか
  • 有意差がない時に「有意な傾向があった」といってもいい?
  • 統計を放置してしまうと非常にまずい
第4章:多くの人が統計を苦手にする理由
  • 残念ながら、セミナー受講だけで統計は使えません。
  • インプットだけで統計が使えない理由
  • どうやったら統計の判断力が鍛えられるか?
  • 統計は手段なので正解がないため、最適解を判断する力が必要
第5章:統計を使えるようになるために今日から何をすれば良いか?
  • 論文を読んで統計が使えるようになるための5ステップ
第6章:統計を学ぶために重要な環境
  • 統計の3つの力をバランスよく構築する環境

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

この記事を書いた人

統計 ER ブログ執筆者

元疫学研究者

コメント

コメントする

目次