t 分布と t 検定の関係

2018年7月1日2024年10月14日

t分布とは何か？t検定とどう関係するのか？

＞＞もう統計で悩むのは終わりにしませんか？

↑1万人以上の医療従事者が購読中

t分布とはいったい何なのか？

t検定とはよく聞くが、それとt分布は関係あるのか？

t分布は要するに何なのか？

実は、t分布は標準正規分布の代わりだ。

どんなときに代わりとして使うか。

2つ条件がある。

母分散が未知の場合。
サンプルサイズが小さい場合。

統計学の演習課題では、母分散がわかっていることが多いが、現実的にはわからない。

ゆえに母分散は未知と考えるほうが自然だ。

標準正規分布であれば、p=0.975のクォンタイルが1.96である。

しかし、t分布では、サンプルサイズが500を超えないと、p=0.975のクォンタイルが1.96にならない。

サンプルサイズが小さいときは、1.96 よりも大きくなってしまう。

> qt(p=0.975,df=400)
[1] 1.965912
> qt(p=0.975,df=500)
[1] 1.96472
> qt(p=0.975,df=600)
[1] 1.963926

よって、どんなときも、現実の統計学では、標準正規分布を使いたい場面では、t分布を使うのが適切なのだ。

クォンタイルについては、こちらを参照。

t分布はどんな形をしているか？

標準正規分布をなだらかにした形をしている。

実線が自由度8のt分布。

点線が標準正規分布。

各群5例で、t検定をするとすれば、自由度8のt分布を使う。

n1 <- 5
n2 <- 5
df <- n1+n2-2
curve(dt(x, df), -4, 4, las=1, xlab="t")
curve(dnorm(x), -4, 4, lty=2, add=T)

ほぼ同じように見えるが、サンプルサイズが小さい検定の場合は、 t分布を使ったほうがよい。

＞＞もう統計で悩むのは終わりにしませんか？

↑1万人以上の医療従事者が購読中

t検定とt分布はどう関係する？

t検定は、独立2群の平均値の差の検定とも呼ばれる。

t検定では、各群の母平均が等しいという帰無仮説から物事を考え始める。

大事なのは検定統計量tを計算することだ。

tはこんな式で計算される。

$$ t = \frac{\overline{x_1} – \overline{x_2}}{\sqrt{U_e \left( \frac{1}{n_1 – 1} + \frac{1}{n_2 – 1} \right)}} $$

ここで、$ \overline{x_1} $ と $ \overline{x_2} $ は、それぞれの群の平均値。

$ n_1 $ と $ n_2 $ はそれぞれの群のサンプルサイズ。

$ U_e $ は両群を合わせた分散の推定値。計算式は以下の通り。

$$ U_e = \frac{(n_1 – 1) U_1 + (n_2 – 1) U_2}{n_1 – 1 + n_2 – 1} $$

$ U_1 $ と $ U_2 $ はそれぞれの群の不偏分散。

分子は、平均値の差、分母は、平均値の差の標準誤差。

言葉で書けば、

$$ t = \frac{平均値の差}{標準誤差} = \frac{効果}{ノイズ} $$

と言える。

つまり、サンプルサイズの小ささやデータのばらつきなど、効果を検出するための「ノイズ」を超えて、効果が大きいと判断できれば、母集団でも違いがあると判断出来る。

結論は、統計学的有意な差がある（統計学的有意差がある）となる。

統計学的有意と判断する閾値（しきいち）は、絶対値で2くらいだ。

統計学的有意の閾値の2くらいとは？

検定では、慣例として、5%未満をまれなこととしている。

20回に1回はまれ。

まれに間違うことを許容している。

5%未満のことが起きたとすれば、まれなことが起きたとして、仮説が間違っていたと考える。

つまり、帰無仮説を捨てて、母平均に差があると結論付ける。

この5%をどうやって判断しているかというと、先ほどの検定統計量より絶対値が大きな値になる確率が5%未満かどうかで判断している。

絶対値が大きくなる条件は3つ。

平均値の差が大きくなること
各群の分散が小さくなること
各群のサンプルサイズが大きくなること

サンプルサイズが両群合わせて500を超えるなら、97.5パーセンタイルや2.5パーセンタイルの時のクォンタイルは±1.96だ。

サンプルサイズが小さくなると、2に近づき、2を超えてくる。

> qt(p=0.975, df=100)
[1] 1.983972
> qt(p=0.975, df=50)
[1] 2.008559
> qt(p=0.975, df=20)
[1] 2.085963
> qt(p=0.975, df=10)
[1] 2.228139

このクォンタイルのことを閾値と呼び、2くらいと表現した。

「閾値より大きい」を図に表すとどうなるか？

自由度8のt分布を使って、上側2.5％、下側2.5％のところを塗りつぶす。

これが閾値よりも絶対値で大きいときの確率を表している。

パーセンタイルでいうと、上側は97.5パーセンタイル、下側は2.5パーセンタイル。

n1 <- 5
n2 <- 5
df <- n1+n2-2
curve(dt(x, df), -4, 4, las=1, xlab="t")
arrows(qt(0.975,df),0,qt(0.975,df),dt(qt(0.975,df),df),0)
arrows(qt(0.025,df),0,qt(0.025,df),dt(qt(0.025,df),df),0)
xvalu <- seq(qt(0.975,df),4,length=20)
dvalu <- dt(xvalu, df)
polygon(c(xvalu, rev(xvalu)), c(rep(0,20), rev(dvalu)),col="skyblue")
xvall <- seq(-4, qt(0.025,df),length=20)
dvall <- dt(xvall, df)
polygon(c(xvall, rev(xvall)), c(rep(0,20), rev(dvall)),col="skyblue")

塗りつぶした図がこちら。

これがp値が0.05のときの状態。

つまり、p値は割合＝確率＝面積なのだ。

もしt値が1.5と計算されたとしよう。

するとt=1.5は上側の青い面積には入らない。

arrows(1.5, 0, 1.5, dt(1.5, df), 0)

ゆえに統計学的有意でない。

ちなみに自由度8でt=1.5の場合、91.4パーセンタイル。

上側8.6パーセント。

これは100から91.4を引いて計算してる。

両側検定であれば、2倍の0.172

これがp値となる。

> pt(1.5, df=8)
[1] 0.9139984
> 1-pt(1.5, df=8)
[1] 0.08600165
> (1-pt(1.5, df=8))*2
[1] 0.1720033

R で t 分布をずらして一度に表示させる方法

帰無仮説のｔ分布と対立仮説のｔ分布の説明の時に、ｔ分布をずらして2つ並べて表示したいことがある。

そんなときは、以下のように、描画範囲を広げて、例えば-4から4を-4から7などにして、平均をずらすために、クォンタイルから例えば3を引いてx-3などとして描画すると、2つのｔ分布を並べることができる。

curve(dt(x, 8), -4, 7, las=1, xlab="t")
curve(dt(x-3, 8), -4, 7, lty=2, add=T)

自由度8のt分布をクォンタイル3だけずらして2つ並べて描画した。

まとめ

ｔ分布は、母分散がわからないとき、サンプルサイズが小さいときの、標準正規分布の代替分布。

独立2群の平均値の差の検定である、t検定で使用される。

標準正規分布で閾値だった1.96から少し大きめで2くらいだが、これはサンプルサイズから計算される自由度による。

t検定から計算されるp値は、いまよりももっと効果がある場合の確率の合計で、図で表すと面積になる。

参考書籍

The R Tips 第3版: データ解析環境Rの基本技・グラフィックス活用集

作者:舟尾暢男
オーム社

Amazon

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

リサーチクエスチョン探し？データ分析？論文投稿？、、、で、もう悩まない！

第1章：臨床研究ではなぜ統計が必要なのか？計画することの重要性

推定ってどんなことをしているの？
臨床研究を計画するってどういうこと？
どうにかして標本平均を母平均に近づけられないか？

第2章：研究目的をどれだけ明確にできるのかが重要

データさえあれば解析でどうにかなる、という考え方は間違い
何を明らかにしたいのか？という研究目的が重要
研究目的は4種類に分けられる
統計専門家に相談する上でも研究目的とPICOを明確化しておく

第3章：p値で結果が左右される時代は終わりました

アメリカ統計協会（ASA）のp値に関する声明で指摘されていること
そうは言っても、本当に有意差がなくてもいいの…？
なぜ統計専門家はp値を重要視していないのか
有意差がない時に「有意な傾向があった」といってもいい？
統計を放置してしまうと非常にまずい

第4章：多くの人が統計を苦手にする理由

残念ながら、セミナー受講だけで統計は使えません。
インプットだけで統計が使えない理由
どうやったら統計の判断力が鍛えられるか？
統計は手段なので正解がないため、最適解を判断する力が必要

第5章：統計を使えるようになるために今日から何をすれば良いか？

論文を読んで統計が使えるようになるための5ステップ

第6章：統計を学ぶために重要な環境

統計の3つの力をバランスよく構築する環境

『統計を身につける5つのステップ』を
通常1,650円 → メルマガ登録で無料でプレゼント

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

~~通常価格：1,650円~~　→　無料でお届け

【無料】統計を使いこなすための秘策を学ぶ

この記事を書いた人

toukei-er

統計 ER ブログ執筆者

元疫学研究者

【無料プレゼント付き】学会発表・論文投稿に必要な統計を最短で学ぶことができる無料メルマガ

t 分布と t 検定の関係

t分布とはいったい何なのか？

t分布はどんな形をしているか？

t検定とt分布はどう関係する？

統計学的有意の閾値の2くらいとは？

「閾値より大きい」を図に表すとどうなるか？

R で t 分布をずらして一度に表示させる方法

まとめ

参考書籍

リサーチクエスチョン探し？データ分析？論文投稿？、、、で、もう悩まない！

『統計を身につける5つのステップ』を
通常1,650円 → メルマガ登録で無料でプレゼント

この記事を書いた人

コメント

コメントするコメントをキャンセル

【無料プレゼント付き】学会発表・論文投稿に必要な統計を最短で学ぶことができる無料メルマガ

t 分布 と t 検定の関係

t分布とはいったい何なのか？

t分布はどんな形をしているか？

t検定とt分布はどう関係する？

統計学的有意の閾値の2くらいとは？

「閾値より大きい」を図に表すとどうなるか？

R で t 分布をずらして一度に表示させる方法

まとめ

参考書籍

リサーチクエスチョン探し？データ分析？論文投稿？、、、で、もう悩まない！

『統計を身につける5つのステップ』を通常1,650円 → メルマガ登録で無料でプレゼント

この記事を書いた人

関連記事

コメント

コメントする コメントをキャンセル

t 分布と t 検定の関係

『統計を身につける5つのステップ』を
通常1,650円 → メルマガ登録で無料でプレゼント

コメントするコメントをキャンセル