95%信頼区間について

点と線

私たちは代表値とバラつきに関して理解しました。しかしこれではまだ不十分です。それは,代表値が「点」推定であるということです。どういうことかを,バラつきの指標のページで登場した,大学生の体重の例を使ってみましょう。

 

10人(母集団)のうちの5人(標本)の平均値は?

この表にある,10人のデータが母集団だとします。その時の母集団の平均値は65.17です。では,この10人の母集団から,5人の標本の体重の平均値を出してみます。大学生1〜5の5人(標本1とします)の平均値は56.58です。大学生3〜7の5人(標本2)の平均値は62.5です。大学生3,4,7,8,10の5人(標本3)の平均値は68.48です。ここで注目したいのは,どの標本であっても,母集団の平均値に一致することはないということです。つまり,あるデータの平均値(代表値)は,そのデータだからその平均値になっただけであって,必ずしも母集団の平均値とは一致しないということです。

 

症例

大学生1

大学生2

大学生3

大学生4

大学生5

大学生6

大学生7

大学生8

大学生9

大学生10

体重

50.4

54.6

55.2

58.4

64.3

65.5

69.1

71.4

74.5

88.3

 

区間推定を理解する

上記の例で,点推定(平均値)だけでは不十分であることを理解しました。では,どうすればよいか?それは,線(区間)の推定を行えばよいということです。推定とは,標本から母集団を特定する事です。そのため,母集団の平均値はこれだ!と,点で表すのではなく,母集団の平均値は,これぐらいの間にあるはず,というように区間で示す必要があるのです。

 

95%信頼区間って何?

その区間推定を表す指標の代表的なものが,95%信頼区間(95% Confidence Interval; 95%CI)です。データを扱ったことのある方であれば,95%信頼区間という言葉は聞いたことがあると思います。しかし,それが何を意味するか?まで知っている人は,少ないのではないでしょうか。ここで整理しておきましょう。95%信頼区間は,区間推定の代表的な指標です。

 

標準誤差という用語を理解する。

95%CIを理解するためには,標準誤差(Standard Error; SE)というものを理解する必要があります。標準誤差は標準偏差と用語が似ていますが,皆さんはその違いを説明することが出来ますか?標準誤差は,以下の数式で求めることが出来ます。

SE=SD/sqrt(n)

ここでnというのは,データの数を表しています。つまり,nが大きい=データの数が大きいほど,SEは小さくなるという性質があります。

 

データの数で何が変わるか?

例えば,20歳の身長の平均値を知りたいとします。その時に,ある研究チームは50例のデータが得られ,もう一方の研究チームは1000例のデータが得られたとします。そして,これらの2つのチームデータは平均値165cm,標準偏差20という,全く同じ要約統計量が算出されました。このとき,どちらのデータが信頼性が高いでしょうか?
直感的にも,1000例のデータの方が,信頼性が高いと思いませんか?この時の2つのデータの標準誤差を計算してみましょう。前者のデータの標準誤差は,20/sqrt(50)=2.83です。後者の標準誤差は,20/sqrt(1000)=0.63になります。

 

標準誤差は平均値の信頼性を表す。

上記の通り,全く同じデータのバラつきでも,データが多いか少ないかで,その要約統計量(平均値など)の情報の信頼性というのは異なります。そして,データが多いほど標準誤差は小さくなります。標準誤差の使い方は,平均値(標準誤差)という使い方が普通です。つまり,標準誤差とは平均値の信頼性を表す指標です。重要なのでもう一度書きます。標準偏差はデータのバラつきの指標であるのに対し,標準誤差は平均値の信頼性を表す指標です。

 

では,95%CIは?

標準誤差が理解できれば,95%CIを理解することは簡単です。正規分布の場合の95%CIの計算式は,95%CI=1.96*SEで計算できます。簡単ですね。そして重要なことは,95%CIが何を表しているか,です。
突然ですが,95%信頼区間と聞いて,皆さんが想像するのは以下のうちどちらでしょうか?

 

  1. その95%信頼区間の中に,95%の確率で真値が入る。
  2. 真値は固定されており,仮に100回試験をした場合,100回中5回くらいは真値を含まないことがある。

 

正解は2です。これは皆さん混同しやすいので注意が必要です。真値は真の値ですから,必ず1つだけです。1の場合ですと,95%信頼区間が固定されており,真値が動いているイメージです。違います。真値が固定されていて,95%信頼区間がデータによって変わりうるのです。この概念は非常に重要ですので,しっかりと理解してください。

 

まとめ

  • 推定は,点推定だけでは不十分であり,区間推定を実施する必要がある。
  • 95%信頼区間が区間推定の代表である。
  • 95%信頼区間とは,仮に100回試験をした場合,100回中5回くらいは真値を含まないことがある,ということを意味する。


data-ad-client="ca-pub-8866234902868600"
data-ad-slot="5243035170"
data-ad-format="auto">



HOME プロフィール お問い合わせ