突然ですが、統計学は最終的に何を知りたいか、ということを意識したことはありますか?
私たちは目の前のデータを要約したり検定したりすることが目標なのでしょうか?
もちろん、そういった側面があるということも事実です。
ですが、それだけではありません。
統計学が最終的に目指しているゴールは、母集団と標本の関係を意識することで、わかりやすくなります。
今回の記事では、母集団と標本の関係に関して、その違いをわかりやすい例を用いて解説していきます。
母集団と標本の関係を、例を踏まえてわかりやすく解説!
統計を勉強していくと、必ず「母集団」という言葉に出会います。
実は、統計学の最終目標は、母集団を推定することにある、といっても過言ではありません。
この「最終目標」を理解するには、まずは母集団と標本という2つの用語を理解しなければなりません。
統計的な調査方法1:母集団を調査することの例
例えば、2016年における日本の小学6年生の身長と体重が知りたい、といった時に、どのように調べればよいでしょうか?
方法としては2つ考えられます。
1つは、2016年における日本の小学6年生全員の身長と体重を測定してしまうこと。
これが出来れば、全く問題なく2016年の小学6年生の身長と体重を知ることが出来ます。
そして、この2016年における日本の小学6年生全員のことを「母集団」と呼びます。
もっと一般化して言うと、「興味がある対象の、すべての人」が母集団ということになります。
繰り返します。
今回の例では、2016年の小学6年生の身長と体重が知りたい、ということでした。
なので、2016年の小学6年生が、興味ある対象ですよね。
だったら、興味ある対象である2016年の小学6年生全員が、母集団になります。
もう1つ違う例でいうと、2016年の日本の30歳の年収を知りたいとしたら、2016年の日本の30歳全員が母集団ということになります。
ここで1度、母集団の定義をまとめます。
なので、もし興味がある対象(今回の例では2016年の小学6年生)があれば、その母集団を調べれば興味ある対象のデータは確実ですよね。
これが、方法の1つ目です。
統計的な調査方法2:標本集団を調査して母集団を推定することの例
上述した通り、興味のある対象全ての人(母集団)を測定できれば一番良いのですが、それには限界があります。
なぜなら、データを取るのに費用や手間がかかるからです。
そのため、我々は日常、興味ある対象の一部を選出し、選出された人のデータを扱うことになります。
これが2つ目の方法です。
この興味ある対象の一部を「標本」と呼びます。
例えば、2016年における日本の小学6年生を対象とするなら、「2016年の東京都の小学6年生」が標本に当たります。
そのほかにも、「2016年の佐藤という名字の小学6年生」も標本の一つになります。
ここで1度、標本の定義をまとめます。
これが、方法の2つ目です。
母集団と標本の違いは?なぜ標本を調べれば大丈夫なの?
母集団と標本の関係を整理します。
母集団とは、興味ある対象の全て、でした。
一方で標本とは、興味ある対象の一部、でした。
これが、母集団と標本の関係です。
必ず、母集団の方が標本よりも集団として大きくなることが想像できると思います。
なぜ標本を調査すれば母集団のことがわかるのか?
母集団と標本の関係はわかりました。
すると、一つ疑問が湧いてくると思います。
なぜ母集団ではなく標本を調べることが許されるのか?
ということ。
だって、標本は「母集団の一部」ですから、母集団のことを知りたいのであれば、やっぱり母集団全体を調べるしかないのでは?と思いませんか?
しかし、ここが統計の醍醐味なのです。
先ほどの質問の答えを書くと、このようになります。
統計では、母集団から抜き出された一部の標本を使って、母集団を推定することができる
だから、標本を調査するだけで、母集団を(ある程度)知ることができるのです。
今までの話を、図にまとめます。
私たちが本当に知りたい情報は、母集団の情報です。
しかしながら、費用や手間の関係で、母集団全部のデータを取得することは不可能なことが多いです。
そのため、母集団の一部を抜き出し(抽出し)た標本を調べることにします。
通常、私たちが扱っているデータは、標本であることが大多数です。
そして、その標本のデータを解析することで、母集団がどうなっているのかを推測する(推定する)ことができるのです。
つまり、統計の最終的なゴールはこのようなことです。
標本のデータを使って、母集団を推定すること
ぜひ、この最終的なゴールを意識してください。
臨床試験(治験)での母集団と標本の関係とは?
ここで、臨床試験(治験)での例を考えてみましょう。
例えば開発したい薬が、高血圧の薬であるとします。
その場合、母集団というのは、高血圧の患者さん全員になります。
この時に、母集団は日本の患者なのか世界中の患者なのか、といった疑問が出てきますよね。
その回答としては、その薬剤開発の目的によって変わる、ということです。
例えばその薬剤が日本国内だけで開発している薬であれば、日本の患者さんが母集団になります。
一方、グローバル開発をしたいということであれば、世界中の患者が母集団ということになります。
先ほどの例でも、2016年の小学6年生ではなく、2016年の小学生全員が興味の対象であれば、母集団は2016年の小学生全員、ということになります。
このように、興味ある対象がどこか?を意識することで、母集団は変わりうる、ということに注意してください。
では、臨床試験における標本は何になるのでしょうか?
もうわかりましたよね。
それは、臨床試験に参加してくださる患者さん、が標本ということになります。
この例では、高血圧の薬の臨床試験に参加している患者さん、が標本になります。
また、他の薬であれば、糖尿病を対象としているのであれば、臨床試験に参加してくださる糖尿病の患者さんが標本になりますし、抗がん剤であれば、臨床試験に参加してくださるがん患者さんが標本になります。
母集団と標本を意識すると、論文の読み方が変わる
この「母集団と標本の関係」を意識すると、臨床試験結果の見方がすごく変わります。
例えば、ある臨床試験の論文を読んだときに、結果だけ確認する方が多いかもしれません。
そして、論文に良い結果が出ているからその薬剤は有望なんだな、と思います。
ですが、この「母集団と標本」という考え方が分かっている方が論文を読むと、必ず「どういった患者さんがその臨床試験に入っているか」という背景情報を正しく読み取ろうとします。
なぜ背景情報を読み取ろうとするかわかりますか?
それは、この論文に記載されている結果から、すべての患者に効く薬なのか、一部の患者に効く薬なのか、ということを確認しているのです。
標本の選び方は何通りもあるわけですから、この臨床試験に入った患者がどういった標本なのか?を意識することがとても重要になるのです。
どこまでの患者に結果を適用できるか?という考えは、一般化可能性もしくは外的妥当性と言われる概念があります。
この概念をぜひ理解しましょう。
母集団と標本に関するまとめ
母集団の定義は、興味ある対象の全て。
標本の定義は、興味ある対象の一部。
統計を使うことによって、標本のデータから母集団を推定することができる。
統計のゴールは、標本のデータから母集団を推定すること、ということもできる。
この「母集団と標本」を意識することで、論文では被験者背景情報を正しく理解するきっかけになる。
コメント
コメント一覧 (6件)
[…] 一番優しい、医薬品開発に必要な統計学の教本母集団と標本https://best-… […]
[…] 母集団と標本 […]
[…] 詳しくは、母集団と標本の関係とはでも説明しています! […]
[…] >>>母集団と標本の関係とは?違いをわかりやすい例を用いて解説 […]
[…] 2つ目は、得られたデータ(標本)から、データ全体(母集団)を推定すること。 […]
[…] 真の値というのは、統計分析を用いて推定しようとしている対象集団(母集団)の値のことです。 […]