データを要約するということ

データをまとめる力

データが得られたら、何をする必要があるでしょうか?一つ一つのデータを確認する?平均値を出してみる?検定してみる?実は、どれも正解です。臨床試験のデータであれば、第I相試験ぐらいのデータ量であれば一つ一つ確認することも可能ですし、むしろそれがとても重要な場面が多々あります。しかし、第II相試験や第III相試験ぐらいのデータ量になってしまうと、データを一つ一つ確認することは不可能に近いです。その際には、データを要約してみる、ということを考えるのが自然です。しかし、データを要約するといっても、何をすればよいの?と思いがちです。このページでは、データを要約するうえで重要なことを解説します。

 

統計に対する皮肉

これはとある皮肉です。「Statistics has been described as the science which tells you that if you lie with your head in the oven and your feet in the refrigerator, on average you’ll be comfortably warm.」要約しますと,頭はオーブンに、足は冷蔵庫に入っていても、身体全体で平均すれば「心地よい暖かさだ」ということです。これは,平均値に対する皮肉です。確かに,データを要約する際に,平均値を算出することが多いです。でも,平均値だけで良いのでしょうか?

 

平成26年の平均貯蓄額は1700万円!?

この数値だけを見て何を感じますか?この平均貯蓄額というのは,我々の実態を決してあらわしているものではありません。下の図を見てください。これを見ると,貯蓄が低いところに多くの方が入っていて,その一方で,すごく大きな貯蓄額の方が少なからずいるということが分かります。そのため平均値を取ると,貯蓄額が多い人に引っ張られて,平均値が大きいところに落ち着くという現象になっています。

 

 

中央値と最頻値

このようなデータの分布の場合,平均値だけを算出することは得策ではありません。そのため,中央値や最頻値などを確認する必要があり、かつ、データのバラつきの指標である,分散や標準偏差を出力することが求められます。また,最小値や最大値を出力することも有意義です。平均貯蓄の例を見ますと、分布を代表する統計量としては、平均値よりも中央値の方が適当であると思いますし、場合によっては最頻値のほうが良い場合もあると思います。

 

平均値だけでは適当でないと気付くために

データの分布を確認するということがとても重要になります。具体的には,ヒストグラムと呼ばれる図を作成することが一番良いと考えます。この「データを確認する」という行為は,簡単にできるのに,疎かにしてしいがちな作業の一つだと思います。平均値を算出することが適当である分布は,データの分布が左右対称である場合です。そのため,そのデータが左右対称か?ということを確認するためにも必要な作業なのです。

 

まとめ

  • データの要約には平均値が用いられることが多いが、中央値や分散を算出することも重要
  • 平均値の算出が適しているのは、データの分布が左右対称である場合のみ
  • データの分布を確認するのに、ヒストグラムが適している


data-ad-client="ca-pub-8866234902868600"
data-ad-slot="5243035170"
data-ad-format="auto">



HOME プロフィール お問い合わせ