NO IMAGE

データを要約するということ

広告

データをまとめる力

データが得られたら、何をする必要があるでしょうか?
一つ一つのデータを確認する?平均値を出してみる?検定してみる?
実は、どれも正解です。
臨床試験のデータであれば、第I相試験ぐらいのデータ量であれば一つ一つ確認することも可能ですし、むしろそれがとても重要な場面が多々あります。
しかし、第II相試験や第III相試験ぐらいのデータ量になってしまうと、データを一つ一つ確認することは不可能に近いです。
その際には、データを要約してみる、ということを考えるのが自然です。
しかし、データを要約するといっても、何をすればよいの?と思いがちです。
このページでは、データを要約するうえで重要なことを解説します。

統計に対する皮肉

これはとある皮肉です。

Statistics has been described as the science which tells you that if you lie with your head in the oven and your feet in the refrigerator, on average you’ll be comfortably warm.

日本語訳すると、こういう意味になります。

頭はオーブンに、足は冷蔵庫に入っていても、身体全体で平均すれば「心地よい暖かさだ」

これは,平均値に対する皮肉です。
確かに,データを要約する際に,平均値を算出することが多いです。
でも,平均値だけで良いのでしょうか?

平成26年の平均貯蓄額は1700万円!?

この数値だけを見て何を感じますか?
この平均貯蓄額というのは,我々の実態を決してあらわしているものではありません。
下の図を見てください。
これを見ると,貯蓄が低いところに多くの方が入っていて,その一方で,すごく大きな貯蓄額の方が少なからずいるということが分かります。
そのため平均値を取ると,貯蓄額が多い人に引っ張られて,平均値が大きいところに落ち着くという現象になっています。

中央値と最頻値

このようなデータの分布の場合,平均値だけを算出することは得策ではありません。
そのため,中央値や最頻値などを確認する必要があります。
それに加え、データのバラつきの指標である,分散や標準偏差を出力することが求められます。
また,最小値や最大値を出力することも有意義です。
平均貯蓄の例を見ますと、分布を代表する統計量としては、平均値よりも中央値の方が適当であると思いますし、場合によっては最頻値のほうが良い場合もあると思います。

平均値だけでは適当でないと気付くために

データの分布を確認するということがとても重要になります。
具体的には,ヒストグラムと呼ばれる図を作成することが一番良いと考えます。
この「データを確認する」という行為は,簡単にできるのに,疎かにしてしいがちな作業の一つだと思います。
平均値を算出することが適当である分布は,データの分布が左右対称である場合です。
そのため,そのデータが左右対称か?ということを確認するためにも必要な作業なのです。

まとめ

  • データの要約には平均値が用いられることが多いが、中央値や分散を算出することも重要
  • 平均値の算出が適しているのは、データの分布が左右対称である場合のみ
  • データの分布を確認するのに、ヒストグラムが適している

 

統計検定2級対策もできる

無料動画の統計授業

 

 

無料動画で統計を学びませんか?

 

・この数式、何を言っているのか全くわからない・・・ 

・統計を学びたいけど、何から手をつけていいのだろう・・・

・統計検定2級を受験したいけど、どう勉強したら・・・

・もう自力で統計を学ぶのに疲れました・・・

 

あなたはそんな悩みを抱えていませんか?

大丈夫です。

最後の手段があります。

どこにもない、統計の無料メルマガ。

 

NO IMAGE
最新情報をチェックしよう!