データを解析しよう

要約統計量とは何を出力すればいい?研究データの要約に必要なもの

要約統計量とは何を出力すればいい?代表値や標準偏差・箱ひげ図など

データが得られたら、何をする必要があるでしょうか?

  • 一つ一つのデータを確認する?
  • 平均値を出してみる?
  • 統計的検定をしてみる?

実は、どれも正解です。

得られたデータが少なければ、一つ一つ確認することも可能ですし、むしろそれがとても重要な場面があります。

しかし、サンプルサイズが大きくなってデータ量も膨大になってしまうと、データを一つ一つ確認することは不可能に近いです。

その際には、データを要約してみる。

つまり、要約統計量を算出してみるということが重要です。

 

統計の役割は、2つありました

それが、要約することと、計画すること。

このページでは、その中の1つである「データを要約する」ことに関して重要な要約統計量を解説します。

 

>>もう統計で悩むのは終わりにしませんか? 

↑期間・数量限定で無料プレゼント中!

要約統計量とは?何を出力すればいいの?

要約統計量とは?何を出力すればいいの?

では、いざ要約統計量を出力しよう!と言われても、何を出力すれば良いか、途方に暮れてしまいますよね。

2群間の比較の統計解析は?でも書きましたが、基本的には以下の表が作れればOKです。

(例えば、男性と女性ごとに要約統計量を出力したい場合です)

 

男性 女性
平均値(SD) XXX(XX) YYY(YY)
中央値 XXX YYY
範囲 XXX-XXX YYY-YYY
四分位範囲 XXX-XXX YYY-YYY
95%信頼区間 XXX-XXX YYY-YYY

 

まとめると、以下の6つの指標が連続量(量的データ)の要約統計量には必要ですね。

  1. 平均値
  2. 標準偏差
  3. 中央値
  4. 四分位範囲
  5. 範囲
  6. 95%信頼区間

 

要約統計量として、これら6つの指標が出力されていれば、全く問題ないでしょう。

 

要約統計量のためのグラフ:ヒストグラムと箱ひげ図

要約統計量では6つの指標を出力すればOKということを学びました。

しかし、表に数値だけ出されても、あんまりイメージできないですよね。

そのため、ちゃんとグラフを使って可視化することも重要です。

 

要約統計量のためグラフは、2つあると便利です。

  1. ヒストグラム
  2. 箱ひげ図

 

ヒストグラムは、データが正規分布かどうかを把握するために重要なグラフになります。

箱ひげ図は、平均値、中央値、四分位範囲、範囲が一目でわかる、めちゃめちゃ便利なグラフです。

 

なので、先ほどの6つの要約統計量にプラスして、ヒストグラムと箱ひげ図を出力すれば、かなり良いデータの要約をしていることになります。

 

要約統計量の英語表現

英語論文を書く上で、各要約統計量の英語表現が必要ですよね。

そのため、上記の要約統計量の指標の英語表現をお伝えします。

ちなみに要約統計量自体の英語表現は、Summary Statisticsが用いられることが多い印象です。

 

  1. 平均値:Mean
  2. 標準偏差:Standard Deviation (SD)
  3. 中央値:Median
  4. 四分位範囲:Interquartile Range (IQR)
  5. 範囲:Range
  6. 95%信頼区間:95% Confidence Interval (95%CI)
  7. ヒストグラム:Histogram
  8. 箱ひげ図:Box plot

 

要約統計量として平均値と中央値以外の代表値

要約統計量として平均値と中央値以外の代表値

代表値とは、平均値や中央値などのように、データの特徴を表す統計量です。

要約統計量としては、平均値や中央値を出力する必要がありましたね。

そのほかにも、代表値としては最頻値があります。

最頻値とは、もっともデータが集中している値のことをいいます。

ヒストグラムを書いた時に、一番山が高い部分ですね。

たとえば、以下のヒストグラムであれば、170センチの階級の度数が一番多いので、ここが最頻値になります。

 

要約統計量として平均値と中央値以外の代表値

 

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

要約統計量として標準偏差や四分位範囲などのバラツキの指標の役割

データはばらつきます。

例えば、大学生の体重が知りたいという疑問があったとき、日本全国の大学生(母集団)の体重を知ることは実質不可能なため、近くの大学で10人(標本)の体重を教えてもらいました。

すると、以下のような表のとおりのデータが得られました。

大学生1 大学生2 大学生3 大学生4 大学生5 大学生6 大学生7 大学生8 大学生9
体重 50.4 54.6 55.2 58.4 64.3 65.5 69.1 71.4 74.5


この表からまず分かるのは、「同じデータがない」ということです。

これは当たり前かと思いますが、同じデータがないと認識することからバラツキの指標を出力するということを考え出すからです。

同じデータがないため、私たちは平均値や中央値という代表値でデータの特徴をつかみ、さらにバラツキの指標を用いることでデータのイメージを膨らますことが出来ます。

その前提に立つと、どれぐらいばらついているのか?ということに興味が出てくるでしょう。

 

この時に重要なバラツキの指標が、標準偏差と四分位範囲です。

標準偏差は、平均値に対応したバラツキの指標

一方の四分位範囲は、中央値に対応したバラツキの指標です。

 

要約統計量でデータを把握することは、とても重要

要約統計量で出力する指標、そしてヒストグラムと箱ひげ図

これらを出力することは、それほど難しくありません。

でも、とても重要な統計解析の方法ですし、立派に統計解析をやっていると胸を張って言っていいです。

統計って難しいというイメージがあるので、なんとなくデータを要約しただけでは不十分なんじゃないの・・・?という不安を持つ方がいらっしゃるみたいですね。

でも、よく理解してもいない統計学的検定をやってみてP値が0.05を下回るかどうかで一喜一憂するよりも、要約統計量を出力してちゃんとデータと向き合うほうが、とても重要なのです。

 

「統計=検定」ではない。

このことを再度認識してくださいね!

 

要約統計量に関するまとめ

要約統計量に関するまとめ

要約統計量は、以下の6つの指標が必要です。

  1. 平均値
  2. 標準偏差
  3. 中央値
  4. 四分位範囲
  5. 範囲
  6. 95%信頼区間

このほかにも、要約統計量のためグラフは、2つ出力すると良い。

  1. ヒストグラム
  2. 箱ひげ図
期間・数量限定!書籍「統計を身につける5つのステップ」を無料プレゼント

第1章:臨床研究ではなぜ統計が必要なのか?計画することの重要性

第2章:研究目的をどれだけ明確にできるのかが重要

第3章:p値で結果が左右される時代は終わりました

第4章:多くの人が統計を苦手にする理由

第5章:統計を使えるようになるために今日から何をすれば良いか?

第6章:統計を学ぶために重要な環境

 

もしあなたがこれまでに、何とか統計をマスターしようと散々苦労し、何冊もの統計の本を読み、セミナーに参加してみたのに、それでも統計が苦手なら…

私からプレゼントする内容は、あなたがずっと待ちわびていたものです。

 

↓今すぐ無料で学会発表や論文投稿までに必要な統計を学ぶ↓

↑無料で学会発表や論文投稿に必要な統計を最短で学ぶ↑

POSTED COMMENT

  1. […] そして、平均値や分散を要約した値という意味で、「要約統計量」といいます。 […]

  2. […] 横軸が時間を示すデータで、縦軸が平均や中央値などの代表値であることが多いです。 […]

  3. […] 検定ではノンパラメトリック検定を実施しているのに、要約統計量として平均値と標準偏差(分散)が示してあると、かなりチグハグ感のあるデータ解析なっているな、という印象を持ちます。 […]

標準正規分布表の見方や使い方!標準化やZ値の計算式はどうすればいい?|いちばんやさしい、医療統計 へ返信する コメントをキャンセル

メールアドレスが公開されることはありません。 が付いている欄は必須項目です