注目キーワード
  1. 多重性
  2. 分割表
  3. 分散分析
  4. 検定
  5. 要約
NO IMAGE

ヒストグラムは3ステップで作成できる!作成方法からその解釈までを徹底解説!

・ヒストグラムから何がわかるの?

・ヒストグラムの作り方がわからない・・・

・そもそも、何で統計が必要なの?

 

私の元に、ヒストグラムの質問が寄せられることが多いです。

確かに、サイトの方ではヒストグラムに関して何も記事を載せていませんでした。

そのため、今日はヒストグラムを徹底解剖します!

専門用語をほとんど使っておらず、計算式もないので、本当に分かりやすいです!

ぜひ勉強して、皆さんの実務にお役立てください!!

 

広告

生データを見てもわからないから統計を使う!

私たちは、日常的に多少なりともデータを扱っています。

商売を営んでいるなら、売り上げや仕入れ値や経費のデータを。

学生なら、テストの成績データが進学や卒業に関係する重要なデータです。

また、サラリーマンであれば、毎年の健康診断のデータも、今後の健康を左右する大事なデータです。

 

しかし、データは生のまま(単純な数字の羅列)ではそこから何も見出せません。

生のデータは単なる「事実」を示しています。

ただ、事実からだけでは何も生まれません。

そこで私たちは、生のデータを他のデータと比較したり、生のデータを加工したりして、何かしらの示唆を得ようとするのです。

 

下表は、50人分の大学生の男子の身長(cm)データです。

このデータを見ただけで、あなたは何かを引き出せますか?

 

169.1 164.4 171.7 176.6 176.3
178.8 160.0 169.4 175.8 165.3
167.2 162.4 161.6 165.8 166.8
160.3 167.8 168.6 171.1 168.7
168.9 168.7 176.9 170.1 169.6
168.0 180.0 174.7 181.9 167.4
178.5 162.8 173.1 174.8 179.7
170.1 168.0 173.7 168.7 174.1
163.6 166.4 163.2 168.8 170.3
170.6 169.0 181.0 162.1 167.0

 

結構難しいですよね。

データの数が10個以下ぐらいなら、なんとか生データを見て解釈可能かもしれません。

ですがデータがそれ以上になると。。

やっぱり何かしら加工してあげて、解釈する元になる代表値を出して解釈する必要がありますね。

 

数字はみんな同じなの?

50個のデータを見て解釈できることは難しそうでした。

ですが一つだけ言えることがあります。

 

それは、「身長は全員同じではなく、バラバラの数値である」ということです。

 

すーーーーっごく当たり前のことを言っています。

ですが、すーーーーーっごく大切なことです。

なぜなら、この「バラバラの数値をとっている」事実があるために「よし、統計を使ってみよう!」ということになるからです。

そして、バラバラの数値を取っていることを、専門用語で「分布する」と言います。

 

さて、もうちょっと50人のデータを見てみると、もう一つ言えることがありそうです。

それは「バラバラだけど、ある数値の周辺でバラバラになっていそうだ」ということです。

 

つまり、100センチ以下の身長の人は一人もいないし、200センチを超える人もいませんよね。

そして、なぜか160センチ〜180センチぐらいの間でバラバラしてそうです。

 

そう、バラバラな中にも上記のような「特徴」がありそうです。

この特徴を専門用語で「分布の特性」と言います。

 

闇雲にバラバラしているわけではない!

つまりデータは「何らかの特徴を持った上でバラバラしている」ということが言えます。

これを知ったあなた!

本当に、このページを見た甲斐があります。

なぜなら、この事実を知った上でデータを扱うのと、知らずにデータを扱うのとでは、データの理解度に対する次元が違います!

 

そして、その「特徴」が何なのかなー、というのを調べるために統計を使うのです。

つまり、「データとして並んでいるたくさんの数字を、何かの基準で整理整頓して、意味のある情報を取り出してあげる」ということをする。

そのために、2つの方法が考えられます。

 

  1. グラフ化してその特徴を捉える
  2. 1つの数字で特徴を代表させる(→この代表する数字を統計量と言います。)

 

今日のメイントピックである「ヒストグラム」は、1つ目の方法である「グラフ化してその特徴を捉える」という方法に最も合致した図式化方法なのです。

 

ヒストグラムって何だ?作り方がわかると読み取り方もわかる!

ヒストグラムはデータの特徴を捉えるのに最適な図式化方法であることを解説しました。

じゃあ、ヒストグラムを作ってみよう!

というのがここでのミッションです。

なぜなら、作り方がわかると、ヒストグラムの意味やどこまで特徴がわかるのか、といった読み取り方がわかるようになるからです。

 

ちなみに、こうやって無料で統計のことを発信していますが、それによって一番知識がついているのが、何を隠そう私です!!www

なぜなら、人に伝えるためには、分かりやすく伝える必要がありますよね。

そのためには、わからない部分があってはいけない。

つまり、何かしら身に付けたい場合には、それをアウトプットしてみることが大事です。

ヒストグラムを知りたければ、ヒストグラムをアウトプットしてみることが大事。

つまり、ヒストグラムを実際に作ってしまう、ということが大事になるのです。

 

ヒストグラムってこういうもの!

答えから言うと、ヒストグラムはこういうものです。

さっきの、50人のデータをヒストグラムにしています。

 

 

横軸が階級(データを小区間で区切ったもの)で、縦軸が度数(人数)です。

つまり、階級と度数の二つがあればヒストグラムはできるってことです!

では階級と度数の二つ用意すると決まったので、実際に作ってみましょう!

 

たった3ステップでヒストグラムを作成!実際の作り方

生データからヒストグラムを作るまでには、3ステップでできます。

作成時間は2分です。

(実際に、さっきのヒストグラムを作るのに2分かかりました。)

エクセルに慣れている人なら1分かからないのでは?と思います。

簡単すぎて笑えてきますね!

 

Step1: データから一番大きい数値(最大値)と一番小さい値(最小値)を確認する 

  ↓

 Step2: おおよそ範囲が最大値と最小値になるような範囲を決め、それを5~8の小区間に区切る(これを階級と呼びます)

  ↓

 Step3: 各階級に入るデータの数をカウントする(これを度数と呼ぶ)

 

なにも難しいことはありません。

3回ぐらい作ったら、もう何も見なくても出来るようになるでしょう。

 

ヒストグラムから何がわかる?特徴を読み取ってみよう!

さて、あなたが丹精込めて作ったヒストグラム。

ここから何がわかるでしょうか?

もう一度ヒストグラムを再掲してみます。

 

 

実は二つの特徴が見えて来るのです。

 

特徴その1:

身長は全ての階級に均一に(一様に)分布しているのではなく、ある場所に(具体的には170-175センチの間に)データが集中している

 

特徴その2:

集中している場所を起点にして、そこから低い階級に向かっても高い階級に向かっても、同じように度数が減っていく。

つまり、集中している場所を起点にして対称性がありそう。

 

つまり、ヒストグラムを作ることによって以下の3つの特徴がわかったのです。

 

  1. どんな数値も可能ではなさそう。
  2. ある身長の付近にデータが集中する。
  3. 集中した部分から、左右対象に度数が減っている。

 

このような特徴は、生データをみると全くわからなかった特徴です。

つまり、統計を使うことによって、細部は犠牲にするが、データの特徴を浮き彫りにしてくれるのです。

 

まとめ

生データを見ただけではわからない。

だが、統計を使うことで、データの特徴をつかむことができる。

ヒストグラムは3ステップで作成可能であり、データの特徴を視覚として捉えることができる。

男子大学生の身長を例にすると、以下の特徴が見える。

 

  1. どんな数値も可能ではなさそう。
  2. ある身長の付近にデータが集中する。
  3. 集中した部分から、左右対象に度数が減っている。

 

どうでしたか?

この記事があなたの疑問を解決したなら嬉しいです!

統計検定2級の解説付き

無料動画の統計授業

 

 

無料動画で統計を学びませんか?

 

・この数式、何を言っているのか全くわからない・・・ 

・統計を学びたいけど、何から手をつけていいのだろう・・・

・統計検定2級を受験したいけど、どう勉強したら・・・

・もう自力で統計を学ぶのに疲れました・・・

 

あなたはそんな悩みを抱えていませんか?

大丈夫です。

最後の手段があります。

どこにもない、統計の無料メールセミナー。