Oops! It appears that you have disabled your Javascript. In order for you to see this page as it is meant to appear, we ask that you please re-enable your Javascript!
データを解析しよう

ヒストグラムとは?エクセルでの作成方法と解釈を簡単にわかりやすく

・ヒストグラムとは?

・ヒストグラムから何がわかるの?

・ヒストグラムの作り方がわからない・・・

 

私の元に、ヒストグラムの質問が寄せられることが多いです。

ヒストグラムは、データを正規分布かどうかを可視化するのにとても有用なグラフです。

この記事では、とても有用なヒストグラムを徹底解剖します!

ヒストグラムのエクセルでの作り方からその解釈方法まで、徹底解剖します!

 

ヒストグラムを作る意味:データを可視化する

私たちは、日常的に多少なりともデータを扱っています。

もしあなたが商売を営んでいるなら、売り上げや仕入れ値や経費のデータを。

もしあなたが学生なら、テストの成績データが進学や卒業に関係する重要なデータです。

もしあなたがサラリーマンであれば、毎年の健康診断のデータも、今後の健康を左右する大事なデータです。

 

しかし、データは生のまま(単純な数字の羅列)ではそこから何も見出せません

生のデータは単なる「事実」を示しています。

ただ、事実からだけでは何も生まれません。

そこで私たちは、生のデータを他のデータと比較したり、生のデータを加工したりして、何かしらの示唆を得ようとするのです。

 

下表は、50人分の大学生の男子の身長(cm)データです。

このデータを見ただけで、あなたは何かを引き出せますか?

 

169.1 164.4 171.7 176.6 176.3
178.8 160.0 169.4 175.8 165.3
167.2 162.4 161.6 165.8 166.8
160.3 167.8 168.6 171.1 168.7
168.9 168.7 176.9 170.1 169.6
168.0 180.0 174.7 181.9 167.4
178.5 162.8 173.1 174.8 179.7
170.1 168.0 173.7 168.7 174.1
163.6 166.4 163.2 168.8 170.3
170.6 169.0 181.0 162.1 167.0

 

結構難しいですよね。

データの数が10個以下ぐらいなら、なんとか生データを見て解釈可能かもしれません。

ですがデータがそれ以上になると。。

やっぱり何かしら加工してあげて、解釈する元になる代表値を出して解釈する必要がありますね。

 

数字はみんな同じなの?

50個のデータを見て解釈できることは難しそうでした。

ですが一つだけ言えることがあります。

 

それは、「身長は全員同じではなく、バラバラの数値である」ということです。

 

すーーーーっごく当たり前のことを言っています。

ですが、すーーーーーっごく大切なことです。

 

なぜなら、この「バラバラの数値をとっている」事実があるために「よし、統計を使ってみよう!」ということになるからです。

そして、バラバラの数値を取っていることを、専門用語で「分布する」と言います。

 

さて、もうちょっと50人のデータを見てみると、もう一つ言えることがありそうです。

それはバラバラだけど、ある数値の周辺でバラバラになっていそうだということです。

 

つまり、100センチ以下の身長の人は一人もいないし、200センチを超える人もいませんよね。

そして、なぜか160センチ〜180センチぐらいの間でバラバラしてそうです。

 

そう、バラバラな中にも上記のような「特徴」がありそうです。

この特徴を専門用語で「分布の特性」と言います。

 

闇雲にバラバラしているわけではない!

つまりデータは「何らかの特徴を持った上でバラバラしている」ということが言えます。

これを知ったあなた!

本当に、このページを見た甲斐があります。

なぜなら、この事実を知った上でデータを扱うのと、知らずにデータを扱うのとでは、データの理解度に対する次元が違います!

 

そして、その「特徴」が何なのかなー、というのを調べるために統計を使うのです。

つまり、「データとして並んでいるたくさんの数字を、何かの基準で整理整頓して、意味のある情報を取り出してあげる」ということをする。

そのために、2つの方法が考えられます。

 

  1. グラフ化してその特徴を捉える
  2. 1つの数字で特徴を代表させる(→この代表する数字を統計量と言います。)

 

今日のメイントピックである「ヒストグラム」は、1つ目の方法である「グラフ化してその特徴を捉える」という方法に最も合致した図式化方法なのです。

 

スポンサーリンク

ヒストグラムって何だ?作り方がわかると読み取り方もわかる!

ヒストグラムはデータの特徴を捉えるのに最適な図式化方法であることを解説しました。

じゃあ、ヒストグラムを作ってみよう!

というのがここでのミッションです。

なぜなら、作り方がわかると、ヒストグラムの意味やどこまで特徴がわかるのか、といった読み取り方がわかるようになるからです。

 

つまり、何かしら身に付けたい場合には、それをアウトプットしてみることが大事です。

ヒストグラムを知りたければ、ヒストグラムをアウトプットしてみることが大事。

つまり、ヒストグラムを実際に作ってしまう、ということが大事になるのです。

 

ヒストグラムってこういうもの!

答えから言うと、ヒストグラムはこういうものです。

さっきの、50人のデータをヒストグラムにしています。

 

 

横軸が階級(データを小区間で区切ったもの)で、縦軸が度数(人数)です。

つまり、階級と度数の二つがあればヒストグラムはできるってことです!

では階級と度数の二つ用意すると決まったので、実際に作ってみましょう!

 

ヒストグラムをエクセルで作ってみる!たった3ステップで簡単に作成可能

生データからヒストグラムを作るまでには、3ステップでできます。

作成時間は2分です。

(実際に、さっきのヒストグラムを作るのに2分かかりました。)

エクセルに慣れている人なら1分かからないのでは?と思います。

 

Step1: データから一番大きい数値(最大値)と一番小さい値(最小値)を確認する 

  ↓

Step2: おおよそ範囲が最大値と最小値になるような範囲を決め、それを5~8の小区間に区切る(これを階級と呼びます)

  ↓

Step3: 各階級に入るデータの数をカウントする(これを度数と呼ぶ)

 

なにも難しいことはありません。

3回ぐらい作ったら、もう何も見なくても出来るようになるでしょう。

 

ヒストグラムの作り方1:データの最小値と最大値を確認する

ヒストグラムを作り方のステップ1は、データの最小値と最大値を確認することでした。

そのため、実際に作る時にもデータの最小値と最大値を確認しましょう。

 

先ほどの、50人の大学生の身長のデータがこのようにエクセルにあるとします。

すると、最小値は「=MIN(A1:E10)」で求めることができて、最大値は「=MAX(A1:E10)」で求めることができますね。

 

ヒストグラムの作り方2:おおよそ範囲が最大値と最小値になるような範囲を決め、それを5~8の小区間に区切る

次のステップは、おおよそ範囲が最大値と最小値になるような範囲を決め、それを5~8の小区間に区切るということでした

ステップ1で、最小値は160.0、最大値は181.9でしたね。

ということで、おおよその範囲を155〜185とします。

そして、小区間を5センチ刻みにしましょう。

 

エクセルでは、このように手入力で用意します。

 

ヒストグラムの作り方3:各階級に入るデータの数をカウント

ステップ2まで終われば、あとは数を数えるだけです。

エクセルでは、少々工夫が必要ですね。

エクセルでは=countif()という関数を駆使します。

この関数がやっていることを日本語に直すと、以下の通りです。

 

155センチより大きい人数を全て数え、そこから160センチより大きい人数を引く

 

これを、全ての階級値に対して実施します。

すると、各階級の人数を計算することができます。

 

あとは、棒グラフを適用するだけです。

エクセルの「挿入」→「2-D縦棒」を選択します。

すると、以下のヒストグラムが作成できます。

 

 

スポンサーリンク

ヒストグラムから何がわかる?特徴を読み取ってみよう!

さて、あなたが丹精込めて作ったヒストグラム。

ここから何がわかるでしょうか?

もう一度ヒストグラムを再掲してみます。

 

 

実は二つの特徴が見えて来るのです。

 

ヒストグラムの特徴その1

身長は全ての階級に均一に(一様に)分布しているのではなく、ある場所に(具体的には170-175センチの間に)データが集中している

 

ヒストグラムの特徴その2

集中している場所を起点にして、そこから低い階級に向かっても高い階級に向かっても、同じように度数が減っていく。つまり、集中している場所を起点にして対称性がありそう。

 

今までをまとめると、ヒストグラムを作ることによって以下の3つの特徴がわかったのです。

 

  1. どんな数値も可能ではなさそう。
  2. ある身長の付近にデータが集中する。
  3. 集中した部分から、左右対象に度数が減っている。

 

このような特徴は、生データをみると全くわからなかった特徴です。

つまり、統計を使うことによって、細部は犠牲にするが、データの特徴を浮き彫りにしてくれるのです。

 

まとめ

生データを見ただけではわからない。

だが、統計を使うことで、データの特徴をつかむことができる。

ヒストグラムは3ステップで作成可能であり、データの特徴を視覚として捉えることができる。

男子大学生の身長を例にすると、以下の特徴が見える。

 

  1. どんな数値も可能ではなさそう。
  2. ある身長の付近にデータが集中する。
  3. 集中した部分から、左右対象に度数が減っている。

 

どうでしたか?

この記事があなたの疑問を解決したなら嬉しいです!

論文化に必要な統計に絞った地図あります

 

  • パソコンに向かってもなぜか筆が進まない…
  • 学会発表は結構たくさんしているのに、なぜ論文が出ないのだろう…
  • こんなに忙しいのに、いつ論文を書いたらいいのか…
  • 一度は書いたはずの論文がお蔵入りに…どうすればいいの…
  • データはあるのになぜ論文化まで持っていけないんだろう…
  • このデータ、どうやって解析すればいいんだろう…

 

その悩みこの無料メルマガで全て解決するかもしれません

 

↓今すぐ無料で論文化までの最短距離を歩く↓

↑無料で論文化に必要な統計を最短で学ぶ↑