エクセルでヒストグラムを作った時に
- 「階級数はどれくらいにするべきなんだろう?」
- 「階級数はいくつが良いのか、客観的な指標がほしい!」
と思ったことはありませんか?
実はそんな方にピッタリな”スタージェスの公式”というものがあるのです!
スタージェスの公式とは、データ数からヒストグラムに最適な階級数を求める計算式のことです。
本記事では、スタージェスの公式とは何か?数式の根拠や証明はされているのか?といった疑問にお答えしつつ、エクセルで実際に活用する方法をお伝えしていきます。
スタージェスの公式とは?
スタージェスの公式とは、
データ数がnの時,ヒストグラムの階級数(ビンの数)は1+log2nにするのがよい
という、ヒストグラムを作成するときに階級数の目安を決めるための数式です。
logを見ると拒否反応を示す人が多いと思いかもしれません。
ですが計算は意外とシンプルですし、エクセルなら一瞬で計算してくれますので、数学が苦手な方でも安心して使えます(エクセルでの活用方法は後ほど!)。
一度知っておくと階級数を決めるいい目安になって便利ですよ!
実際にスタージェスの公式を使って階級数を調べてみましょう。
データ数:16 → 階級数:5
データ数:32 → 階級数:6
データ数:64 → 階級数:7
データ数:128 → 階級数:8
データ数:256 → 階級数:9
データ数:512 → 階級数:10
このような感じでデータ数に2をかける毎に階級数が1つずつ増えていきます。
そんなに複雑じゃないですよね。
計算式でみた時より、大分イメージが出来てきたのではないでしょうか。
このようにデータ数から階級数の目安を算出できるのが、スタージェスの公式の利点です。
ただこのスタージェスの公式、本当に根拠のある数式なのでしょうか?
スタージェスの公式の証明
スタージェスの公式を見ると
- 「なんでこんな変な計算式になってるの?」
- 「この数式に根拠はあるの?」
といった疑問が出てきますよね。
実際にこちらでスタージェスの公式の証明がなされています。
ですがこのスタージェスの公式、証明するのはかなり高度な数学の知識が必要です(大学数学レベルです)。
正直に申しますと、数字に強くない方は細かいことはスルーして「ちゃんと数学的に根拠のある公式なんだな」と理解しておいた方がいいです。
目安として使わせてもらうだけなら、数式の成り立ちなんて関係ないですからね。
でもどうしても根拠が知りたい方もいると思います。
なぜこのような数式になるのか、めちゃくちゃ簡単に説明していきますね。
数学の知識がほとんどない人でも分かるように説明するので、頑張ってついてきてください!
まずはじめに、スタージェスの公式では完成したヒストグラムが正規分布の形になることを仮定しています。
正規分布とは、こんな形の分布です。
ある階級数の時にヒストグラムがきれいな正規分布の形になるように、最低限必要なデータ数を算出し、それを逆算してデータ数から必要な階級数を求めるのがスタージェスの公式です。
「逆算?ちょっと何言ってるか分からない」
ってなりますよね(^^;)
まだよく分からないと思うので、実際に数字を使いながら説明していきましょう。
例えば階級数が5つのヒストグラムを作る場合に、
「最低でも16はデータ数がないときれいな正規分布ができないよね?」
というのを数学的に導き出しているわけです。
ただこれだと先に階級数を決めなくてはならないので、実用的じゃないですよね。
知りたいのは”データ数に最適な階級数の目安”です。
そのため、
「階級数5つできれいな正規分布を作るなら、データ数は16ほしいな!」
という結果を逆算して
「データ数が16なら階級数は5つまでOKですよ!」
という風に変換しています。
これがスタージェスの公式の理論であり、証明です。
いかがでしょうか。
なんとなくイメージだけでも掴んでいただけると幸いです。
ただ数学的に階級数を導き出すスタージェスの公式にも、欠点があります。
それはデータを正規分布だと仮定している点です。
つまり、正規分布していないデータには当てはまらないということなんです。
ですので、スタージェスの公式はあくまでも”目安”として使うものだと考えています。
エクセルでスタージェスの公式を用いる方法
それではエクセルでスタージェスの公式を活用する方法をご紹介していきましょう!
エクセルで使うなら、データ数を入力した時に自動で最適な階級数を出してくれたら嬉しいですよね。
基本的にはスタージェスの公式(数式)を入れるだけなのですが、簡単にはいきません。
なぜなら数式にlogが含まれるからです。
スタージェスの公式は”1+log2n”でしたね。
このlog計算をエクセルに組み込むにはどうすれば良いのでしょうか?
実はエクセルにはlog関数というものが存在します。
この関数さえ知っていれば、使い方は簡単!
log2nを計算するなら、log(n,2)とするだけです。
そのためスタージェスの公式の計算結果を表示したいセルに
=1+log(データ数を記したセル,2)
と入力すればOKです。
簡単ですよね。
実際に入力するとこんな感じになります。
データ数を変えれば自動的に最適な階級数を計算してくれるため、大変便利です!
後はこれを目安にヒストグラムを作ればいいのですが、きれいなヒストグラムを作るのにもコツが必要です。
ヒストグラムをきれいにするためにコツがあるのはご存知ですか?
エクセルできれいなヒストグラムを作る方法については、こちらで紹介しています。
よければ一緒にご覧ください。
スタージェスの公式まとめ
最後にスタージェスの公式についておさらいをしましょう。
- スタージェスの公式とは、データ数からヒストグラムの階級数の目安を算出する数式
- データ数nとすると、階級数は”1+log2n”で計算できる
- 証明には高度な数学の知識が必要だが、数学的な根拠に基づいた数式である
- エクセルで使う場合は”=1+log(データ数を記したセル,2)”と入力しておくと、データ数を入力した時に自動で階級数を算出してくれる
エクセルを使うことで簡単に最適な階級数が分かるため、スタージェスの公式は便利です。
ただし、あくまでも”絶対”ではなく”目安”だということは忘れないでください。
結局、いろいろな階級数を試してみて、自分が一番きれいと思った階級数が最良となる場合がほとんどです。
上手に活用していきましょうね!
コメント