スタージェスの公式とは?数式の証明やエクセルでの活用法も紹介

スタージェスの公式とは?数式の証明やエクセルでの活用法も紹介

エクセルでヒストグラムを作った時に

  • 「階級数はどれくらいにするべきなんだろう?」
  • 「階級数はいくつが良いのか、客観的な指標がほしい!」

と思ったことはありませんか?

実はそんな方にピッタリな”スタージェスの公式”というものがあるのです!

スタージェスの公式とは、データ数からヒストグラムに最適な階級数を求める計算式のことです。

本記事では、スタージェスの公式とは何か?数式の根拠や証明はされているのか?といった疑問にお答えしつつ、エクセルで実際に活用する方法をお伝えしていきます。

>>もう統計で悩むのは終わりにしませんか? 

↑期間・数量限定で無料プレゼント中!

目次

スタージェスの公式とは?

スタージェスの公式とは、

データ数がnの時,ヒストグラムの階級数(ビンの数)は1+log2nにするのがよい

という、ヒストグラムを作成するときに階級数の目安を決めるための数式です。

logを見ると拒否反応を示す人が多いと思いかもしれません。

ですが計算は意外とシンプルですし、エクセルなら一瞬で計算してくれますので、数学が苦手な方でも安心して使えます(エクセルでの活用方法は後ほど!)。

一度知っておくと階級数を決めるいい目安になって便利ですよ!

実際にスタージェスの公式を使って階級数を調べてみましょう。

データ数:16 → 階級数:5

データ数:32 → 階級数:6

データ数:64 → 階級数:7

データ数:128 → 階級数:8

データ数:256 → 階級数:9

データ数:512 → 階級数:10

このような感じでデータ数に2をかける毎に階級数が1つずつ増えていきます。

そんなに複雑じゃないですよね。

計算式でみた時より、大分イメージが出来てきたのではないでしょうか。

このようにデータ数から階級数の目安を算出できるのが、スタージェスの公式の利点です。

ただこのスタージェスの公式、本当に根拠のある数式なのでしょうか?

スタージェスの公式の証明

スタージェスの公式を見ると

  • 「なんでこんな変な計算式になってるの?」
  • 「この数式に根拠はあるの?」

といった疑問が出てきますよね。

実際にこちらでスタージェスの公式の証明がなされています。

ですがこのスタージェスの公式、証明するのはかなり高度な数学の知識が必要です(大学数学レベルです)。

正直に申しますと、数字に強くない方は細かいことはスルーして「ちゃんと数学的に根拠のある公式なんだな」と理解しておいた方がいいです。

目安として使わせてもらうだけなら、数式の成り立ちなんて関係ないですからね。

でもどうしても根拠が知りたい方もいると思います。

なぜこのような数式になるのか、めちゃくちゃ簡単に説明していきますね。

数学の知識がほとんどない人でも分かるように説明するので、頑張ってついてきてください!

 

まずはじめに、スタージェスの公式では完成したヒストグラムが正規分布の形になることを仮定しています。

正規分布とは、こんな形の分布です。

ある階級数の時にヒストグラムがきれいな正規分布の形になるように、最低限必要なデータ数を算出し、それを逆算してデータ数から必要な階級数を求めるのがスタージェスの公式です。

「逆算?ちょっと何言ってるか分からない」

ってなりますよね(^^;)

まだよく分からないと思うので、実際に数字を使いながら説明していきましょう。

 

例えば階級数が5つのヒストグラムを作る場合に、

「最低でも16はデータ数がないときれいな正規分布ができないよね?」

というのを数学的に導き出しているわけです。

ただこれだと先に階級数を決めなくてはならないので、実用的じゃないですよね。

知りたいのは”データ数に最適な階級数の目安”です。

そのため、

「階級数5つできれいな正規分布を作るなら、データ数は16ほしいな!」

という結果を逆算して

「データ数が16なら階級数は5つまでOKですよ!」

という風に変換しています。

 

これがスタージェスの公式の理論であり、証明です。

 

いかがでしょうか。

なんとなくイメージだけでも掴んでいただけると幸いです。

ただ数学的に階級数を導き出すスタージェスの公式にも、欠点があります。

それはデータを正規分布だと仮定している点です。

つまり、正規分布していないデータには当てはまらないということなんです。

ですので、スタージェスの公式はあくまでも”目安”として使うものだと考えています。

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

エクセルでスタージェスの公式を用いる方法

それではエクセルでスタージェスの公式を活用する方法をご紹介していきましょう!

エクセルで使うなら、データ数を入力した時に自動で最適な階級数を出してくれたら嬉しいですよね。

基本的にはスタージェスの公式(数式)を入れるだけなのですが、簡単にはいきません。

なぜなら数式にlogが含まれるからです。

スタージェスの公式は”1+log2n”でしたね。

このlog計算をエクセルに組み込むにはどうすれば良いのでしょうか?

実はエクセルにはlog関数というものが存在します。

この関数さえ知っていれば、使い方は簡単!

log2nを計算するなら、log(n,2)とするだけです。

そのためスタージェスの公式の計算結果を表示したいセルに

=1+log(データ数を記したセル,2)

と入力すればOKです。

 

簡単ですよね。

実際に入力するとこんな感じになります。

データ数を変えれば自動的に最適な階級数を計算してくれるため、大変便利です!

後はこれを目安にヒストグラムを作ればいいのですが、きれいなヒストグラムを作るのにもコツが必要です。

ヒストグラムをきれいにするためにコツがあるのはご存知ですか?

エクセルできれいなヒストグラムを作る方法については、こちらで紹介しています。

よければ一緒にご覧ください。

スタージェスの公式まとめ

最後にスタージェスの公式についておさらいをしましょう。

  • スタージェスの公式とは、データ数からヒストグラムの階級数の目安を算出する数式
  • データ数nとすると、階級数は”1+log2n”で計算できる
  • 証明には高度な数学の知識が必要だが、数学的な根拠に基づいた数式である
  • エクセルで使う場合は”=1+log(データ数を記したセル,2)”と入力しておくと、データ数を入力した時に自動で階級数を算出してくれる

エクセルを使うことで簡単に最適な階級数が分かるため、スタージェスの公式は便利です。

ただし、あくまでも”絶対”ではなく”目安”だということは忘れないでください。

結局、いろいろな階級数を試してみて、自分が一番きれいと思った階級数が最良となる場合がほとんどです。

上手に活用していきましょうね!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

リサーチクエスチョン探し?データ分析?論文投稿?、、、で、もう悩まない!

第1章臨床研究ではなぜ統計が必要なのか?計画することの重要性
  • 推定ってどんなことをしているの?
  • 臨床研究を計画するってどういうこと?
  • どうにかして標本平均を母平均に近づけられないか?
第2章:研究目的をどれだけ明確にできるのかが重要
  • データさえあれば解析でどうにかなる、という考え方は間違い
  • 何を明らかにしたいのか? という研究目的が重要
  • 研究目的は4種類に分けられる
  • 統計専門家に相談する上でも研究目的とPICOを明確化しておく
第3章:p値で結果が左右される時代は終わりました
  • アメリカ統計協会(ASA)のp値に関する声明で指摘されていること
  • そうは言っても、本当に有意差がなくてもいいの…?
  • なぜ統計専門家はp値を重要視していないのか
  • 有意差がない時に「有意な傾向があった」といってもいい?
  • 統計を放置してしまうと非常にまずい
第4章:多くの人が統計を苦手にする理由
  • 残念ながら、セミナー受講だけで統計は使えません。
  • インプットだけで統計が使えない理由
  • どうやったら統計の判断力が鍛えられるか?
  • 統計は手段なので正解がないため、最適解を判断する力が必要
第5章:統計を使えるようになるために今日から何をすれば良いか?
  • 論文を読んで統計が使えるようになるための5ステップ
第6章:統計を学ぶために重要な環境
  • 統計の3つの力をバランスよく構築する環境

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

コメント

コメントする

目次