データの分布を知りたい!
このようなとき、分布を表す図(グラフ)を描きます。
手軽な方法は、”ヒストグラム”ですよね。
そして実際によく使われるのが”箱ひげ図”です。
最近は論文などで、”バイオリンプロット”や”ビースウォーム”などもよく用いられています。
他にも色々な図式化方法があります!
この記事では、統計解析ソフトJMPを用いたヒストグラム、箱ひげ図とバイオリンプロットをはじめとしたグラフの描き方について説明していきます。
JMPでどのグラフを作った方がいい?分布に関する図はどれだけあるのか?

データの分布を知りたいとき、分布を表す図を描きます。
論文でよく見るのは、ヒストグラムや箱ヒゲ図(Box plot)ですよね。
ヒストグラムや箱ヒゲ図は理解するのも簡単ですし、分布を一眼でわかるという点で、とても有用な図式化方法です。
>>箱ひげ図とは?
また、最近ではバイオリンプロットやビースウォームといったグラフも出てきており、箱ヒゲ図の弱点を補ってくれるようなグラフが出てきました。
そのためここでは、
- ヒストグラム
- 箱ヒゲ図
- バイオリンプロット
- ビースウォーム
の4つのグラフについて解説しますね!
データの分布をJMPでグラフ化する方法1:ヒストグラム
分布を表す図で一番手軽な方法は、データの分布を度数と区間で表した、
“ヒストグラム”です。

>>>ヒストグラムとは?エクセルでの作成方法と解釈を簡単にわかりやすく
しかし、ヒストグラムは複数のデータがあると重なってみにくいという欠点があります。
データの分布をJMPでグラフ化する方法2:箱ひげ図
そこで、よく使われるのが”箱ひげ図”です。
箱ひげ図では、一度に複数のデータをグラフにできます。
>>>箱ひげ図とは?見方やエクセル作り方まで解説!外れ値や平均値も確認できる
しかし、箱ひげ図はデータの分布を箱と線で表すため、
グラフの見方を知っていないとデータを理解しづらいです。

データの分布をJMPでグラフ化する方法3:バイオリンプロット
そこで、最近は論文などで、”バイオリンプロット”が用いられています。
よくあるのが、人口ピラミッドのようなグラフで”バイオリン”の用な形をしていますね。

“バイオリンプロット”は見やすいですが、
滑らかな線で結んでいるので、サンプル数が少ないと不自然な図になる時もあります。
データの分布をJMPでグラフ化する方法4:ビースウォームプロット
そんな時は、”ビースウォームプロット”を用います。

ビースウォームは英語で書くと”Bee Swarm”で蜂の群れという意味です。
それでは、”ヒストグラム”、”箱ひげ図”、”バイオリンプロット”、”ビースウォーム”をJMPで描いていきましょう。
JMPでグラフ化するためのデータを読み込み、グラフビルダーで図式化!

まずは、ヒストグラムにしたいデータを開きます。
JMPを開いた後に、
[ファイル] > [開く]をクリックして、エクセル形式またはCSV形式のファイルを開きます。
この記事ではJMPに元から入っているサンプルデータを用います。
サンプルデータは[ヘルプ] > [サンプルデータライブラリー]をクリックすると、
サンプルデータの入ったディレクトリが開きます。

今回はサンプルデータの中から、「Diabetes.jmp」を開きます。
このデータは、”糖尿病患者についてのデータ”をまとめたものです。

これからはこのデータを使って色々なグラフを書いていきます。
JMPでグラフを作成1:ヒストグラムを作成する
ではまず、JMPでヒストグラムを作成していきましょう。
一つのデータのヒストグラムの書き方
まずは、一つのデータについてヒストグラムを書いていきましょう。
まずは「血圧」についてのヒストグラムを書きたいと思います。
JMPでヒストグラムを描くには、上にあるメニューバーから
[グラフ] > [グラフビルダー] を選択します。

すると、上のウィンドウが出てきます。
今回のグラフはすべてこのウィンドウを使います。
次に、「血圧」を [Y]のところにドラックします。
そして、上にある中で、ヒストグラムのところをクリックします。

これで終わりです。
描けました。

複数のデータのヒストグラムを重ねて表示する
次に複数のデータをヒストグラムに重ねて見たいと思います。
ここでは、「糖尿病の重さ」と「血圧」の関係を見たいと思います。
「糖尿病の重さ」は「Y2値」で
重度の糖尿病をHigh、軽度の糖尿病をLowとしています。
まず、「血圧」を [Y]のところにドラックします。
次に、「Y2値」を重ね合わせにドラックします。
これだけです。

このようにJMPでは直感的にヒストグラムを書くことができます。
JMPでグラフを作成2:箱ひげ図を作成する
JMPでヒストグラフを描くには、上にあるメニューバーから
[グラフ] > [グラフビルダー] を選択します。

すると、上のウィンドウが出てきます。
まず、「血圧」を [Y]のところにドラックします。
次に、「Y2値」を[重ね合わせ]にドラックします。
これだけだと、さっきと全く同じです。

次に、上にあるバーから箱ひげ図を選択します。

これを選択すると、図が箱ひげ図に切り替わります。

JMPでグラフを作成3:バイオリンプロットを作成する
JMPでバイオリンプロットを描く方法もほぼ同じです。
上にあるメニューバーから
[グラフ] > [グラフビルダー] を選択します。

すると、上のウィンドウが出てきます。
まず、「血圧」を [Y]のところにドラックします。
次に、「Y2値」を左にある[重ね合わせ]にドラックします。
最後に、上にあるバーから”等高線”を選択します。

これを選択すると、図がバイオリンプロットに切り替わります。

かけました!!
JMPでグラフを作成4:ビースウォームプロットを作成する
JMPでビースウォームを描く方法だけは少し違います。
上にあるメニューバーから
[グラフ] > [グラフビルダー] を選択します。

すると、上のウィンドウが出てきます。
まず、「血圧」を [Y]のところにドラックします。
次に、「Y2値」を左にある[X]にドラックします。
これでほぼできましたが、黒色だけなので、色を分けたほうが見やすいです。

次に、「Y2値」を左にある[色]にドラックします。

これで完成です!!
JMPのグラフ作成方法まとめ

- 分布の可視化はヒストグラムが定番
- おすすめはバイオリンプロットかビースウォームプロット
- JMPでは[グラフ] > [グラフビルダー]からグラフを描く
コメント