2つのデータに直線的な関係性があるかどうか。
この問題を調べたいとき、一般的には相関係数を算出します。
この記事では、具体的に統計解析ソフトJMPでの相関係数の算出方法についてまとめていきます。
Contents
相関係数を復習!どんな時に使える?

相関係数とは、2つのデータの間に線形な関係(直線関係)があるかどうかを図る指標です。
2つのデータを散布図でグラフにしたところ、

左のような関係を”正の相関”があると言います。
中央のような関係を”負の相関”があると言います。
“正の相関”と”負の相関”のどちらかがあれば相関関係があると言えます。
一方で、右にように、データがランダムに散らばっている場合、
相関関係はないと言えます。
詳しくは、
>>>相関係数とは?p値や有意差をどう解釈すれば良いのかわかりやすく!
をご覧ください。
JMPで相関係数を求める

それでは統計解析ソフトJMPを用いた相関係数の求め方を詳しく説明していきます。
JMPで相関係数を求めるためのデータを読み込む
今回は、英語版のJMP tutorialのデータを用います。
今回はこの”Retail Sales.jmp”を使います。
[ファイル] > [開く]からダウンロードした”Retail Sales.jmp”のデータを開いてください。
自分たちのデータを解析する場合も同様に、
[ファイル] > [開く]から解析したデータを開いてください。
ExcelやCSV形式のデータを開くことができます。
データを開くと次のウィンドウが出現します。

この”Retail Sales.jmp”のデータは
小売業の売上データがまとめられています。
各列は左から順に
「日付」、「総売上」、「総売上点数」、「現金売上」、「現金売上点数」、
「小切手売上」、「小切手売上点数」、「クレジットカード売上」、「クレジットカード売上点数」です。
今回は、これらの項目がそれぞれ相関関係があるかどうかを見ていきます。
JMPで相関係数を算出する
それでは、相関係数を算出していきます。
まず、
[分析] > [多変量] > [多変量の相関]をクリックします。

ここをクリックしますと、

このウィンドウが出現します。
[Y, 列]に、「総売上」、「総売上点数」、「現金売上」、「現金売上点数」、「小切手売上」、「小切手売上点数」、「クレジットカード売上」、「クレジットカード売上点数」
を選択します。

選択できたら[OK]をクリックします。
すると、相関係数の計算結果が出現します。

上の部分に、各組み合わせの相関係数が書かれています。
例えば、Gross Sales (総売上)と Items では0.9640と高い相関があることがわかります。
下には、散布図行列といって、全ての組み合わせでの散布図が書かれています。
次に計算した値かた相関関係が有意かどうかを調べていきます。
相関係数のp値を求める
相関関係を調べるときに知りたいことは、二つのデータ間に相関があるかどうかだと思います。
そのため、二つのデータ間に相関があるかどうかを調べるための検定を行います。
二つのデータ間に相関があるかどうかを調べるために帰無仮説”二つのデータ間に相関がない”を仮定します。
ここで、p値が十分に小さければ、帰無仮説”二つのデータ間に相関がない”は棄却されます。
そして、対立仮説”二つのデータ間に相関する”を採用することができます。
>>>帰無仮説とは?対立仮説との違いを例題で簡単に。検定で棄却できないときは?
それでは、p値を計算していいきます。
先ほどの結果の画面の左上にある▼をクリックし、[相関のp値]を選択してください。

[相関のp値]をクリックすると、p値が計算できます。

ここでは、p値が0.05よりも小さいものが、有意に相関があると言えます。
JMPでは有意なものにはオレンジまたは赤色で表示されています。
オレンジは中でもp値が0.01よりも小さいものを表されており、赤色で表示されているものはp値が0.05より小さいものを表しています。
p値が小さすぎるものはここでは、”<.0001″と表示されています。
上の結果だと、「クレジット売上点数」は、
「現金売上」、「現金売上点数」、「小切手売上」、「小切手売上点数」、
とは相関がない。
それ以外は相関があるという結果になりました。
相関係数の信頼区間
これまでに、相関係数やp値の計算方法を見てきました。
最後に、相関の信頼区間の計算方法を見ていきます。
今回使ったデータから相関係数は計算できましたが、今回のデータはあくまで、数日間の売上データしか、ありません。
本当はもっと長い期間の売上データから得られる傾向を知りらいわけです。
つまり、今回のデータは”長い期間の売上データ”という母集団からの”数日間の売上データ”を標本として抽出したと言えます。
そのため、母集団での相関係数を推定するために推定区間を計算します。
計算方法は、先ほどの結果の画面の左上にある▼をクリックし、[相関の信頼区間]を選択してください。

[相関の信頼区間]をクリックすると、

上のように95%信頼区間が出力されます。
この95%信頼区間はこの範囲に100回の抽出に対して95回はこの範囲に母集団が入っているという意味になります。
JMPで相関係数の求め方まとめ
相関係数の算出
- [分析] > [多変量] > [多変量の相関]をクリック
- [Y, 列]に、相関係数を算出したいデータの列を選択
- 選択できたら[OK]
相関のp値の算出
- 結果の画面の左上にある▼をクリックし、[相関のp値]を選択
相関の信頼区間の算出
- 結果の画面の左上にある▼をクリックし、[相関の信頼区間]を選択

株式会社データシードは、SAS社のJMP事業部と提携しています。
統計解析担当者として10年間色々な統計解析ソフトを試した結果、本当に使いやすいと思ったのがJMPでした。
ぜひあなたもJMPの全機能を30日間試せるトライアル版で、データからさらなる情報を導き出せることを実感してください。
- とりあえずデータさえあれば、統計解析を知っている人に頼めばなんとかなる
- 統計解析するならP値が0.05を下回る(有意差が出る)ことが1番大事
- 有意差がなければ学会発表・論文投稿できない
- 統計を学ぶには、まずは書店で統計の本を買わなければならない
- 有料の統計解析ソフトさえあれば、統計解析はできるようになる
これらは、私が医療従事者を中心に統計を教えてきた中で、統計解析に対する間違ったイメージの典型例です。
もしあなたがこのような間違ったイメージのうちどれか一つでも当てはまるのであれば、ぜひ無料の統計メルマガを購読してみてください。
統計の悩みはこの無料メルマガで全て解決するかもしれません