2つ量的データ(連続変数)があった場合、2つのデータに直線的な関係性があるかどうか。
この問題を調べたいとき、一般的には相関係数を算出します。
この記事では、具体的に統計解析ソフトJMPでの相関係数の算出方法についてまとめていきます。
相関係数を復習!どんな時に使える?
相関係数とは、2つのデータの間に線形な関係(直線関係)があるかどうかを図る指標です。
2つのデータを散布図でグラフにしたところ、
左のような関係を”正の相関”があると言います。
中央のような関係を”負の相関”があると言います。
“正の相関”と”負の相関”のどちらかがあれば相関関係があると言えます。
一方で、右にように、データがランダムに散らばっている場合、相関関係はないと言えます。
詳しくは、
>>>相関係数とは?p値や有意差をどう解釈すれば良いのかわかりやすく!
をご覧ください。
JMPで相関係数を求める
それでは統計解析ソフトJMPを用いた相関係数の求め方を詳しく説明していきます。
今回はJMPのサンプルデータである「Diabetes」を使います。
Diabetesはサンプルデータの「回帰」の中にあります。
JMPで相関係数を算出する(Pearsonの相関係数)
Diabetesの中にある「年齢」と「血圧」の間に直線的な関係があるのかを調べてみます。
JMPで相関係数を算出するには、以下の手順で実施します。
まず、対象となるデータ(今回はDiabetes)を開いた状態で「分析」>「二変量の関係」を選択。
「X,説明変数」に年齢を入れ、「Y,列」に血圧を入れます。そしてOKをクリック。
するとX軸に年齢、Y軸に血圧がプロットされた散布図が作成されている。この散布図の「年齢と血圧の一元配置分析」の左側の赤い三角形から「要約統計量」を選択。
すると、散布図の下に相関係数(Pearsonの相関係数)とその95%信頼区間が表示されます。
JMPで多変量の相関を出力する
先程までは、2つのデータ間での相関係数の出力方法をお伝えしました。
しかし、多くの場合は2つのデータ間だけに着目せず、複数の連続量に対して一度に総当たりで相関係数を見たい場合もあるでしょう。
その場合には、多変量の相関を使って一度に相関係数を出力することができます。
今回は、英語版のJMP tutorialのデータを用います。
今回はこの”Retail Sales.jmp”を使います。
[ファイル] > [開く]からダウンロードした”Retail Sales.jmp”のデータを開いてください。
自分たちのデータを解析する場合も同様に、[ファイル] > [開く]から解析したデータを開いてください。
ExcelやCSV形式のデータを開くことができます。
データを開くと次のウィンドウが出現します。
この”Retail Sales.jmp”のデータは
小売業の売上データがまとめられています。
各列は左から順に「日付」、「総売上」、「総売上点数」、「現金売上」、「現金売上点数」、「小切手売上」、「小切手売上点数」、「クレジットカード売上」、「クレジットカード売上点数」です。
今回は、これらの項目がそれぞれ相関関係があるかどうかを見ていきます。
まず、[分析] > [多変量] > [多変量の相関]をクリックします。
ここをクリックしますと、
このウィンドウが出現します。
[Y, 列]に、「総売上」、「総売上点数」、「現金売上」、「現金売上点数」、「小切手売上」、「小切手売上点数」、「クレジットカード売上」、「クレジットカード売上点数」
を選択します。
選択できたら[OK]をクリックします。
すると、相関係数の計算結果が出現します。
上の部分に、各組み合わせの相関係数が書かれています。
例えば、Gross Sales (総売上)と Items では0.9640と高い相関があることがわかります。
下には、散布図行列といって、全ての組み合わせでの散布図が書かれています。
次に計算した値かた相関関係が有意かどうかを調べていきます。
相関係数のp値を求める
相関関係を調べるときに知りたいことは、二つのデータ間に相関があるかどうかだと思います。
そのため、二つのデータ間に相関があるかどうかを調べるための検定を行います。
二つのデータ間に相関があるかどうかを調べるために帰無仮説”二つのデータ間に相関がない”を仮定します。
ここで、p値が十分に小さければ、帰無仮説”二つのデータ間に相関がない”は棄却されます。
そして、対立仮説”二つのデータ間に相関する”を採用することができます。
>>>帰無仮説とは?対立仮説との違いを例題で簡単に。検定で棄却できないときは?
それでは、p値を計算していいきます。
先ほどの結果の画面の左上にある▼をクリックし、[相関のp値]を選択してください。
[相関のp値]をクリックすると、p値が計算できます。
ここでは、p値が0.05よりも小さいものが、有意に相関があると言えます。
JMPでは有意なものにはオレンジまたは赤色で表示されています。
オレンジは中でもp値が0.01よりも小さいものを表されており、赤色で表示されているものはp値が0.05より小さいものを表しています。
p値が小さすぎるものはここでは、”<.0001″と表示されています。
上の結果だと、「クレジット売上点数」は、
「現金売上」、「現金売上点数」、「小切手売上」、「小切手売上点数」、
とは相関がない。
それ以外は相関があるという結果になりました。
相関係数の信頼区間
これまでに、相関係数やp値の計算方法を見てきました。
最後に、相関の信頼区間の計算方法を見ていきます。
今回使ったデータから相関係数は計算できましたが、今回のデータはあくまで、数日間の売上データしか、ありません。
本当はもっと長い期間の売上データから得られる傾向を知りらいわけです。
つまり、今回のデータは”長い期間の売上データ”という母集団からの”数日間の売上データ”を標本として抽出したと言えます。
そのため、母集団での相関係数を推定するために推定区間を計算します。
計算方法は、先ほどの結果の画面の左上にある▼をクリックし、[相関の信頼区間]を選択してください。
[相関の信頼区間]をクリックすると、
上のように95%信頼区間が出力されます。
この95%信頼区間はこの範囲に100回の抽出に対して95回はこの範囲に母集団が入っているという意味になります。
JMPで相関係数の求め方まとめ
相関係数の算出
- [分析] > [多変量] > [多変量の相関]をクリック
- [Y, 列]に、相関係数を算出したいデータの列を選択
- 選択できたら[OK]
相関のp値の算出
- 結果の画面の左上にある▼をクリックし、[相関のp値]を選択
相関の信頼区間の算出
- 結果の画面の左上にある▼をクリックし、[相関の信頼区間]を選択
株式会社データシードは、SAS社のJMP事業部と提携しています。
統計解析担当者として10年間色々な統計解析ソフトを試した結果、本当に使いやすいと思ったのがJMPでした。
ぜひあなたもJMPの全機能を30日間試せるトライアル版で、データからさらなる情報を導き出せることを実感してください。
コメント