JMPで主成分分析(PCA)のやり方をわかりやすく解説!

JMPで主成分分析を実施する方法のブログ記事

主成分分析(PCA; Principal Component Analysis)は、複数の変数における変動をできるだけ説明する、少数の独立した線形結合(主成分)を求める解析手法。

例えば、体重と身長という2つの変数がある場合に、BMIという1つの変数に縮小させる、というようなイメージですね。

この記事では、統計解析ソフトJMPを用いた、主成分分析のやり方に関して説明していきます。

 

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

目次

JMPで主成分分析をする前にちょっとだけ復習!

主成分分析(PCA; Principal Component Analysis)は、複数の変数における変動をできるだけ説明する、少数の独立した線形結合(主成分)を求める解析手法

ですが注意点としては、主成分分析自体は「少数の変数に縮小させる」という目的だけであり、縮小させた変数をどう使うかはまた別問題である、ということ。

そのため、主成分分析をした後に何を知りたいのか?という目的が明確ではないと、主成分分析をした後の結果の解釈ができなくなります。

この記事では、JMPで主成分分析を実施する方法までを解説して、主成分分析をした後にどんなことをすべきか?というのは対象外になります!

 

JMPで主成分分析を実施する!

それでは実際に、JMPで主成分分析を実施していきましょう。

データはJMPにあるサンプルデータを使っていきます。

「ヘルプ」>「サンプルデータライブラリ」をクリックしていきます。

そして検索画面で「Solubility」を検索すると、「Solubility.jmp」というデータが表示されますので、このデータを開きます。

開いたデータはこのようになっていて、72行7列のデータであることがわかります。

本来であれば、単位が違うデータを主成分分析する場合、標準化しておく必要があります。

標準化とは、データを平均0、分散(標準偏差)1にするということです。

標準化自体は簡単で、各データの値に対して「(データの値-平均値)/標準偏差」という計算をすればいいだけ。

今回のデータは既に標準化されているデータですので、このまま多変量解析を実施していきましょう。

 

JMPで主成分分析は「分析」>「多変量」から実施する

データが準備できましたので、実際にJMPで主成分分析を実施していきましょう!

JMPで主成分分析を実施するには「分析」>「多変量」>「主成分分析」を選んでいきます。

そして、連続尺度のデータをY,列に選択し、推定法はデフォルトのままにしておきます。

すると下記の通り、主成分分析の結果が出力されました。

 

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

JMPで実施した主成分分析の結果を解釈する

JMPで主成分分析を実施すると、下記のような結果が出力されます。

それぞれどのような結果を示しているのかというと、下記の通り。

  • 左:固有値と各主成分によって説明される変動の割合を示す棒グラフ
  • 真ん中:主成分スコアのプロット
  • 右:主成分負荷量のプロット

それぞれ詳しく見ていきます

 

JMPで主成分分析をした結果の見方:固有値と寄与率

まずは左側に出力されている、固有値と各主成分によって説明される変動の割合を示す棒グラフ。

主成分分析において固有値とは、主成分の分散のことを指します

そして、各主成分によって説明される変動の割合を示す棒グラフのことを寄与率と呼んでいて、対象とする主成分に、元データの情報がどれだけ反映されているかを表した数値のことです。

主成分分析を実施するにあたっては、寄与率を足し合わせた累積寄与率が70%か80%程度以上あれば良いとされています。

そのため、今回の結果では第一主成分で79.8%あり第二主成分で15.8%あるため、第二主成分までの累積寄与率は95.6%あるといえます。

第二主成分までで、かなりの情報量が入っているということが言えますね。

 

JMPで主成分分析をした結果の見方:主成分スコアのプロット

次に、真ん中の主成分スコアのプロットを見ていきます。

主成分スコアのプロットは、初めの第二主成分までの主成分スコアをプロットしたものです。

相関係数行列に対する主成分分析では、主成分スコアの平均は0で、分散は固有値となっています。

つまり、第一主成分を示しているX軸は平均0、分散4.785である正規分布、第二主成分を示しているY軸は、平均0、分散0.9452である正規分布を示しているということです。

 

JMPで主成分分析をした結果の見方:主成分負荷量のプロット

次に、右の主成分負荷量のプロットを見ていきます。

主成分負荷量のプロットは、回転前の主成分負荷量をプロットしたもの。

主成分負荷量は、主成分スコアと各変数との相関を示しています。

そのため、主成分負荷量の絶対値が1に近いほど、主成分スコアと変数との間には強い相関関係があることを示します。

 

この主成分負荷量を数値として確認したい場合には、左上の赤い三角形を押し、「負荷量行列」をクリックします。

すると下記のように、元のデータの各変数と、各主成分との相関が示されます。

今回のデータでは、第一主成分と各変数との相関がかなり高いことがわかりますね。

 

まとめ

今回の記事ではJMPで主成分分析を実施する方法についてお伝えしました。

今回の記事で紹介しきれませんでしたが、JMPでは結果が出力された後の左上の赤い三角形を押すことで、かなり詳細な結果を確認することもできます。

ぜひお手元で色々と試してみてください!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

リサーチクエスチョン探し?データ分析?論文投稿?、、、で、もう悩まない!

第1章臨床研究ではなぜ統計が必要なのか?計画することの重要性
  • 推定ってどんなことをしているの?
  • 臨床研究を計画するってどういうこと?
  • どうにかして標本平均を母平均に近づけられないか?
第2章:研究目的をどれだけ明確にできるのかが重要
  • データさえあれば解析でどうにかなる、という考え方は間違い
  • 何を明らかにしたいのか? という研究目的が重要
  • 研究目的は4種類に分けられる
  • 統計専門家に相談する上でも研究目的とPICOを明確化しておく
第3章:p値で結果が左右される時代は終わりました
  • アメリカ統計協会(ASA)のp値に関する声明で指摘されていること
  • そうは言っても、本当に有意差がなくてもいいの…?
  • なぜ統計専門家はp値を重要視していないのか
  • 有意差がない時に「有意な傾向があった」といってもいい?
  • 統計を放置してしまうと非常にまずい
第4章:多くの人が統計を苦手にする理由
  • 残念ながら、セミナー受講だけで統計は使えません。
  • インプットだけで統計が使えない理由
  • どうやったら統計の判断力が鍛えられるか?
  • 統計は手段なので正解がないため、最適解を判断する力が必要
第5章:統計を使えるようになるために今日から何をすれば良いか?
  • 論文を読んで統計が使えるようになるための5ステップ
第6章:統計を学ぶために重要な環境
  • 統計の3つの力をバランスよく構築する環境

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

コメント

コメントする

目次