正準相関分析とは、どんな分析で、どんなときに使うのか?
正準相関分析とはどんな分析か
正準相関分析 canonical correlation analysis は、一言で言うと、2つの変数群を2つの合成変数にまとめ、その合成変数間の相関係数を最大にする方法である。
正準相関分析(Canonical Correlation Analysis:CCA) とは- 仕組みを解説
多数の変数の合成変数(重み係数をかけて足し合わせた変数)を用いる方法が主成分分析であるが、その方法論と似ている。
正準相関分析は、多変量を2つの変数群に分けて、変数群ごとの合成変数を作成し、その相関係数を計算する方法である。
正準相関分析はどんな計算をしているのか?
変数群 $ \boldsymbol X $ (ベクトル群) と 変数群 $ \boldsymbol Y $ からともに合成変数を作成する。
合成変数の係数ベクトルをそれぞれ $ \boldsymbol a $, $ \boldsymbol b $ とする。
2つの合成変数の相関係数を計算する。
その相関係数が最大になるように、$ \boldsymbol X $ と $ \boldsymbol Y $ の係数ベクトル $ \boldsymbol a $, $ \boldsymbol b $ を求めていく。
では、その係数ベクトルはどのように求めるか?
それは、主成分分析の時と同じく、ラグランジュ未定乗数法を用いて、固有値・固有ベクトルを求める問題として解いていく。
得られた固有値は、合成変数の相関係数になる。
正準相関分析はどんなときに便利な方法か?
正準相関分析はどんなときに使うと便利な方法か?
変数がたくさんあって、2つの変数同士の相関係数がたくさん出てきてしまうとき、それを縮約したいと考えたとき。
たくさんの変数が、臨床的な概念によってグループに分けられるとき。
例えば、腎機能の検査値群とか、肝機能の検査値群とか。
こんな時には正準相関分析が役に立つだろう。
まとめ
正準相関分析は、多数の変数を縮約した合成変数同士の相関を計算する方法で、多変量の情報を縮約して検討することが可能になる分析だ。
多数のデータが得られるビッグデータの時代にこそ活躍する分析かもしれない。
参考サイト
正準相関分析(Canonical Correlation Analysis:CCA) とは- 仕組みを解説
SPSSで正準相関分析を行うには
SPSSで学ぶ医療系多変量データ解析 第2版 第13章参照
コメント