MENU

【無料プレゼント付き】学会発表・論文投稿に必要な統計を最短で学ぶことができる無料メルマガ

偏相関の二乗:その概念からRでの実践まで徹底解説!

この記事では、統計分析で重要な役割を果たす「偏相関の二乗」について掘り下げる。この指標が一体どのような概念であり、どのように計算されるのか、さらにはその異なる呼び名や日本語での表記についても整理する。加えて、具体的な例とRを用いた実践的な計算方法、そしてその結果の解釈を提示する。データに隠された真の関係性を浮き彫りにするための強力なツールである偏相関の二乗を、多角的に解説する。

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

目次

偏相関の二乗とは? 〜概念と計算の概略〜

偏相関の二乗は、統計学において2つの変数の関係性を、他の変数の影響を除去した上で評価するための強力なツールである。

通常の相関係数(ピアソン相関係数など)は、2つの変数間の線形な関係の強さと方向を示すが、そこには「交絡変数」と呼ばれる、関係のない第三の変数の影響が入り込んでいる可能性がある。偏相関は、この第三の変数の影響を統計的に取り除くことで、純粋な2つの変数間の関係性を浮き彫りにする。

そして、その「偏相関の二乗」は、その純粋な関係性の「説明力」や「寄与率」を示す指標となる。具体的には、ある変数の変動のうち、他の変数の影響を取り除いた上で、対象となる別の変数がどの程度説明できるか、という割合を表す。

計算の概略としては、まず、それぞれの変数を他の変数で回帰分析し、その残差(回帰で説明できなかった部分)を求める。次に、この残差同士の相関を計算する。これが偏相関係数である。偏相関の二乗は、この偏相関係数を単純に二乗することで得られる。

数式で簡単に示すと、変数 $X$ と $Y$ の間の変数 $Z$ を調整した偏相関係数 $r_{XY.Z}$ は以下のように表される(簡略化した概念的な表現である)。

$$r_{XY.Z} = \frac{r_{XY} – r_{XZ}r_{YZ}}{\sqrt{(1-r_{XZ}^2)(1-r_{YZ}^2)}}$$

そして、偏相関の二乗は $r_{XY.Z}^2$ となる。


同じ概念、異なる名称:呼び名の整理

この「偏相関の二乗」という概念は、文脈や分野によって様々な名称で呼ばれることがある。主なものを以下に整理する。

  • 決定係数 ($R^2$) の増分 / 増加: 重回帰分析において、ある変数をモデルに追加した際に、決定係数がどの程度増加するかを示す場合に使われる。偏相関の二乗は、他の変数を投入済みのモデルに、新たな変数を投入した際の決定係数の増分と等しくなる。
  • 部分決定係数 (Partial Coefficient of Determination): これは「偏相関の二乗」とほぼ同義で使われることが多い。特定の変数セットの効果を除去した上での決定係数として解釈される。
  • 独自の説明力 (Unique Variance Explained): 他の変数が説明できない、特定の変数のみが説明できる分散の割合として表現されることがある。
  • セミパーシャル相関の二乗 (Squared Semipartial Correlation) / 独自相関の二乗 (Squared Unique Correlation): これは「偏相関の二乗」とは厳密には異なる概念であるが、混同されることがある。セミパーシャル相関は、ある変数から他の変数の影響を「取り除いた後」の残差と、もう一方の「元のままの」変数との相関を示す。その二乗は、全分散のうち、特定の変数が単独で説明する部分の割合を示す。偏相関の二乗は、両方の変数から他の変数の影響を取り除いた後の相関の二乗である点で異なる。ただし、重回帰分析においては、ある説明変数の偏相関の二乗は、その変数をモデルに追加した際の決定係数 ($R^2$) の増分と等しくなり、これはセミパーシャル相関の二乗とも関連が深い。

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

日本語での表記

日本語では、主に以下の表現が用いられる。

  • 偏相関の二乗: 最も直接的な表現である。
  • 偏決定係数: Partial Coefficient of Determination の直訳である。
  • 増分$R^2$ (ぞうぶんアールスクエア): 重回帰分析の文脈で、追加された変数の説明力として言及される場合が多い。
  • 独自寄与率 (どくじきよりつ): 各変数がモデルに独自に寄与する割合という意味合いで使われる。

これらの表記は、文脈によって使い分けられたり、あるいは同じ意味で使われたりすることがある。


具体例とRでの計算、結果の解釈

具体例として、「学力($Y$)」「勉強時間($X_1$)」「睡眠時間($X_2$)」「塾の有無($X_3$)」という4つの変数がある状況を考える。

ここで、「学力」と「勉強時間」の間の関係性から「睡眠時間」と「塾の有無」の影響を取り除いた上での純粋な関係性、つまり「偏相関の二乗」を計算してみる。

Rでの計算例

Rでは、ppcor パッケージを用いると偏相関を簡単に計算できる。また、lm 関数を用いた回帰分析の結果から、間接的に偏相関の二乗を理解することも可能である。

まず、サンプルデータを作成する。

# 必要なパッケージをインストール(初回のみ)
# install.packages("ppcor")

# ライブラリの読み込み
library(ppcor)

# サンプルデータの作成
set.seed(123)
df <- data.frame(
  gakuryoku = round(rnorm(100, 60, 10)),
  benkyo_jikan = round(rnorm(100, 5, 2)),
  suimin_jikan = round(rnorm(100, 7, 1.5)),
  juku_umu = sample(c(0, 1), 100, replace = TRUE)
)

# 学力と勉強時間には正の相関、睡眠時間にも正の相関、塾の有無にも正の相関があるように調整
df$gakuryoku <- round(df$gakuryoku + df$benkyo_jikan * 3 + df$suimin_jikan * 2 + df$juku_umu * 5)
df$benkyo_jikan <- round(df$benkyo_jikan + df$suimin_jikan * 0.5) # 勉強時間と睡眠時間にも相関を持たせる

次に、偏相関を計算する。pcor.test 関数を使用する。

# 学力と勉強時間の偏相関(睡眠時間と塾の有無を調整)
pcor_result <- pcor.test(df$gakuryoku, df$benkyo_jikan, list(df$suimin_jikan, df$juku_umu))
print(pcor_result)

# 偏相関の二乗
squared_pcor <- pcor_result$estimate^2
print(paste("学力と勉強時間の偏相関の二乗:", round(squared_pcor, 4)))

実行結果:

> # 学力と勉強時間の偏相関(睡眠時間と塾の有無を調整)
> pcor_result <- pcor.test(df$gakuryoku, df$benkyo_jikan, list(df$suimin_jikan, df$juku_umu))
> print(pcor_result)
   estimate     p.value statistic   n gp  Method
1 0.5020364 1.38928e-07  5.687636 100  2 pearson
> # 偏相関の二乗
> squared_pcor <- pcor_result$estimate^2
> print(paste("学力と勉強時間の偏相関の二乗:", round(squared_pcor, 4)))
[1] "学力と勉強時間の偏相関の二乗: 0.252"

結果の解釈

上記のRコードを実行すると、pcor_result に偏相関係数とp値が表示される。そして squared_pcor に偏相関の二乗の値が表示される。

今回の結果では、学力と勉強時間の偏相関の二乗: 0.252 である。これは以下のように解釈できる。

  • 「睡眠時間」と「塾の有無」の影響を統計的に取り除いた上で、「学力」の分散の約25.2%が「勉強時間」によって説明される、ということを意味する。
  • つまり、他の要因(この場合は睡眠時間と塾の有無)の影響を考慮しても、やはり勉強時間は学力に対して独自の、そして無視できない寄与をしている、ということが示唆される。

重回帰分析の文脈で考える場合は、以下のように確認することもできる。

# モデル1:睡眠時間と塾の有無のみで学力を予測
model1 <- lm(gakuryoku ~ suimin_jikan + juku_umu, data = df)
summary(model1)
r_squared_model1 <- summary(model1)$r.squared
print(paste("Model1のR^2:", round(r_squared_model1, 4)))

# モデル2:勉強時間を追加して学力を予測
model2 <- lm(gakuryoku ~ suimin_jikan + juku_umu + benkyo_jikan, data = df)
summary(model2)
r_squared_model2 <- summary(model2)$r.squared
print(paste("Model2のR^2:", round(r_squared_model2, 4)))

# 決定係数の増分(これが勉強時間の偏相関の二乗とほぼ等しくなる)
delta_r_squared <- r_squared_model2 - r_squared_model1
print(paste("決定係数の増分:", round(delta_r_squared, 4)))

実行結果:

> # 決定係数の増分(これが勉強時間の偏相関の二乗とほぼ等しくなる)
> delta_r_squared <- r_squared_model2 - r_squared_model1
> print(paste("決定係数の増分:", round(delta_r_squared, 4)))
[1] "決定係数の増分: 0.2318"

この delta_r_squared の値が、先ほど計算した偏相関の二乗の値と非常に近い値になるはずである。これは、偏相関の二乗が「他の変数を統制した上での、特定の変数が持つ追加的な説明力」を端的に表していることを示す。

ちなみに、偏相関の二乗と決定係数の増分が異なる理由は、偏相関の二乗は、目的変数に対して、Zの影響を統制した上で、Xの説明力というふうに計算されているのに対し、決定係数の増分は、目的変数の全変動のうち、Zでは説明できない部分で、かつ、X独自の説明力という計算になっていることに起因する。偏相関の二乗は、Zのみで回帰したときの残差平方和が分母(必ず目的変数の全変動以下になる)であるのに対し、決定係数の増分は、目的変数の全変動である点が異なる。どちらの分子も、Zを統制したあとにXが説明する平方和で同じである。偏相関の二乗のほうが分母が小さい(または同じ)のため、計算結果は偏相関の二乗のほうが決定係数の増分に比べて、大きい(または同じ)になる。


まとめ

偏相関の二乗は、複数の変数が絡み合う複雑な現象を分析する際に、特定の変数間の純粋な関係性とその説明力を定量的に評価するための非常に有用な統計量である。交絡因子の影響を取り除き、より本質的な関係性を浮き彫りにすることで、データに基づいた意思決定や理論構築において、より深い洞察を提供してくれる。

名称が複数存在し、一見すると混乱しやすいかもしれないが、「他の要因を除去した上での、ある変数の持つ独自の説明力」という本質を理解すれば、様々な文脈での活用が可能となる。Rのような統計ソフトウェアを活用することで、その計算と解釈も比較的容易に行うことができるため、ぜひご自身のデータ分析にも取り入れてみてはいかがだろうか。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

リサーチクエスチョン探し?データ分析?論文投稿?、、、で、もう悩まない!

第1章臨床研究ではなぜ統計が必要なのか?計画することの重要性
  • 推定ってどんなことをしているの?
  • 臨床研究を計画するってどういうこと?
  • どうにかして標本平均を母平均に近づけられないか?
第2章:研究目的をどれだけ明確にできるのかが重要
  • データさえあれば解析でどうにかなる、という考え方は間違い
  • 何を明らかにしたいのか? という研究目的が重要
  • 研究目的は4種類に分けられる
  • 統計専門家に相談する上でも研究目的とPICOを明確化しておく
第3章:p値で結果が左右される時代は終わりました
  • アメリカ統計協会(ASA)のp値に関する声明で指摘されていること
  • そうは言っても、本当に有意差がなくてもいいの…?
  • なぜ統計専門家はp値を重要視していないのか
  • 有意差がない時に「有意な傾向があった」といってもいい?
  • 統計を放置してしまうと非常にまずい
第4章:多くの人が統計を苦手にする理由
  • 残念ながら、セミナー受講だけで統計は使えません。
  • インプットだけで統計が使えない理由
  • どうやったら統計の判断力が鍛えられるか?
  • 統計は手段なので正解がないため、最適解を判断する力が必要
第5章:統計を使えるようになるために今日から何をすれば良いか?
  • 論文を読んで統計が使えるようになるための5ステップ
第6章:統計を学ぶために重要な環境
  • 統計の3つの力をバランスよく構築する環境

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

この記事を書いた人

統計 ER ブログ執筆者

元疫学研究者

コメント

コメントする

目次