MENU

相関係数の目安と R で必要サンプル数を計算する方法

相関係数を求めたいサンプル数が少ないけど、大丈夫なのか?

相関係数が大きい場合、サンプル数は少なくても大丈夫。

目安となるサンプル数はどのくらいか?

>>もう統計で悩むのは終わりにしませんか? 

↑期間・数量限定で無料プレゼント中!

目次

相関係数の目安・意味

相関係数には、以下のような目安がある。

相関係数の絶対値関連の程度
0.0~0.2無視できる程度
0.2~0.5弱い
0.5~0.8中程度
0.8~1.0強い

出典:相関係数 | 疫学用語の基礎知識

母集団の相関係数がゼロではない、いわゆる統計学的有意が前提で、そのうえで、サンプルでの相関係数がどのくらいのときに、どんな意味を持つか。

これが重要だ。

相関係数のサンプル数の求め方

相関係数のサンプル数とは、要するにいくつの相関係数が統計学的有意すなわち母相関係数がゼロでないと言えるかを計算するものだ。

Rで計算する場合のスクリプトは以下の通り。

samplesize.cor.test <- function(r, sig.level=.05, power=.8,
alternative=c("two.sided","one.sided")){
alternative <- match.arg(alternative)
tside <- switch(alternative, one.sided=1, two.sided=2)
Za <- qnorm(sig.level/tside, lower.tail=FALSE)
Zb <- qnorm(power)
C <- 0.5*log((1+r)/(1-r))
N <- ((Za+Zb)/C)^2 + 3
c(N=N, r=r, alpha=sig.level, Power=power)
}

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

相関係数の目安となるサンプル数

計算結果は以下に示すとして、まとめを示すと、以下のようになる。

相関係数サンプル数
0.2194
0.385
0.447
0.530
0.620
0.714

予想される相関係数が大きくなれば、サンプル数は少なくてよくなる。

サンプルの相関係数が0.2だった場合に、母相関係数がゼロではないと統計学的に証明するには、194例必要と計算される。

> samplesize.cor.test(0.2)
      N       r   alpha   Power
193.968   0.200   0.050   0.800

0.3ならば85例でよいと計算される。

> samplesize.cor.test(0.3)
       N        r    alpha    Power
84.92781  0.30000  0.05000  0.80000

0.4であれば、47例。

> samplesize.cor.test(0.4)
       N        r    alpha    Power
46.73161  0.40000  0.05000  0.80000

0.5なら、30例でよい。

> samplesize.cor.test(0.5)
      N       r   alpha   Power
29.0123  0.5000  0.0500  0.8000

0.6になると、20例でよくなる。

> samplesize.cor.test(0.6)
       N        r    alpha    Power
19.33641  0.60000  0.05000  0.80000

0.7に至っては、たったの14例でOKなのだ。

> samplesize.cor.test(0.7)
       N        r    alpha    Power
13.43442  0.70000  0.05000  0.80000

ちなみに、片側検定 (one.sided) にすると、さらに少ない症例でOKだ。

例えば、0.5で片側検定にすると、30例から24例に減少する。

> samplesize.cor.test(r=0.5, alternative="one")
       N        r    alpha    Power
23.48987  0.50000  0.05000  0.80000

まとめ

相関係数の目安とサンプル数について例示した。

相関係数が大きい場合は、目安のサンプル数は少なくてよくなる。

参考になれば。

参考書籍

医学的研究のデザイン 研究の質を高める疫学的アプローチ 第4版

エクセルでサンプルサイズ計算

エクセルで計算できるようにした。よければ以下からどうぞ。

相関係数のサンプルサイズ計算【エクセルでサンプルサイズ】 | TKER SHOP

使い方は、YouTubeで解説している。

相関係数のサンプルサイズ計算は一体どんな計算をしているのか?

以下は、詳細にわかりたい人向け。

サンプルサイズ n の計算式は以下の通り。

\begin{equation}
n = \left (\frac{Z_{\alpha/2} + Z_\beta}{z} \right )^2 + 3
\end{equation}

ここで $ Z_{\alpha/2} $ は、有意水準に対応する標準正規分布のクォンタイル。

$ Z_\beta $ は、検出力に対応する標準正規分布のクォンタイル。

z は、z変換をした想定される相関係数である。

z変換は以下のように行う。

\begin{equation}
z = \frac{1}{2} \log \frac{1+r}{1-r}
\end{equation}

この変換を行うと、相関係数 r が正規分布に従うようになる。

どんな正規分布に従うかというと、$ N (\frac{1}{2} \log \frac{1 + \rho}{1 – \rho}, \frac{1}{n – 3}) $ という、平均が母相関係数 ρ のz変換値 ($ z_0 $)、母分散 $ \frac{1}{n – 3} $ の正規分布に従う。

この関係を活用すると、母相関係数との差を分子にして、母分散の平方根を分母にした検定統計量 T は、標準正規分布 N (0, 1) に従うことになる。

\begin{equation}
T = \frac{z – z_0}{\frac{1}{\sqrt{n-3}}}
\end{equation}

この検定統計量が有意水準 α/2 のクォンタイルに一致するときの n が必要なサンプルサイズとなる。

以下の式を解けばよい。

\begin{equation}
Z_{\alpha/2} = \frac{z – z_0}{\frac{1}{\sqrt{n-3}}}
\end{equation}

ちなみに、α が2で割られているのは、両側検定を考えているからである。

片側検定の時は2で割らなくてよい。

ここで、サンプルサイズ計算のときには、検出力分のクォンタイルが登場する。

なんと、左辺に加えるのだ。

\begin{equation}
Z_{\alpha/2} + Z_\beta = \frac{z – z_0}{\frac{1}{\sqrt{n-3}}}
\end{equation}

なかなか驚くと思うが、こんなふうにサンプルサイズ計算には検出力の成分が入っている。

これを「下駄をはかせる」と表現した講義が今でも忘れられない。

この一言でとてもよく理解ができた。

すなわち、かなりの悪条件であっても、つまり推定値の絶対値が小さい結果になって、統計学的有意になりにくい場面でも、検出できるように「下駄をはかせている」のである。

ここで検出力の下駄を履かせなければ、$ Z_\beta = 0 $ を足したことになる。

この時の検出力は、50% ($ Z_{0.5} $)である。

つまり、五分五分という状態で、まさにバクチと言える。

そして、式変形をしていくと、上述の n を計算する式になるわけだが、$ z_0 $ は、ゼロとする。

母相関係数の検定は、母相関係数がゼロであるという帰無仮説を検定するわけなので、サンプルサイズの計算式では、母相関係数をゼロと考える。

\begin{equation}
z_0 = \frac{1}{2} \log \frac{1+\rho}{1-\rho} = \frac{1}{2} \log \frac{1+0}{1-0} = \frac{1}{2} \log 1 = 0
\end{equation}

すると以下のように式変形していくことになる。

\begin{align}
Z_{\alpha/2} + Z_\beta &= \frac{z-0}{\frac{1}{\sqrt{n-3}}}\\
Z_{\alpha/2} + Z_\beta &= z \sqrt{n-3}\\
(Z_{\alpha/2} + Z_\beta)^2 &= z^2 (n-3)\\
n-3 &= \frac{(Z_{\alpha/2} + Z_\beta)^2}{z^2}\\
n &= \left ( \frac{Z_{\alpha/2} + Z_\beta}{z} \right )^2 + 3
\end{align}

これで、サンプルサイズ計算の式が導出できた。

こんなふうにサンプルサイズの見積もり式は成り立っているのである。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

リサーチクエスチョン探し?データ分析?論文投稿?、、、で、もう悩まない!

第1章臨床研究ではなぜ統計が必要なのか?計画することの重要性
  • 推定ってどんなことをしているの?
  • 臨床研究を計画するってどういうこと?
  • どうにかして標本平均を母平均に近づけられないか?
第2章:研究目的をどれだけ明確にできるのかが重要
  • データさえあれば解析でどうにかなる、という考え方は間違い
  • 何を明らかにしたいのか? という研究目的が重要
  • 研究目的は4種類に分けられる
  • 統計専門家に相談する上でも研究目的とPICOを明確化しておく
第3章:p値で結果が左右される時代は終わりました
  • アメリカ統計協会(ASA)のp値に関する声明で指摘されていること
  • そうは言っても、本当に有意差がなくてもいいの…?
  • なぜ統計専門家はp値を重要視していないのか
  • 有意差がない時に「有意な傾向があった」といってもいい?
  • 統計を放置してしまうと非常にまずい
第4章:多くの人が統計を苦手にする理由
  • 残念ながら、セミナー受講だけで統計は使えません。
  • インプットだけで統計が使えない理由
  • どうやったら統計の判断力が鍛えられるか?
  • 統計は手段なので正解がないため、最適解を判断する力が必要
第5章:統計を使えるようになるために今日から何をすれば良いか?
  • 論文を読んで統計が使えるようになるための5ステップ
第6章:統計を学ぶために重要な環境
  • 統計の3つの力をバランスよく構築する環境

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

この記事を書いた人

統計 ER ブログ執筆者

元疫学研究者

統計解析が趣味

コメント

コメント一覧 (2件)

コメントする

目次