相関係数を求めたいサンプル数が少ないけど、大丈夫なのか?
相関係数が大きい場合、サンプル数は少なくても大丈夫。
目安となるサンプル数はどのくらいか?
相関係数の目安・意味
相関係数には、以下のような目安がある。
相関係数の絶対値 | 関連の程度 |
---|---|
0.0~0.2 | 無視できる程度 |
0.2~0.5 | 弱い |
0.5~0.8 | 中程度 |
0.8~1.0 | 強い |
母集団の相関係数がゼロではない、いわゆる統計学的有意が前提で、そのうえで、サンプルでの相関係数がどのくらいのときに、どんな意味を持つか。
これが重要だ。
相関係数のサンプル数の求め方
相関係数のサンプル数とは、要するにいくつの相関係数が統計学的有意すなわち母相関係数がゼロでないと言えるかを計算するものだ。
Rで計算する場合のスクリプトは以下の通り。
samplesize.cor.test <- function(r, sig.level=.05, power=.8,
alternative=c("two.sided","one.sided")){
alternative <- match.arg(alternative)
tside <- switch(alternative, one.sided=1, two.sided=2)
Za <- qnorm(sig.level/tside, lower.tail=FALSE)
Zb <- qnorm(power)
C <- 0.5*log((1+r)/(1-r))
N <- ((Za+Zb)/C)^2 + 3
c(N=N, r=r, alpha=sig.level, Power=power)
}
相関係数の目安となるサンプル数
計算結果は以下に示すとして、まとめを示すと、以下のようになる。
相関係数 | サンプル数 |
---|---|
0.2 | 194 |
0.3 | 85 |
0.4 | 47 |
0.5 | 30 |
0.6 | 20 |
0.7 | 14 |
予想される相関係数が大きくなれば、サンプル数は少なくてよくなる。
サンプルの相関係数が0.2だった場合に、母相関係数がゼロではないと統計学的に証明するには、194例必要と計算される。
> samplesize.cor.test(0.2)
N r alpha Power
193.968 0.200 0.050 0.800
0.3ならば85例でよいと計算される。
> samplesize.cor.test(0.3)
N r alpha Power
84.92781 0.30000 0.05000 0.80000
0.4であれば、47例。
> samplesize.cor.test(0.4)
N r alpha Power
46.73161 0.40000 0.05000 0.80000
0.5なら、30例でよい。
> samplesize.cor.test(0.5)
N r alpha Power
29.0123 0.5000 0.0500 0.8000
0.6になると、20例でよくなる。
> samplesize.cor.test(0.6)
N r alpha Power
19.33641 0.60000 0.05000 0.80000
0.7に至っては、たったの14例でOKなのだ。
> samplesize.cor.test(0.7)
N r alpha Power
13.43442 0.70000 0.05000 0.80000
ちなみに、片側検定 (one.sided) にすると、さらに少ない症例でOKだ。
例えば、0.5で片側検定にすると、30例から24例に減少する。
> samplesize.cor.test(r=0.5, alternative="one")
N r alpha Power
23.48987 0.50000 0.05000 0.80000
まとめ
相関係数の目安とサンプル数について例示した。
相関係数が大きい場合は、目安のサンプル数は少なくてよくなる。
参考になれば。
参考書籍
医学的研究のデザイン 研究の質を高める疫学的アプローチ 第4版
エクセルでサンプルサイズ計算
エクセルで計算できるようにした。よければ以下からどうぞ。
相関係数のサンプルサイズ計算【エクセルでサンプルサイズ】 | TKER SHOP
使い方は、YouTubeで解説している。
相関係数のサンプルサイズ計算は一体どんな計算をしているのか?
以下は、詳細にわかりたい人向け。
サンプルサイズ n の計算式は以下の通り。
\begin{equation}
n = \left (\frac{Z_{\alpha/2} + Z_\beta}{z} \right )^2 + 3
\end{equation}
ここで $ Z_{\alpha/2} $ は、有意水準に対応する標準正規分布のクォンタイル。
$ Z_\beta $ は、検出力に対応する標準正規分布のクォンタイル。
z は、z変換をした想定される相関係数である。
z変換は以下のように行う。
\begin{equation}
z = \frac{1}{2} \log \frac{1+r}{1-r}
\end{equation}
この変換を行うと、相関係数 r が正規分布に従うようになる。
どんな正規分布に従うかというと、$ N (\frac{1}{2} \log \frac{1 + \rho}{1 – \rho}, \frac{1}{n – 3}) $ という、平均が母相関係数 ρ のz変換値 ($ z_0 $)、母分散 $ \frac{1}{n – 3} $ の正規分布に従う。
この関係を活用すると、母相関係数との差を分子にして、母分散の平方根を分母にした検定統計量 T は、標準正規分布 N (0, 1) に従うことになる。
\begin{equation}
T = \frac{z – z_0}{\frac{1}{\sqrt{n-3}}}
\end{equation}
この検定統計量が有意水準 α/2 のクォンタイルに一致するときの n が必要なサンプルサイズとなる。
以下の式を解けばよい。
\begin{equation}
Z_{\alpha/2} = \frac{z – z_0}{\frac{1}{\sqrt{n-3}}}
\end{equation}
ちなみに、α が2で割られているのは、両側検定を考えているからである。
片側検定の時は2で割らなくてよい。
ここで、サンプルサイズ計算のときには、検出力分のクォンタイルが登場する。
なんと、左辺に加えるのだ。
\begin{equation}
Z_{\alpha/2} + Z_\beta = \frac{z – z_0}{\frac{1}{\sqrt{n-3}}}
\end{equation}
なかなか驚くと思うが、こんなふうにサンプルサイズ計算には検出力の成分が入っている。
これを「下駄をはかせる」と表現した講義が今でも忘れられない。
この一言でとてもよく理解ができた。
すなわち、かなりの悪条件であっても、つまり推定値の絶対値が小さい結果になって、統計学的有意になりにくい場面でも、検出できるように「下駄をはかせている」のである。
ここで検出力の下駄を履かせなければ、$ Z_\beta = 0 $ を足したことになる。
この時の検出力は、50% ($ Z_{0.5} $)である。
つまり、五分五分という状態で、まさにバクチと言える。
そして、式変形をしていくと、上述の n を計算する式になるわけだが、$ z_0 $ は、ゼロとする。
母相関係数の検定は、母相関係数がゼロであるという帰無仮説を検定するわけなので、サンプルサイズの計算式では、母相関係数をゼロと考える。
\begin{equation}
z_0 = \frac{1}{2} \log \frac{1+\rho}{1-\rho} = \frac{1}{2} \log \frac{1+0}{1-0} = \frac{1}{2} \log 1 = 0
\end{equation}
すると以下のように式変形していくことになる。
\begin{align}
Z_{\alpha/2} + Z_\beta &= \frac{z-0}{\frac{1}{\sqrt{n-3}}}\\
Z_{\alpha/2} + Z_\beta &= z \sqrt{n-3}\\
(Z_{\alpha/2} + Z_\beta)^2 &= z^2 (n-3)\\
n-3 &= \frac{(Z_{\alpha/2} + Z_\beta)^2}{z^2}\\
n &= \left ( \frac{Z_{\alpha/2} + Z_\beta}{z} \right )^2 + 3
\end{align}
これで、サンプルサイズ計算の式が導出できた。
こんなふうにサンプルサイズの見積もり式は成り立っているのである。
コメント
コメント一覧 (2件)
[…] 相関係数の目安と R で必要サンプル数を計算する方法 相関係数を求めたいサンプル数が少ないけど、大丈夫なのか? […]
[…] 相関係数の目安と R で必要サンプル数を計算する方法 相関係数を求めたいサンプル数が少ないけど、大丈夫なのか? […]