研究や検証をする時に、サンプルサイズがどれくらい必要なのか迷いますよね。
- 「データを集める前にどれくらいのサンプルサイズにすべきか知りたい」
- 「解析したデータが十分なサンプルサイズなのか確認したい」
EZRでサンプルサイズを計算できれば、これらの問題が簡単に解消できます。
本記事ではEZRを使って、2群比較をする場合に必要なサンプルサイズの計算方法を紹介します。
それでは参りましょう!
EZRでサンプルサイズの計算をする前に決めておくこと
サンプルサイズを決めるためには、まずは事前に決めなければならないことがあります。
「平均の差」であったり「標準偏差」だったり。
では具体的にどんなことを事前に決めておく必要があるのでしょうか?
EZRでサンプルサイズの計算をする前に決めておくこと1:2群の差は最低どれくらい必要か?
サンプルサイズを計算するためには、2群の差(平均の差や比率の差)が最低限どれくらい必要かを決めておかなくてはなりません。
実際に例を使ってみましょう。
あるダイエットサプリを使った群と使っていない群で体重の減少量を比較したいとします。
この時1ヶ月後に0.1kg体重を減らしてくれるサプリは、有用だと言えるでしょうか?
そんなサプリ、売れるとは思えませんよね。
いくら効果があったとしても、差が少なすぎると実用的に意味のある差とはいえません。
ではどれくらいが実用的に意味のある最低限の差なのでしょうか?
これはもうケース・バイ・ケースですので、個人の主観的な判断次第といえます。
先ほどのダイエットサプリの話で言えば、安いサプリなら1kgの体重減少でも良いと思いますが、高いサプリなら5kgくらいの効果はあってほしいところです。
このあたりは自身の感覚で思い切って決めてしまいましょう。
ちなみに、「いやいや、このサプリは10kgくらい体重を減らせそうだ」なんて強気の見込みであれば、2群の差を最低限の差ではなく10kgで見積もっても構いません。
2群の比率や生存曲線(予測生存率)を比較する場合も同様の考え方で大丈夫です。
「片方の群がこれくらいで、もう片方の群がこれくらいの比率だと有効だと言えそうだ」
という最低限の差を事前に決めておきましょう。
EZRでサンプルサイズの計算をする前に決めておくこと2:データの標準偏差はどれくらいになりそうか?
2群を合わせたデータ全体の標準偏差もサンプルサイズの計算には必要です。
でもまだ集めてもいないデータの標準偏差なんて分かりませんよね。
未知のデータを扱う場合、この標準偏差の推定が厄介です。
基本的には、似たようなサンプルを集めた先行研究などのデータを探して標準偏差を推定するのが間違いのない方法です。
しかし自社内で行うABテストの時など、外部のデータが全く使えないこともあります。
その場合はひとまずデータを少数集めてみて、標準偏差を推定するという手段もあります。
この方法は研究などでは使ってはいけないのですが、ビジネスで活用する分には有効です。
“先行研究を使う”または”少数のデータサンプルを集める”などの方法で標準偏差の見積もりを決めておきましょう。
EZRでサンプルサイズの計算をする前に決めておくこと3:2群間のサンプルサイズの比はどれくらいか?
比較する2群のサンプルサイズが同じ数とは限りませんよね。
その場合は2群のサンプルサイズの比率も見積もっておきましょう。
先ほどのダイエットサプリの例を用いると、
「サプリを使った人は50人のデータしか取れなさそうけど、サプリを使っていない人は100人のデータが取れそう」
といったケースはよくあります。
この場合、サンプルサイズの比は”1:2″となります。
ちなみにサンプルサイズの比があまりに大きすぎると良くないため、1:3くらいまでにしておいた方がよいでしょう。
EZRでサンプルサイズの計算をする前に決めておくこと4:【生存曲線の比較時のみ】登録期間、試験期間はどれくらいか?
生存曲線のサンプルサイズを計算する時は、上記の情報に加えて登録期間と試験期間も決めておかなければなりません。
登録期間→追跡を開始するサンプルを登録する期間
試験期間→実際に追跡期間
これらも先行研究や臨床的判断から見積もっておきましょう。
なお試験期間は登録機関よりも長くなければいけませんので、注意して下さい。
フリーソフトEZRで2群のサンプルサイズの計算をする方法
では実際にEZRでサンプルサイズ を計算していきましょう!
2群の平均の比較のサンプルサイズをEZRで計算!
2群の平均を比較する解析を行う場合に必要なサンプルサイズを計算しましょう。
まずは上の統計解析のタブをクリックしてください。
次は画像のように「必要サンプルサイズの計算」→「2群の平均値の比較のためのサンプルサイズの計算」の順に選択していきましょう。
以下の画面になるので、先ほど決めた「2群間の平均値の差」と「2群共通の標準偏差」、「サンプルサイズの比」を入力しましょう。
他の項目は初期設定のままでOKです。(αエラーと検出力は後ほどご説明します)
最後にOKを押せばサンプルサイズが自動で算出されます。
この結果は平均値の差を5、標準偏差を20にしたものです。
必要なサンプルサイズは各群252ずつのようですね。
ちなみに右のグラフは横軸をサンプルサイズ、縦軸を検出力にしたものです。
サンプルサイズが増えれば増えるほど検出力が増えていくのが分かりますね。
2群の比率の比較のサンプルサイズをEZRで計算!
2群の比率を比較する解析を行う場合に必要なサンプルサイズを計算しましょう。
まずは上の統計解析のタブをクリックしてください。
次は画像のように「必要サンプルサイズの計算」→「2群の比率の比較のためのサンプルサイズの計算」の順に選択していきましょう。
以下の画面になるので、先ほど決めた「2群の比率」と「サンプルサイズの比」をそれぞれ入力していきましょう。
他の項目は初期設定のままでOKです。
最後にOKを押せばサンプルサイズが自動で算出されます。
2群の生存曲線の比較のサンプルサイズをEZRで計算!
2群の生存曲線を比較する解析を行う場合に必要なサンプルサイズを計算しましょう。
まずは上の統計解析のタブをクリックしてください。
次は画像のように「必要サンプルサイズの計算」→「2群の生存曲線の比較のためのサンプルサイズの計算」の順に選択していきましょう。
以下の画面になるので、先ほど決めた「2群の生存率」と「登録機関」、「試験期間」、「予測生存率の年数」、「サンプルサイズの比」をそれぞれ入力していきましょう。
他の項目は初期設定のままでOKです。
最後にOKを押せばサンプルサイズが自動で算出されます。
サンプルサイズ計算で必要な”αエラー”と”検出力”とは?
最後に補足として、αエラーと検出力について解説しておきましょう。
αエラーとは、本来差がないのに差があるという解析結果が出てしまう確率です。
αエラーは犯罪をしていないのに有罪と判決してしまう冤罪などのように、やってはいけない間違いです。
そのため慣例では5%(0.05)以内に設定されることがほとんどです。
ただし研究内容によっては1%まで厳しく設定した方がいいこともあります。
検出力とは、本来差があるものを解析で見逃さない確率です。
罪人を正しく有罪にできる確率ですね。
「疑わしきは罰せず」という言葉があるように、冤罪よりかはマシだとのが一般的な認識です。
そのためサンプルサイズの計算では、検出力は80%(0.80)と設定することが慣例です。
「最悪20%は見逃してしまっても構わないよ」ということですね。
基本的にサンプルサイズが増えれば増えるほど検出力は上がります。
そのため検出力を上げれば上げるほど、必要なサンプルサイズは増えると覚えておきましょう。
まとめ
最後におさらいをしましょう。
- サンプルサイズの計算には”2群の差”、”標準偏差”、”2群のサンプルサイズ比”を事前に決めておく
- 事前に決める項目は先行研究やサンプルデータを元に、実用面も考慮に入れて判断していく
- EZRを開いた状態で「統計解析」→「必要なサンプルサイズの計算」と進み、サンプルサイズを計算できる
最近の研究は、サンプルサイズの計算を事前にしておくことがより一層求められるようになってきました。
またビジネスでABテストをする場合にも、サンプルサイズの計算は有効です。
EZRを使えば簡単に計算できるので、ぜひ活用してみてくださいね!
最後までお読み頂きありがとうございました。
コメント
コメント一覧 (2件)
[…] EZRでサンプルサイズ計算をする方法はこちらの記事で記載していますが、今回は検出力。 […]
[…] >>EZRでサンプルサイズを計算する方法 […]