多重代入法で必要な補完データセット数

2022年1月29日2025年6月10日

欠測値があった場合、対処する方法がいくつかある。

そのうちの一つが多重代入法である。

多重代入法で作成すべき欠測値補完データの数はいくつがよいのか？

＞＞もう統計で悩むのは終わりにしませんか？

↑1万人以上の医療従事者が購読中

多重代入法で作成するデータセットはいくつがよいと言われているか？

多重代入法の提案者Rubinは、5 から 10 程度で解析可能と主張して、その後 5 つ程度で実際行われてきた。

Rubinが提唱したのは1987年で、その当時と比べるとコンピュータは格段に進化し、現在は 100 程度のデータを作成するのは大した労力がかからない。

実際、100 個のデータを作成することも勧められている。

多重代入法で作成するデータセット数を決める方法は？

多重代入法で作成するデータセットの数を決める方法の一つに、相対効率（Relative Efficiency）で決めるという方法がある。

母集団での欠測情報の割合を $ \lambda_0 $ とすると、欠測値補完データセット D と相対効率 $ Re_D $ の間には、以下の関係が成り立つ。

$$ Re_D = \left( 1 + \frac{\lambda_0}{D} \right)^{-1} $$

ここで母集団での欠測情報の割合 $ \lambda_0 $ は、単変量で完全にランダムな欠測の場合は、欠測率にあたる。

相対効率は高いほうが良い。

＞＞もう統計で悩むのは終わりにしませんか？

↑1万人以上の医療従事者が購読中

相対効率を用いて欠測情報割合とデータセット数のシミュレーションを行う

相対効率を指標にして、欠測情報の割合と欠測値補完のデータセット数を割り当てたときのシミュレーションを行ってみた。

欠測情報割合は 10 ％（0.1）ごとに 0.1 から 1 までとした。

1 というのはすべて欠測情報であることを意味するのでありえないが、理屈の上では計算できるため含めた。

データセット数は、5, 10, 20, 50, 100, 200 とした。

これらのデータセット数は、よく見かける情報を参考に選んだ。

以下に、これらの条件で、マトリックス状に計算結果を出力する R のスクリプトを示す。

lambda0 <- 1:10/10
D <- c(5,10,20,50,100,200)
res.tab <- matrix(rep(0,60),nr=6)
for (i in 1:length(D)){
for (j in 1:length(lambda0)){
ReD <- 1/(1+lambda0[j]/D[i])
res.tab[i,j] <- ReD
}
}
colnames(res.tab) <- lambda0
rownames(res.tab) <- D
res.tab

計算結果 res.tab（出力は省略している）をmatplot()関数を使ってグラフ化すると以下の通りになる。

どのデータセット数であっても、欠測情報の割合が大きくなると、相対効率は低くなる。

100 と 200 の差はわずかであることがわかる。

つまり、100 個作成すれば、まず間違いないということになる。

matplot(t(res.tab),type="l",xaxt="n",ylab="Relative Efficiency",las=1,
xlab="Proportion of Missing Information in Population")
axis(1, at=1:10, formatC(1:10/10))
legend(legend=paste("D=",D),"bottomleft", lty=1:5, col=1:6)

まとめ

欠測値の補完法の一つ、多重代入法において、欠測値補完データセットはいくつ必要かという質問には、相対効率で決めるとよいと回答できる。

欠測情報割合とデータセット数のシミュレーションの結果、100 セット作成すれば、まず問題ないことがわかった。

参考書籍

欠測データの統計科学――医学と社会科学への応用 (調査観察データ解析の実際第1巻)

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

リサーチクエスチョン探し？データ分析？論文投稿？、、、で、もう悩まない！

第1章：臨床研究ではなぜ統計が必要なのか？計画することの重要性

推定ってどんなことをしているの？
臨床研究を計画するってどういうこと？
どうにかして標本平均を母平均に近づけられないか？

第2章：研究目的をどれだけ明確にできるのかが重要

データさえあれば解析でどうにかなる、という考え方は間違い
何を明らかにしたいのか？という研究目的が重要
研究目的は4種類に分けられる
統計専門家に相談する上でも研究目的とPICOを明確化しておく

第3章：p値で結果が左右される時代は終わりました

アメリカ統計協会（ASA）のp値に関する声明で指摘されていること
そうは言っても、本当に有意差がなくてもいいの…？
なぜ統計専門家はp値を重要視していないのか
有意差がない時に「有意な傾向があった」といってもいい？
統計を放置してしまうと非常にまずい

第4章：多くの人が統計を苦手にする理由

残念ながら、セミナー受講だけで統計は使えません。
インプットだけで統計が使えない理由
どうやったら統計の判断力が鍛えられるか？
統計は手段なので正解がないため、最適解を判断する力が必要

第5章：統計を使えるようになるために今日から何をすれば良いか？

論文を読んで統計が使えるようになるための5ステップ

第6章：統計を学ぶために重要な環境

統計の3つの力をバランスよく構築する環境

『統計を身につける5つのステップ』を
通常1,650円 → メルマガ登録で無料でプレゼント

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

~~通常価格：1,650円~~　→　無料でお届け

【無料】統計を使いこなすための秘策を学ぶ

この記事を書いた人

toukei-er

統計 ER ブログ執筆者

元疫学研究者

コメント一覧（1件）

EZR で多重代入法を行う方法 – 統計ER より:

2024年8月25日 9:51 PM

[…] 多重代入法で必要な補完データセット数欠測値があった場合、対処する方法がいくつかある。 […]

返信

【無料プレゼント付き】学会発表・論文投稿に必要な統計を最短で学ぶことができる無料メルマガ

多重代入法で必要な補完データセット数

多重代入法で作成するデータセットはいくつがよいと言われているか？

多重代入法で作成するデータセット数を決める方法は？

相対効率を用いて欠測情報割合とデータセット数のシミュレーションを行う

まとめ

参考書籍

リサーチクエスチョン探し？データ分析？論文投稿？、、、で、もう悩まない！

『統計を身につける5つのステップ』を
通常1,650円 → メルマガ登録で無料でプレゼント

この記事を書いた人

コメント

コメント一覧（1件）

コメントするコメントをキャンセル

【無料プレゼント付き】学会発表・論文投稿に必要な統計を最短で学ぶことができる無料メルマガ

多重代入法で必要な補完データセット数

多重代入法で作成するデータセットはいくつがよいと言われているか？

多重代入法で作成するデータセット数を決める方法は？

相対効率を用いて欠測情報割合とデータセット数のシミュレーションを行う

まとめ

参考書籍

リサーチクエスチョン探し？データ分析？論文投稿？、、、で、もう悩まない！

『統計を身につける5つのステップ』を通常1,650円 → メルマガ登録で無料でプレゼント

この記事を書いた人

関連記事

コメント

コメント一覧 （1件）

コメントする コメントをキャンセル

『統計を身につける5つのステップ』を
通常1,650円 → メルマガ登録で無料でプレゼント

コメント一覧（1件）

コメントするコメントをキャンセル