ロジスティック回帰の説明変数の数はいくつ入れてよいのか?
ロジスティック回帰の説明変数の数
ロジスティック回帰分析をする場合、サンプルサイズによっていくつの説明変数を投入できるか
サンプルサイズ諸論 の記述がもっともクリアでわかりやすい
二項ロジスティック回帰分析のサンプルサイズについては、シミュレーションの結果、従属変数のいずれか少ないカテゴリのサイズが説明変数×10以下であると、結果のバイアス、精度、モデルフィット等問題が生じていることが示された。しかし、少ないカテゴリのサイズが説明変数×10以上では問題がなかったことが示された(Peduzzi et al., 1996)。この論文のインパクトは大きく、昨今でもロジスティック回帰分析のサンプルサイズは説明変数×10以上が必要とされている場合が多い。
Peduzzi et al., 1996 とは、こちらの論文である
A simulation study of the number of events per variable in logistic regression analysis
著者らは、モンテカルロシミュレーションを用いて、ロジスティック回帰分析における、説明変数の数に対するイベントの数の影響を評価した
「少ないカテゴリ」というのは、もしイベントあり症例よりもイベントなし症例のほうが少なかった場合、イベントなし症例のことを指している
We performed a Monte Carlo study to evaluate the effect of the number of events per variable (EPV) analyzed in logistic regression analysis.
説明変数の数に対するイベントの数が 10 以上であった場合、大きな問題は起きなかった
一方で、10 未満であった場合、偏回帰係数が、プラスにもマイナスにもバイアスを生じた (以下略)
For EPV values of 10 or greater, no major problems occurred. For EPV values less than 10, however, the regression coefficients were biased in both positive and negative directions; …
ということで、説明変数の数に対するアウトカムにおけるイベント数が 10 倍以上あれば、大きな問題は生じず、問題ないと言える
つまり、10 個の説明変数を投入したければ、少なくともアウトカムにおいてイベントが 100 例生じている必要があるという意味である
まとめ
ロジスティック回帰の説明変数の数について、シミュレーション結果に基づく適切な数について解説した
アウトカムのイベントあり・なし症例数のうち、少ないほうの症例数の 10 分の 1 程度にしておくと、大きな問題が生じないと言える
参考になれば
参考文献
A simulation study of the number of events per variable in logistic regression analysis
コメント