統計モデルの当てはまりの指標である、AICとBIC。
違いは何か?
AICやBICとは何か?
AICは、Akaike’s Information Criterion 赤池情報量規準の頭文字語、BICは、Bayesian Information Criterion ベイズ情報量規準の頭文字語である。
AICもBICも予測性能に着目したモデルの当てはまりの指標である。
複数の多変量モデルを比較して、最小値のモデルが相対的にもっともすぐれたモデルと判断する。
AICとBICの違いは何か?
AICもBICも二つの項の和から成り立っている式で計算されている。
$$ \mathrm{AIC} = -2 \log L + 2k $$
$$ \mathrm{BIC} = -2 \log L + k \log n $$
一つ目の項は同一で、モデルの対数尤度である。
$ -2 \log L $ の項である。
Lは、尤度(ゆうど)である。
尤度とは、得られたデータをある分布(例えば正規分布)に照らしたときに、その分布から発生したとしたらどのくらいもっともらしいかの度合いである。
そのもっともらしさを最大にするパラメータを探すという方法で、パラメータを推定する方法が最尤推定法と呼ばれていて、実際の計算では対数をとった対数尤度を最大化するパラメータを推定するという形で用いられている。
その対数尤度がなるべく大きいほうがよいモデルと判断される。
計算式では、対数尤度に-2が掛かっているため、最終的な値は小さいほうがより良いモデルとなる。
尤度についてはこちらも参照。
二つ目の項が、AICとBICでは異なっている。
この点が、どのような場合に適するかが異なることになる。
AICでは、パラメータ数(つまり、多変量モデルの独立変数の数)のみであり、パラメータが多すぎると、AICが大きくなり、良いモデルとは言えないことになる。
AICの二項目は、2k で、kはパラメータの数である。
一方で、BICでは、パラメータ数にサンプルサイズが掛かっている。
BICの二項目は、$ k \log n $ で、kはパラメータの数、nはサンプルサイズである。
それゆえ、サンプルサイズがモデルの良しあしに影響してくる。
サンプルサイズが大きくなると、BICの値のなかでサンプルサイズの影響が支配的になってくる。
多変量解析の場合は、ある程度のサンプルサイズをもって解析するのが一般的なので、BICがサンプルサイズに支配されるとなると、細かな変数選択が苦手かもしれない。
AICの発明者、赤池先生は「AICは、有意性がようやく認められる程度のパラメータの取り扱いに注目し、誤差の影響に埋没しそうになるところまでモデル化の可能性を追求している」と述べている。
まとめ
統計モデルの当てはまりの良さの規準として、AICとBICを紹介し、その異同について説明した。
特別な理由がない限りAICを使うのが良いと思う。
参考文献
赤池 1996 AICとMDLとBIC
コメント