AICとはどんな指標？医療統計で変数選択（モデル選択）するときに有用！

2023年4月18日2023年4月19日

重回帰分析やロジスティック回帰分析などの多変量解析を用いて、

無数にあるリスク要因候補から影響を与えている要因を特定する探索的な研究
説明変数候補に対してサンプル数のバランスが悪い研究
多重共線性の疑われる複数の説明変数候補から最適な変数を選択
疾患の予後予測モデルを作成

といったことを行いたいとき、説明変数の組合せをどのように決定すべきなのか。

その問題に解答を与えてくれる指標の一つにAIC（赤池情報量規準）があります。

AICはその導出等の背景にあるものは難解ですが、意味合いをざっくりと捉えることはそう困難ではありません。

この記事では、AICについてわかりやすく解説していきますね！

＞＞もう統計で悩むのは終わりにしませんか？

↑1万人以上の医療従事者が購読中

AICが必要な場面：モデル選択時

重回帰分析やロジスティック回帰分析といった多変量解析を用いた研究において投入する説明変数の組合せ選択（モデル選択）を行う必要があるのは、例えば以下のような場合です。

説明変数候補が無数にある
説明変数候補とサンプル数のバランスが悪い
多重共線性を回避したい
予測モデルを作りたい

それぞれの場面について詳しくみていきましょう！

AICが必要な場面：説明変数候補が無数にある

EBMの考え方や電子カルテの普及によって、医療機関でも様々なデータが常時蓄積されるようになり、以前に比べると研究に必要なデータが容易に得られるようになりました。

これは研究をする上で大変喜ばしいことなのですが今までは取得できなかったデータが存在することで多変量解析に投入可能な説明変数の種類が多くなりすぎて困ることもあります。

（場合によっては何百もの候補もあり得ます…）

本来的には、研究仮説に基づいて、説明変数候補を選択するわけですが、探索的にどの説明変数がリスク要因になっているか分析したいことも多くあります。

このような場合には、AICが活躍することがあります。

＞＞目的変数と説明変数の違いは？

AICが必要な場面：説明変数候補とサンプル数のバランスが悪い

上記の通り、取得できるデータの種類は増えてきましたが、稀少疾患に関するケースや単施設の被験者を対象としたケースなどでは、サンプル数がそれほど多くはないという場合が存在しますね。

必要サンプル数は分析の種類や仮説次第で変化します。

例えば、重回帰分析においては、おおむね、説明変数の数の10倍以上のサンプル数が望ましいと言われております。

そうすると、限られたサンプル数に対して多すぎる説明変数候補があるという問題が発生します。

また、限られたサンプル数に対し、過度に多くの説明変数を投入してしまうと

そのサンプルに対してのみ適合してしまう（「オーバーフィッティング」という）という危険性もあります。

このような場合には、AICが活躍することがあります。

AICが必要な場面：多重共線性を回避したい

複数の説明変数間に強い関連性がある場合、それらの説明変数を同時に投入してしまうと、多重共線性を起こし、推定結果が疑わしいものとなってしまいます。

多重共線性の疑われる説明変数候補が多く存在する場合、最適な組合せを知る必要があります。

このような場合には、AICが活躍することがあります。

AICが必要な場面：予測モデルを作りたい

医療分野において多変量解析を行う場合、目的の一つとしてはリスク要因を見つけ出すことが目的かと思います。

＞＞多変量解析は医学研究でどう使われる？

しかし、慢性疾患やリハビリのように、長期にわたって対象者と関わるようなケースでは疾患の予後や治療の効果を予測するモデルを作成するという研究も散見されます。

この場合、予測の精度を向上させる説明変数の組合せを見つけるとともに臨床現場で使いやすいものにするためできるだけ少ない種類の説明変数で予測できることが望ましいです。

このような場合には、AICが活躍することがあります。

モデル選択にも有用なAICとはそもそもどんな指標？

上記のような適切な説明変数の組合せを選択する必要がある場合、その選択法の一つとして提案されたものがAIC（赤池情報量規準）です。

名前にある通り、日本の数理統計学者である赤池弘次先生が考案したものでモデル選択の標準的な手法として世界的に用いられているものです。

ロジスティック回帰分析など、医療統計でよく用いられる多変量解析におけるAICの計算式は以下の通り。

AIC=-2logL+2(k+1)

L:モデルの最大尤度、k：説明変数の数

AICが意味しているのはどんなこと？

AICの計算式には

最大尤度やlogが入っているし
なぜか2倍しているし

という具合によく分かりませんよね。。

このAICを厳密に理解するためには情報理論で扱われるカルバック・ライブラー情報量などを知らなければなりません。

それは骨が折れますから、本質を失わないようにしつつもざっくりと理解していきましょう。

AICの大小と適切なモデルの関係

AICの式の第1項の中心は最大尤度です。

ロジスティック回帰分析など多くの多変量解析では最尤法を用いて推定しています。

最尤法は分析に使用しているサンプルの出現確率が最も高くなるような場合のパラメータを推定する方法ですが、その推定されたパラメータに基づくサンプルの出現確率が最大尤度であると考えて問題ありません。

サンプルの出現確率が高いほど推定されたモデルはサンプルに適合しているため、最大尤度が大きいほど良いモデルであると言えます。

最大尤度は確率と同じように0と1の間の値になるため、対数（log）で変換をして扱いやすいかたちにしています。

さらにマイナスを付けているので大小関係が反転します。

つまり、AICは小さければ小さいほど良いモデルということになります。

しかし、説明変数の数を増やすとデータにより適合するモデルを推定することができるため（オーバーフィッティング）、第2項では、説明変数の数を用いてペナルティをかけています。

説明変数の数を増やすと第1項の部分は小さくなりますが、第2項の部分は大きくなります。

この2つのバランスから、説明変数の数を増やすのに十分な尤度の上昇が得られているか。

という観点で規準化したものがAICです。

AICの値の解釈：相対的な評価しかできない

AICが小さいほど良いモデルです。

しかし、値そのものに意味はありません。

「いくつより小さければ良い」という絶対的な値があるわけではないため、複数のモデルを比較し、AICの小さい方がより良いモデルという相対的な評価をしていきます。

＞＞もう統計で悩むのは終わりにしませんか？

↑1万人以上の医療従事者が購読中

AICを使った説明変数選択・モデル選択の分析例

AICに関してざっくりと分かったところで、実際の分析例をみていきましょう！

上記のようなデータであるアウトカムの発生に年齢、BMI、収縮期/拡張期血圧が寄与しているのではないかと考えてロジスティック回帰分析を行うとします。

このデータは60名の患者データで説明変数の候補が4つですのでややバランスの悪い状況です。

加えて、収縮期/拡張期血圧は相互に関連していることは明らかですから多重共線性も心配になります。

この2点からモデル選択の必要性があると考えられます。

このデータに対してすべての説明変数の組合せごとにロジスティック回帰分析を実施しAICの小さい順に並べたのが下の結果です。

各説明変数にある値は推定値（オッズ比に変換する前の値）で、空欄になっているところはその説明変数が投入されていないモデルです。

AICが最も小さいのは、sbp（収縮期血圧）のみのモデルになります。

また、sbpとdbpの列に注目すると、dbpがsbpと一緒に説明変数となっている場合とdbp単独の場合とで、符号が変わっています。

このことから多重共線性が生じていることも示唆されます。

そこで、説明変数1つでは心許ないとすれば、sbpのつぎに加えるべきは、2つ目のモデルのdbpではなく3つ目のモデルのBMIということになります。

実際にロジスティック回帰を実施したい場合には、EZRやSPSS、JMPなどでやってみましょう。

AICが出てくるはずです。

＞＞EZRでロジスティック回帰分析を実施する方法

＞＞SPSSでロジスティック回帰分析を実施する方法

＞＞JMPでロジスティック回帰分析を実施する方法

まとめ

多変量解析を行う際、説明変数の組合せをどうしたら良いのか、という問題に出くわすことはよくあります。

説明変数の候補が多くなれば、仮設の設定も容易ではなく、オーバーフィッティングや多重共線性のことも気にしなければなりません。

そのようなときに、分析のヒントを与えてくれるのがAICです。

AICのより小さいモデルを探索することでより良い分析を行うことができます。

もっとも、AICも万能なものではなく、BIC（ベイズ情報量規準）など他の適合度指標も数多く提案されています。

研究で用いる際には、AICでモデルの目途をつけた上で、あらためて研究仮説を構築するということも大事になってきますね。

動画でもAICについて解説していますので、合わせてご参照くださいませ^^

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

リサーチクエスチョン探し？データ分析？論文投稿？、、、で、もう悩まない！

第1章：臨床研究ではなぜ統計が必要なのか？計画することの重要性

推定ってどんなことをしているの？
臨床研究を計画するってどういうこと？
どうにかして標本平均を母平均に近づけられないか？

第2章：研究目的をどれだけ明確にできるのかが重要

データさえあれば解析でどうにかなる、という考え方は間違い
何を明らかにしたいのか？という研究目的が重要
研究目的は4種類に分けられる
統計専門家に相談する上でも研究目的とPICOを明確化しておく

第3章：p値で結果が左右される時代は終わりました

アメリカ統計協会（ASA）のp値に関する声明で指摘されていること
そうは言っても、本当に有意差がなくてもいいの…？
なぜ統計専門家はp値を重要視していないのか
有意差がない時に「有意な傾向があった」といってもいい？
統計を放置してしまうと非常にまずい

第4章：多くの人が統計を苦手にする理由

残念ながら、セミナー受講だけで統計は使えません。
インプットだけで統計が使えない理由
どうやったら統計の判断力が鍛えられるか？
統計は手段なので正解がないため、最適解を判断する力が必要

第5章：統計を使えるようになるために今日から何をすれば良いか？

論文を読んで統計が使えるようになるための5ステップ

第6章：統計を学ぶために重要な環境

統計の3つの力をバランスよく構築する環境

『統計を身につける5つのステップ』を
通常1,650円 → メルマガ登録で無料でプレゼント

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

~~通常価格：1,650円~~　→　無料でお届け

【無料】統計を使いこなすための秘策を学ぶ

AICとはどんな指標？医療統計で変数選択（モデル選択）するときに有用！