MENU

【無料プレゼント付き】学会発表・論文投稿に必要な統計を最短で学ぶことができる無料メルマガ

ロジスティック回帰モデルの評価指標:混同行列からROC曲線、Youden Indexまで


ロジスティック回帰モデルを構築した後、多くの初心者は「正解率(Accuracy)」のみを見てモデルの良し悪しを判断しがちである。しかし、分類タスクにおいて正解率のみを指標とすることは、時として重大な判断ミスを招く。

本記事では、モデルの性能を多角的に評価するために必須となる「混同行列」の概念から、臨床医学とも密接に関わる「感度・特異度」、そして最適な閾値を決定する「Youden Index」までを体系的に解説する。


>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

目次

全ての評価の基盤「混同行列」

ロジスティック回帰の評価を理解する上で、避けて通れないのが「混同行列(Confusion Matrix)」である。これは、モデルによる予測値と実際の正解値をクロス集計した表である。

  • TP(True Positive:真陽性): 実際の陽性を、正しく「陽性」と予測した。
  • TN(True Negative:真陰性): 実際の陰性を、正しく「陰性」と予測した。
  • FP(False Positive:偽陽性): 実際は陰性だが、誤って「陽性」と予測した(空振り)。
  • FN(False Negative:偽陰性): 実際は陽性だが、誤って「陰性」と予測した(見逃し)。

分析の目的が「空振りの回避」なのか「見逃しの防止」なのかによって、注視すべき指標は決定的に異なる。


主要指標の定義と分野による呼称の違い

混同行列から導き出される指標には、機械学習の文脈と臨床医学(疫学)の文脈で異なる呼称が用いられるものがある。混乱を避けるため、それらを対比させて整理する。

指標(機械学習)臨床医学での呼称定義と意味計算式
正解率 (Accuracy)正診率全データのうち、予測が的中した割合$\frac{TP + TN}{TP + TN + FP + FN}$
適合率 (Precision)陽性反応的中率「陽性」と予測した中で、真に陽性であった割合$\frac{TP}{TP + FP}$
再現率 (Recall)感度 (Sensitivity)実際の「陽性」のうち、正しく検出できた割合$\frac{TP}{TP + FN}$
特異度 (Specificity)特異度実際の「陰性」のうち、正しく陰性と判定できた割合$\frac{TN}{TN + FP}$
F1スコア適合率と再現率の調和平均。両者のバランスを評価する$\frac{2 \cdot \text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}$

特に「再現率(感度)」は、病気の見逃しを防ぐ能力を指し、「適合率(陽性反応的中率)」は診断が下された際の信頼度を指す。この違いを明確に区別することが肝要である。


>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

判別性能を可視化する「ROC曲線とAUC」

ロジスティック回帰は「0.8」といった確率値を出力する。通常は0.5を閾値として分類を行うが、この境界線を動かすことで感度と特異度はトレードオフの関係となる。

この閾値の変化に依存せず、モデルそのものの判別性能(ポテンシャル)を評価するのがROC曲線およびAUCである。

  • ROC曲線: 閾値を0から1まで変化させた際の、「感度」と「1-特異度(偽陽性率)」の軌跡をプロットしたグラフである。
  • AUC(Area Under the Curve): ROC曲線下の面積を指す。

AUCは0から1の値をとり、1に近いほど「陽性と陰性を適切に分離できる能力(判別性能)」が高いことを示す。これは、特定の閾値設定に左右されないモデルの本質的な実力を表す指標と言える。


最適な閾値の決定「Youden Index」

モデルの判別性能を確認した後は、実運用における「最適な境界線(閾値)」を決定する必要がある。この際、客観的な指標となるのが Youden Index(ユーデン指数) である。

計算式は以下の通りである。

$$J = \text{感度(再現率)} + \text{特異度} – 1$$

ROC曲線上において、左上隅(感度1、特異度1の点)に最も近い点が、このYouden Indexが最大となるポイントである。この点における閾値を採用することで、見逃しと空振りのバランスを統計的に最適化することが可能となる。


結論:指標の使い分け指針

実務における指標選択の基準を以下にまとめる。

  1. 「見逃し」を最小化したい場合(例:重篤な疾患のスクリーニング):再現率(感度)を最優先し、高い値を維持できる閾値を設定する。
  2. 「空振り」を最小化したい場合(例:重要顧客への限定キャンペーン):適合率(陽性反応的中率)を重視し、誤判定を抑制する。
  3. モデル間の純粋な性能比較を行いたい場合AUCを比較し、特定の閾値に依らない判別能力の高さを評価する。

ロジスティック回帰の評価は、単一の指標で完結するものではない。データの性質とビジネス上の目的に照らし合わせ、適切な指標を組み合わせて解釈することが、データサイエンスにおける誠実な態度であると言える。


おすすめ書籍

誰も教えてくれなかった 医療統計の使い分け〜迷いやすい解析手法の選び方が,Rで実感しながらわかる!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

リサーチクエスチョン探し?データ分析?論文投稿?、、、で、もう悩まない!

第1章臨床研究ではなぜ統計が必要なのか?計画することの重要性
  • 推定ってどんなことをしているの?
  • 臨床研究を計画するってどういうこと?
  • どうにかして標本平均を母平均に近づけられないか?
第2章:研究目的をどれだけ明確にできるのかが重要
  • データさえあれば解析でどうにかなる、という考え方は間違い
  • 何を明らかにしたいのか? という研究目的が重要
  • 研究目的は4種類に分けられる
  • 統計専門家に相談する上でも研究目的とPICOを明確化しておく
第3章:p値で結果が左右される時代は終わりました
  • アメリカ統計協会(ASA)のp値に関する声明で指摘されていること
  • そうは言っても、本当に有意差がなくてもいいの…?
  • なぜ統計専門家はp値を重要視していないのか
  • 有意差がない時に「有意な傾向があった」といってもいい?
  • 統計を放置してしまうと非常にまずい
第4章:多くの人が統計を苦手にする理由
  • 残念ながら、セミナー受講だけで統計は使えません。
  • インプットだけで統計が使えない理由
  • どうやったら統計の判断力が鍛えられるか?
  • 統計は手段なので正解がないため、最適解を判断する力が必要
第5章:統計を使えるようになるために今日から何をすれば良いか?
  • 論文を読んで統計が使えるようになるための5ステップ
第6章:統計を学ぶために重要な環境
  • 統計の3つの力をバランスよく構築する環境

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

この記事を書いた人

統計 ER ブログ執筆者

元疫学研究者

コメント

コメントする

目次