ロジスティック回帰モデルを構築した後、多くの初心者は「正解率(Accuracy)」のみを見てモデルの良し悪しを判断しがちである。しかし、分類タスクにおいて正解率のみを指標とすることは、時として重大な判断ミスを招く。
本記事では、モデルの性能を多角的に評価するために必須となる「混同行列」の概念から、臨床医学とも密接に関わる「感度・特異度」、そして最適な閾値を決定する「Youden Index」までを体系的に解説する。
全ての評価の基盤「混同行列」
ロジスティック回帰の評価を理解する上で、避けて通れないのが「混同行列(Confusion Matrix)」である。これは、モデルによる予測値と実際の正解値をクロス集計した表である。
- TP(True Positive:真陽性): 実際の陽性を、正しく「陽性」と予測した。
- TN(True Negative:真陰性): 実際の陰性を、正しく「陰性」と予測した。
- FP(False Positive:偽陽性): 実際は陰性だが、誤って「陽性」と予測した(空振り)。
- FN(False Negative:偽陰性): 実際は陽性だが、誤って「陰性」と予測した(見逃し)。
分析の目的が「空振りの回避」なのか「見逃しの防止」なのかによって、注視すべき指標は決定的に異なる。
主要指標の定義と分野による呼称の違い
混同行列から導き出される指標には、機械学習の文脈と臨床医学(疫学)の文脈で異なる呼称が用いられるものがある。混乱を避けるため、それらを対比させて整理する。
| 指標(機械学習) | 臨床医学での呼称 | 定義と意味 | 計算式 |
| 正解率 (Accuracy) | 正診率 | 全データのうち、予測が的中した割合 | $\frac{TP + TN}{TP + TN + FP + FN}$ |
| 適合率 (Precision) | 陽性反応的中率 | 「陽性」と予測した中で、真に陽性であった割合 | $\frac{TP}{TP + FP}$ |
| 再現率 (Recall) | 感度 (Sensitivity) | 実際の「陽性」のうち、正しく検出できた割合 | $\frac{TP}{TP + FN}$ |
| 特異度 (Specificity) | 特異度 | 実際の「陰性」のうち、正しく陰性と判定できた割合 | $\frac{TN}{TN + FP}$ |
| F1スコア | – | 適合率と再現率の調和平均。両者のバランスを評価する | $\frac{2 \cdot \text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}$ |
特に「再現率(感度)」は、病気の見逃しを防ぐ能力を指し、「適合率(陽性反応的中率)」は診断が下された際の信頼度を指す。この違いを明確に区別することが肝要である。
判別性能を可視化する「ROC曲線とAUC」
ロジスティック回帰は「0.8」といった確率値を出力する。通常は0.5を閾値として分類を行うが、この境界線を動かすことで感度と特異度はトレードオフの関係となる。
この閾値の変化に依存せず、モデルそのものの判別性能(ポテンシャル)を評価するのがROC曲線およびAUCである。
- ROC曲線: 閾値を0から1まで変化させた際の、「感度」と「1-特異度(偽陽性率)」の軌跡をプロットしたグラフである。
- AUC(Area Under the Curve): ROC曲線下の面積を指す。
AUCは0から1の値をとり、1に近いほど「陽性と陰性を適切に分離できる能力(判別性能)」が高いことを示す。これは、特定の閾値設定に左右されないモデルの本質的な実力を表す指標と言える。
最適な閾値の決定「Youden Index」
モデルの判別性能を確認した後は、実運用における「最適な境界線(閾値)」を決定する必要がある。この際、客観的な指標となるのが Youden Index(ユーデン指数) である。
計算式は以下の通りである。
$$J = \text{感度(再現率)} + \text{特異度} – 1$$
ROC曲線上において、左上隅(感度1、特異度1の点)に最も近い点が、このYouden Indexが最大となるポイントである。この点における閾値を採用することで、見逃しと空振りのバランスを統計的に最適化することが可能となる。
結論:指標の使い分け指針
実務における指標選択の基準を以下にまとめる。
- 「見逃し」を最小化したい場合(例:重篤な疾患のスクリーニング):再現率(感度)を最優先し、高い値を維持できる閾値を設定する。
- 「空振り」を最小化したい場合(例:重要顧客への限定キャンペーン):適合率(陽性反応的中率)を重視し、誤判定を抑制する。
- モデル間の純粋な性能比較を行いたい場合:AUCを比較し、特定の閾値に依らない判別能力の高さを評価する。
ロジスティック回帰の評価は、単一の指標で完結するものではない。データの性質とビジネス上の目的に照らし合わせ、適切な指標を組み合わせて解釈することが、データサイエンスにおける誠実な態度であると言える。




コメント