この記事ではEZRでROC曲線を出力する方法についてお伝えします。
具体的には、以下の3つが分かるようになります!
- そもそもROC曲線とはなんだっけ?
- ROC曲線とAUCを出力する方法
- ROC曲線からカットオフ値を決める方法
ROC曲線とAUCに関する詳細はこちらの記事にありますので、併せてご確認くださいませ。
ROC曲線とAUCとはそもそも何だったっけ?
ROC曲線はReceiver Operatorating Characteristic Curveの略で、日本語では受信者動作特性曲線と言います。
医薬研究では、ROC曲線は検査や診断薬の性能を表すときや、新しい検査との比較をするときに用いられることが多いですね。
一般的に、高い感度で判断しようとすると偽陽性がでやすく、逆に偽陽性を低くすると、感度も低くなってしまいます。
ROC曲線を理解するには、陽性的中率や陰性的中率に関する知識も不可欠。
実際のROC曲線は下記のような図です。
縦軸が感度、横軸に特異度(多くの場合は1-特異度)を示したグラフ。
そしてAUC(Area Under the Curve)はROC曲線下の面積を数値化したものです。
縦軸も横軸もMaxは1ですから、AUCのMaxも1になりますね。
以上が基礎となる知識の復習でした!
では実際にEZRでROC曲線とAUCの出力、そしてカットオフ値の出力をしていきましょう。
EZRでROC曲線とAUCを計算する方法
ROC曲線とAUCについて復習できたところで、EZRで実際にROC曲線とAUCを出力する方法について学んでいきましょう。
今回は、自治医科大学さんが提供しているサンプルデータの中で「Hb」というデータを使います。
下記のようなデータですね。
ROC曲線を作成するには、アウトカムが2値のカテゴリカルデータ、説明変数が連続量データである必要があります。
今回は架空の仮説として「Hbの値で性別を区別できるか?」という疑問に対してROC曲線の解析を実施していきます。
EZRでROC曲線を出力するには「検査の正確度の評価」から!
EZRでROC曲線を出力するには、データを取り込んだあとに「統計解析」→「検査の正確度の評価」→「定量検査の診断への正確度の評価(ROC曲線)」を選択します。
その後、下記の画面で変数を選択します。
今回は架空の仮説として「Hbの値で性別を区別できるか?」という疑問を持っていますので、結果にSexを、予測に用いる値にHbを選択します。
あとは何もいじらなくてOK。
すると、下記のようなROC曲線が出力されました。
このROC曲線が何を表しているかというと、Hbのカットオフ値を9.4~16.2まで順に移動させた際の感度と特異度をプロットしたものです。
実際にどのカットオフでどんな感度と特異度だったのかは、EZRの結果に出力されています。
逆に言えば、上記の数値を一つのグラフに示したものがROC曲線、という言い方もできます。
EZRで計算されたAUCを確認!
ROC曲線の曲線下面積がAUCでしたね。
AUCもEZRの出力で確認することができます。
AUCとその95%信頼区間が出力されていることがわかります。
AUCが1のときは、説明変数でアウトカムを完全に予測できるという意味。
面積が0.5となれば検査の信憑性はまったくなしになります。
今回は0.91と、1に近い数値なので、Hbは性別を予測するのに正確性の高い検査値であると判断できますね。
EZRのROC曲線からYouden indexのカットオフ値を出力!
EZRで作成されたROC曲線をもう一度確認すると、グラフ中に13.1という数値が表示されていることがわかります。
これがいわゆるカットオフ値です。
じゃあこのカットオフ値はどうやって計算されたものか?ということなのですが、それを理解するには下記の選択画面を確認します。
今回は特にいじりませんでしたが、カットオフ値を決める方法が2通り用意されていて、チェックして選択することが可能です。
デフォルトでは「感度と特異度の和が最大になる閾値」にチェックが入っており、この方法をで出力されるカットオフ値をYouden indexと言います。
特に指定がなければ、カットオフ値の出力にはYouden indexを使うことで問題ないです。
まとめ
この記事ではEZRでROC曲線を出力する方法についてお伝えしました。
具体的には、以下の3つが分かるようになったのなら幸いです!
- そもそもROC曲線とはなんだっけ?
- ROC曲線とAUCを出力する方法
- ROC曲線からカットオフ値を決める方法
ROC曲線とAUCに関する詳細はこちらの記事にありますので、併せてご確認くださいませ。
コメント