MENU

【無料プレゼント付き】学会発表・論文投稿に必要な統計を最短で学ぶことができる無料メルマガ

連続データのカットオフ値の問題点:なぜ安易に区切ってはいけないのか

血圧を「高血圧」と「正常」に区切る130mmHgの壁、優良顧客と一般顧客を分ける100万円の売上ライン――私たちは連続的なデータを、わかりやすくするために特定のカットオフ値で二分しがちである。この単純化は、一見すると意思決定を迅速にする便利なツールに見える。しかし、この安易な区切りこそが、データの持つ膨大な情報量を失わせ、分析結果を歪め、ときには重大な判断ミスを引き起こす原因となる。本記事では、データ分析の初心者が陥りがちな、連続データをカットオフ値で区切る行為が持つ根本的な問題点と、より適切にデータを扱うためのアプローチを解説する。

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

目次

はじめに:連続データを区切りたくなる気持ちはよく分かる

データ分析や意思決定の現場では、「連続データ」、つまり身長や血圧、売上高のように無限の値を取りうるデータを扱うことが多い。

例えば、

  • 血圧が130mmHg以上なら「高血圧」
  • テストの点が80点以上なら「合格」
  • 売上が100万円以上なら「優良顧客」

のように、私たちはこれらの連続データに対して「カットオフ値(閾値)」を設定し、データを2つ以上のグループに区切りたくなる。

なぜカットオフ値を設定したくなるのだろうか?

  1. 解釈が簡単になる: 「高血圧」や「合格」といったカテゴリに分けることで、結果を分かりやすく伝えやすくなる。
  2. 意思決定が容易になる: カットオフ値に基づいて、「薬を処方する」「特別なキャンペーンを送る」といった行動を迷いなく取ることができる。

しかし、この安易なカットオフ値の設定には、データの本質を見誤らせ、誤った判断につながる大きな落とし穴が潜んでいる。

連続データのカットオフ値を決める主な方法

連続データをカテゴリーデータに変換するために、カットオフ値を設定する方法はいくつかある。

方法概要問題点
経験・慣習に基づく設定業界の慣習や過去の知見に基づき、分析者が「キリの良い値」を決める。データに基づいた根拠が薄く、恣意的になりがちである。
統計的基準に基づく設定中央値、平均値、四分位数など、データの分布に基づいた統計量を使用する。グループ分けに統計的な根拠はあるが、実務上の意味があるとは限らない。
ROC曲線などを用いた最適化予測精度(感度と特異度など)が最も高くなる点を数学的に探す。最も客観的な方法だが、その「最適」な点が持つ不連続な影響を無視しがちである。

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

連続データをカットオフ値で区切る、たった一つの大きな問題点

カットオフ値を設定する最大のデメリットは、「情報の損失」と「不当な二極化」が生じることである。

1. 情報の大きな損失

連続データは、その値自体に多くの情報を含んでいる。しかし、カットオフ値で区切ると、この情報が失われる

  • 例: 「合格点80点」の場合
    • 79点(不合格)と80点(合格)の差はわずか1点である。
    • しかし、10点(不合格)と79点(不合格)は、どちらも「不合格」という同じカテゴリにまとめられてしまう。
  • 本来、79点と80点の差よりも、10点と79点の差のほうが圧倒的に大きいにもかかわらず、カットオフ値はそれを無視してしまう。

2. 人工的な不連続性の創出(「真ん中の問題」)

連続データは、本来なだらかに変化し、その効果も滑らかに変化していくはずである。しかし、カットオフ値を設けると、その一点で効果が突然ジャンプしたかのように扱われる。

  • 例: カットオフ値100万円で「優良顧客」と「一般顧客」を分ける場合
    • 売上99.9万円の顧客と、100.1万円の顧客を、まったく異なるグループとして扱い、施策も変えてしまうことになる。
    • 実際には、この0.2万円の差が、顧客の行動や将来的な価値に大きな違いをもたらす可能性は極めて低いだろう。

3. 分析結果の再現性の低下

もしカットオフ値が少し動いたらどうなるだろうか?

  • 例えば、最適化されたカットオフ値が128mmHgだったとする。
  • しかし、別のデータセットで分析したら、130mmHgが最適になるかもしれない。
  • カットオフ値に基づいて解釈や意思決定を行うと、分析するたびに結果や推奨事項がブレてしまい、頑健性(ロバストネス)が低い分析になってしまう。

まとめ:連続データはそのまま扱うのがベスト

連続データのカットオフ値設定は、分析や意思決定をシンプルにする魅力があるが、その代償としてデータの真実を歪めるリスクを伴う。

推奨されるアプローチ

  1. 可能な限り連続データのまま扱う: 回帰分析(線形回帰、ロジスティック回帰など)など、連続変数をそのまま入力として扱える統計手法を優先的に使用すべきである。これにより、値の変化に伴う効果の滑らかな変化を捉えることができる。
  2. 実務上の必要性がある場合のみ利用を検討する: 「倉庫の棚のスペースの都合上、S/M/Lに分けなければならない」など、実務上どうしてもカテゴリに分ける必要がある場合に限定して使用を検討すべきである。
  3. カットオフ値の感度分析を行う: カットオフ値の周辺の値が、最終的な結論にどれだけ影響を与えるかを検証(感度分析)し、設定したカットオフ値がロバストであるかを確認すべきである。

連続データを安易に区切る誘惑に打ち勝ち、データが持つ情報を最大限に活用することで、より正確で信頼性の高い意思決定を目指す必要がある。

おすすめ書籍

誰も教えてくれなかった 医療統計の使い分け

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

リサーチクエスチョン探し?データ分析?論文投稿?、、、で、もう悩まない!

第1章臨床研究ではなぜ統計が必要なのか?計画することの重要性
  • 推定ってどんなことをしているの?
  • 臨床研究を計画するってどういうこと?
  • どうにかして標本平均を母平均に近づけられないか?
第2章:研究目的をどれだけ明確にできるのかが重要
  • データさえあれば解析でどうにかなる、という考え方は間違い
  • 何を明らかにしたいのか? という研究目的が重要
  • 研究目的は4種類に分けられる
  • 統計専門家に相談する上でも研究目的とPICOを明確化しておく
第3章:p値で結果が左右される時代は終わりました
  • アメリカ統計協会(ASA)のp値に関する声明で指摘されていること
  • そうは言っても、本当に有意差がなくてもいいの…?
  • なぜ統計専門家はp値を重要視していないのか
  • 有意差がない時に「有意な傾向があった」といってもいい?
  • 統計を放置してしまうと非常にまずい
第4章:多くの人が統計を苦手にする理由
  • 残念ながら、セミナー受講だけで統計は使えません。
  • インプットだけで統計が使えない理由
  • どうやったら統計の判断力が鍛えられるか?
  • 統計は手段なので正解がないため、最適解を判断する力が必要
第5章:統計を使えるようになるために今日から何をすれば良いか?
  • 論文を読んで統計が使えるようになるための5ステップ
第6章:統計を学ぶために重要な環境
  • 統計の3つの力をバランスよく構築する環境

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

この記事を書いた人

統計 ER ブログ執筆者

元疫学研究者

コメント

コメントする

目次