血圧を「高血圧」と「正常」に区切る130mmHgの壁、優良顧客と一般顧客を分ける100万円の売上ライン――私たちは連続的なデータを、わかりやすくするために特定のカットオフ値で二分しがちである。この単純化は、一見すると意思決定を迅速にする便利なツールに見える。しかし、この安易な区切りこそが、データの持つ膨大な情報量を失わせ、分析結果を歪め、ときには重大な判断ミスを引き起こす原因となる。本記事では、データ分析の初心者が陥りがちな、連続データをカットオフ値で区切る行為が持つ根本的な問題点と、より適切にデータを扱うためのアプローチを解説する。
はじめに:連続データを区切りたくなる気持ちはよく分かる
データ分析や意思決定の現場では、「連続データ」、つまり身長や血圧、売上高のように無限の値を取りうるデータを扱うことが多い。
例えば、
- 血圧が130mmHg以上なら「高血圧」
- テストの点が80点以上なら「合格」
- 売上が100万円以上なら「優良顧客」
のように、私たちはこれらの連続データに対して「カットオフ値(閾値)」を設定し、データを2つ以上のグループに区切りたくなる。
なぜカットオフ値を設定したくなるのだろうか?
- 解釈が簡単になる: 「高血圧」や「合格」といったカテゴリに分けることで、結果を分かりやすく伝えやすくなる。
- 意思決定が容易になる: カットオフ値に基づいて、「薬を処方する」「特別なキャンペーンを送る」といった行動を迷いなく取ることができる。
しかし、この安易なカットオフ値の設定には、データの本質を見誤らせ、誤った判断につながる大きな落とし穴が潜んでいる。
連続データのカットオフ値を決める主な方法
連続データをカテゴリーデータに変換するために、カットオフ値を設定する方法はいくつかある。
| 方法 | 概要 | 問題点 |
| 経験・慣習に基づく設定 | 業界の慣習や過去の知見に基づき、分析者が「キリの良い値」を決める。 | データに基づいた根拠が薄く、恣意的になりがちである。 |
| 統計的基準に基づく設定 | 中央値、平均値、四分位数など、データの分布に基づいた統計量を使用する。 | グループ分けに統計的な根拠はあるが、実務上の意味があるとは限らない。 |
| ROC曲線などを用いた最適化 | 予測精度(感度と特異度など)が最も高くなる点を数学的に探す。 | 最も客観的な方法だが、その「最適」な点が持つ不連続な影響を無視しがちである。 |
連続データをカットオフ値で区切る、たった一つの大きな問題点
カットオフ値を設定する最大のデメリットは、「情報の損失」と「不当な二極化」が生じることである。
1. 情報の大きな損失
連続データは、その値自体に多くの情報を含んでいる。しかし、カットオフ値で区切ると、この情報が失われる。
- 例: 「合格点80点」の場合
- 79点(不合格)と80点(合格)の差はわずか1点である。
- しかし、10点(不合格)と79点(不合格)は、どちらも「不合格」という同じカテゴリにまとめられてしまう。
- 本来、79点と80点の差よりも、10点と79点の差のほうが圧倒的に大きいにもかかわらず、カットオフ値はそれを無視してしまう。
2. 人工的な不連続性の創出(「真ん中の問題」)
連続データは、本来なだらかに変化し、その効果も滑らかに変化していくはずである。しかし、カットオフ値を設けると、その一点で効果が突然ジャンプしたかのように扱われる。
- 例: カットオフ値100万円で「優良顧客」と「一般顧客」を分ける場合
- 売上99.9万円の顧客と、100.1万円の顧客を、まったく異なるグループとして扱い、施策も変えてしまうことになる。
- 実際には、この0.2万円の差が、顧客の行動や将来的な価値に大きな違いをもたらす可能性は極めて低いだろう。
3. 分析結果の再現性の低下
もしカットオフ値が少し動いたらどうなるだろうか?
- 例えば、最適化されたカットオフ値が128mmHgだったとする。
- しかし、別のデータセットで分析したら、130mmHgが最適になるかもしれない。
- カットオフ値に基づいて解釈や意思決定を行うと、分析するたびに結果や推奨事項がブレてしまい、頑健性(ロバストネス)が低い分析になってしまう。
まとめ:連続データはそのまま扱うのがベスト
連続データのカットオフ値設定は、分析や意思決定をシンプルにする魅力があるが、その代償としてデータの真実を歪めるリスクを伴う。
推奨されるアプローチ
- 可能な限り連続データのまま扱う: 回帰分析(線形回帰、ロジスティック回帰など)など、連続変数をそのまま入力として扱える統計手法を優先的に使用すべきである。これにより、値の変化に伴う効果の滑らかな変化を捉えることができる。
- 実務上の必要性がある場合のみ利用を検討する: 「倉庫の棚のスペースの都合上、S/M/Lに分けなければならない」など、実務上どうしてもカテゴリに分ける必要がある場合に限定して使用を検討すべきである。
- カットオフ値の感度分析を行う: カットオフ値の周辺の値が、最終的な結論にどれだけ影響を与えるかを検証(感度分析)し、設定したカットオフ値がロバストであるかを確認すべきである。
連続データを安易に区切る誘惑に打ち勝ち、データが持つ情報を最大限に活用することで、より正確で信頼性の高い意思決定を目指す必要がある。




コメント