「2つの変数の関連性を評価したいが、どの相関係数を選択すべきか」
医学研究において、変数間の相関を見る際に「ピアソンの相関係数」を第一選択とする者は多い。しかし、実際の臨床データは必ずしもきれいな正規分布に従うわけではなく、外れ値の存在も無視できないのが現実である。
そこで、ノンパラメトリックな手法であるケンドールの順位相関係数($\tau$:タウ)を正しく理解し、使い分ける能力が重要となる。
本稿では、スピアマンやピアソンとの比較を通じ、実務で迷わないための判断基準を提示する。
3つの相関係数の違い:評価対象の本質
解析に着手する前に、各指標が「データの何を見ているのか」を整理しておく必要がある。
| 指標名 | 対象データの性質 | 評価している関係性 |
| ピアソン ($r$) | 連続変数かつ正規分布 | 直線的な関連の強さ |
| スピアマン ($\rho$) | 順序尺度(または非正規分布) | 単調増加・減少の関係 |
| ケンドール ($\tau$) | 順序尺度(または非正規分布) | 順位の整合性(ペアの向き) |
ケンドールの計算原理:ペアの整合性という視点
ケンドールの最大の特徴は、すべての症例を「ペア(2人組)」として扱い、その大小関係が一致しているかをカウントする点にある。
ステップ1:全ペアの作成
データセットから2例ずつ選び出し、考えられうるすべての組み合わせを作成する。
ステップ2:一致・不一致の判定
2つの変数(例:薬剤投与量と臨床スコア)において、その増減の向きを確認する。
- 一致ペア:症例Aが症例Bより投与量が多く、かつスコアも高い状態(順位の向きが一致)。
- 不一致ペア:症例Aの方が投与量は多いが、スコアは症例Bの方が高い状態(順位の向きが逆転)。
ステップ3:係数の算出
基本的には、以下の理論式に基づき算出される。
$$\tau = \frac{(\text{一致ペア数}) – (\text{不一致ペア数})}{\text{全ペア数}}$$
値が1であれば「すべてのペアの順位が完全に一致(正の相関)」、-1であれば「完全に逆転(負の相関)」を意味する。
実務における使い分け:ケンドールを選択すべき3つの場面
教科書的には「正規性がなければスピアマンかケンドール」と一括りにされがちだが、実証的な観点からは以下の3場面でケンドールの優位性が高まる 。
① サンプルサイズが小さい場合
症例数が少ない(目安として $n < 30$ 程度)状況では、ケンドールの方がスピアマンよりも母集団の相関をより正確に推測できる(不偏性が高い)ことが知られている。小規模なパイロット研究や希少疾患の解析において、より信頼できる指標となる。
② 同じ順位(タイ)が頻出する場合
臨床評価における「5段階重症度」のように、同じ値が並ぶデータ(タイデータ)が多い場合、ケンドールの方が計算上のバイアスが少なく、より頑健(ロバスト)である 。
③ 外れ値の影響を極小化したい場合
スピアマンは「順位の値そのもの」の差を計算に用いるため、順位が大きく離れると数値が変動しやすい。対してケンドールは「大小関係(勝ち負け)」という極めてシンプルな情報のみを積み上げるため、極端な値に対しても極めて強い耐性を持つ。
結論:データの性質に合わせた「羅針盤」の選択を
統計解析において、単に「有意差があるか($p < 0.05$)」のみを追う姿勢は、誤った解釈を招くリスクを孕んでいる 。
- 正規分布かつ連続変数であれば、「ピアソン」。
- 十分なサンプルサイズがあり、先行研究との比較を重視するなら、「スピアマン」 。
- 小サンプル、あるいは同順位が目立つデータであれば、「ケンドール」 。
データの分布や背景を精査し、その特性に合致した相関係数を選択することこそが、医学論文としての誠実さと信頼性を担保する根幹である 。




コメント