前後比較などの「対応のあるデータ」を解析する際、多くの者が「対応のあるt検定」と「ウィルコクソン符号付き順位和検定」のどちらを選択すべきかという壁に直面する。教科書的には「正規性の有無」が基準とされるが、実務においてはより多角的な判断が必要である。
本稿では、この2つの検定の使い分けを、実戦的な3つのチェックポイントに整理して解説する。
意思決定のための3つのチェックポイント
結論から述べれば、以下の3点を順に確認することで、適切な手法を選択することが可能となる。
① 正規性:データの分布は「山なり」か
データが左右対称の釣鐘型(正規分布)を呈しているならば、対応のあるt検定が第一選択となる。対して、分布に強い偏りがある場合や、複数のピーク(山)が存在する場合は、ウィルコクソン符号付き順位和検定を採用するのが妥当である。
② 外れ値:極端な値が含まれていないか
t検定は「平均値」を算出の基礎とするため、たった1つの極端な外れ値によって結果が大きく歪められる脆弱性を持つ。一方、ウィルコクソン符号付き順位和検定は、数値を「順位」に変換して処理するため、外れ値の影響を受けにくい(頑健である)という特性がある。
③ サンプルサイズ:データ数は十分か
サンプルサイズが極端に小さい場合(例:10組未満など)、正規性の検定(シャピロ・ウィルク検定等)を行っても、その判定精度自体が信頼に足らないことが多い。このような状況下では、保守的な判断としてウィルコクソン符号付き順位和検定を選択するのが一般的である。
理論的背景:なぜ「順位」への変換が有効なのか
「精密に測定した数値を、なぜ1位、2位……といった順位に落とし込んでしまうのか」という疑問を持つかもしれない。しかし、この「順位化」こそが、データの異常値に対する防御策となるのである。
例えば、5名の被験者の体重変化が以下の通りであったと仮定する。
- A:-1kg、B:-2kg、C:-1.5kg、D:-2.5kg、E:-100kg
t検定を用いた場合、被験者Eの特異な数値が平均値を大きく引き下げ、「全員が劇的な減量に成功した」という誤った解釈を導く恐れがある。
しかし、ウィルコクソン符号付き順位和検定であれば、被験者Eは単に「減少幅第1位」として計上されるに過ぎない。すなわち、群全体の主要な傾向を正しく評価できるのである。
報告における留意点:指標の整合性
検定手法を選択した後は、その結果を報告するスタイル(記述統計量)も統一しなければならない。ここでの不整合は、解析の信頼性を損なう要因となる。
- 対応のあるt検定を選択した場合結果は「平均値(Mean)」と「標準偏差(SD)」を用いて記述する。グラフ表現としては、棒グラフやエラーバーを用いるのが通例である。
- ウィルコクソン符号付き順位和検定を選択した場合結果は「中央値(Median)」と「四分位範囲(IQR)」を用いて記述すべきである。グラフ表現には、データの分布を可視化できる「箱ひげ図」が最も適している。
【コラム】混同を避けるべき「ウィルコクソン順位和検定」
最後に、初心者が最も陥りやすい名称の混同について触れておく。
「ウィルコクソン」を冠する検定には、以下の2種類が存在する。
- ウィルコクソン「符号付き」順位和検定(本稿で扱った「対応あり」)
- ウィルコクソン順位和検定(=Mann-WhitneyのU検定、「対応なし」)
「符号(プラス・マイナス)」を考慮するのは、同一人物の前後比較など、差分を計算できる場合のみである。したがって、「符号付き」という言葉の有無を確認することが、データの構造と手法を一致させるための簡便な判別法となる。
結論:迷った際の判断基準
- 原則として「対応のあるt検定」を検討する。
- 「データの偏り」「外れ値の存在」「小標本」のいずれかに該当するなら、迷わず「ウィルコクソン符号付き順位和検定」を選択する。
- 手法に応じた適切な統計量(平均値か中央値か)で結果を記述する。
これらの指針を遵守することで、統計解析の妥当性はより確かなものとなるだろう。




コメント