残差分析とはカイ二乗検定の後に行われる分析です。
カイ二乗検定の欠点を補う分析ですが、カイ二乗検定ほどの知名度はありません。
そのため
「残差分析とは一体何?」
「エクセルで残差分析をしたい場合、どうやったらいいの?」
といった疑問を持っている方も多いはずです。
本記事では残差分析の意味やエクセルでの実施方法を解説します。
残差分析とは?わかりやすく解説!
まずは残差分析について確認していきましょう!
残差分析とは?
残差分析とは、カイ二乗検定の後にどのカテゴリーの比率に有意差があったのか分析する手法です。
カイ二乗検定は2種類のカテゴリー変数間の比率に差があるかどうか確かめる検定です。
カイ二乗検定について詳しく知りたい方はこちらの記事をご覧ください。
カイ二乗検定を実施すれば、たとえば男女で疾患A、疾患B、疾患Cの罹患率に差があるか確かめることができます。
しかしカイ二乗検定だけでは、どの疾患の罹患率に差があったのか分かりません。
というのも、3水準以上のカテゴリカルデータに対してカイ二乗検定を実施し、有意な結果が出たとしても「どこかの水準間で差がある」という結論しかわからず、具体的にどこの水準間で差があるのかということはわからないためです。
もしかしたら疾患Aだけかもしれないですし、全部の疾患で差があったのかもしれません。
せっかくならどの疾患に差があったのか確かめたいですよね。
そこで役に立つのが残差分析です。
残差分析を使えば疾患A、疾患B、疾患Cの罹患率に差があるかそれぞれp値で算出できますので、どこに差があるのか確かめることができます。
残差分析の計算方法!調整済み標準化残差とは?
残差分析の計算方法の概要は以下の流れになります。
- 観測値から期待値を引いた残差を算出する
- 残差を標準偏差と残差分散で割り、調整済み標準化残差というものを算出する
- 調整済み標準化残差からp値を算出する。
期待値の詳しい説明はカイ二乗検定と同じですので省きますが、期待値は“変数間にまったく差がなかった時にとる理論上の値”です。
カイ二乗検定では、期待値とのズレが大きければ大きいほど、変数間に差があると判定していました。
残差分析でもこの期待値とのズレを”残差”と呼び、使用していきます。
残差が大きければ大きいほど変数間に差があると判定すればいいだけなのですが、一つ問題があります。
残差は人数が多ければ多いほど大きくなっていってしまうからです。
先ほどの例を使うと、各カテゴリー(疾患A~C)で男女の罹患率が同じだったとしても、罹患しやすい疾患は数が多くなるため、残差が大きくなります。
つまり残差を見ただけでは、どれくらい変数間に差があるのか分かりません。
そこで人数の多さに左右されないように残差を変換したものが調整済み標準化残差というものです。
調整済み標準化残差の計算式は以下のようになります。
調整済み標準化残差は標準化された正規分布になります。
もう少し分かりやすく言うと、調整済み標準化残差の絶対値が1.96を超えればp値が5%未満であると判定できます。
ですので調整済み標準化残差が算出できれば、あとはエクセルを使って簡単にp値を算出することができます。
残差分析が必要ない場面
ここまで残差分析の有用性についてお話してきましたが、残差分析が必要ない場面もあります。
それは2×2のクロス集計表に対してカイ二乗検定をかけている場面です。
つまり”男女”と”疾患A、疾患B”のようなカテゴリーが2つしかない変数同士を検定にかけた時です。
このような場合では、カイ二乗検定だけで完結できるため残差分析は必要ありません。
残差分析が必要になるのは、3つ以上のカテゴリーがある変数を扱う場合のみです。
では実際に例を用いて、3群比較で残差分析を行ってみましょう。
3群比較でのカイ二乗検定を残差分析で評価してみる
それでは実際に残差分析を具体的な数値を踏まえて確認してみましょう!
残差分析が使えるケース
カイ二乗検定と残差分析を使って、”男女で疾患A、疾患B、疾患Cの罹患率に差があるか”確かめてみましょう。
今回観測したデータをクロス集計表にまとめると、以下のようになりました。
カイ二乗検定を実行した結果、p値は0.025となりました。
ひとまず疾患によって性別の比率に有意に差があるといえそうです。
ただしまだどの疾患で差があるのか分かっていません。
さらに検証するため残差分析を実行してみましょう。
残差分析の結果
残差分析の結果、各疾患のp値は以下のようになりました。
今回のケースでは疾患Cのみp値が0.05を下回っています。
以上の結果から、”疾患C”に罹患する患者の男女比は全体に対して有意に差があるといえます。
残差分析の結果の解釈
残差分析の結果の解釈で一つ注意しておきたい点があります。
“残差分析はデータ全体に対する差しか分析していない”という点です。
似たような解析に多重比較というものがあります。
多重比較は「疾患A vs 疾患B」「疾患B vs 疾患C」「疾患C vs 疾患A」というように1対1で比較していきます。
これに対して残差分析は「全体 vs 疾患A」「全体 vs 疾患B」「全体 vs 疾患C」というように比較しています。
つまり検討したカテゴリーの中に、一つでも極端なカテゴリーがあると全て有意になります。
例えば疾患Cだけ異常な男女比の差があり、疾患Aと疾患Bは同じ男女比だとしましょう。
多重比較では「疾患B vs 疾患C」「疾患C vs 疾患A」のみ有意差があると出ます。
しかし残差分析では全ての疾患で有意差が出てしまいますので、あたかも疾患Aと疾患Bにも差があるように捉えてしまいがちです。
このように残差分析では捉えきれない情報もあるため、論文では多重比較が使われることが多いように思います。
注意しておきましょう。
残差分析をエクセルで実施!
残差分析はエクセルでも実施できますので、実際にやってみましょう!
残差のクロス集計表を作成
観測値のクロス集計表を作成
観測値のクロス集計表は以下のようになります。
後ほど使用するので”合計”の列も作っておきましょう。
期待値のクロス集計表を作成
次に期待値のクロス集計表を作成します。
期待値は”横列の合計”×”縦列の合計”÷”全体の合計”で計算します。
エクセルの数式は以下のようになります。
残差のクロス集計表を作成
残差は”観測値”-“期待値”で計算します。
調整済み標準化残差を算出
残差分散を算出
残差分散の計算式は以下になります。
エクセルの数式は以下のようになります。
調整済み標準化残差を算出
最後に調整済み標準化残差の計算式を再度確認しておきましょう。
エクセルの数式は以下のようになります。
上下のマスで絶対値が同じ値になるはずです。
p値を算出
p値はNORM.S.DIST関数を使用して算出します。
上下どちらも絶対値が同じ値ですので、どちらを使用しても構いません。
今回は上の列(“男”の行)だけ使います。
エクセルの式は以下のようになります。
以上で残差分析を使って各カテゴリーのp値を算出できました。
お疲れさまでした。
残差分析に関してまとめ
最後におさらいをしましょう。
- 残差分析は3カテゴリー以上のカイ二乗検定と合わせて使用する分析
- 各カテゴリーのp値を出すことで、どのカテゴリーに差があるか確認できる
- 残差分析と多重比較とは結果の解釈が異なる点に注意が必要
- 残差分析は観測値のクロス集計表が作れればエクセルで可能
残差分析はカイ二乗検定と同様にエクセルで手軽に計算できます。
カテゴリー数が多いものに対してカイ二乗検定を実行する際は、一緒に分析するようにしましょう。
最後までお読みいただきありがとうございました。
コメント