分割表の解析で出てくる検定は2つです。
それは、「カイ二乗検定」と「フィッシャーの直接確率検定」です。
(層別解析であるCMH検定もありますが、CMH検定は一旦置いておきます。。)
この記事では、そのうちのカイ二乗検定についてわかりやすく解説していきます!
「カイ二乗検定とは何?」から始まり、分割表からp値の計算式まで解説します!
計算式についても、「カイ二乗検定が何をやっているか?」がわかれば、簡単に理解できるようになります。
ぜひこの記事で「カイ二乗検定」についてマスターしましょう!
>>フィッシャーの直接確率検定についてはこちらで解説しています。
カイ二乗検定とはどんな検定?t検定との違いは?
カイ二乗検定は、統計学的検定の中でも最も有名な検定と言っていいですね。
カイ二乗検定とt検定は、どの統計の本をみても必ず掲載されています。
ではカイ二乗検定とt検定は何が違うの?
と言われた時に、あなたは答えられますか?
一言でいうと、このような違いがあります。
カイ二乗検定は、カテゴリカルデータを対象とした検定手法
t検定は、連続データを対象とした検定手法
この違いが一番大きい違いです。
そのため、連続データに対してカイ二乗検定を実施することはできませんし、カテゴリカルデータ(質的データ)に対してt検定を実施することもできません。
カイ二乗検定とは、独立性の検定ともいわれている
カイ二乗検定は、独立性の検定ともいわれています。
(独立って言われても意味わからない・・・)
と思いますよね。
私も初めは全く分かりませんでした。
でも理解すると、文字通りのまんまだなー、と思えるでしょう。
独立を辞書で引くと、このような意味です。
- 他のものから離れて別になっていること。「母屋から独立した離れ」
- 他からの束縛や支配を受けないで、自分の意志で行動すること。「独立の精神」「独立した一個の人間」
- 自分の力で生計を営むこと。また、自分で事業を営むこと。「親から独立して一家を構える」「独立して自分の店をもつ」
つまり「独立」を言い換えると、「何かに依存していない」「何かに関連していない」ということです。
じゃあ、今回のカイ二乗検定の場合、何に関連していない状態か。
答えは、「2つの変数間で関連していない」ということ。
言い換えると「2つの変数が独立している」ということ。
「2つの変数」とは、行方向(横方向)の変数と、列方向(縦方向)の変数の二つ、ということです。
カイ二乗検定を例を用いてわかりやすく解説!
では実際に、例を挙げてカイ二乗検定でやっていることを簡単にわかりやすく説明します。
例えば、こんな分割表があったとします。
表1:薬剤群とコントロール群で治った人の数
治った | 治らなかった | 合計 | |
薬剤群 | 13 | 7 | 20 |
コントロール群 | 5 | 15 | 20 |
合計 | 18 | 22 | 40 |
薬剤群とコントロール群では1:1(20人:20人)に分けられた。
その結果、疾患が治った人と治らなかった人は、新薬群で13人と7人、コントロール群で5人と15人だった。
こんな結果の分割表ですね。
このとき、この2×2の分割表は4つのカテゴリを持つことになります。
4つとは、以下の通りです。
- 薬剤群で治った人のカテゴリ
- 薬剤群で治らなかった人のカテゴリ
- コントロール群で治った人のカテゴリ
- コントロール群で治らなかった人のカテゴリ
カイ二乗検定の例題:まずは期待度数の表を作る
この時、ある表を作ってみます。
一番右の列と一番下の列の数値から、4カテゴリで関連がなかった時の「期待度数」を算出した表です。
期待度数の算出は以下の通り。
例えば薬剤群で治った人のカテゴリに関する期待度数。
これは、全40人のうち、20人が薬剤群です。
そして、全40人のうち、薬剤群かコントロール群かに関わらず、治ったのは全部で18人。
だから、40×20/40×18/40=9人が、関連がなかったと仮定した時の、薬剤群で治った人の人数になります。
同様にしてほかのカテゴリの期待度数を計算すると、以下の分割表ができます。
表2:表1を基にした期待度数
治った | 治らなかった | 合計 | |
薬剤群 | 9 | 11 | 20 |
コントロール群 | 9 | 11 | 20 |
合計 | 18 | 22 | 40 |
この表2が「2つの変数が独立だった時の分割表」になります。
つまり、カイ二乗検定がやっていることはこのように言い換えられます。
カイ二乗検定とは、表1(観測されたデータでの分割表)と表2(独立である状態を想定した分割表)で、どれだけ違いがあるかを数値的に判断する
ちなみにこのデータはP値が0.05を下回るので、独立ではない。
つまり、薬剤群かコントロール群かによって、治るか治らないかが違ってくる。
こんな結論になります。
カイ二乗検定の例題:カイ二乗値の計算式は?
ここから、カイ二乗値の計算式を解説します。
もし、カイ二乗検定の概要だけで知れればいい、ということであれば、ここから先は確認しなくてもOKです。
カイ二乗値は、各カテゴリで、以下の計算式で求めた値を全て足し合わせたものです。
つまり、先ほどのデータで表1と表2の差を計算していることになります。
この計算式をもとに各カテゴリで計算すると、以下のような表を作ることができます。
治った | 治らなかった | |
薬剤群 | 1.78 | 1.45 |
コントロール群 | 1.78 | 1.45 |
そしてカイ二乗値は、これら4つの値を全て足したもの。
1.78+1.78+1.45+145=6.46
この6.46が、カイ二乗値になります。
イェーツの連続性補正のカイ二乗値というものもある
実はカイ二乗値には、上記で示したものの他に「イェーツの連続性補正」をしたカイ二乗値というのもあります。
イェーツさんによれば、カイ二乗値とカイ二乗分布に小さなズレがあり、そのズレの影響で本来より有意差が出やすい結果になってしまうのではないかというわけです。
有意差が出やすいということは、本来有意差がないのに有意差があるという間違った結果が出るリスク(第一種の過誤、αエラー)が大きくなるということ。
αエラーが大きくなっちゃダメですよね。。
なので、それを補正するのがイェーツの連続性補正。
イェーツの連続性補正については、こちらの記事をご参照くださいませ!
カイ二乗検定でP値を算出するには、自由度を求めてカイ二乗分布表と見比べる
カイ二乗値が算出できれば、あとはカイ二乗分布表と見比べるだけです。
見比べる際には「自由度」の知識が必要になりますので、自由度についても学んでおきましょう。
自由度に関して結論だけ記載しておくと、m*nの分割表での自由度は(m-1)*(n-1)と計算されます。
つまり、2*2分割表であれば、(2-1)*(2-1)=1と計算できるのです。
前述の通り、このデータをもとに出力されるP値は、0.05を下回ります。
そのため結論は“独立ではない”、つまり、薬剤群かコトロール群かによって、治るか治らないかが違ってくる、というような結論になります。
カイ二乗検定を統計解析ソフトで実践したり動画で学ぶ
カイ二乗検定をEZRで実践する方法を、別記事で解説しています。
EZRとは無料の統計ソフトであるRを、SPSSやJMPなどのようにマウス操作だけで解析を行うことができるソフトです。
EZRもRと同様に完全に無料であるため、統計解析を実施する誰もが実践できるソフトになっています。
2019年5月の時点で英文論文での引用回数が2400回を超えているとのことで、論文投稿するための解析ソフトとしても申し分ありません。
これを機に、EZRで統計解析を実施してみてはいかがでしょうか?
また、SPSSやJMPでのカイ二乗検定の解析の仕方を解説していますので、是非ご覧ください。
カイ二乗検定に関してまとめ
- χ二乗検定は、独立性の検定ともいわれている。
- χ二乗検定では、以下のことをやっている。
- 結果の分割表から、期待度数を算出した分割表を作成する。
- この2つの分割表がどれだけ違うかを、数値的に示す。
そして、Youtubeでもカイ二乗検定を解説しています。
この記事を見ながら動画視聴をするとかなり理解が促進しますので、是非ご利用ください。
コメント
コメント一覧 (7件)
[…] […]
[…] χ二乗検定とは?数式よりも大事なイメージで分かりやすく解説! […]
[…] カイ二乗検定のページで出てきたこの表。 […]
[…] >>>カイ二乗検定とは?計算式まで簡単に分かりやすく!分割表の検定 […]
[…] […]
[…] カイ二乗検定について詳しく知りたい方はこちらの記事をご覧ください。 […]
[…] つまり、カイ二乗検定、フィッシャーの正確確率検定、ロジスティック回帰、などで解析するということです。 […]