データを解析しよう

2群間の比較の統計解析は?検定やグラフを簡単にわかりやすく

あなたの手元に2群のデータがあったとき。

2群間の比較ではどんな統計解析をすればいいのか・・・

と、途方に暮れることがありますよね。

 

私も統計を仕事にする前の大学生のころ。

「このデータで何をすればいいのか・・・」と途方に暮れっぱなしでした。

しかし今では、データがあったときにやるべきことが整理されています。

 

そのため、今回の記事では私が今でも実践していることをすべてお伝えします。

2群間の比較の統計解析で、どんな検定やグラフを使えば良いのか、簡単にわかりやすく理解できます!

 

どんなデータがあったとき2群間の比較が必要?

まずは、どんなデータが2群のデータか。

「2群」というのは、「2種類」とか「2つの集団」とかに言い換えることができます。

つまり、比較したい2つの集団、ということですね。

 

例えば。

  • 男性と女性で糖尿病発症率を知りたい
  • プラセボ群と実薬群で死亡率の違いを知りたい
  • 日本とアメリカで所得の違いを知りたい

 

これらの例では「男性と女性」「プラセボ群と実薬群」「日本とアメリカ」で違いを知りたいわけです。

知りたい集団が2つですよね。

だから、これらのデータは「2群」のデータと呼ばれます。

 

以下の表にまとめてみましたので、ご参照まで。

 

1つ目の群 2つ目の群
男性と女性 男性 女性
プラセボ群と実薬群 プラセボ群 実薬群
日本とアメリカ 日本 アメリカ

 

 

実際に2群のデータに対してどんな解析をやるのか?

では2群のデータがどんなものか分かったところで、実際のデータ解析方法を学んでいきましょう。

私が2群のデータを解析するときには以下のようなことをやります。

 

  1. まずは各群のデータを確認する
  2. 検定をする
  3. 回帰分析をする

 

これだけです。

やること少ないですよね。

 

検定を数種類やっていますが、この記事では「データをまとめる」ということを重視しています。

つまり、検証的試験のように、検定で0.05を下回るかどうかは重要視していません

あくまで検定結果は参考程度に見ます

そのため、多重性に関しても考慮しておりません。

検証的な性質を持つデータ比較であれば、ちゃんと事前に解析計画を立て、多重性を考慮して解析を実施する必要がありますので、その点はご注意ください。

 

 

2群間の比較その1:まずはグラフなどで各群のデータを確認する

最終的には2群のデータを比較したいのですが、まずは各群のデータを確認することをやります。

例えば、「男性と女性で糖尿病発症率を知りたい」のであれば、「男性のデータを確認する」ことと「女性のデータを確認する」ということをやる、ということです。

 

具体的にどんな方法で確認すればよいのか?ということを知りたいですよね。

私はこれらをやります。

 

連続量の場合

  1. 要約統計量を算出する
  2. ヒストグラムを作成する
  3. 箱ひげ図を作成する

 

カテゴリカルデータの場合

  1. 分割表を作成する
  2. 棒グラフを作成する

 

要約統計量を算出する

連続量の場合、要約統計量を算出します。

平均値や中央値、標準偏差などですね。

男性と女性の2群データであれば、「男性」と「女性」の各群でそれぞれ算出します。

 

私であれば、以下のような表を作成します。

  男性 女性
平均値(SD) XXX(XX) YYY(YY)
中央値 XXX YYY
範囲 XXX-XXX YYY-YYY
四分位範囲 XXX-XXX YYY-YYY
95%信頼区間 XXX-XXX YYY-YYY

 

グラフの作成:ヒストグラムを作成する

その次に、グラフを作成します。

要約統計量で、ざっくりとしたデータの把握ができました。

ですが、視覚的な情報があったほうが、データの把握をしやすいです。

そのため、データを視覚的に見ることができるように、グラフを作成します。

各群それぞれで作成します。

 

まずはヒストグラムですね。

ヒストグラムを作成することで、データの分布が分かります

 

ヒストグラムで把握すべきことは、

  • データが正規分布に近い形なのか。
  • それとも、右(左)に裾を引いているのか。

そんなことを把握します。

 

グラフの作成:箱ひげ図を作成する

もう一つのグラフである、箱ひげ図も重要です。

箱ひげ図を作成することにより、データの範囲や中央値や外れ値の有無まで分かってしまうので、かなり便利です。

この箱ひげ図も、各群それぞれで作成しましょう。

 

分割表を作成する

データがカテゴリカルデータであれば、要約統計量の代わりに分割表を作成します。

分割表を作成すれば、各群の大まかなデータの数や割合がわかるようになります

この分割表一つだけでかなりのことがわかりますので、ぜひとも作成しましょう。

 

棒グラフを作成する

カテゴリカルデータであっても、可視化することは重要です。

そのため、棒グラフを作成しましょう。

 

以下のようなグラフですね。

縦軸に数や割合を表示するグラフです。

これも、分割表を視覚的に把握するのに役立つため、ぜひ作成しましょう。

 

 

2群間の比較その2:統計的検定を実施する

各群のデータが把握できたところで、初めて検定をやってみます。

 

連続量のデータであれば以下の二つを実施します。

  1. T検定
  2. ウィルコクソン検定

 

カテゴリカルデータであれば、以下の二つを実施します。

  1. フィッシャーの正確確率検定
  2. カイ二乗検定

 

2群間の比較:T検定の実施

連続量で2群の比較といえば、まずはT検定ですよね。

そのため、基本の検定としてT検定の知識は持っておいてください。

T検定は、各群の母集団データが正規分布に従っていることが前提の、パラメトリック検定です

そのため、前述のヒストグラムを確認することは、T検定を実施する上でとても重要です。

 

2群間の比較:ウィルコクソン検定の実施

次は、ウィルコクソン検定を実施してみます。

ウィルコクソン検定はノンパラメトリック検定ですよね。

そのため、1つ前に実施したT検定結果と比較して以下のことを把握することができます。

 

データが正規分布に近ければ、T検定のP値とウィルコクソン検定のP値は似た数値になる

 

反対に、T検定のP値とウィルコクソン検定のP値が大きく異なれば、データは正規分布に近くないということです。

その場合には、ウィルコクソン検定のP値を信頼しましょう。

 

2群間の比較:フィッシャーの正確確率検定、カイ二乗検定の実施

データがカテゴリカルデータであれば、検定は2つです。

フィッシャーの正確確率検定とカイ二乗検定。

2つの検定の使い分けですが、分割表を作成した際に5以下のセルがあれば、フィッシャーの正確確率検定を使います

それ以外では、カイ二乗検定でOKです

 

回帰分析を実施する

最後に、回帰分析をします。

回帰分析をする理由としては、単純な検定だけでは分からないことを知るためです。

単純な検定だけでは分からないこと、というのは具体的には「交絡」を気にしています。

交絡は、バイアスの一つですね。

交絡があることで、事実関係が歪んで出てきてしまうので、かなり注意が必要です。

 

交絡をはじめとするバイアスは、データを取得する際に気をつけるべきです。

しかし、交絡バイアスだけは、共分散分析で排除することが可能です。

共分散分析は回帰分析の方法の一つですね。

 

EZRで実際に解析する

これらの解析を、EZRを使って実際に解析してみると、かなり理解が進みます。

EZRとは無料の統計ソフトであるRを、SPSSやJMPなどのようにマウス操作だけで解析を行うことができるソフトです。

EZRもRと同様に完全に無料であるため、統計解析を実施する誰もが実践できるソフトになっています。

2019年5月の時点で英文論文での引用回数が2400回を超えているとのことで、論文投稿するための解析ソフトとしても申し分ありません。

 

EZRでカイ二乗検定とフィッシャーの正確確率検定を実施する方法は、こちらの記事を!

 

まとめ

私が2群のデータを解析するときの方法を余すことなく記載しました。

これらをやるだけで、ちゃんとした報告書やレポートができますので、ぜひ実践してみてください。

 

  1. まずは各群のデータを確認する
  2. 検定をする
  3. 回帰分析をする

 

論文化に必要な統計に絞った地図あります

 

  • パソコンに向かってもなぜか筆が進まない…
  • 学会発表は結構たくさんしているのに、なぜ論文が出ないのだろう…
  • こんなに忙しいのに、いつ論文を書いたらいいのか…
  • 一度は書いたはずの論文がお蔵入りに…どうすればいいの…
  • データはあるのになぜ論文化まで持っていけないんだろう…
  • このデータ、どうやって解析すればいいんだろう…

 

その悩みこの無料メルマガで全て解決するかもしれません

 

↓今すぐ無料で論文化までの最短距離を歩く↓

↑無料で論文化に必要な統計を最短で学ぶ↑