統計を学び始めたばかりの頃、誰もが一度は「この平均値に有意差はありますか?」と問いかけたり、「とりあえず統計にかけてP値を出してほしい」と願ったりするものである。
しかし、統計の専門家やコンサルタントにこの質問を投げると、彼らは少し困った顔をするかもしれない。それは意地悪をしているわけではなく、統計学という「計算機」を動かすための燃料(材料)が足りないからである。
今回は、初心者がついつい使ってしまう「魔法の言葉」の正体を紐解き、データを正しく価値あるものに変えるための考え方を整理したい。
「平均が75点でした。有意差はありますか?」の落とし穴
「平均値が出たのだから、それがすごいこと(有意)かどうか判定してほしい」という気持ちはよくわかる。しかし、統計学において「差」という言葉は、必ず二つのものの間にしか存在しない。
- 比喩で考える:リンゴの重さ
目の前に150gのリンゴがあるとする。これに対して「このリンゴは重いですか(有意な差がありますか)?」と聞かれても、誰も答えることはできない。
「スーパーで売られている平均的なリンゴ(100g)」と比べるのか、「昨日買った特大のリンゴ(200g)」と比べるのか。比較する相手(モノサシ)が決まって初めて、重いか軽いかの議論が始まるのである。
統計学で「有意差がある」と言いたいときは、まず「何と比べているのか」という比較対象(基準値や対照群)をセットで用意する必要がある。
P値は「たまたまではないこと」の証明書
「とにかく統計にかけてP値を」という要望も多い。P値さえ出れば、そのデータが「正解」であると証明されるような気がするからだ。しかし、P値は万能の判定機ではない。
- 比喩で考える:フリースローの成功率
P値とは、簡単に言えば「その結果が、単なるラッキー(偶然)で起きた確率」を計算したものである。
1回だけシュートを投げて決めた人と、100回投げて80回決めた人。どちらが「実力(有意)」と言えるかは明白だろう。
「とりあえずP値を」と急ぐ前に、まずは「たまたま起きたことではない」と言えるだけの十分な回数(サンプルサイズ)が確保されているかを確認したい。データが少なすぎれば、どんなに優れた統計手法を用いても、信頼に足るP値は算出できないのである。
統計学が欲しがる「隠し味」:バラツキ
平均値さえあれば統計ができると思われがちだが、実は統計ソフトが最も欲しがっているのは「バラツキ(標準偏差)」という情報である。
- 比喩で考える:クラスの平均点
全員が75点を取った「平均75点」のクラスと、0点から150点まで激しく散らばった末の「平均75点」のクラス。
同じ平均点でも、そのデータの「安定感」は全く異なる。
統計学は、このバラツキを見て「その差が本物なのか、それとも誤差の範囲内なのか」を厳密に判断する。一つのサンプル(N=1)の平均値だけでは、このバラツキを計算することができない。そのため、統計学は沈黙せざるを得ないのである。
まとめ:統計の専門家と「対話」するために
もし統計の専門家に相談する機会があるなら、次のように切り出してみてはどうだろうか。
「このデータの平均は〇〇です。これと【比較したい基準】は△△ですが、この【サンプル数とデータの散らばり】で、意味のある差と言えそうでしょうか?」
この一言があるだけで、分析の精度は飛躍的に高まる。統計学はあなたのデータを否定するものではなく、あなたの主張を客観的な証拠へと昇華させるための強力なパートナーである。
正しい材料を揃えることは、魔法の杖を手に入れるよりも、ずっと確実にあなたのビジネスや研究を前進させてくれるはずだ。
おすすめ書籍
誰も教えてくれなかった 医療統計の使い分け〜迷いやすい解析手法の選び方が,Rで実感しながらわかる!




コメント