平均値と中央値が異なる場合

平均値が一番効力を持つ場面

「データを要約する」といった場合に,ほとんど全ての人はまず,平均値を出力することから始めると思います。ですが,平均値がその効力を発揮する場面というのは,「データの分布が左右対称」である場合です。
例えば,身長のデータは左右対称な分布(正規分布)に従うことが知られています。このような左右対称の分布の場合,平均値はデータの真ん中に近くなります。

 

平均値が相応しくない場合

では,平均値が代表値として相応しくない場面はどのような場合でしょうか?それは,上記の反対なので「データの分布が左右対称でない場合」です。
例えば,臨床検査値(ASTやALTなど)は左右対称の分布ではないことが知られています。少数のデータが非常に大きいデータになることがあり,右裾を引いた分布になっています。このような場合には,少数の大きなデータに引っ張られて,平均値は大きくなります。このような場合には,中央値が代表値としてふさわしいです。

 

中央値はどんなデータでも真ん中を示す

中央値はその定義から,どのようなデータであってもその真ん中を示します。平均値はその定義から,左右対称のデータであればデータの真ん中付近になりますが,極端な値があった場合には,その値に引っ張られた値になります。このような性質を知っていると,中央値と平均値を見ると以下のようなことが分かります。
つまり,中央値と平均値が同じような値を示している場合には,そのデータが左右対称の分布になっていることが分かり,逆に,中央値と平均値が異なる値を示している場合には,左右対称ではないデータの分布になっているということが分かります。

 

要約統計量を出力するときには,中央値と平均値をセットで出力する

このような背景があるため,データを要約する際には,中央値と平均値をセットで出力することが有益であることが分かります。つまり,それに応じてバラつきの指標である,標準偏差と四分位範囲も出力する必要があるということですね。

 

中央値の方が扱いやすい気がするけど…

ここまでしっかり解説を読んでいただいている方は,恐らくこのように思うのではないでしょうか。「常に中央値を出せばよいのでは…」ということです。確かに,中央値はどのようなデータでも同じように解釈が可能であるため,中央値は便利です。
しかし,それでも平均値を出すことが有益であることがあるのです。それは,統計学的検定の話と絡みます。どういうことかと言いますと,パラメトリックな検定(例えばT検定)では,平均値をベースにして検定を実施しているためです。
このような理由から,平均値を要約統計量として出力することは大変意味のあることなのです。

 

では,平均値と中央値が異なる場合にはどうすればよいか?

ここまで来て,やっとタイトルの話題です。平均値と中央値が異なる場合には,どういった処理をする必要があるのでしょうか?これは,何を知りたいかで変わるのですが,多くの場合,変数変換をすることで,データの分布を左右対称に近づけようとします。
例えば,臨床検査値のような右裾を引いたデータは,別名「対数正規分布」と呼ばれることがあります。つまり,対数(Log)を取ったデータは正規分布に従うということです。なぜこのような変換をするかというと,前述の通り,パラメトリックな検定をする場合には,正規分布に近付けることが都合が良いためです。

 

まとめ

  • 要約統計量を出力する際には,平均値と中央値を両方ともに出力することが望ましい。
  • 平均値と中央値を確認することで,そのデータが左右対称の分布であるかが分かる。
  • 平均値と中央値が異なる場合には,変数変換(例えば対数変換など)を検討する必要がある。


data-ad-client="ca-pub-8866234902868600"
data-ad-slot="5243035170"
data-ad-format="auto">



HOME プロフィール お問い合わせ