データを解析しよう

外れ値とはどんな定義で求め方は?統計的検定で除外するのがいいの?

外れ値とはどんな定義で求め方は?統計的検定で除外するのがいいの?

データを要約する時に、意外と頭を悩まされるのが外れ値です。

外れ値の定義や求め方は、実は難しい。

直感的には見た目で「このデータ、他のデータからすごく離れたところにあるな」と思うようなデータは外れ値になるのだと思います。

ただ、外れ値と外れ値ではない値の明確な違いがないのが現実です。

例えば、平均値から3SDより離れたところにあるデータは外れ値とする、などといった定義を作ることは可能です。

ですが、それも他の第3者から見れば、「なんで外れ値はこんな定義なの?」ってなります。

外れ値を統計的検定で除外する、という方法もありますが、検定だとデータ数が多くなれば必ず外れ値が出てきますし・・・。

ということで、このページでは外れ値に関して深く考えてみます。

 

>>もう統計で悩むのは終わりにしませんか? 

↑1,000人以上の医療従事者が購読中

外れ値とは?その定義や求め方

外れ値とは?その定義や求め方

外れ値は、各研究領域によって定義が異なってきます。

そのため、この記事では「医薬統計」に限定して話を進めますね。

 

医薬研究において「外れ値」として扱うべき定義は2つあります。

  1. 医学的に取り得ない値
  2. 溶血データ

 

これ以外は、基本的に外れ値としては見なされません

溶血データは「外れ値」というよりは「信頼に足らない値」というイメージかもしれませんが、大きな括りとして外れ値としておきます。

 

外れ値とはどんなとき?例を挙げて考える

例えば、白血球数がマイナスになっている場合。

数なので、本来であれば絶対0より大きい値をとりますよね。

であれば、白血球数がマイナスというのは医学的に明らかに取り得ない値なので、外れ値として扱い解析から除外するべきです。

 

また、測定の際に溶血してしまったデータも、それが本当のデータかどうかが分からないデータです。

そのため、外れ値として扱い解析から除外することを検討する必要があります。

つまり臨床試験で外れ値を検討する場合は、これがポイントになりますね。

医薬研究で外れ値を検討する場合、統計的に離れている値かどうか?という視点はほとんど意味がなく、医学的に信頼できるかどうか?といった観点が重要。

 

外れ値を統計的検定で除外する?

外れ値を統計的検定で除外する?

世の中には、その値が外れ値かどうかを統計学的に検定する方法もあります。

「スミルノフ・グラブス検定」というのがその検定の一つです。

 

外れ値の定義が難しいのであれば、統計学的検定で判定してもらおう。

その方が客観的じゃないか?

と思うのも、ある意味では納得できます。

 

しかし、統計学的検定には一つだけ難点があるのです。

検定なので、有意差があるかどうかは、”あること”に左右されるからです。

 

そう、”データの数”、ですね。

 

ということは、同じ値であっても、データ数が少ない時には外れ値と見なされないけど、データ数が多い時には外れ値と見なされてしまう、ということです。

これではあまり意味がないですよね。

 

そのため結論から言うと、医薬研究において外れ値かどうかに対して統計学的な検定を行うのはナンセンスです。

臨床試験では、得られたデータをすべて使うことが基本になります。

 

エクセルで外れ値の統計的検定であるスミルノフ・グラブス検定は実施できる?

ちょっとだけ横道に逸れますが、エクセルで「スミルノフ・グラブス検定」をできるかどうか。

調べてみましたが、おそらくデフォルトのままでは難しそうです。

 

エクセル以外の統計ソフトであれば、スミルノフ・グラブス検定が入っていることが多いです。

R環境が裏で動いている、EZRという統計ソフトでも簡単にスミルノフ・グラブス検定はできるみたいですね。

 

>>もう統計で悩むのは終わりにしませんか? 

↑1,000人以上の医療従事者が購読中

外れ値ではないけど、不自然なデータがある場合の解析方法

外れ値ではないけど、不自然なデータがある場合の解析方法

医薬研究において、外れ値とは医学的な観点でありえない値ということでした。

それ以外の値は、どれだけかけ離れた値であろうと外れ値ではなく、解析には用いることが必要です。

 

ですが、実データを解析していると、そうはいっても・・・というデータが出てきます。

どういうデータかというと、医学的には取り得るけど、もろもろを考えるとすごく不自然なデータ、というものです。

 

こういった場合には、何かしら対策を取りたいですよね。

ではどういった解析をすればよいのでしょうか?

 

それは、外れ値を含めた場合と含めたかった場合で、どのような結論の違いが出てくるかを述べる、ということです。

 

これはICH E9にも記載されていて、以下のような記載です。

実際の値を用いた解析のほかに、外れ値の影響を除くか小さくする別の解析を少なくとも一つ行うべきであり、それらの結果の間の差異を議論すべきである。

 

外れ値と思われるデータを含めた場合と除外した場合の解析の2つの間で差異がない場合には、その解析結果は頑健であると言えます。

たとえ違いがあったとしても、それが薬剤の影響ではないということを、いろんな視点(生物学的なRationaleなど)から論述することが出来れば、問題ありません。

大切なのは、”なぜそのような値が出てきたのか”を考察することにあります。

 

外れ値とは?まとめ

外れ値とは?まとめ
  • 外れ値は、統計学的に議論することではなく、医学的な知見が重要になる。
  • 医薬研究において、外れ値を統計学的な検定で判定することは、ナンセンスである。
  • 不自然なデータがあった場合には、その値を含めた場合と含めなかった場合の、2つの解析結果の際を議論する必要がある。

あなたは統計解析でこんな間違ったイメージを持っていませんか?

 

  • とりあえずデータさえあれば、統計解析を知っている人に頼めばなんとかなる
  • 統計解析するならP値が0.05を下回る(有意差が出る)ことが1番大事
  • 有意差がなければ学会発表・論文投稿できない
  • 統計を学ぶには、まずは書店で統計の本を買わなければならない
  • 有料の統計解析ソフトさえあれば、統計解析はできるようになる

 

これらは、私が医療従事者を中心に統計を教えてきた中で、統計解析に対する間違ったイメージの典型例です。

もしあなたがこのような間違ったイメージのうちどれか一つでも当てはまるのであれば、ぜひ無料の統計メルマガを購読してみてください。

 

統計の悩みはこの無料メルマガで全て解決するかもしれません

 

↓今すぐ無料で学会発表や論文投稿までに必要な統計を学ぶ↓

↑無料で学会発表や論文投稿に必要な統計を最短で学ぶ↑

COMMENT

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です