Oops! It appears that you have disabled your Javascript. In order for you to see this page as it is meant to appear, we ask that you please re-enable your Javascript!
データを解析しよう

外れ値とはどんな定義で求め方は?検定で除外するのがいいの?

データを要約する時に、意外と頭を悩まされるのが外れ値です。

外れ値の定義や求め方は、実は難しい。

直感的には見た目で「このデータ、他のデータからすごく離れたところにあるな」と思うようなデータは外れ値になるのだと思います。

ただ、外れ値と外れ値ではない値の明確な違いがないのが現実です。

例えば、平均値から3SDより離れたところにあるデータは外れ値とする、などといった定義を作ることは可能です。

ですが、それも他の第3者から見れば、「なんでこんな定義なの?」ってなります。

検定で除外する、という方法もありますが、検定だとデータ数が多くなれば必ず外れ値が出てきますし・・・。

ということで、このページでは外れ値に関して深く考えてみます。

 

外れ値とは?その定義や求め方

外れ値は、各領域によって定義が異なってきます。

そのため、この記事では「医薬統計」に限定して話を進めますね。

 

医薬研究において「外れ値」として扱うべき定義は2つあります。

  1. 医学的に取り得ない値
  2. 溶血データ

 

これ以外は、基本的に外れ値としては見なされません

溶血データは「外れ値」というよりは「信頼に足らない値」というイメージかもしれませんが、大きな括りとして外れ値としておきます。

 

例えば、白血球数がマイナスになっている場合。

数なので、本来であれば絶対0より大きい値をとりますよね。

であれば、白血球数がマイナスというのは医学的に明らかに取り得ない値なので、解析から除外するべきです。

 

また、測定の際に溶血してしまったデータも、それが本当のデータかどうかが分からないデータです。

そのため、解析から除外することを検討する必要があります。

つまり臨床試験で外れ値を検討する場合は、これがポイントになりますね。

医薬研究で外れ値を検討する場合、統計的にどうか?という視点はほとんど意味がなく、医学的にどうなのか?といった観点が重要。

 

スポンサーリンク

外れ値を検定で除外する?

世の中には、その値が外れ値かどうかを統計学的に検定する方法もあります。

「スミルノフ・グラブス検定」というのがその検定の一つです。

 

外れ値の定義が難しいのであれば、統計学的検定で判定してもらおう。

その方が客観的じゃないか?

と思うのも、ある意味では納得できます。

 

しかし、統計学的検定には一つだけ難点があるのです。

検定なので、有意差があるかどうかは、”あること”に左右されるからです。

 

そう、”データの数”、ですね。

 

ということは、同じ値であっても、データ数が少ない時には外れ値と見なされないけど、データ数が多い時には外れ値と見なされてしまう、ということです。

これではあまり意味がないですよね。

 

そのため結論から言うと、医薬研究において外れ値かどうかに対して統計学的な検定を行うのはナンセンスです。

臨床試験では、得られたデータをすべて使うことが基本になります。

 

エクセルでスミルノフ・グラブス検定は実施できる?

ちょっとだけ横道に逸れますが、エクセルで「スミルノフ・グラブス検定」をできるかどうか。

調べてみましたが、おそらくデフォルトのままでは難しそうです。

 

エクセル以外の統計ソフトであれば、スミルノフ・グラブス検定が入っていることが多いです。

R環境が裏で動いている、EZRという統計ソフトでも簡単にスミルノフ・グラブス検定はできるみたいですね。

 

外れ値ではないけど、不自然なデータがある場合の解析方法

医薬研究において、外れ値とは医学的な観点でありえない値ということでした。

それ以外の値は、どれだけかけ離れた値であろうと、解析には用いることが必要です。

 

ですが、実データを解析していると、そうはいっても・・・というデータが出てきます。

どういうデータかというと、医学的には取り得るけど、もろもろを考えるとすごく不自然なデータ、というものです。

 

こういった場合には、何かしら対策を取りたいですよね。

ではどういった解析をすればよいのでしょうか?

 

それは、外れ値を含めた場合と含めたかった場合で、どのような結論の違いが出てくるかを述べる、ということです。

 

これはICH E9にも記載されていて、以下のような記載です。

実際の値を用いた解析のほかに、外れ値の影響を除くか小さくする別の解析を少なくとも一つ行うべきであり、それらの結果の間の差異を議論すべきである。

 

外れ値と思われるデータを含めた場合と除外した場合の解析の2つの間で差異がない場合には、その解析結果は頑健であると言えます。

たとえ違いがあったとしても、それが薬剤の影響ではないということを、いろんな視点(生物学的なRationaleなど)から論述することが出来れば、問題ありません。

大切なのは、”なぜそのような値が出てきたのか”を考察することにあります。

 

スポンサーリンク

まとめ

  • 外れ値は、統計学的に議論することではなく、医学的な知見が重要になる。
  • 医薬研究において、外れ値を統計学的な検定で判定することは、ナンセンスである。
  • 不自然なデータがあった場合には、その値を含めた場合と含めなかった場合の、2つの解析結果の際を議論する必要がある。

メルマガ登録

統計検定2級の解説付き

無料動画の統計授業

 

 

無料動画で統計を学びませんか?

 

・この数式、何を言っているのか全くわからない・・・ 

・統計を学びたいけど、何から手をつけていいのだろう・・・

・統計検定2級を受験したいけど、どう勉強したら・・・

・もう自力で統計を学ぶのに疲れました・・・

 

あなたはそんな悩みを抱えていませんか?

大丈夫です。

最後の手段があります。

どこにもない、統計の無料メールセミナー。