外れ値はどのような値?どう対処するのがいいの?

データを要約する時に、意外と頭を悩ませるのが外れ値です。

外れ値の定義は実は難しいです。

直感的には,見た目で「このデータ,他のデータからすごく離れたところにあるな」と思うようなデータは外れ値になるのだと思います。

ただ,外れ値と外れ値ではない値の明確な違いがないのが現実です。

例えば,平均値から3SDより離れたところにあるデータは外れ値とする,などといった定義を作ることは可能です。

ですが、それも他の第3者から見れば,「なんでこんな定義なの?」ってなります。

ということで、このページでは外れ値に関して深く考えてみます。

 

広告

検定で外れ値を見つける?

その値が外れ値かどうかを検定する方法もあります。

「スミルノフ・グラブス検定」というのがその検定の一つです。

ですが、私はこの検定を実施したことはありません。

検定なので、あることに左右されるからです。

 

そう、データの数、ですね。

ということは、同じ値であっても、データ数が少ない時には外れ値と見なされないけど、データ数が多い時には外れ値と見なされてしまう、ということです。

これではあまり意味がないですよね。

 

そのため結論から言うと、(医薬品開発において)外れ値かどうかに対して検定を行うのはナンセンスです。

臨床試験では、得られたデータをすべて使うことが基本になります。

 

それでも外れ値がある場合は?

それでも,外れ値がある場合があります。

それは,医学的に取り得ない値があった場合です。

 

例えば,白血球数がマイナスになっている場合。

数なので、絶対0より大きい値をとりますよね。

であれば、マイナスは医学的に明らかに取り得ない値なので,解析から除外する方が良いです。

 

また,測定の際に溶血してしまったデータも,それが本当のデータかどうかが分からないデータです。

そのため,解析から除外することを検討する必要があります。

つまり臨床試験で外れ値を検討する場合は、これがポイントになりますね。

 

臨床試験で外れ値を検討する場合、統計的にどうか?という視点はほとんど意味がなく,医学的にどうなのか?といった観点が重要

 

外れ値がある場合の解析方法

では、そのような医学的な観点で外れ値があった場合。

どういった解析をすればよいのでしょうか?

それは,外れ値を含めた場合と含めたかった場合で,どのような結論の違いが出てくるかを述べる,ということです。

これはICH E9にも記載されていることです。

実際の値を用いた解析のほかに、外れ値の影響を除くか小さくする別の解析を少なくとも一つ行うべきであり、それらの結果の間の差異を議論すべきである。

つまり,2つの解析間で差異がない場合には,そのデータは頑健であると言えます。

たとえ違いがあったとしても,それが薬剤の影響ではないということを,いろんな視点(生物学的なRationaleなど)から論述することが出来れば,問題ないということです。

 

まとめ

  • 外れ値は,統計学的に議論することではなく,医学的な知見が重要になる。
  • 外れ値があった場合には,その値を含めた場合と含めなかった場合の,2つの解析結果の際を議論する必要がある。

 

統計検定2級対策もできる

無料動画の統計授業

 

 

無料動画で統計を学びませんか?

 

・この数式、何を言っているのか全くわからない・・・ 

・統計を学びたいけど、何から手をつけていいのだろう・・・

・統計検定2級を受験したいけど、どう勉強したら・・・

・もう自力で統計を学ぶのに疲れました・・・

 

あなたはそんな悩みを抱えていませんか?

大丈夫です。

最後の手段があります。

どこにもない、統計の無料メルマガ。

 

最新情報をチェックしよう!