外れ値について

外れ値って?

外れ値の定義は実は難しいです。直感的には,見た目で「このデータ,他のデータからすごく離れたところにあるな」と思うようなデータは外れ値になるのだと思います。ただ,明確な閾値がないのが現実です。
例えば,平均値から3SDより離れたところにあるデータは外れ値とする,などといった定義を作ることは可能ですが,それも他の第3者から見れば,「なんでこんな定義なの?」ってなります。

 

検定で外れ値を見つける?

実は,そのデータが外れ値かどうかを検定する方法もあります。「スミルノフ・グラブス検定」というのがその検定の一つです。ですが,私はこの検定を実施したことはありません。
結論から言いますと,(医薬品開発において)外れ値かどうかに対して検定を行うのはナンセンスです。医薬品開発においては,得られたデータをすべて使うことが基本になります。

 

それでも外れ値がある場合は?

それでも,外れ値がある場合があります。それは,医学的に取り得ない値があった場合です。
例えば,白血球数がマイナスになっていれば,それは明らかに取り得ない値なので,解析から除外する方がいいですよね?また,測定の際に溶血してしまったデータも,それが本当のデータかどうかが分からないデータです。そのため,解析から除外することを検討する必要があります。
つまり,外れ値に関しては統計的にどうか?という視点はほとんど意味がなく,医学的にどうなのか?といった観点が重要になってきます。

 

外れ値がある場合の解析方法

外れ値があった場合,どういった解析をすればよいのでしょうか?それは,外れ値を含めた場合と含めたかった場合で,どのような結論の違いが出てくるかを述べる,ということです。これはICH E9にも記載されていることです。
「実際の値を用いた解析のほかに、外れ値の影響を除くか小さくする別の解析を少なくとも一つ行うべきであり、それらの結果の間の差異を議論すべきである。」
つまり,2つの解析間で差異がない場合には,そのデータは頑健であると言えます。たとえ違いがあったとしても,それが薬剤の影響ではないということを,いろんな視点(生物学的なRationaleなど)から論述することが出来れば,問題ないということです。

 

まとめ

  • 外れ値は,統計学的に議論することではなく,医学的な知見が重要になる。
  • 外れ値があった場合には,その値を含めた場合と含めなかった場合の,2つの解析結果の際を議論する必要がある。
統計は難しい。
これは、私が統計を仕事とする前までに抱いていた幻です。

ですが、実はデータをまとめたり、結果を解釈するだけであれば、それほど難しい知識は不要であることに気付きました。
そして、統計が何をやっているのかを「イメージとしてとらえる」ことが重要であると感じたのです。

こちらのメルマガでは、統計をイメージとしてとらえられるように、動画でまとめました。
今ならメルマガ登録の無料特典として以下の3つの資料を進呈しております。

1.イメージでとらえる統計学
2.イメージでとらえる推定
3.イメージでとらえるP値

ぜひ登録して、イメージを持った統計学への扉を開いてください。
登録はこちらです。

https://maroon-ex.jp/fx46970/oQ2DkN

HOME プロフィール お問い合わせ