外れ値とはどんな定義で求め方は?統計的検定で除外するのがいいの?

外れ値とはどんな定義で求め方は?統計的検定で除外するのがいいの?

データを要約する時に、意外と頭を悩まされるのが外れ値です。

外れ値の定義や求め方は、実は難しい。

直感的には見た目で「このデータ、他のデータからすごく離れたところにあるな」と思うようなデータは外れ値になるのだと思います。

ただ、外れ値と外れ値ではない値の明確な違いがないのが現実です。

例えば、平均値から3SDより離れたところにあるデータは外れ値とする、などといった定義を作ることは可能です。

ですが、それも他の第3者から見れば、「なんで外れ値はこんな定義なの?」ってなります。

外れ値を統計的検定で除外する、という方法もありますが、検定だとデータ数が多くなれば必ず外れ値が出てきますし・・・。

ということで、このページでは外れ値に関して深く考えてみます。

 

>>もう統計で悩むのは終わりにしませんか? 

↑期間・数量限定で無料プレゼント中!

目次

外れ値とは?その定義や求め方

外れ値とは?その定義や求め方

外れ値は、各研究領域によって定義が異なってきます。

そのため、この記事では「医薬統計」に限定して話を進めますね。

 

医薬研究において「外れ値」として扱うべき定義は2つあります。

  1. 医学的に取り得ない値
  2. 溶血したデータ

 

これ以外は、基本的に外れ値としては見なされません

溶血データは「外れ値」というよりは「信頼に足らない値」というイメージかもしれませんが、大きな括りとして外れ値としておきます。

 

外れ値とはどんなとき?例を挙げて考える

例えば、白血球数がマイナスになっている場合。

数なので、本来であれば絶対0より大きい値をとりますよね。

であれば、白血球数がマイナスというのは医学的に明らかに取り得ない値なので、外れ値として扱い解析から除外するべきです。

 

また、測定の際に溶血してしまったデータも、それが本当のデータかどうかが分からないデータです。

そのため、外れ値として扱い解析から除外することを検討する必要があります。

つまり臨床試験で外れ値を検討する場合は、これがポイントになりますね。

医薬研究で外れ値を検討する場合、統計的に離れている値かどうか?という視点はほとんど意味がなく、医学的に信頼できるかどうか?といった観点が重要。

 

外れ値を統計的検定で除外する?スミルノフ・グラブス検定は使えるの?

外れ値を統計的検定で除外する?

世の中には、その値が外れ値かどうかを統計学的に検定する方法もあります。

「スミルノフ・グラブス検定」というのがその検定の一つです。

 

外れ値の定義が難しいのであれば、統計学的検定で判定してもらおう。

その方が客観的じゃないか?

と思うのも、ある意味では納得できます。

 

しかし、統計学的検定には一つだけ難点があるのです。

検定なので、有意差があるかどうかは、”あること”に左右されるからです。

 

そう、”データの数”、ですね。

 

ということは、同じ値であっても、データ数が少ない時には外れ値と見なされないけど、データ数が多い時には外れ値と見なされてしまう、ということです。

これではあまり意味がないですよね。

 

そのため結論から言うと、医薬研究において外れ値かどうかに対して統計学的な検定を行うのはナンセンスです。

臨床試験では、得られたデータをすべて使うことが基本になり、前述の通り「臨床的に取り得ない値」である場合のみ除外します。

 

エクセルで外れ値の統計的検定であるスミルノフ・グラブス検定は実施できる?

ちょっとだけ横道に逸れますが、エクセルで「スミルノフ・グラブス検定」をできるかどうか。

調べてみましたが、おそらくデフォルトのままでは難しそうです。

 

エクセル以外の統計ソフトであれば、スミルノフ・グラブス検定が入っていることが多いです。

R環境が裏で動いている、EZRという統計ソフトでも簡単にスミルノフ・グラブス検定はできるみたいですね。

 

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

外れ値ではないけど、不自然なデータがある場合の解析方法

外れ値ではないけど、不自然なデータがある場合の解析方法

医薬研究において、外れ値とは医学的な観点でありえない値ということでした。

それ以外の値は、どれだけかけ離れた値であろうと外れ値ではなく、解析には用いることが必要です。

 

ですが、実データを解析していると、そうはいっても・・・というデータが出てきます。

どういうデータかというと、医学的には取り得るけど、もろもろを考えるとすごく不自然なデータ、というものです。

 

こういった場合には、何かしら対策を取りたいですよね。

ではどういった解析をすればよいのでしょうか?

 

それは、外れ値を含めた場合と含めたかった場合で、どのような結論の違いが出てくるかを述べる、ということです。

 

これはICH E9(臨床試験のための統計的原則)にも記載されていて、以下のような記載です。

実際の値を用いた解析のほかに、外れ値の影響を除くか小さくする別の解析を少なくとも一つ行うべきであり、それらの結果の間の差異を議論すべきである。

 

外れ値と思われるデータを含めた場合と除外した場合の解析の2つの間で差異がない場合には、その解析結果は頑健であると言えます。

つまり、感度解析を実施するということ。

たとえ違いがあったとしても、それが薬剤の影響ではないということを、いろんな視点(生物学的なRationaleなど)から論述することが出来れば、問題ありません。

大切なのは、”なぜそのような値が出てきたのか”を考察することにあります。

 

外れ値とは?まとめ

外れ値とは?まとめ

  • 外れ値は、統計学的に議論することではなく、医学的な知見が重要になる。
  • 医薬研究において、外れ値を統計学的な検定で判定することは、ナンセンスである。
  • 不自然なデータがあった場合には、その値を含めた場合と含めなかった場合の、2つの解析結果の際を議論する必要がある。

 

動画でも解説していますので、併せてご覧くださいませ!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

リサーチクエスチョン探し?データ分析?論文投稿?、、、で、もう悩まない!

第1章臨床研究ではなぜ統計が必要なのか?計画することの重要性
  • 推定ってどんなことをしているの?
  • 臨床研究を計画するってどういうこと?
  • どうにかして標本平均を母平均に近づけられないか?
第2章:研究目的をどれだけ明確にできるのかが重要
  • データさえあれば解析でどうにかなる、という考え方は間違い
  • 何を明らかにしたいのか? という研究目的が重要
  • 研究目的は4種類に分けられる
  • 統計専門家に相談する上でも研究目的とPICOを明確化しておく
第3章:p値で結果が左右される時代は終わりました
  • アメリカ統計協会(ASA)のp値に関する声明で指摘されていること
  • そうは言っても、本当に有意差がなくてもいいの…?
  • なぜ統計専門家はp値を重要視していないのか
  • 有意差がない時に「有意な傾向があった」といってもいい?
  • 統計を放置してしまうと非常にまずい
第4章:多くの人が統計を苦手にする理由
  • 残念ながら、セミナー受講だけで統計は使えません。
  • インプットだけで統計が使えない理由
  • どうやったら統計の判断力が鍛えられるか?
  • 統計は手段なので正解がないため、最適解を判断する力が必要
第5章:統計を使えるようになるために今日から何をすれば良いか?
  • 論文を読んで統計が使えるようになるための5ステップ
第6章:統計を学ぶために重要な環境
  • 統計の3つの力をバランスよく構築する環境

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

コメント

コメント一覧 (1件)

コメントする

目次