この記事では「False Discovery Rate(FDR)とは?意味や使い方を解説!」ということでお伝えします。
医療統計ではあまり出てくる印象はないですが、遺伝子解析などの場面で出てくる印象があるFDR。
- FDRってどんな場面で使われるの?
- FDRのアイデアは何でどんな意味がある?
- q値を計算し、FDRを使った判定方法の具体的な手順は?
ということをお伝えしていきますね!
FDRとは?多重性の考慮方法の一つ!
結論から言うと、FDRは多重性の考慮方法の一つです。
多重性の問題とは、検定を複数実施すると間違って検定結果が有意になってしまう確率が増大してしまう問題。
その問題に対処するために、多重性の調整方法がいくつか提案されています。
FDRもその調整方法の一つ、ということです。
FDRとはどんな意味を持つ?どんなアイデアで成り立っているの?
FDRが多重性を考慮する方法の一つであることがわかりました。
では、FDRはどんなアイデアで成り立っており、どんな意味を持つのでしょうか?
それを考えるために、以下の分割表を考えます。
いわゆる、αエラーとβエラーの説明の際に用いられる表ですね。
FDRは多重性の問題への対処方法ですから、検定をたくさん実施している研究を想定します。
例えば、検定を100回実施するような研究の場合。
この場合、M=100です。
仮に検定結果が有意であるものが100個中10個の場合、R=10になります。
じゃあFDRがどんな定義かというと、FDR=V/Rなんです。
定義としては結構簡単ですよね。
仮に偽陽性の数が2個の場合、V=2ですから、FDR=2/10=0.2という計算ができます。
つまりFDRとは、検定結果が有意になった数の中で偽陽性がどのぐらいの割合か?ということを示した値である、ということができますね。
しかしここで一つ問題が。
実際の研究では、偽陽性の数であるVの個数が観測不可能だ、ということです。
真実は誰もわからないため、検定結果が偽陽性華道家を誰も判断できないんです。
そのためFDRを使う場合は「FDRの値を研究者が決める」ということをやります。
つまり、「今回の研究ではFDRを0.1に設定する」というような感じです。
じゃあ「今回の研究ではFDRを0.1に設定する」ってどんな意味があるのでしょうか?
それは定義からも明らかなように、「検定結果が有意になった数に対して偽陽性の割合を10%に抑える」という意味になるんです。
q値を計算し、FDRを使った手順と具体例
FDRの意味がわかったところで、具体的にFDRを使った多重性の調整方法の手順をお伝えします。
FDRの中にも細かく分類がありますが、今回は最も有名なBH法(Benjamini-Hochberg法)でお伝えします。
FDRを使った調整方法の手順は以下の通り。
- 統計的検定を実施してp値を出力
- p値の小さい順に並べ替える
- q値を計算
- q値とFDRを見比べる
- q値<FDRであれば、有意とする
そしてFDRの値をどうするかは、研究者が決めます。
通常は、0.05や0.1が使われているイメージですね。
FDRを使った判定法の具体例
手順はわかりましたが、実際の数値での具体例があるとよりわかりやすいと思いますので、具体例をあげてみます。
いま、6つの遺伝子での検定結果が以下の通りだったとします。(手順1が完了している)
その後、手順2〜5を一つの表にすると以下の通りです。
まずは手順2のとおり、6つの遺伝子をP値が小さい順に並べ替えます。
iは、P値が小さいものから順に数字を付与したものです。
そしてNは、今回の研究の検定した数を示しているため、今回は6ですね。
iとNが分かればq値が計算でき、q=p値*N/iです。
そしてq値とFDRを見比べて、q値<FDRであれば有意と判定します。
今回は、FDRは0.1であると想定しました。
FDRについてまとめ
いかがでしたか?
この記事では「False Discovery Rate(FDR)とは?意味や使い方を解説!」ということでお伝えしました
医療統計ではあまり出てくる印象はないですが、遺伝子解析などの場面で出てくる印象があるFDR。
- FDRってどんな場面で使われるの?
- FDRのアイデアは何でどんな意味がある?
- q値を計算し、FDRを使った判定方法の具体的な手順は?
ということが理解できたのなら幸いです!
こちらの記事は動画でもお伝えしていますので、合わせてご覧くださいませ。
コメント