この記事では「負の二項回帰モデルとは?ポアソン回帰との関連やオフセット項の解説も」と言うことでお伝えします。
論文を読むと、たまに負の二項回帰モデル(Negative Binomial Regression Model)なるものが出てくることがあります。
あまりみない解析なので、「どんな解析手法?」と思いますよね。
そのためこの記事では
- 負の二項回帰モデルとはどんな解析手法?
- ポアソン回帰と負の二項回帰の関係は?
- オフセット項とはどんな役割を果たしているの?
ということをわかりやすく解説します!
負の二項回帰モデル(Negative Binomial Regression Model)とは?
負の二項回帰モデル(Negative Binomial Regression:NB回帰)は、カウントデータを解析する時に使う解析手法です。
連続データやカテゴリカルデータなどは比較的身近なデータですが、カウントデータはどんなデータでしょうか?
負の二項回帰で扱うカウントデータとは?
カウントデータとは、イベントの有無だけではなく、イベントの回数に着目したデータのこと。
例えば、副作用の発現の有無、である場合には単純にカテゴリカルデータです。
ですが、副作用の発現回数、となるとカウントデータになります。
副作用の発現回数は、1件、2件、3件、、、のようにカウントできますから。
また、出血の回数もカウントデータですね。
「出血の有無」だけだとカテゴリカルデータですが、「出血の回数」はカウントデータになります。
ポアソン回帰:カウントデータの場合に使う最も有名な回帰分析
カウントデータがどんなデータなのか理解できたところで、カウントデータに対する解析手法を紹介します。
実は、カウントデータの解析で最も有名なのは負の二項回帰ではなく、ポアソン回帰です。
ポアソン分布をちょっとだけ復習すると、以下の2つの特徴がある分布です。
- ポアソン分布は、二項分布の試行回数nが十分に大きく、確率が非常に小さいとき、従う分布。
- ポアソン分布では、平均値も分散もλとなる
特に「平均値も分散もλ」という特徴は重要で、この特徴が負の二項回帰モデルと最も差別化される特徴だからです。
負の二項回帰とポアソン回帰との違いは?
ポアソン回帰まで理解できたところで、負の二項回帰です。
負の二項回帰を一言で言えば、ポアソン分布よりも分散が大きいと考えられる時に使う回帰分析なのです。
そのため「ポアソン分布よりも分散が大きい時」という特徴以外は、ポアソン回帰と同じ状況で使える回帰分析なんだな、というイメージを持ってもらってOKです。
なので、ポアソン回帰と負の二項回帰は親戚みたいなものですね。
負の二項回帰モデルに出てくるオフセット項をわかりやすく解説
負の二項回帰がどんなデータに対して使われるかが整理できたところで、次に理解すべきは「オフセット項」に関してです。
ポアソン回帰でも負の二項回帰でも共通の話題として出てくる「オフセット項」。
少々わかりづらい概念かなと思うので、具体的に解説したいと思います。
オフセット項を一言で言うと?
オフセット項を一言で言えば「回帰係数が1に固定された説明変数」ということ。
つまり、回帰係数の推定自体に全く興味はないんだけど、アウトカムに影響を与える変数なので説明変数として入れる、ということです。
なぜこのような説明変数が必要なのでしょうか?
例えば、「副作用の件数を比較したい」と思った場合、副作用の件数はあるものに左右されます。
それは「追跡できた日数」です。
A群とB群の比較で「A群の方が副作用の件数が少ない」という結論が出たとしても、結果的にA群の方が追跡日数が短かったら、その結論には疑問符がつきますよね。
そのため、カウントデータ(今回の場合、副作用の件数)に対して影響を与える影響要因(今回の場合、追跡日数)を考慮しなければならない、ということになります。
では、この影響要因に対処するアイデアはどんなものがあるでしょうか?
2つ考えられます。
- 割り算したものをアウトカムにする
- オフセットとして考慮する
1つ目のアイデア:割り算したものをアウトカムにする
1つ目のアイデアは単純ですし、直感的にわかりやすいです。
アウトカムを「副作用の件数/追跡日数」にして仕舞えば良い、という考え方ですね。
そうすれば追跡日数を考慮する、という点はクリアできます。
でも。。
この「副作用の件数/追跡日数」には大きな問題点があるのです。
その問題点とは「分母の値(追跡日数)が違うのに同じ値として考慮していいのか?」と言う問題。
つまり、副作用の発生が0でも、1日追跡して0なのか、365日追跡して0なのか、同じ「0」でも情報は全く違う、ということ。
割り算で対処すると、どちらも「0」というアウトカムで解析することになってしまうので、それはいいの?ということになりかねません。
そのため、割り算で出てきた問題点を解決するためにオフセット項という2つ目のアイデアが出てくるのです。
2つ目のアイデア:オフセット項にする
オフセット項にする場合の考え方のスタートは同じく、アウトカムを「副作用の件数/追跡日数」にしたい、です。
そして、説明変数がXだけのモデルを考えましょう。
つまり、「副作用の件数/追跡日数 = a*X + b」というモデルを考える、ということです。
aが回帰係数で、bが切片ですね。
その時、ポアソン回帰と負の二項回帰のリンク関数はLogです。
よって回帰分析の時には、「Log(副作用の件数/追跡日数)=a*X + b」を考えることになります。
では「Log(副作用の件数/追跡日数)=a*X + b」を式展開してみましょう。
- Log(副作用の件数/追跡日数)=a*X + b
- Log(副作用の件数)-Log(追跡日数)=a*X + b
- Log(副作用の件数)=a*X + b + Log(追跡日数)
となり、副作用の件数をアウトカムにした場合、Log(追跡日数)は回帰係数が1の説明変数として考慮すれば良い、ということになるのです。
この、回帰係数が1の説明変数のことをオフセット項と呼んでいるのです。
まとめ
いかがでしたか?
この記事では「負の二項回帰モデルとは?ポアソン回帰との関連やオフセット項の解説も」と言うことでお伝えしました。
- 負の二項回帰モデルとはどんな解析手法?
- ポアソン回帰と負の二項回帰の関係は?
- オフセット項とはどんな役割を果たしているの?
ということが理解できたのなら幸いです!
コメント