この記事では「負の二項回帰モデルとは?ポアソン回帰との関連やオフセット項の解説も」ということでお伝えします。
論文を読むと、たまに負の二項回帰モデル(Negative Binomial Regression Model)なるものが出てくることがあります。
あまりみない解析なので、「どんな解析手法?」と思いますよね。
そのためこの記事では
- 負の二項回帰モデルとはどんな解析手法?
- ポアソン回帰と負の二項回帰の関係は?
- オフセット項とはどんな役割を果たしているの?
ということをわかりやすく解説します!
負の二項回帰モデル(Negative Binomial Regression Model)とは?

負の二項回帰モデル(Negative Binomial Regression:NB回帰)は、カウントデータを解析する時に使う解析手法です。
連続データやカテゴリカルデータなどは比較的身近なデータですが、カウントデータはどんなデータでしょうか?
負の二項回帰で扱うカウントデータとは?
カウントデータとは、イベントの有無だけではなく、イベントの回数に着目したデータのこと。
例えば、副作用の発現の有無、である場合には2値のカテゴリカルデータです。
ですが、副作用の発現回数、となるとカウントデータになります。
副作用の発現回数は、1件、2件、3件、、、のようにカウントできますから。
また、出血の回数もカウントデータですね。
「出血の有無」だけだとカテゴリカルデータですが、「出血の回数」はカウントデータになります。
>>例数と件数の違い
ポアソン回帰:カウントデータの場合に使う最も有名な回帰分析
カウントデータがどんなデータなのか理解できたところで、カウントデータに対する解析手法を紹介します。
実は、カウントデータの解析で最も有名なのは負の二項回帰ではなく、ポアソン回帰です。
ポアソン分布をちょっとだけ復習すると、以下の2つの特徴がある分布です。
- ポアソン分布は、二項分布の試行回数nが十分に大きく、確率が非常に小さいとき、従う分布。
- ポアソン分布では、平均値も分散もλとなる
特に「平均値も分散もλ」という特徴は重要で、この特徴が負の二項回帰モデルと最も差別化される特徴だからです。
負の二項回帰とポアソン回帰との違いは?
ポアソン回帰まで理解できたところで、負の二項回帰です。
負の二項回帰を一言で言えば、ポアソン分布よりも分散が大きいと考えられる時に使う回帰分析なのです。
そのため「ポアソン分布よりも分散が大きい時」という特徴以外は、ポアソン回帰と同じ状況で使える回帰分析なんだな、というイメージを持ってもらってOKです。
なので、ポアソン回帰と負の二項回帰は親戚みたいなものですね。
負の二項回帰モデルに出てくるオフセット項をわかりやすく解説

負の二項回帰がどんなデータに対して使われるかが整理できたところで、次に理解すべきは「オフセット項」に関してです。
ポアソン回帰でも負の二項回帰でも共通の話題として出てくる「オフセット項」。
少々わかりづらい概念かなと思うので、具体的に解説したいと思います。
オフセット項を一言でいうと?
オフセット項を一言でいえば「回帰係数が1に固定された説明変数」ということ。
つまり、回帰係数の推定自体に全く興味はないんだけど、アウトカムに影響を与える変数なので説明変数として入れる、ということです。
なぜこのような説明変数が必要なのでしょうか?
例えば、「副作用の件数を比較したい」と思った場合、副作用の件数はあるものに左右されます。
それは「追跡できた日数」です。
A群とB群の比較で「A群の方が副作用の件数が少ない」という結論が出たとしても、結果的にA群の方が追跡日数が短かったら、その結論には疑問符がつきますよね。
そのため、カウントデータ(今回の場合、副作用の件数)に対して影響を与える影響要因(今回の場合、追跡日数)を考慮しなければならない、ということになります。
では、この影響要因に対処するアイデアはどんなものがあるでしょうか?
2つ考えられます。
- 割り算したものをアウトカムにする
- オフセットとして考慮する
1つ目のアイデア:割り算したものをアウトカムにする
1つ目のアイデアは単純ですし、直感的にわかりやすいです。
アウトカムを「副作用の件数/追跡日数」にしてしまえば良い、という考え方ですね。
そうすれば追跡日数を考慮する、という点はクリアできます。
でも。。
この「副作用の件数/追跡日数」には大きな問題点があるのです。
その問題点とは「分母の値(追跡日数)が違うのに同じ値として考慮していいのか?」という問題。
つまり、副作用の発生が0でも、1日追跡して0なのか、365日追跡して0なのか、同じ「0」でも情報は全く違う、ということ。
割り算で対処すると、どちらも「0」というアウトカムで解析することになってしまうので、それはいいの?ということになりかねません。
そのため、割り算で出てきた問題点を解決するためにオフセット項という2つ目のアイデアが出てくるのです。
2つ目のアイデア:オフセット項にする
オフセット項にする場合の考え方のスタートは同じく、アウトカムを「副作用の件数/追跡日数」にしたい、です。
そして、説明変数がXだけのモデルを考えましょう。
つまり、「副作用の件数/追跡日数 = a*X + b」というモデルを考える、ということです。
aが回帰係数で、bが切片ですね。
その時、ポアソン回帰と負の二項回帰のリンク関数はLogです。
よって回帰分析の時には、「Log(副作用の件数/追跡日数)=a*X + b」を考えることになります。
では「Log(副作用の件数/追跡日数)=a*X + b」を式展開してみましょう。
- Log(副作用の件数/追跡日数)=a*X + b
- Log(副作用の件数)-Log(追跡日数)=a*X + b
- Log(副作用の件数)=a*X + b + Log(追跡日数)
となり、副作用の件数をアウトカムにした場合、Log(追跡日数)は回帰係数が1の説明変数として考慮すれば良い、ということになるのです。
この、回帰係数が1の説明変数のことをオフセット項と呼んでいるのです。
負の二項回帰の解析結果として得られるのは発生率比(IRR)
負の二項回帰はカウントデータで扱う解析であること、そして、追跡期間を考慮するためにオフセット項が重要であることを学びました。
では、負の二項回帰で得られる解析結果は何でしょうか?
結論から言えば、発生率比(Incidence Rate Ratio:IRR)になります。
復習ですが、負の二項回帰は、来院回数や事故件数といった「回数」を分析する手法です。しかし、人によって観察期間(追跡期間)が違うと、単純に回数を比べられませんよね。
そこで、観察期間の違いを「オフセット項」として調整します。これにより、分析は単なる回数の比較から、「発生率(単位時間あたりの発生しやすさ)」の比較へと変わります。
この発生率をグループ間で比べた結果が「発生率比(Incidence Rate Ratio: IRR)」です。
例えばIRRが2なら、「あるグループは基準のグループより、2倍イベントが起こりやすい」と解釈できます。
実際の研究では、年齢、性別、重症度など、結果に影響を与えうる様々な要因(共変量、交絡因子)があります。
負の二項回帰のような統計モデルを使うと、これらの共変量の影響を調整したうえで、より精緻なIRRを推定できます。
モデルから得られる回帰係数(β)を指数変換(eβ)することで、調整済みのIRRが算出されます。
このように、発生率比(IRR)は、観察期間が異なるデータのイベントの起こりやすさを公平に比較するための、非常に強力で重要な指標です。
まとめ

いかがでしたか?
この記事では「負の二項回帰モデルとは?ポアソン回帰との関連やオフセット項の解説も」ということでお伝えしました。
- 負の二項回帰モデルとはどんな解析手法?
- ポアソン回帰と負の二項回帰の関係は?
- オフセット項とはどんな役割を果たしているの?
ということが理解できたのなら幸いです!
コメント