臨床研究などで同じ被験者から複数回データを取得する「繰り返し測定」。非常に有用なデザインですが、「途中でデータが取れなくなってしまった…」という欠測値の問題は常に悩みの種です。
特に、欠測のある被験者を除外するとサンプルサイズが半分になってしまうような状況では、研究の信頼性が大きく揺らぎかねません。
この記事では、そのような繰り返し測定データにおける欠測値の適切な考え方と、現代の統計学が推奨する最もパワフルな解決策「線形混合モデル(Linear Mixed Model)」について、専門家が分かりやすく解説します。
なぜ分散分析やフリードマン検定は「欠測に弱い」のか?
本ブログでこのような質問をいただきました。

欠測値の扱いにつきまして、現在、臨床データを用いて反復測定による一元配置分散分析またはフリードマン検定を行っているのですが、いくつか欠測値があり、扱いに困っています。
詳細は下記となります。
・n=30
・反復測定は4ポイント
・欠測値パターンが様々(1ポイント~4ポイント継続まで)
・欠測値のnを除外すると、欠測値の多い項目で半数(n=15)になってしまう。
吉田様のWeb記事より、除外がある検定だと、信頼性が失われる。それを補完という形で調整するとありました。上記の例ですと、具体的にどれぐらいの欠測値だと補完するべきなのか、例:(n1の中で1つの欠測値であれば補完調整OK、2つ以上だとNG)といった、判断基準はありますでしょうか。
従来、繰り返し測定データの分析には「反復測定分散分析」や「フリードマン検定」が使われてきました。
しかし、これらの手法には「1ポイントでも欠測があると、その被験者のデータをすべて除外する(リストワイズ除去)」という大きな欠点があります。
例えば、4時点のうち3時点の貴重なデータがあっても、1時点欠測しているだけで、その被験者の情報は分析から完全に消えてしまいます。
サンプルサイズが大幅に減少し、研究結果の信頼性や検出力(本当に差があることを見抜く力)が著しく低下する原因となります。
鍵は「なぜデータが欠けたか」:欠測のメカニズム
「欠測が何個以上ならダメ」という単純なルールはありません。より重要なのは、「なぜデータが欠損したのか」というメカニズムです。
- MCAR(完全にランダムな欠測): 完全に偶然にデータが欠けます。
- MAR(ランダムな欠測): 欠損の理由が、他の測定された変数に依存する場合。例えば、「ベースラインの重症度が高かった患者さんほど、後半の測定に来られなくなった」といったケースです。臨床研究の欠測は、多くがこのMARに分類されると考えられています。
- MNAR(ランダムでない欠測): 欠損の理由が、その測定値自身に依存する場合。例えば、「症状が悪化したので測定に来なくなった」など、最も対処が難しいケースです。
最善の解決策:「線形混合モデル(LMM)」を使おう!
この問題を解決するのが、線形混合モデル(Linear Mixed Model, LMM)です。
線形混合モデルは、欠測データを扱う上で、分散分析などに比べて圧倒的に優れた利点を持っています。
線形混合モデルの強力なメリット
線型混合モデルのメリットは以下の通りです。
- MARの仮定で分析可能 :欠測のメカニズムがMARである場合、特別な補完操作(多重代入法など)をせずとも、そのまま分析するだけで統計学的に妥当な結果が得られます。これは、モデルが他の時点のデータから欠損のパターンを考慮してくれるためです。
- 情報の最大活用 :1ポイントでもデータが存在する被験者の情報を、すべて分析に活用できます。被験者を一人も無駄にすることなく、検出力の低下を最小限に抑えることができます。
## まとめ:欠測に悩んだら、まず線-形混合モデルを
繰り返し測定データで欠測値に遭遇した場合、「何個までなら許容できるか」と悩むのではなく、まずは以下のステップで考えることをお勧めします。
- 欠測の理由を臨床的に考察し、MAR(ランダムな欠測)と仮定できないか検討する。
- 線形混合モデル(LMM)を分析手法の第一候補として採用する。
これにより、データの情報を最大限に活かした、より信頼性の高い分析が可能になります。
コメント