研究やデータ分析において、欠測値 (Missing Values) は避けて通れない問題である。データの一部が欠けていると、分析結果の信頼性が損なわれたり、偏った結論が導き出されたりする可能性がある。しかし、適切な対処法を知っていれば、この課題を克服し、より正確で堅牢な分析を行うことができる。
この記事では、欠測値の種類に応じた基本的な対処法と、アウトカム測定回数に応じた具体的なアプローチについて解説する。それぞれの方法がどのような状況で適用され、どのようなキーワードでさらに深く学べるかを明らかにしている。
欠測値の対処法概略:MARとMNAR
欠測値への対処法を考える上で最も重要なのが、欠測メカニズムを理解することである。欠測メカニズムは大きく分けて、MAR (Missing At Random) とMNAR (Missing Not At Random) の2種類がある。
MAR(Missing At Random):欠測が他の観測変数に依存する場合
MAR は、「欠測が、観測されている他の変数によって説明できる」状態を指す。つまり、データが欠測しているかどうかは、そのデータ自体ではなく、すでに手元にある別の情報から予測できる可能性がある、ということである。例えば、アンケートで特定の質問に回答しない傾向が、回答者の年齢や性別といった他の情報と関連している場合などがMARに該当する。MARは、完全にランダムに欠測するMCAR (Missing Completely At Random) を含む、比較的「扱いやすい」欠測メカニズムとされている。
MARを仮定できる場合の対処法は多岐にわたるが、特に代表的なものとして以下のキーワードが挙げられる。
- 多重代入法 (Multiple Imputation; MI):欠測値を複数の「もっともらしい」値で補完し、それぞれの補完データセットで分析を行い、結果を統合する方法である。最も推奨されるアプローチの一つであり、RやPythonのパッケージで簡単に実行できる。
- 最尤推定法 (Maximum Likelihood Estimation; MLE):欠測値を直接補完するのではなく、観測されているデータのみを用いて、モデルのパラメータを直接推定する方法である。構造方程式モデリング (Structural Equation Modeling; SEM) などでよく用いられる。
MNAR(Missing Not At Random):欠測が欠測している値そのものに依存する場合
MNAR は、「欠測が、欠測している値そのものに依存する」状態を指す。例えば、収入に関する質問で、収入が低い人ほど回答しない傾向がある場合などがMNARに該当する。この場合、観測されているデータだけでは欠測のメカニズムを完全に説明できないため、MARの場合よりも対処が難しくなる。
MNARに対する対処法は、MARよりも複雑で、追加の仮定やモデル化が必要になることがほとんどである。具体的なキーワードとしては以下のようなものがある。
- 選択モデル (Selection Models):欠測の有無を予測するモデルと、アウトカムを予測するモデルを同時に推定する方法である。Heckmanモデルなどが有名である。
- パターン混合モデル (Pattern Mixture Models):欠測パターンごとにデータを分けて分析し、欠測パターン間の関係性をモデル化する方法である。
- 感度分析 (Sensitivity Analysis):異なるMNARの仮定を置いて分析を行い、結果がどの程度変化するかを確認する方法である。これは、特定のMNARモデルを仮定するのではなく、様々な可能性を検討することで分析の頑健性を評価するアプローチである。
- 混合モデル拡張 (Extended Mixed Models):通常の混合モデルに、欠測メカニズムを説明する要素を組み込むことで、MNARの状況に対応しようとするアプローチである。この手法では、欠測の確率自体が、欠測している値に依存するという仮定をモデル内に組み込む。例えば、縦断研究において、ある時点でのアウトカムが欠測する確率が、その時点での実際の(観測されていない)アウトカム値に依存する場合に適用される。このアプローチは、より複雑な統計モデリングを必要とするが、MNARの欠測メカニズムによるバイアスを軽減する可能性を秘めている。
アウトカム測定回数と欠測値対処法
アウトカム(結果変数)の測定回数によっても、適切な欠測値の対処法は異なる。
1回もしくは2回測定アウトカムの場合
アウトカムが1回または2回の測定の場合、一般的には横断研究や介入研究の前後比較といった状況が考えられる。
MARを仮定できる場合:
- 多重代入法 (Multiple Imputation; MI):最も推奨される方法である。例えば、介入研究においてベースラインと最終測定の2回データがある場合、最終測定で欠測値がある被験者に対し、ベースラインの情報やその他の共変量を用いて欠測値を補完する。
- 完全ケース分析 (Complete Case Analysis; CCA):欠測値を含むケースをすべて分析から除外する方法である。シンプルだが、データが失われるため、情報の損失が大きく、バイアスが生じる可能性が高い。特に欠測が多い場合には推奨されない。
- リストワイズ削除 (Listwise Deletion):CCAと同義である。
- ペアワイズ削除 (Pairwise Deletion):分析ごとに利用可能なデータを使用する方法である。例えば、変数Aと変数Bの相関を計算する際には、その2つの変数に欠測がないケースのみを使用する。個々の分析では多くのデータを利用できるが、結果の一貫性が失われる可能性がある。
MNARを考慮する場合:
- 選択モデル (Selection Models):特に、選択バイアスが懸念される場合に有効である。
- 感度分析 (Sensitivity Analysis):さまざまなMNARのシナリオを想定し、分析結果の頑健性を確認する。
3回以上測定アウトカムの場合
アウトカムが3回以上測定される場合、縦断研究やパネルデータ分析といった時系列データが対象となる。欠測が時間の経過とともに発生する可能性があるため、より洗練されたモデルが必要になる。
MARを仮定できる場合:
- 多重代入法 (Multiple Imputation; MI) with Longitudinal Data:縦断データに特化した多重代入法を用いることで、時系列の構造を考慮した上で欠測値を補完できる。特に鎖状方程式による多重代入 (Multivariate Imputation by Chained Equations; MICE) は、縦断データの欠測値補完に広く用いられる。
- 混合モデル (Mixed Models) / 線形混合モデル (Linear Mixed Models; LMM):個々の被験者の時間の経過による変化をモデル化する手法である。混合モデルは、観測されたデータのみに基づいてパラメータを推定するため、MARの仮定の下では効率的な推定が可能である。欠測値を直接補完する必要がないため、近年ではこの方法が主流となっている。
- 一般化推定方程式 (Generalized Estimating Equations; GEE):反復測定データにおける平均の変化をモデル化する際に用いられる。混合モデルと同様に、観測されたデータのみを使用する。
MNARを考慮する場合:
- パターン混合モデル (Pattern Mixture Models):欠測パターン(例えば、途中でデータが欠測し始めるパターン)ごとに異なるモデルを構築し、それらを統合する方法である。
- 混合モデル拡張 (Extended Mixed Models):通常の混合モデルに、欠測メカニズムを説明する要素を組み込むことで、非ランダムな欠測メカニズムに対応する。例えば、ある特定の時点でデータが欠測する確率を、その時点での真のアウトカム値や、欠測の原因となる未観測の要因(潜在変数)に依存するものとしてモデルに組み込むことができる。これは、共同モデリング (Joint Modeling) と呼ばれるアプローチの一部を構成することもあり、アウトカムのモデルと欠測プロセスのモデルを同時に推定する。これにより、欠測がアウトカム自体に影響を与えている可能性を考慮し、より正確な推定を目指す。この手法は統計ソフトウェアで実装されているが、モデルの複雑さが増すため、専門的な知識が要求される。
- 感度分析 (Sensitivity Analysis):縦断データにおいても、異なるMNARの仮定の下での感度分析は不可欠である。
まとめ
欠測値への対処は、データ分析の質を大きく左右する重要なステップである。欠測メカニズム(MARかMNARか)、アウトカムの測定回数、そして研究目的を総合的に考慮し、適切な方法を選択することが求められる。
欠測メカニズム | アウトカム測定回数 | 主な解析法のキーワード例 |
MAR | 1回もしくは2回 | 多重代入法 (MI)、最尤推定法 (MLE)、リストワイズ削除、ペアワイズ削除 |
MAR | 3回以上 | 多重代入法 (MI) with Longitudinal Data、混合モデル (Mixed Models)、線形混合モデル (LMM)、一般化推定方程式 (GEE) |
MNAR | いずれの場合も | 選択モデル (Selection Models)、パターン混合モデル (Pattern Mixture Models)、感度分析 (Sensitivity Analysis)、Heckmanモデル、混合モデル拡張 (Extended Mixed Models) |
例えば、ある教育介入研究で、生徒の学力テストの結果を介入前、介入後3ヶ月、介入後6ヶ月の3回測定し、一部の生徒が途中でテストを受けられなくなったとする。
- もし、テストを受けられなかった理由が、欠席が多かったことなど、他の観測変数(欠席日数など)で説明できるのであれば、MARを仮定し、線形混合モデル (LMM) や縦断データに特化した多重代入法 (MI with Longitudinal Data) を用いることが考えられる。
- もし、テストを受けられなかった理由が、学力が低い生徒ほどテストを避ける傾向があるなど、テスト結果そのものに起因する可能性があるのであれば、MNARを考慮し、パターン混合モデルや混合モデル拡張、そして感度分析を検討する必要がある。
欠測値の対処法は奥深く、常に進化している。この記事が、あなたのデータ分析における欠測値の問題に取り組むきっかけとなり、より信頼性の高い研究成果を得るための一助となれば幸いである。
コメント