欠損値(欠測値も同じ)は、生じる理由や前提から考えて、3 つに分けられるという話
欠損値とは
本来取得したかったデータで、取得できなかったデータのこと
もともと取得できない・取得しなかったデータも同じ扱いなので、同じように欠損値と呼んでも問題ない
欠損値は、計算できない特別な値が良い
計算できる数値を入れると、間違って計算してしまうからだ
エクセルの場合は空白にしておくのがよい
空白が、欠損である印になる
欠損値の分類
欠損値は、その発生のメカニズムから 3 つに分けられる
- Missing completely at random (MCAR)
- Missing at random (MAR)
- Missing not at random (MNAR)
この 3 つである
順に説明していく
MCAR
MCAR は、発生の理由が完全にランダムな場合
なので、MCAR はうっかりミスみたいなもので、想定しにくい状況
例:
- 治験のために来院したのだが、たまたま主要評価の検査値を測定し忘れ、再来院も実施しなかった
MAR
MAR は、欠損値の理由として、それまでの測定や他の変数と関係がある場合
Missing At Random なので、他の変数と関連はあるが、ランダムな欠損ということである
他の変数がなく、本当の意味でのランダムは、上記の MCAR のほうである
例:
- 治験において、前回の測定結果で、悪化している人だけ、その次から欠損値になっている
- ベースラインで、高齢の人だけ、ある時点から欠損値である
反復測定データの統計解析モデル、混合効果モデルは、この MAR を想定して計算していることになっている
MNAR
MNARは、欠損値になる時点の状況に関係しているのが、MNAR
例:
- 治験において、今回体の状態が悪く、そのため来院できず、欠損値になった
- 欠損値となった理由が、症状がなかったためで、あえて評価しなかった
まとめ
欠損値は、発生のメカニズムから、3 つに分けられる
そのうち Missing At Random(MAR)は、反復測定データを解析するモデルである混合効果モデルで前提となる考え方なので、覚えておくほうが良い
参考になれば
参考サイト
https://mstour.hatenablog.com/entry/2020/12/04/203708
https://mstour.hatenablog.com/entry/2021/03/03/210159
参考資料
https://www.pmda.go.jp/files/000161919.pdf
参考書籍
欠測データの統計科学
コメント