この記事では「欠測値(欠損値)とは?埋め方(補完方法)や対処法はある?」ということでお伝えしていきます。
データを解析する中で、厄介なのが欠測値ですよね。
この記事では
- そもそも欠測値(欠損値)とは?
- 欠測値の原因やメカニズムは?
- 欠測値の埋め方(補完方法)や対処法はある?
といったことをお伝えしていきますね!
Contents
欠測値(欠損値)って?

そもそも欠測値とは、本来得られるはずだったデータが得られていないことです。
例えば、下記のようなデータの黄色いセル。

全被験者からWeek4までデータを取りたかったのですが、被験者2ではWeek3とWeek4のデータが取られていません。
同様に、被験者3ではWeek3のデータが取られていません。
こういったデータのことを欠測値(欠損値)と呼んでいます。
欠測値があると何が問題なのか?
では、欠測値があると何が問題になるのでしょうか?
大きく分けると3つあります。
- 本来得られるはずだった解析結果が得られにくくなる
- データ数が少なくなる
- 試験の信頼性の問題になる
欠測値は「本来得られるはずだったデータが得られていない」ことですから、欠測のあるデータ全体で解析をしても、本来得たかった解析結果は得られにくいですよね。
そもそも欠測値をそのまま放置して解析をするとデータ数が少なくなるため、サンプルサイズの小ささにつながります。
また、多少の欠測はどの研究でもあり得るとは認識されていますが、欠測が多すぎるとその試験自体「大丈夫か!?」となってしまいます。
そのため、どれだけ欠測値への対処が適切でも、欠測値が多すぎれば意味がないことに。
なので大前提としては大前提として欠測を起こさないことが大事であることは念頭に置いておきましょう。
欠測値の原因は?欠測のメカニズム3パターン
そもそも欠測値の原因はどんなものがあるのでしょうか?
実は原因は様々です。
- 被験者が来院しなかった
- データの取得し忘れ
- データの入力し忘れ
- などなど
試験や研究は人が実施して、人を対象とするため、ヒューマンエラーは避けられないです。
そのため、多少の欠測があることは周知の事実だし、多少であれば欠測自体は特に指摘されることはありません。
そして、欠測値には3つのパターンがあるとされています。
- MCAR(Missing Completely At Random)
- MAR(Missing At Random)
- MNAR(Missing Not At Random)
理論上は、この3つのパターンがあるとされているのですが、実務上は、それほどこの3パターンを意識して解析することはありません。
なぜなら、欠測がどんなメカニズムだったのかの真相は誰にもわからないから。
実際に起こった欠測がどのパターンか分からないので、実務ではほとんどの場合MARを仮定して解析されることが多いイメージですね。
欠測値(欠損値)の埋め方・補完方法はある?埋め方以外に対処法は?

では欠測値が発生したとして、対処法や埋め方(補完方法)はあるのでしょうか?
大きく分けると3つほどあります。
- 単一補完(Single Imputation)
- 多重補完(Multiple Imputation)
- モデル解析(一般化線形混合モデル:Generalized Linear Mixed Model)
欠測値への対処方法1:単一補完(Single Imputation)
欠測値への対処方法として、まずは単一補完法があります。
単一補完とは「なにかしらの一つの値で補完する(欠測値を埋めてしまう)」という方法のこと。
例えば最も有名なのは、LOCF(Last Observation Carried Forward)ですかね。
これは、最後に得られたデータで欠測値を補完する、という方法のこと。

上記の通り、12週のデータが欠測だった場合には、最後に得られている8週のデータで補完してしまおう、というものですね。
しかしこの方法には強い仮定があります。
それは「最後に得られた値がそれ以降ずっと続く」という仮定。
本来、欠測じゃなければ得られたかもしれない値はもっと違うところにあったかもしれないですし、むしろその可能性の方が高いかもしれない。
そのため、欠測値が本来どのようなデータだったかは、誰も知らないので欠測への対処法にはかなり強い仮定が入るんだ、ということは理解しておいてください。
その他の単一補完法としては「ベストケースアナリシス」や「ワーストケースアナリシス」といったものがあります。
ベストケースアナリシスは、群間で一番差がつくように補完すること。
ワーストケースアナリシスは、群間で一番差がつかないように補完すること。
欠測値への対処方法2:多重補完(Multiple Imputation)
次の対処法は、多重補完法です。
先程の単一補完法は「一つのデータで埋めてしまう」という方法だったのですが、多重補完法はどういった方法でしょうか。
多重補完では以下の3つのことをやっています。
- 欠測値を代入したデータを複数個用意
- それぞれのデータに対して分析を実施
- 最終的にそれらの結果を統合して欠測値を補完
例えば、欠測値を補完した10個のデータを用意したとします。(10個じゃなくてもOK)
この時の補完方法は、乱数を使ったアルゴリズムに基づいた単一補完。
その10個に対して、やりたい解析を実施します。
すると解析結果が10個出てくるため、最終的にはそれを統合して1つの結果にしてしまいます。
欠測値への対処方法3:モデル解析(一般化線形混合モデル:Generalized Linear Mixed Model)
最後に紹介するのが、モデル解析。
一般化線形混合モデル、と言われているものです。
特に連続変数(量的データ)に対してはMMRM(Mixed Model Reapeated Measure)というような解析手法として知られていますね。
詳しいアルゴリズムなどは難しいので割愛しますが、理解しておいて頂きたいのは、この方法が欠測値を「補完」しているわけではないということ。
欠測値を考慮して解析はするが、あくまで補完法ではない、ということだけは理解しておきましょう。
欠測値(欠損値)への対処方法の大前提

ここまで、欠測値に関して整理してきました。
そして、欠測値に対しての対処方法もお伝えしました。
では、欠測値が起こっても対処方法があるんだから、欠測値はどうとでもなるし安心だ、と思ったら注意です!
なぜなら、欠測値への対処方法としてはどんな方法でも「これがベスト」という方法はないから。
冒頭でもお伝えしましたが、欠測じゃなかった時にどんな値だったか誰も知らないから、どれが対処方法として正解かもわからない。
そして欠測への対処方法には、強い仮定が入ることもお伝えしました。
そのため、仮定をずらしても同じ解析結果が得られるのか、という感度解析を実施することがとても重要。
感度解析として実施した複数の解析で結論が同じになれば、例え欠測があったとしても頑健性のあるデータだったということを主張できます。
まとめ

いかがでしたか?
この記事では「欠測値(欠損値)とは?埋め方(補完方法)や対処法はある?」ということでお伝えしました。
- そもそも欠測値(欠損値)とは?
- 欠測値の原因やメカニズムは?
- 欠測値の埋め方(補完方法)や対処法はある?
といったことが理解できたのなら幸いです!
こちらの内容は動画でもお伝えしていますので、併せてご確認くださいませ。
第1章:医学論文の書き方。絶対にやってはいけないことと絶対にやった方がいいこと
第2章:先行研究をレビューし、研究の計画を立てる
第3章:どんな研究をするか決める
第4章:研究ではどんなデータを取得すればいいの?
第5章:取得したデータに最適な解析手法の決め方
第6章:実際に統計解析ソフトで解析する方法
第7章:解析の結果を解釈する
もしあなたがこれまでに、何とか統計をマスターしようと散々苦労し、何冊もの統計の本を読み、セミナーに参加してみたのに、それでも統計が苦手なら…
私からプレゼントする内容は、あなたがずっと待ちわびていたものです。