医薬品開発における統計手法としては、とてもメジャーになった生存時間解析。
カプランマイヤー曲線も有名で、生存時間解析とセットで出てきますよね。
がん領域で使われることの多い解析手法のため、「生存時間」という名称がとてもしっくりきます。
ですが実は、生存時間解析は「生存/死亡」データ以外にも適用可能。
このページでは、そんな生存時間解析やカプランマイヤー曲線をわかりやすく解説します。
生存時間解析とは?「時間」を解析するユニークな解析
生存時間解析を一言でいうと、その名の通り「時間」を解析する方法です。
時間は、「1時間」とか「75日」とかですよね。
普通に考えると、連続量として扱って解析しても良さそうです。
連続量として扱えば、T検定やウィルコクソンの順位和検定を使えばいいですよね。
ではなぜわざわざ生存時間解析、というものを使うのでしょうか。
生存時間解析で重要なイベントという概念
なぜわざわざ生存時間解析を使う必要があるのか。
それを理解するためには、「イベント」という概念を理解する必要があります。
イベントの定義は「その研究内で1度だけ起こる事象」です。
例えば、「死亡」はイベントの定義に当てはまります。
2回以上死亡する人はいないからですね。
その他にも、「初回骨折」も1度だけ起こる事象です。
骨折は複数回起こる可能性がありますが、「初回」に限定すると1度しか起こりません。
そうなると「初回」をつければ何でもイベントになるか、と思いますよね。
・・・正解です!!
初回は、絶対1度しか起こりません。
なので、全部に「初回」をつけてしまえば、それはイベントになります。
- 初回の有害事象発現
- 初回の骨折
- 初回の感染症への観戦
- etc…
では話を戻して、なぜ生存時間解析でイベントの概念が必要になるのか。
それは、生存時間解析が「イベントまでの時間」を扱う解析手法だからです。
生存時間解析でもう一つ重要な概念である打ち切り
生存時間解析で、イベントという概念が重要だと学びました。
もう一つだけ、重要な概念があります。
それは、「打ち切り」です。
打ち切りは教科書的に様々な定義がされていますが、ここでは誤解を恐れずに簡単に定義します。
打ち切りの定義は「イベントが起こっていないこと」です。
例を使いましょう。
例えば、イベントとして死亡を定義し、死亡までの時間を解析したいとします。
そして、試験の期間は2年間とします。
10人を集めて試験をした時、2年後までに死亡してしまう方が3人いたとします。
そして5人が生存したまま試験期間を終了し、残りの2名が途中で何らかの理由で試験を辞めてしまいました。
その時に、それぞれ以下の3つのカテゴリに10人を分けることができます。
- 死亡した人
- 死亡しておらず試験期間を完了した人
- 死亡しておらず試験期間完了前に辞めた人
この時、「死亡した人」はイベントを起こしたとして解析できます。
では、他の2つのカテゴリに入る人のデータは、どう扱えばよいでしょうか?
つまり、「死亡しておらず試験期間を完了した人」と「死亡しておらず試験期間完了前に辞めた人」は、どう扱うべきでしょうか?
データが得られた最後の時点を死亡として扱いますか?
でも死亡として扱うと、実際には生存しているので、現実とは異なるデータになってしまいます。
生存しているのに死亡していると扱ってしまうと、結果に偏り(バイアス)が出てしまいます。
そのため生存時間解析では、この「死亡しておらず試験期間を完了した人」と「死亡しておらず試験期間完了前に辞めた人」を「打ち切りデータ」として扱います。
イベントは起きていない。
でも、それ以降のデータはない。
そのため「得られているデータの時点まではイベントが起きていないデータ」として扱うことができます。
これを「打ち切りデータ」と呼んでいるのです。
生存時間解析は、打ち切りを考慮しながらイベントまでの時間を解析できる方法
以上の話をまとめると、生存時間解析はこのように言い換えることができます。
生存時間解析:打ち切りを考慮しながらイベントまでの時間を解析できる方法
例えば、全てのデータがイベントを起こしていて、打ち切りのデータが存在しない時。
この場合には、イベントまでの時間を連続量として扱い、T検定やウィルコクソンの順位和検定をすることも許されます。
だって、打ち切りがないので、別に難しい生存時間解析をしなくていいですよね。
なので生存時間解析では、「イベント」と「打ち切り」の両方のデータがある場合にとても便利な方法と言えます。
生存時間解析を可視化する:カプランマイヤー曲線
この生存時間解析に関して、可視化(グラフ)できる方法があります。
上記のようなグラフですね。
カプランマイヤー曲線は、データを読み取るのにかなり有意義なグラフです。
そして、カプランマイヤー曲線を正確に読み取るには、先ほどの「イベント」と「打ち切り」を正確に理解する必要があります。
生存時間をEZRで実践する
生存時間解析をEZRで実践する方法を、別記事で解説しています。
EZRとは無料の統計ソフトであるRを、SPSSやJMPなどのようにマウス操作だけで解析を行うことができるソフトです。
EZRもRと同様に完全に無料であるため、統計解析を実施する誰もが実践できるソフトになっています。
2019年5月の時点で英文論文での引用回数が2400回を超えているとのことで、論文投稿するための解析ソフトとしても申し分ありません。
これを機に、EZRで統計解析を実施してみてはいかがでしょうか?
まとめ
生存時間解析は、打ち切りを考慮しながらイベントまでの時間を解析できる方法。
イベントの定義は、1度だけ起こる事象。
打ち切りの定義は、イベントが起こっていないこと。
生存時間解析に関して動画でも解説していますので、合わせてご確認いただけると理解が進むはずです。
コメント
コメント一覧 (10件)
[…] わかりやすい生存時間解析 […]
[…] 一番優しい、医薬品開発に必要な統計学の教本 生存時間解析って何?特徴を分かりやすく説明! […]
[…] では、生存時間解析の特徴は何だったでしょうか? […]
[…] 医薬統計では必須となりつつある、生存時間解析。 […]
[…] >>生存時間解析とはどんな解析手法? […]
[…] >>>生存時間解析とは?カプランマイヤー曲線の理解に重要な入門知識 […]
[…] 生存時間解析で2群の生存率を比較するときに非常に便利な解析なのですが、比例ハザード性というものが成立していないと使えません。 […]
[…] ハザードという指標は生存時間解析で使われている指標で、定義としては「単位時間あたりのイベント発生率」になります。 […]
[…] いわゆる、通常の生存時間解析として考える、ということ。 […]
[…] そして、複合イベント発生までの「時間」を解析したい場合には、生存時間解析の枠組みで解析されます。 […]