Oops! It appears that you have disabled your Javascript. In order for you to see this page as it is meant to appear, we ask that you please re-enable your Javascript!
臨床試験(治験)で統計学が必要な理由

データの種類に応じた統計解析手法。量的データ質的データ生存時間データに関して

医薬統計で扱うデータの種類は多岐にわたり、そのデータの特性によって統計解析手法や検定手法が異なります。

主なデータは、量的データ(連続尺度)、質的データ(名義尺度)、生存時間データなどがあります。

この記事では、各データがどのような特性を持っているかを理解し、種類に応じてどのような統計解析手法が適用されるかを学びましょう。

 

データの種類

医薬統計において、扱うことが多いデータは大きく分けて3種類です。

 

  1. 量的データ(連続尺度)
  2. 質的データ(名義尺度)
  3. 生存時間データ

 

量的データや質的データは、医薬統計じゃなくても扱うことが多いです。

生存時間データに関しては、医薬統計で独特のデータかな、と思います。

 

次の章から、それぞれのデータがどのような特徴を持っており、それに応じてどのような統計学的な検定手法が採用されるのか、理解していきましょう。

 

スポンサーリンク

量的データ(連続尺度)とは?その統計解析手法

世の中で最もありふれているデータが量的データ(連続尺度)です。

量的データとは、身長や体重のように、精度の高い測定法によればいくらでも正確な値が得られるデータのことです。

実際は離散量であるが連続量として取り扱ってもかまわないようなものもあります。

例えば、試験の点数などは一般的に、90点や91点という値を取りますが、90.2点や90.8点という点数は取りえません。

ですが、そのような場合であっても連続データとして取り扱うと都合が良い場合が多いため、連続データとして扱います。

 

連続データのもう一つの特徴としては、データ上のどこであってもその間隔が同じ意味を持つ、ということです。

例えば身長であれば、150cmと155cmの間の5cmと、190cmと195cmの間の5cmは同じ意味を持ちます。

試験結果も、10点と30点の間の20点と、80点から100点の間の20点では、同じ意味を持ちます。

「データ上のどこであってもその間隔が同じ意味を持つ」という特徴は、当たり前のようなことではありますが、実はカテゴリカルデータとの違いを認識するために重要な特徴でもあります。

 

このような量的データに対しては、平均値や分散などの要約統計量を算出するのが望ましいですね

以下のような表を作成できれば、完璧です。

男性 女性
平均値(SD) XXX(XX) YYY(YY)
中央値 XXX YYY
範囲 XXX-XXX YYY-YYY
四分位範囲 XXX-XXX YYY-YYY
95%信頼区間 XXX-XXX YYY-YYY

 

また、グラフとしてはヒストグラムで正規分布に従っているかどうかを確認したり、箱ひげ図で中央値や四分位範囲を確認することがとても良いアプローチです。

そして、統計学的検定としては、パラメトリック検定ならT検定を、ノンパラメトリック検定であればウィルコクソン検定を実施することが良いです。

 

質的データ(名義尺度、カテゴリカルデータ)

次は、質的データ(名義尺度、カテゴリカルデータ)についてです。

カテゴリカルデータと聞いて、あなたはどのようなデータか想像できますか?

カテゴリカルデータの一例としては、性別が挙げられます。

男性というカテゴリと、女性というカテゴリに分けられますね。

性別のように数値化できないデータ、または、数値化したとしてもその数字の間隔に意味がないもののデータのことを、カテゴリカルデータと呼びます

 

例えば商品アンケートで「この商品の感想を教えてください」という設問に対し「良い、普通、悪い」という3つから選ぶとします。

その設問のアンケートデータを「3点、2点、1点」というように、点数化することもできますね。

ですが、この3点と2点の間の1点、もしくは2点と1点の間の1点に関して、同じ1点ですがその間隔は同じ意味を持つとは限りません

そのような場合、やはりカテゴリカルデータとして扱うほうが適切です。

 

カテゴリカルデータの要約方法は簡単です。

数と割合の二つを出力すれば、基本的には問題ありません

さらには、これらを表形式でまとめることをお勧めします。

分割表と呼ばれる表を作ることが、カテゴリカルデータのようやく方法としては適切です。

分割表の例としては、100人の男女に右利きか左利きかを聞いてみた結果の表が以下になります。

男性 女性 合計
右利き 43 44 87
左利き 9 4 13
合計 52 48 100

 

分割表から読み取れることはとても多いのですが、その詳細は別ページで解説していますので、そちらをご参照ください。

 

そして、カテゴリカルデータの統計学的な検定手法です。

2つあります。

  1. フィッシャーの正確確率検定
  2. カイ二乗検定

 

この2つさえ理解しておけば、全く問題ありません。

2つの検定の使い分けですが、分割表で5未満のセルがあれば、その時にはフィッシャーの正確確率検定を実施することが良いです。

それ以外の場合には、カイ二乗検定を実施することで問題ありません

 

 

スポンサーリンク

生存時間データ

医薬統計では、生存時間データというものを扱うことがあります。

がん領域を知っている方であれば恐らく知っているデータの種類だと思いますが、それ以外の方はあまりなじみがないかもしれません。

生存時間データを解析する統計手法を、生存時間解析、と呼びます。

生存時間解析を一言でいうと、その名の通り「時間」を解析する方法です。

 

時間は、「1時間」とか「75日」とか、連続データとして扱って解析しても良さそうです。

連続データとして扱えば、T検定やウィルコクソンの順位和検定を使えばいいですよね。

ではなぜわざわざ生存時間解析、というものを使うのでしょうか。

 

詳しくは生存時間解析の基礎のページで解説していますが、「イベント」と「打ち切り」という概念があるため、連続データとして扱うと不都合が出てきます。

そのため、生存時間解析という、また別の枠組みで解析する必要があるのです。

 

生存時間解析でのグラフとして有名なのが、カプランマイヤー曲線ですね。

カプランマイヤー曲線では、中央値やX年生存率が一目でわかる、かなり有用なグラフです。

下記のグラフが、カプランマイヤー曲線の一例です。

 

そして、検定としてはログランク検定と一般化ウィルコクソン検定が有名です。

「カプランマイヤー曲線」「ログランク検定」「一般化ウィルコクソン検定」の3つを理解していれば、最低限の生存時間解析は可能です。

 

カウントデータ

これはあまりなじみがないかもしれません。

生存時間データの目的の反応は、観測対象となる個体に、一度だけ起きる事象だとしました。

しかし、データによっては、複数回起きる事象があります。

 

例えば、血友病という病気は血が固まりにくく出血が起こりやすい病気です。

出血というのはその人に一度だけ起きるとは限らず、1年間に10回など、複数回起こりえますね。

そのような場合に、出血回数をカウントデータと呼ぶことがあります。

もちろん連続データとして扱うことも可能なのですが、カウントデータの性質として「観察期間に応じて回数は増える」という性質があります。

そのため、観察した期間を考慮して解析をしなければなりません。

また、このデータは、もし「初めての出血までの時間」というものに興味があるとき、生存時間データとして扱う必要があります。

 

まとめ

医薬統計を実施する上で、重要な「量的データ」「質的データ」「生存時間データ」「カウントデータ」の3種類(+1種類)のデータを紹介しました。

これらの扱い方がわかれば、医薬統計としてはほぼ網羅できますので、是非とも理解しましょう!

メルマガ登録

統計検定2級の解説付き

無料動画の統計授業

 

 

無料動画で統計を学びませんか?

 

・この数式、何を言っているのか全くわからない・・・ 

・統計を学びたいけど、何から手をつけていいのだろう・・・

・統計検定2級を受験したいけど、どう勉強したら・・・

・もう自力で統計を学ぶのに疲れました・・・

 

あなたはそんな悩みを抱えていませんか?

大丈夫です。

最後の手段があります。

どこにもない、統計の無料メールセミナー。