質的データ量的データとは?分割表など分析手法を具体例でわかりやすく

質的データ量的データとは?分割表などデータの種類に応じた統計解析手法

医薬統計で扱うデータの種類は多岐にわたり、そのデータの特性によって統計解析手法や検定手法が異なります。

逆に言えば、データの種類が決まれば自ずと解析手法も変わるということ。

主なデータの種類は、量的データ(連続尺度)、質的データ(名義尺度)、生存時間データなどがあります。

この記事では、各データがどのような特性を持っているかを理解し、データの種類に応じてどのような統計解析手法が適用されるかを学びましょう。

 

>>もう統計で悩むのは終わりにしませんか? 

↑期間・数量限定で無料プレゼント中!

目次

質的データや量的データとは?具体例を用いてわかりやすく解説!

質的データや量的データとは?データの種類はどれだけある?

医薬統計において、扱うことが多いデータは大きく分けて3種類です。

 

  1. 量的データ(連続尺度、連続データ)
  2. 質的データ(名義尺度、カテゴリカルデータ)
  3. 生存時間データ

 

量的データや質的データは、医薬統計じゃなくても扱うことが多いです。

生存時間データに関しては、医薬統計で独特のデータかな、と思います。

 

次の章から、それぞれのデータがどのような特徴を持っており、それに応じてどのような統計学的な検定手法が採用されるのか、理解していきましょう。

 

データの種類1:量的データ(連続尺度、連続データ)とは?その統計解析手法

世の中で最もありふれているデータが量的データ(連続尺度)です。

量的データとは、身長や体重のように、精度の高い測定法によればいくらでも正確な値が得られるデータのことです。

実際は離散量であるが連続量として取り扱ってもかまわないようなものもあります。

例えば、試験の点数などは一般的に、90点や91点という値を取りますが、90.2点や90.8点という点数は取りません。

ですが、そのような場合であっても連続データとして取り扱うと都合が良い場合が多いため、連続データとして扱います。

 

連続データのもう一つの特徴としては、データ上のどこであってもその間隔が同じ意味を持つ、ということです。

例えば身長であれば、150cmと155cmの間の5cmと、190cmと195cmの間の5cmは同じ意味を持ちます。

試験結果も、10点と30点の間の20点と、80点から100点の間の20点では、同じ意味を持ちます。

「データ上のどこであってもその間隔が同じ意味を持つ」という特徴は、当たり前のようなことではありますが、実はカテゴリカルデータとの違いを認識するために重要な特徴でもあります。

 

このような量的データに対しては、平均値や分散などの要約統計量を算出するのが望ましいですね

以下のような表を作成できれば、完璧です。

男性 女性
平均値(SD) XXX(XX) YYY(YY)
中央値 XXX YYY
範囲 XXX-XXX YYY-YYY
四分位範囲 XXX-XXX YYY-YYY
95%信頼区間 XXX-XXX YYY-YYY

 

また、グラフとしてはヒストグラムで正規分布に従っているかどうかを確認したり、箱ひげ図で中央値や四分位範囲を確認することがとても良いアプローチです。

そして、統計学的検定としては、パラメトリック検定ならT検定を、ノンパラメトリック検定であればウィルコクソン検定を実施することが良いです。

 

データの種類2:質的データ(名義尺度、カテゴリカルデータ)とは?分割表作成が重要

次は、質的データ(名義尺度、カテゴリカルデータ)についてです。

カテゴリカルデータと聞いて、あなたはどのようなデータか想像できますか?

カテゴリカルデータの一例としては、性別が挙げられます。

男性というカテゴリと、女性というカテゴリに分けられますね。

性別のように数値化できないデータ、または、数値化したとしてもその数字の間隔に意味がないもののデータのことを、カテゴリカルデータと呼びます

 

例えば商品アンケートで「この商品の感想を教えてください」という設問に対し「良い、普通、悪い」という3つから選ぶとします。

その設問のアンケートデータを「3点、2点、1点」というように、点数化することもできますね。

ですが、この3点と2点の間の1点、もしくは2点と1点の間の1点に関して、同じ1点ですがその間隔は同じ意味を持つとは限りません

そのような場合、やはりカテゴリカルデータとして扱うほうが適切です。

 

カテゴリカルデータの要約方法は簡単です。

数と割合の二つを出力すれば、基本的には問題ありません

さらには、これらを表形式でまとめることをお勧めします。

分割表と呼ばれる表を作ることが、カテゴリカルデータの要約方法としては適切です。

分割表の例としては、100人の男女に右利きか左利きかを聞いてみた結果の表が以下になります。

男性 女性 合計
右利き 43 44 87
左利き 9 4 13
合計 52 48 100

 

分割表から読み取れることはとても多いのですが、その詳細は別ページで解説していますので、そちらをご参照ください。

 

そして、カテゴリカルデータの統計学的な検定手法です。

2つあります。

  1. フィッシャーの正確確率検定
  2. カイ二乗検定

 

この2つさえ理解しておけば、全く問題ありません。

2つの検定の使い分けですが、分割表で5未満のセルがあれば、その時にはフィッシャーの正確確率検定を実施することが良いです。

それ以外の場合には、カイ二乗検定を実施することで問題ありません

ただ、理解の仕方としては「サンプルサイズが小さい時にカイ二乗検定はNG。サンプルサイズが小さくても大きくてもフィッシャーの正確確率検定はいつでも使ってOK」という理解をしていただければと思います。

多変量解析としては、ロジスティック回帰分析を使うことになります。

 

データの種類3:生存時間データ

医薬統計では、生存時間データというものを扱うことがあります。

がん領域を知っている方であれば恐らく知っているデータの種類だと思いますが、それ以外の方はあまりなじみがないかもしれません。

生存時間データを解析する統計手法を、生存時間解析、と呼びます。

生存時間解析を一言でいうと、その名の通り「時間」を解析する方法です。

 

時間は、「1時間」とか「75日」とか、連続データとして扱って解析しても良さそうです。

連続データとして扱えば、T検定やウィルコクソンの順位和検定を使えばいいですよね。

ではなぜわざわざ生存時間解析、というものを使うのでしょうか。

 

詳しくは生存時間解析の基礎のページで解説していますが、「イベント」と「打ち切り」という概念があるため、連続データとして扱うと不都合が出てきます。

そのため、生存時間解析という、また別の枠組みで解析する必要があるのです。

 

生存時間解析でのグラフとして有名なのが、カプランマイヤー曲線ですね。

カプランマイヤー曲線では、中央値やX年生存率が一目でわかる、かなり有用なグラフです。

下記のグラフが、カプランマイヤー曲線の一例です。

 

そして、検定としてはログランク検定と一般化ウィルコクソン検定が有名です。

多変量解析としてはCox比例ハザードモデルですよね。

「カプランマイヤー曲線」「ログランク検定」「一般化ウィルコクソン検定」「Cox比例ハザードモデル」の4つを理解していれば、最低限の生存時間解析は可能です。

 

データの種類4:カウントデータ

これはあまりなじみがないかもしれません。

生存時間データの目的の反応は、観測対象となる個体に、一度だけ起きる事象だとしました。

しかし、データによっては、複数回起きる事象があります。

 

例えば、血友病という病気は血が固まりにくく出血が起こりやすい病気です。

出血というのはその人に一度だけ起きるとは限らず、1年間に10回など、複数回起こりえますね。

そのような場合に、出血回数をカウントデータと呼ぶことがあります。

もちろん連続データとして扱うことも可能なのですが、カウントデータの性質として「観察期間に応じて回数は増える」という性質があります。

そのため、観察した期間を考慮して解析をしなければなりません。

また、このデータは、もし「初めての出血までの時間」というものに興味があるとき、生存時間データとして扱う必要があります。

 

質的データや量的データに関するまとめ

質的データや量的データに関するまとめ

医薬統計を実施する上で、重要な「量的データ」「質的データ」「生存時間データ」「カウントデータ」の3種類(+1種類)のデータを紹介しました。

これらの扱い方がわかれば、医薬統計としてはほぼ網羅できますので、是非とも理解しましょう!

>>2群のデータはどうやって解析する?

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

リサーチクエスチョン探し?データ分析?論文投稿?、、、で、もう悩まない!

第1章臨床研究ではなぜ統計が必要なのか?計画することの重要性
  • 推定ってどんなことをしているの?
  • 臨床研究を計画するってどういうこと?
  • どうにかして標本平均を母平均に近づけられないか?
第2章:研究目的をどれだけ明確にできるのかが重要
  • データさえあれば解析でどうにかなる、という考え方は間違い
  • 何を明らかにしたいのか? という研究目的が重要
  • 研究目的は4種類に分けられる
  • 統計専門家に相談する上でも研究目的とPICOを明確化しておく
第3章:p値で結果が左右される時代は終わりました
  • アメリカ統計協会(ASA)のp値に関する声明で指摘されていること
  • そうは言っても、本当に有意差がなくてもいいの…?
  • なぜ統計専門家はp値を重要視していないのか
  • 有意差がない時に「有意な傾向があった」といってもいい?
  • 統計を放置してしまうと非常にまずい
第4章:多くの人が統計を苦手にする理由
  • 残念ながら、セミナー受講だけで統計は使えません。
  • インプットだけで統計が使えない理由
  • どうやったら統計の判断力が鍛えられるか?
  • 統計は手段なので正解がないため、最適解を判断する力が必要
第5章:統計を使えるようになるために今日から何をすれば良いか?
  • 論文を読んで統計が使えるようになるための5ステップ
第6章:統計を学ぶために重要な環境
  • 統計の3つの力をバランスよく構築する環境

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

コメント

コメント一覧 (14件)

コメントする

目次