質的データ量的データとは？分割表など分析手法を具体例でわかりやすく

2023年2月7日

医薬統計で扱うデータの種類は多岐にわたり、そのデータの特性によって統計解析手法や検定手法が異なります。

逆に言えば、データの種類が決まれば自ずと解析手法も変わるということ。

主なデータの種類は、量的データ（連続尺度）、質的データ（名義尺度）、生存時間データなどがあります。

この記事では、各データがどのような特性を持っているかを理解し、データの種類に応じてどのような統計解析手法が適用されるかを学びましょう。

＞＞もう統計で悩むのは終わりにしませんか？

↑1万人以上の医療従事者が購読中

質的データや量的データとは？具体例を用いてわかりやすく解説！

医薬統計において、扱うことが多いデータは大きく分けて3種類です。

量的データ（連続尺度、連続データ）
質的データ（名義尺度、カテゴリカルデータ）
生存時間データ

量的データや質的データは、医薬統計じゃなくても扱うことが多いです。

生存時間データに関しては、医薬統計で独特のデータかな、と思います。

次の章から、それぞれのデータがどのような特徴を持っており、それに応じてどのような統計学的な検定手法が採用されるのか、理解していきましょう。

データの種類1：量的データ（連続尺度、連続データ）とは？その統計解析手法

世の中で最もありふれているデータが量的データ（連続尺度）です。

量的データとは、身長や体重のように、精度の高い測定法によればいくらでも正確な値が得られるデータのことです。

実際は離散量であるが連続量として取り扱ってもかまわないようなものもあります。

例えば、試験の点数などは一般的に、90点や91点という値を取りますが、90.2点や90.8点という点数は取りません。

ですが、そのような場合であっても連続データとして取り扱うと都合が良い場合が多いため、連続データとして扱います。

連続データのもう一つの特徴としては、データ上のどこであってもその間隔が同じ意味を持つ、ということです。

例えば身長であれば、150cmと155cmの間の5cmと、190cmと195cmの間の5cmは同じ意味を持ちます。

試験結果も、10点と30点の間の20点と、80点から100点の間の20点では、同じ意味を持ちます。

「データ上のどこであってもその間隔が同じ意味を持つ」という特徴は、当たり前のようなことではありますが、実はカテゴリカルデータとの違いを認識するために重要な特徴でもあります。

このような量的データに対しては、平均値や分散などの要約統計量を算出するのが望ましいですね。

以下のような表を作成できれば、完璧です。

	男性	女性
平均値（SD）	XXX（XX）	YYY（YY）
中央値	XXX	YYY
範囲	XXX-XXX	YYY-YYY
四分位範囲	XXX-XXX	YYY-YYY
95%信頼区間	XXX-XXX	YYY-YYY

また、グラフとしてはヒストグラムで正規分布に従っているかどうかを確認したり、箱ひげ図で中央値や四分位範囲を確認することがとても良いアプローチです。

そして、統計学的検定としては、パラメトリック検定ならT検定を、ノンパラメトリック検定であればウィルコクソン検定を実施することが良いです。

データの種類2：質的データ（名義尺度、カテゴリカルデータ）とは？分割表作成が重要

次は、質的データ（名義尺度、カテゴリカルデータ）についてです。

カテゴリカルデータと聞いて、あなたはどのようなデータか想像できますか？

カテゴリカルデータの一例としては、性別が挙げられます。

男性というカテゴリと、女性というカテゴリに分けられますね。

性別のように数値化できないデータ、または、数値化したとしてもその数字の間隔に意味がないもののデータのことを、カテゴリカルデータと呼びます。

例えば商品アンケートで「この商品の感想を教えてください」という設問に対し「良い、普通、悪い」という３つから選ぶとします。

その設問のアンケートデータを「３点、２点、１点」というように、点数化することもできますね。

ですが、この３点と２点の間の１点、もしくは２点と１点の間の１点に関して、同じ１点ですがその間隔は同じ意味を持つとは限りません。

そのような場合、やはりカテゴリカルデータとして扱うほうが適切です。

カテゴリカルデータの要約方法は簡単です。

数と割合の二つを出力すれば、基本的には問題ありません。

さらには、これらを表形式でまとめることをお勧めします。

分割表と呼ばれる表を作ることが、カテゴリカルデータの要約方法としては適切です。

分割表の例としては、100人の男女に右利きか左利きかを聞いてみた結果の表が以下になります。

	男性	女性	合計
右利き	43	44	87
左利き	9	4	13
合計	52	48	100

分割表から読み取れることはとても多いのですが、その詳細は別ページで解説していますので、そちらをご参照ください。

そして、カテゴリカルデータの統計学的な検定手法です。

２つあります。

フィッシャーの正確確率検定
カイ二乗検定

この２つさえ理解しておけば、全く問題ありません。

２つの検定の使い分けですが、分割表で5未満のセルがあれば、その時にはフィッシャーの正確確率検定を実施することが良いです。

それ以外の場合には、カイ二乗検定を実施することで問題ありません。

ただ、理解の仕方としては「サンプルサイズが小さい時にカイ二乗検定はNG。サンプルサイズが小さくても大きくてもフィッシャーの正確確率検定はいつでも使ってOK」という理解をしていただければと思います。

多変量解析としては、ロジスティック回帰分析を使うことになります。

データの種類3：生存時間データ

医薬統計では、生存時間データというものを扱うことがあります。

がん領域を知っている方であれば恐らく知っているデータの種類だと思いますが、それ以外の方はあまりなじみがないかもしれません。

生存時間データを解析する統計手法を、生存時間解析、と呼びます。

生存時間解析を一言でいうと、その名の通り「時間」を解析する方法です。

時間は、「1時間」とか「75日」とか、連続データとして扱って解析しても良さそうです。

連続データとして扱えば、T検定やウィルコクソンの順位和検定を使えばいいですよね。

ではなぜわざわざ生存時間解析、というものを使うのでしょうか。

詳しくは生存時間解析の基礎のページで解説していますが、「イベント」と「打ち切り」という概念があるため、連続データとして扱うと不都合が出てきます。

そのため、生存時間解析という、また別の枠組みで解析する必要があるのです。

生存時間解析でのグラフとして有名なのが、カプランマイヤー曲線ですね。

カプランマイヤー曲線では、中央値やX年生存率が一目でわかる、かなり有用なグラフです。

下記のグラフが、カプランマイヤー曲線の一例です。

そして、検定としてはログランク検定と一般化ウィルコクソン検定が有名です。

多変量解析としてはCox比例ハザードモデルですよね。

「カプランマイヤー曲線」「ログランク検定」「一般化ウィルコクソン検定」「Cox比例ハザードモデル」の4つを理解していれば、最低限の生存時間解析は可能です。

データの種類4：カウントデータ

これはあまりなじみがないかもしれません。

生存時間データの目的の反応は、観測対象となる個体に、一度だけ起きる事象だとしました。

しかし、データによっては、複数回起きる事象があります。

例えば、血友病という病気は血が固まりにくく出血が起こりやすい病気です。

出血というのはその人に一度だけ起きるとは限らず、1年間に10回など、複数回起こりえますね。

そのような場合に、出血回数をカウントデータと呼ぶことがあります。

もちろん連続データとして扱うことも可能なのですが、カウントデータの性質として「観察期間に応じて回数は増える」という性質があります。

そのため、観察した期間を考慮して解析をしなければなりません。

また、このデータは、もし「初めての出血までの時間」というものに興味があるとき、生存時間データとして扱う必要があります。

質的データや量的データに関するまとめ

医薬統計を実施する上で、重要な「量的データ」「質的データ」「生存時間データ」「カウントデータ」の3種類（＋1種類）のデータを紹介しました。

これらの扱い方がわかれば、医薬統計としてはほぼ網羅できますので、是非とも理解しましょう！

＞＞2群のデータはどうやって解析する？

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

リサーチクエスチョン探し？データ分析？論文投稿？、、、で、もう悩まない！

第1章：臨床研究ではなぜ統計が必要なのか？計画することの重要性

推定ってどんなことをしているの？
臨床研究を計画するってどういうこと？
どうにかして標本平均を母平均に近づけられないか？

第2章：研究目的をどれだけ明確にできるのかが重要

データさえあれば解析でどうにかなる、という考え方は間違い
何を明らかにしたいのか？という研究目的が重要
研究目的は4種類に分けられる
統計専門家に相談する上でも研究目的とPICOを明確化しておく

第3章：p値で結果が左右される時代は終わりました

アメリカ統計協会（ASA）のp値に関する声明で指摘されていること
そうは言っても、本当に有意差がなくてもいいの…？
なぜ統計専門家はp値を重要視していないのか
有意差がない時に「有意な傾向があった」といってもいい？
統計を放置してしまうと非常にまずい

第4章：多くの人が統計を苦手にする理由

残念ながら、セミナー受講だけで統計は使えません。
インプットだけで統計が使えない理由
どうやったら統計の判断力が鍛えられるか？
統計は手段なので正解がないため、最適解を判断する力が必要

第5章：統計を使えるようになるために今日から何をすれば良いか？

論文を読んで統計が使えるようになるための5ステップ

第6章：統計を学ぶために重要な環境

統計の3つの力をバランスよく構築する環境

『統計を身につける5つのステップ』を
通常1,650円 → メルマガ登録で無料でプレゼント

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

~~通常価格：1,650円~~　→　無料でお届け

【無料】統計を使いこなすための秘策を学ぶ

コメント一覧（14件）

箱ひげ図ってどんなグラフ？エクセルでの書き方まで解説！│一番優しい、医薬品開発に必要な統計学の教本 より:

2019年3月26日 8:50 PM

[…] 一番優しい、医薬品開発に必要な統計学の教本データの種類 […]

返信
確率密度関数とは？わかりやすく正規分布一様分布の面積が確率になる意味を｜いちばんやさしい、医療統計 より:

2020年3月24日 4:34 PM

[…] ＞＞データの種類に応じて解析方法は決まる […]

返信
EZRでカイ二乗検定とフィッシャーの正確検定の実施方法！分割表でクロス集計｜いちばんやさしい、医療統計 より:

2021年7月13日 9:49 AM

[…] カイ二乗検定が分割表を検定する方法ということは、2種類のカテゴリカルデータが必要になります。 […]

返信
ダミー変数とは？変換する方法や解釈の仕方を具体例で解説！｜いちばんやさしい、医療統計 より:

2021年8月16日 9:35 AM

[…] 統計解析をする前に”疾患の有無”や”自宅退院か転院か”といった2値のカテゴリカルデータなどをダミー変数に変換する必要がある場合はしばしばあります。 […]

返信
ロジスティック回帰分析をわかりやすく！手順や結果のオッズ比も解説｜いちばんやさしい、医療統計 より:

2021年12月7日 6:53 AM

[…] カテゴリカル変数とは、いわゆる質的データですね。 […]

返信
カッパ係数（k係数）とは？EZRでの一致度の求め方と解釈の注意点｜いちばんやさしい、医療統計 より:

2022年1月26日 1:59 PM

[…] カッパ係数とは、質的データ（カテゴリカルデータ）に対して2つの検査結果の一致度合いを評価する指標のことです。 […]

返信
負の二項回帰モデルとは？ポアソン回帰との関連やオフセット項の解説も｜いちばんやさしい、医療統計 より:

2022年4月5日 9:45 AM

[…] 連続データやカテゴリカルデータなどは比較的身近なデータですが、カウントデータはどんなデータでしょうか？ […]

返信
主要評価項目が複数ある場合はどうする？例を用いてわかりやすく解説｜いちばんやさしい、医療統計 より:

2022年4月20日 10:21 AM

[…] 「68週の体重の変化率」は連続量（量的データ）であり、「68週の体重がベースラインに比べて5%以上減少したか否か」は2値のカテゴリカル変数（質的データ）ですね。 […]

返信
例数と件数の違いは？有害事象や副作用報告で使われる2つの数値の意味｜いちばんやさしい、医療統計 より:

2022年4月27日 10:47 AM

[…] 例数に関しては上述の通り、「その有害事象を発現したかどうかの有無」を数えているため、データとしては2値のカテゴリカルデータになります。 […]

返信
最小二乗平均（LSMean）とは？共分散分析で有意差がある場合とない場合のパターン｜いちばんやさしい、医療統計 より:

2022年5月9日 11:46 AM

[…] いわゆる量的データ（連続量）に対する「要約統計量」を算出する際には算術平均値が用いられます。 […]

返信
患者背景の有意差はどんな意味があるのか？P値で示すことの問題点｜いちばんやさしい、医療統計 より:

2022年5月17日 1:00 PM

[…] 例えば、年齢、体重などの連続変数（量的データ）の場合には、T検定（正規分布の場合）やマンホイットニーのU検定（正規分布じゃない場合）が使われます。 […]

返信
EZRでメタアナリシスを実施する方法！フォレストプロットや異質性の評価も｜いちばんやさしい、医療統計 より:

2022年9月14日 3:45 PM

[…] まずは、EZRでアウトカムが2値のカテゴリカルデータである場合のメタアナリシスを実施していきましょう。 […]

返信
EZRで各群の最小二乗平均（LSMean）を算出する方法｜いちばんやさしい、医療統計 より:

2022年11月7日 12:29 PM

[…] 連続量（量的データ）をアウトカム（目的変数）にする場合、背景情報での交絡バイアスを小さくしたいと考えた時、共分散分析の実施が候補に挙げられます。 […]

返信
Clopper Pearsonの信頼区間とは？Rでの計算方法も！｜いちばんやさしい、医療統計 より:

2023年9月7日 2:15 PM

[…] Clopper-Pearsonの信頼区間は、2値のカテゴリカルデータの割合に関して95%信頼区間を算出したい、というときに選択肢として入ってくる信頼区間です。 […]

返信

質的データ量的データとは？分割表など分析手法を具体例でわかりやすく

質的データや量的データとは？具体例を用いてわかりやすく解説！

データの種類1：量的データ（連続尺度、連続データ）とは？その統計解析手法

データの種類2：質的データ（名義尺度、カテゴリカルデータ）とは？分割表作成が重要

データの種類3：生存時間データ

データの種類4：カウントデータ

質的データや量的データに関するまとめ

リサーチクエスチョン探し？データ分析？論文投稿？、、、で、もう悩まない！

『統計を身につける5つのステップ』を通常1,650円 → メルマガ登録で無料でプレゼント

関連記事

コメント

コメント一覧 （14件）

コメントする コメントをキャンセル

『統計を身につける5つのステップ』を
通常1,650円 → メルマガ登録で無料でプレゼント

コメント一覧（14件）

コメントするコメントをキャンセル