データを解析しよう – いちばんやさしい、医療統計

有害事象・副作用・副反応の違いとは？因果関係の有無が判断の鍵

beat1115 — Mon, 25 May 2026 06:00:28 +0000

この記事では「有害事象・副作用・副反応の違いとは？因果関係の有無が判断の鍵」としてお伝えします。

臨床試験や臨床研究を実施していると、有害事象・副作用・副反応のそれぞれの用語を目にすることが多いかなと思います。

その際に「どの用語がどんなことを示しているんだっけ？」と混乱することもしばしば。。

そのため今回の記事では

有害事象とは因果関係を問わない
副作用は因果関係を否定できない
副反応はワクチン接種の場合の副作用
要約する際には件数と例数の違いに注意

ということを整理していきたいと思います！

有害事象とは因果関係を問わない好ましくない全ての事象

まずは、有害事象について整理していきましょう。

有害事象は、有害事象・副作用・副反応の中で一番大きい概念です。

有害事象の定義はこちら。

有害事象の定義

因果関係を問わず、臨床研究・臨床試験において生じた、参加者にとって好ましくないありとあらゆる事象のこと

「因果関係を問わない」ことが最も大きな特徴です。

例えば、

風邪をひいた
転んで足を骨折した
頭痛が発生した
筋肉痛が発生した
etc

これら全て、被験者にとっては好ましくない事象ですよね。

因果関係があろうとなかろうと好ましくない事象が発生した時点で「有害事象が発生した」となります。

英語だとAdverse Event（AE）と記載されます。

副作用は因果関係を否定できない有害事象

副作用は、有害事象の中で「因果関係が否定できない」事象のこと。

なので、下記のようなイメージです。

ただし、副作用という言葉は「医薬品を使っている場合」の言い方です。

ワクチンの場合は後述する「副反応」を使います。

通常、臨床試験では、全ての有害事象に対して因果関係のデータを取得しています。

因果関係の判定基準は試験実施計画書（プロトコル）で規定するのですが、例えば、「確実に関係あり、たぶん関係あり、可能性あり、たぶん関係なし、関係なし、不明」という分類データを取得します。

この中で「関係なし」以外の事象は副作用とする、というように、副作用の定義もプロトコルもしくは解析計画書に規定します。

副作用は英語だとAdverse Drug Reaction（ADR）と記載されますね。

副反応はワクチン接種の場合の副作用

副反応は、特にワクチン接種後に見られる身体の反応を指します。

ワクチンが体内に入ったことに対する免疫系の反応であり、通常は一時的なものです。

副反応には、発熱、注射部位の腫れや痛み、倦怠感などがあります。これらは免疫系が活発に働いている証拠であり、通常は数日で治まります。

なぜ「副作用」と「副反応」が言葉として使い分けられているかといえば、副反応は免疫系がワクチンに反応することで生じるため、ある意味正常な反応なのです。

一方で、副作用は薬の有効成分が意図しない部位や機能に影響を与えることによって生じます。

そのため、意図した反応なのか、意図しない反応なのかを区別するために、用語としても分けられているのかと推測しております。

要約する際には件数と例数の違いに注意

有害事象・副作用・副反応の違いについて整理できたかなと思いますので、次に有害事象・副作用・副反応の解析の仕方について解説します。

有害事象・副作用・副反応の解析に関して注意したいのは、「例数」と「件数」の違い。

詳しくは「例数と件数の違いは？有害事象や副作用報告で使われる2つの数値の意味」という記事を見ていただきたいのですが、少しだけこの記事でも整理しておきます。

有害事象・副作用・副反応の解析で重要な例数と件数の違い

例数と件数の違いを有害事象で考えてみましょう。

Aさん、Bさん、Cさんの3人がいて、試験中に以下のように有害事象が発生したとします。

この時、「頭痛」という有害事象はAさんとBさんに起こっているため、2例に発現しています。

そしてAさんは頭痛を1回、Bさんは頭痛を2回発現しているため、3件発現したことになります。

そして「風邪」はAさんにだけ1回発現しているため、1例1件の発現、という数え方です。

そのため今回の例だと、以下のような数え方になります。

有害事象の発現は2例4件
頭痛の発現は2例3件
風邪の発現は1例1件

そのため、例数は「その有害事象を発現したかどうかの有無」を数えていることに相当し、件数は「その有害事象を発現した回数」を数えていることに相当することがわかります。

有害事象・副作用・副反応の実際の解析を見てみる

例数と件数の違いがわかったところで、実際に論文の表を見てみます。

下記の表を見ると、件数と例数をどちらも要約していることがわかります。

「Total no. of AE」が件数を示していて、「Patients with ≧1 AE」が例数を示しています。

（引用：https://www.nejm.org/doi/full/10.1056/NEJMoa1606490）

上記からもわかる通り、例数では「割合(%)」を計算することができますが、件数では割合を計算することはできません。

まとめ

いかがでしたか？

この記事では「有害事象・副作用・副反応の違いとは？因果関係の有無が判断の鍵」としてお伝えしました。

有害事象とは因果関係を問わない
副作用は因果関係を否定できない
副反応はワクチン接種の場合の副作用
要約する際には件数と例数の違いに注意

ということを整理できたのなら幸いです！

2群間の比較の統計解析は？群間比較の検定やグラフを簡単にわかりやすく

beat1115 — Wed, 13 May 2026 21:00:52 +0000

あなたの手元に2群のデータがあったとき。

2群間の比較ではどんな統計解析をすればいいのか・・・

と、途方に暮れることがありますよね。

私も統計を仕事にする前の大学生のころ。

「このデータで何をすればいいのか・・・」と途方に暮れっぱなしでした。

しかし今では、データがあったときにやるべきことが整理されています。

そのため、今回の記事では私が今でも実践していることをすべてお伝えします。

2群間の比較の統計解析で、どんな検定やグラフを使えば良いのか、簡単にわかりやすく理解できます！

どんなデータがあったとき2群間の比較が必要？

まずは、どんなデータが２群のデータか。

「２群」というのは、「２種類」とか「２つの集団」とかに言い換えることができます。

つまり、比較したい２つの集団、ということですね。

例えば。

「男性」と「女性」で糖尿病発症率を知りたい
「プラセボ群」と「実薬群」で死亡率の違いを知りたい
「日本」と「アメリカ」で所得の違いを知りたい

これらの例では「男性と女性」「プラセボ群と実薬群」「日本とアメリカ」で違いを知りたいわけです。

知りたい集団が２つですよね。

だから、これらのデータは「２群」のデータと呼ばれます。

以下の表にまとめてみましたので、ご参照まで。

例	１つ目の群	２つ目の群
男性と女性	男性	女性
プラセボ群と実薬群	プラセボ群	実薬群
日本とアメリカ	日本	アメリカ

実際に２群間の比較では群間比較としてどんな解析をやるのか？

では２群のデータがどんなものか分かったところで、実際のデータ解析方法を学んでいきましょう。

私が２群のデータを解析するときには、基本的には以下のようなことをやります。

まずは各群のデータを確認する
検定をする
回帰分析をする

これだけです。

やること少ないですよね。

この記事の中では、検定と回帰分析を複数実施していますが、あくまで実際のデータでは「データをまとめる」ということを重視しています。

つまり、検証的試験のように、検定で0.05を下回るかどうか（有意差があるかどうか）は重要視していません。

あくまで検定結果は参考程度に見ます。

そのため、多重性に関しても考慮しておりません。

検証的な性質を持つデータ比較であれば、ちゃんと事前に解析計画を立て、多重性を考慮して解析を実施する必要がありますので、その点はご注意ください。

2群間の比較その1：まずはグラフや要約統計量などで各群のデータを確認

最終的には２群のデータを比較したいのですが、まずは各群のデータを確認することをやります。

例えば、「男性と女性で糖尿病発症率を知りたい」のであれば、「男性のデータを確認する」ことと「女性のデータを確認する」ということをやる、ということです。

具体的にどんな方法で確認すればよいのか？ということを知りたいですよね。

私はこれらをやります。

連続量の場合

要約統計量を算出する
ヒストグラムを作成する
箱ひげ図を作成する

カテゴリカルデータの場合

分割表を作成する
棒グラフを作成する

2群間の比較：要約統計量を算出する

連続量の場合、要約統計量を算出します。

平均値や中央値、標準偏差などですね。

男性と女性の2群データであれば、「男性」と「女性」の各群でそれぞれ算出します。

私であれば、以下のような表を作成します。

	男性	女性
平均値（SD）	XXX（XX）	YYY（YY）
中央値	XXX	YYY
範囲	XXX-XXX	YYY-YYY
四分位範囲	XXX-XXX	YYY-YYY
95%信頼区間	XXX-XXX	YYY-YYY

2群間の比較でグラフの作成：ヒストグラムを作成する

その次に、グラフを作成します。

要約統計量で、ざっくりとしたデータの把握ができました。

ですが、視覚的な情報があったほうが、データの把握をしやすいです。

そのため、データを視覚的に見ることができるように、グラフを作成します。

各群それぞれで作成します。

まずはヒストグラムですね。

ヒストグラムを作成することで、データの分布が分かります。

ヒストグラムで把握すべきことは、

データが正規分布に近い形なのか。
それとも、右（左）に裾を引いているのか。

そんなことを把握します。

2群間の比較でグラフの作成：箱ひげ図を作成する

もう一つのグラフである、箱ひげ図も重要です。

箱ひげ図を作成することにより、データの範囲や中央値や外れ値の有無まで分かってしまうので、かなり便利です。

この箱ひげ図も、各群それぞれで作成しましょう。

2群間の比較：分割表を作成する

データがカテゴリカルデータであれば、要約統計量の代わりに分割表を作成します。

分割表を作成すれば、各群の大まかなデータの数や割合がわかるようになります。

この分割表一つだけでかなりのことがわかりますので、ぜひとも作成しましょう。

2群間の比較：棒グラフを作成する

カテゴリカルデータであっても、可視化することは重要です。

そのため、棒グラフを作成しましょう。

以下のようなグラフですね。

縦軸に数や割合を表示するグラフです。

これも、分割表を視覚的に把握するのに役立つため、ぜひ作成しましょう。

2群間の比較その2：統計的検定を実施する（有意差があるかどうかは重要視しない）

各群のデータが把握できたところで、初めて検定をやってみます。

連続量のデータであれば以下の二つを実施します。

T検定
ウィルコクソン検定

カテゴリカルデータであれば、以下の二つを実施します。

フィッシャーの正確確率検定
カイ二乗検定

繰り返しですが、ここでの統計学的検定では検証的試験のように、検定で0.05を下回るかどうか（有意差があるかどうか）は重要視していません。

あくまで検定結果は参考程度に見ます。

そのため、多重性に関しても考慮しておりません。

2群間の比較：T検定の実施

連続量で２群の比較といえば、まずはT検定ですよね。

そのため、基本の検定としてT検定の知識は持っておいてください。

T検定は、各群の母集団データが正規分布に従っていることが前提の、パラメトリック検定です。

そのため、前述のヒストグラムを確認することは、T検定を実施する上でとても重要です。

2群間の比較：ウィルコクソンの順位和検定の実施

次は、ウィルコクソンの順位和検定を実施してみます。

ウィルコクソンの順位和検定はノンパラメトリック検定ですよね。

そのため、１つ前に実施したT検定結果と比較して以下のことを把握することができます。

データが正規分布に近ければ、T検定のP値とウィルコクソン検定のP値は似た数値になる

反対に、T検定のP値とウィルコクソンの順位和検定のP値が大きく異なれば、データは正規分布に近くないということです。

その場合には、ウィルコクソンの順位和検定のP値を信頼しましょう。

2群間の比較：フィッシャーの正確確率検定、カイ二乗検定の実施

データがカテゴリカルデータであれば、検定は２つです。

フィッシャーの正確確率検定とカイ二乗検定。

２つの検定の使い分けですが、分割表を作成した際に５以下のセルがあれば、フィッシャーの正確確率検定を使います。

それ以外では、カイ二乗検定でOKです。

2群間の比較の解析：回帰分析を実施する

最後に、回帰分析をします。

回帰分析をする理由としては、単純な検定だけでは分からないことを知るためです。

単純な検定だけでは分からないこと、というのは具体的には「交絡」を気にしています。

交絡は、バイアスの一つですね。

交絡があることで、事実関係が歪んで出てきてしまうので、かなり注意が必要です。

交絡をはじめとするバイアスは、データを取得する際に気をつけるべきです。

しかし、交絡バイアスだけは、共分散分析で排除することが可能です。

共分散分析は回帰分析の方法の一つですね。

EZRで実際に2群間の比較解析する

これらの解析を、EZRを使って実際に解析してみると、かなり理解が進みます。

EZRとは無料の統計ソフトであるRを、SPSSやJMPなどのようにマウス操作だけで解析を行うことができるソフトです。

EZRもRと同様に完全に無料であるため、統計解析を実施する誰もが実践できるソフトになっています。

2019年5月の時点で英文論文での引用回数が2400回を超えているとのことで、論文投稿するための解析ソフトとしても申し分ありません。

EZRでカイ二乗検定とフィッシャーの正確確率検定を実施する方法は、こちらの記事を！

2群間の比較まとめ

私が２群のデータを解析するときの方法を余すことなく記載しました。

これらをやるだけで、ちゃんとした報告書やレポートができますので、ぜひ実践してみてください。

まずは各群のデータを確認する
検定をする
回帰分析をする

教師あり学習と教師なし学習の違いは？具体例で解析の目的を整理する

beat1115 — Tue, 12 May 2026 21:00:03 +0000

本記事は「教師あり学習と教師なし学習の違いは？具体例で解析の目的を整理する」ということでお伝えします。

教師なし学習・教師なし学習は、医療統計学というよりも、機械学習の分野に括られるかとは思いますが、その根底には統計学が用いられます。

この記事では

教師なし学習と教師なし学習の違いは？
教師あり学習の具体例
教師なし学習の具体例

ということでお伝えしますね！

教師あり学習と教師なし学習の違いは？

教師あり学習と教師なし学習の違いについて結論から述べると、「正解」を人間側が与えてコンピュータに何かしらの判断をしてもらうかどうかの違いです。

「正解」とは例えば何かといえば、

このメールはスパムであり、このメールはスパムではないというラベル
この人はがんに罹患していて、この人はがんに罹患していないというラベル

などです。

上記のような正解を与えてプログラムする＝教師あり学習と呼び、正解がない中でプログラムする＝教師なし学習、と呼んでいます。

教師あり学習とは？

教師あり学習とは上記の通り、人間側が正解を付与し、その正解に対するルール作りをプログラムに任せることです。

この時、ルールを作るデータのことを学習データ、と呼びます。

教師あり学習の場合、ルールを作るデータとは別のデータ（テストデータ）を確保して、作ったルールでテストデータがちゃんと分類できるかどうかが重要な問題になります。

つまり、正解・不正解が明確な問題の解決に利用できる学習手法ともいえますね。

結果として「正解率がXX%だった」「XX%の確率でがんに罹患する可能性がある」というような数値化が可能なのも教師あり学習の特徴です。

教師なし学習とは？

教師なし学習とは、正解のないデータに対して、分類をプログラムに任せることでした。

例えば、データの構造やパターンなどを抽出することが目的になるため、正解・不正解を問題にしていない点が特徴的です。

そして、分類した結果が合っているかどうかは確かめようがなく、結果を人間側が解釈して考察することが重要なんです。

教師あり学習の具体例

教師あり学習と教師なし学習の違いがわかったところで、教師あり学習の具体例を見ていきましょう。

教師あり学習の具体例1：受信した電子メールがスパム（迷惑メール）かどうかを自動判定する

例としては、受信した電子メールがスパム（迷惑メール）かどうかを自動判定する、ということにも教師あり学習が有効です。

実際には、以下の3つの手順で教師なし学習を実施します。

過去に受信したメールにたいして、人間側が「通常のメール」と「スパムメール」の正解を付与した学習データを読み込ませます。
そして学習データでコンピュータがルールを作ります。
そのルールに従って「通常のメール」と「スパムメール」の正解を付与したテストデータをちゃんと分けることができればOK。

学習データでルール作りをした後に、「このルールは使えるのか？」という検証をテストデータで実施することが重要ですね。

そして、このメールはスパム、このメールは通常メール、という正解を付与しているため、作成したルールが問題ないかどうかは正解率という数字で数値化が可能です。

教師あり学習の具体例2：新築の住宅販売価格を、過去の実績に基づいて予測する

新築の住宅販売価格を、過去の実績に基づいて予測する際にも、教師なし学習が適用できます。

過去の住宅販売価格の実績の70%を学習データとして読み込ませる
そして学習データでコンピュータがルールを作ります
過去の住宅販売価格の実績の残り30%をテストデータとして読み込ませてどのぐらいの価格の差異があるかを評価する

手順としてはスパムメールの例と同じですね。

ただし今回の場合、住宅販売価格という連続量（量的データ）を扱っているため、数値化にはテストデータに対する「実績と予測値との差異」が数字として必要になります。

教師あり学習で重要なこと

すでにお伝えしていますが、教師あり学習で重要なことは「学習データ」と「テストデータ」の2種類を用意しておくことです。

なぜなら、学習データ全てを用いてモデルの構築行うと、そのデータには適合することができても、その後入ってくる未知のデータには全く合わないモデルが形成されてしまうことがあるからです。

このような問題を過学習（オーバーフィッティング）といいます。

この過学習を防ぐために、手元にあるデータを教師データとテストデータに分割してモデルの構築と予測を行う必要があるんです。

いわゆる、内的妥当性や外的妥当性を担保すること、という意味になります。

教師あり学習の具体的なアルゴリズムは？

教師あり学習がどんなものなのかがわかったところで、具体的なアルゴリズムをいくつか紹介します。

ここに挙げたものが全てではないですが、多くの場合にはこれらの中のどれかで実施していることが多いかなと思います。（ディープラーニングは除く）

線形回帰：特にロジスティック回帰は医療統計で多用されます
サポートベクターマシーン（SVM）
ランダムフォレスト
決定木
k近傍法（kNN）

それぞれの具体的な手法は別記事でお伝えしますね。

教師なし学習の具体例

では次に、教師なし学習の具体例を見ていきましょう。

教師なし学習の例：受信した電子メールのうち、文章の特徴が似ているか否かを導きグループ分けする

教師あり学習の場合、受信したメールを「スパム」「通常」と正解は人間側が付与していました。

しかし「どれがスパムか通常か分からない状況で、とにかくメールの特徴からグループ分けしたい」という場合には、教師なし学習を実施します。

特徴的なのは、グループ分けした結果に対して正解・不正解はなく、どのグループが何を示すのかは人間側が解釈することです。

主成分分析で算出された主成分が、どのような意味を持つのかは研究者側が解釈するのと同じですね。

教師なし学習の具体的なアルゴリズムは？

教師なし学習がどんなものなのかがわかったところで、具体的なアルゴリズムをいくつか紹介します。

ここに挙げたものが全てではないですが、多くの場合にはこれらの中のどれかで実施していることが多いかなと思います。

クラスタリング
主成分分析
k平均法（k-means）

まとめ

いかがでしたか？

本記事は「教師あり学習と教師なし学習の違いは？具体例で解析の目的を整理する」ということでお伝えしました。

教師なし学習と教師なし学習の違いは？
教師あり学習の具体例
教師なし学習の具体例

ということが理解できたのなら幸いです！

傾向スコアマッチング法（プロペンシティスコア）をわかりやすく解説！

beat1115 — Sun, 26 Apr 2026 22:00:27 +0000

群間比較した効果を調べるときに、共変量による結果へのバイアスが生じる可能性があります。

そのため、計画段階から共変量のバイアスを小さくする方法として、ランダム化（無作為化）比較試験があります。

しかし観察実験では、ランダム化ができない場合があります。

ランダム化ができない場合に共変量のバイアスを小さくする方法として、傾向スコアマッチング法が考案されています。

今回の記事では、傾向スコアマッチング法について解説していきます。

傾向スコアマッチング法（プロペンシティスコアマッチング法）とは？

傾向スコアマッチング法は英語では、Propensity Score Matching Methodsといいます。

傾向スコアマッチング法は共変量によるバイアス（交絡バイアス）を小さくするために用いられる手法です。

臨床試験などの介入研究では、ランダム化（無作為化）比較試験によって共変量によるバイアスを小さくすることができます。

フィッシャーの三原則でも、ランダム化が重要であることが述べられています。

しかし、観察研究では、無作為化比較試験のような操作を行うことはできません。

そこで。

傾向スコアマッチング法は主に観察実験の際に、共変量によるバイアスを小さくするために用いられます。

傾向スコアマッチング法に関する語句の説明

傾向スコアマッチングではいくつかの語句が出てくるので、まずは語句を説明していきます。

傾向スコアマッチングの用語：アウトカム

これは、要素に対する結果に当たります。

例えば、治癒の有無や、死亡、生存時間などが当てはまります。

傾向スコアマッチング法では1つのアウトカムについて扱います。

傾向スコアマッチングの用語：割り当て変数

名義尺度またはカテゴリーデータのことです。

傾向スコアマッチング法では、2つの水準を用いることが一般的です。

例えば、曝露群と非曝露群、摂取群と非摂取群などが当てはまります。

傾向スコアマッチング法では1つの割り当て変数について扱います。

傾向スコアマッチングの用語：共変量

これは、割り当て変数に分けれた群に共通して存在する変量です。

例えば、性別、体調、病気の重症度、年齢などが当てはまります。

傾向スコアマッチング法では1つ以上の割り当て変数について扱います。

傾向スコアマッチングはどんな状況の時に使えばいい？

傾向スコアマッチング法は、観察実験において用います。

前述の通り、観察研究の場合にはランダム化をすることができないからです。

ランダム化の恩恵は、例えば比較する群が2つだった場合に、2群間で同じような集団を作ることができるという点が、ランダム化の素晴らしい点です。

例えば、新しい抗がん剤が既存の薬剤に比べて効果があるかどうかを知りたい時、2群間で病気の重症度が異なっていたらどうでしょうか？

新しい抗がん剤治療を選択する人は重症度が高い患者さんが多く、既存の薬剤を選択する人は軽症な場合が多い時には、どれだけ新しい抗がん剤が優れていたとしても、効果がないという結果が出る可能性があります。

それを防ぐ方法として、傾向スコアマッチング法を使って、あたかも2群間で同じような集団を作り上げることができるのです。

例として、「妊娠中の女性がフェノバルビタールを摂取したときの、胎児の知能への影響を調査した研究」を紹介します。

目的は、妊娠中の女性がフェノバルビタールを摂取したときの、胎児の知能への影響の有無です。

この事例のとき、アウトカムは胎児の成長後の知能です。

割り当て変数は、フェノバルビタールの処方の有無が推定します。

薬を処方した群と処方してない群には、それぞれ様々な胎児への知能に関係する共変量が存在しています。

この事例では、社会経済的地位や、父親の有無などが共変量として用いられています。

目的などをまとめておきますね。

例：妊娠中の女性がフェノバルビタールを摂取したときの、胎児の知能への影響を調査した研究

目的：妊娠中の女性がフェノバルビタールを摂取した時の、胎児の知能への影響の有無
アウトカム：胎児の成長後の知能
割り当て変数：フェノバルビタールの処方の有無
共変量：社会経済的地位、父親の有無など

傾向スコアマッチング法は具体的にどうする?

傾向スコアマッチング法は、次のような流れで行います。

共変量の選択
傾向スコアの推定
傾向スコアの利用
バランスの評価
効果の推定
効果の解釈

傾向スコアマッチングの手順：共変量の選択

共変量は、割り当て変数に対応する操作の前の変数か、同時に測定された変数を利用します。

ここで共変量には、アウトカムを含めることはできませんし、割り当て変数によって変化しうる変数を選択することはできません。

具体的な共変量の選択には、先行研究の内容や、統計解析を参考に選定を行います。

DAGを用いて可視化することも有用です。

傾向スコアマッチングの手順：傾向スコアの推定

傾向スコアは、共変量が与えられた条件下で、その人がある群にあてはまる確率のことです。

傾向スコア推定の方法は一つではななく、ロジスティック回帰分析や、ニューラルネットワーク、判別分析などが用いられます。

私が見かけることが多いのは、ロジスティック回帰分析ですね。

ロジスティック回帰分析でプロペンシティスコアを具体的にどう計算するかというと、以下の式で得られる確率を求めます。

ロジスティック回帰での傾向スコアの計算

割り当て変数＝ logit ( 共変量1 + 共変量2 + 共変量3 + ・・・)

この計算で得られた確率をもとに、マッチングしていきます。

傾向スコアマッチングの手順：傾向スコアの利用法

傾向スコアの利用法もいくつか存在します。

マッチング
層化
重み付け
共変量

などです。

マッチング法では、片方の群から無作為に一人を選択し、もう一方の群から選択した人の傾向スコアと最も似た傾向スコアの人の人とペアをつくります。

そして、この方法を反復して行なっていきます。

これを行うことによって、できるだけ似た共変量を持った者同士での比較を行うことができるため、共変量のバイアスが小さくなります。

傾向スコアマッチングの手順：バランスの評価

これもいくつかの方法がありますが、標準化差という手法がよく用いられます。

これは、先ほどマッチングで作ったものにバランスが取れているか、(バイアスは小さくなっているか)を確認するために用います。

傾向スコアマッチングの手順：効果の推定

効果の推定にはT検定はカイ二乗検定、比例ハザードモデルなどを利用します。

T検定とは？帰無仮説と対立仮説を必ず確認！F検定で等分散の確認が必要？

カイ二乗検定とは？計算式まで簡単に分かりやすく！分割表の検定

これらの解析では従属変数をアウトカム、独立変数を割り当て変数と共変数を用いておこなます。

傾向スコアマッチングの手順：効果の解釈

結果の解釈には平均因果効果をいうものが用いられます。

平均因果効果（Average Causal Effect）は、母集団のすべたが、一方の群に移ったときの、アウトカムの期待値差と定義されます。

つまり、ATT（Average Treatment Effect on the Treated）を推定していることになります。

ATTやATEなど平均因果効果に関して、詳しくはこちらの記事をご覧ください。

傾向スコアマッチングのデメリット

ランダム化していない観察研究でも、まるでランダム化したかのように扱える傾向スコアマッチングは、一時期とても話題になりました。

しかし傾向スコアマッチングにはデメリットもありますので、ぜひ使う際にはデメリットも意識して使いましょう。

傾向スコアマッチングのデメリットは大きく分けて二つ。

傾向スコアマッチングのデメリットや限界

傾向スコアマッチング後のデータ数は得られているデータ数より必ず小さくなる
データとして得られている共変量でしかマッチングできない

傾向スコアマッチング後のデータ数は得られているデータ数より必ず小さくなる

まず、傾向スコアマッチングは「マッチング」なので、似ているデータがある時には採用されますが、そうでなければデータは採用されません。

そのため、傾向スコアマッチング後のデータ数は、現在手元にあるデータ数よりも必ず小さくなります。

例えば合計で100例分のデータがあったとして、傾向スコアマッチング後には50例分のデータしか使えない、といった状況になります。

それを回避する方法としては、傾向スコアを使ったIPTW法もあります。

データとして得られている共変量でしかマッチングできない

傾向スコアマッチングは、ランダム化していないデータであっても、まるでランダム化したかのように扱える、ということで話題になりました。

しかしそれには落とし穴があります。

傾向スコアマッチングで考慮できるのは、あくまでデータとして取得した共変量のみです。

傾向スコアを算出する共変量として扱っていないデータに対しては交絡バイアスを排除できません。

一方のランダム化は、未知の因子であっても、データ化されていない因子であっても、群間で平均的に似通った集団を作る、ということに最大のメリットがあります。

この点はランダム化と傾向スコアマッチングで大きな違いですので、傾向スコアマッチングの限界は知っておきましょう。

傾向スコアマッチング法まとめ

傾向スコアマッチング法は共変量によるバイアスを小さくするために用いられる手法です。

傾向スコアマッチング法は主に観察実験の際に、共変量によるバイアスを小さくするために用いられます。

＞＞EZRで傾向スコアマッチングをする方法

多重代入法（多重補完法）をわかりやすく解説！EZRでは実施できる？

beat1115 — Tue, 21 Apr 2026 23:00:59 +0000

この記事では「多重代入法（多重補完法）をわかりやすく解説！EZRでは実施できる？」ということでお伝えします。

多重代入法（Multiple Imputation）は、医療系の論文でよく使われる方法。

ですが「どういった目的で使われて、実際にどうすればいいの？」と思われるかもしれません。

そのため

多重代入法とは欠測値（欠損値）に対応する方法である
多重代入法の概念をわかりやすく解説
EZRで多重代入法はできる？

ということをわかりやすく解説します！

多重代入法とは欠測値（欠損値）に対応する方法

そもそも欠測値とは、本来得られるはずだったデータが得られていないことです。

例えば、下記のようなデータの黄色いセル。

全被験者からWeek4までデータを取りたかったのですが、被験者2ではWeek3とWeek4のデータが取られていません。

同様に、被験者3ではWeek3のデータが取られていません。

こういったデータのことを欠測値（欠損値）と呼んでいます。

欠測値があると何が問題なのか？

では、欠測値があると何が問題になるのでしょうか？

大きく分けると3つあります。

本来得られるはずだった解析結果が得られにくくなる
データ数が少なくなる
試験の信頼性の問題になる

欠測値は「本来得られるはずだったデータが得られていない」ことですから、欠測のあるデータ全体で解析をしても、本来得たかった解析結果は得られにくいですよね。

そもそも欠測値をそのまま放置して解析をするとデータ数が少なくなるため、サンプルサイズの小ささにつながります。

また、多少の欠測はどの研究でもあり得るとは認識されていますが、欠測が多すぎるとその試験自体「大丈夫か！？」となってしまいます。

そのため、どれだけ欠測値への対処が適切でも、欠測値が多すぎれば意味がないことに。

なので大前提としては大前提として欠測を起こさないことが大事であることは念頭に置いておきましょう。

欠測値への対処方法は？

では欠測値が発生したとして、対処法や埋め方（補完方法）はあるのでしょうか？

大きく分けると3つほどあります。

単一補完（Single Imputation）
多重補完（Multiple Imputation）
モデル解析（一般化線形混合モデル：Generalized Linear Mixed Model）

詳しくは「欠測値（欠損値）とは？埋め方（補完方法）や対処法はある？」という記事を見ていただきたいですが、最近の傾向では多重補完かモデル解析（一般（化）線形混合効果モデル）がいいとされています。

実際に欠測値への対処をする際には、「欠測メカニズム」ということを考えなければいけないですが、そちらに関しても「欠測値（欠損値）とは？埋め方（補完方法）や対処法はある？」という記事を見ていただければと思います。

しかし、どんな方法でも「これがベスト」という方法はないことは前提であると理解しておきましょう。

なぜなら欠測じゃなかった時にどんな値だったか誰も知らないから。

欠測への対処方法には、強い仮定が入ります。

そのため、仮定をずらしても同じ解析結果が得られるのか、という感度解析を実施することがとても重要。

感度解析として実施した複数の解析で結論が同じになれば、例え欠測があったとしても頑健性のあるデータだったということを主張できます。

多重代入法の概念をわかりやすく解説

欠測値が何かを理解できたところで、多重代入法（Multiple Imputation）について解説していきます。

多重代入法の手順は、下記の4つ。

観測されているデータを基にして欠測データの事後分布を構築し、この事後分布からの無作為抽出を行って欠測を埋める。
1の手順で無作為に欠測を埋めたデータセットをM個（＞1）用意する。
M個のデータセットそれぞれに対して解析を実施する（M個の結果が得られる）
M個の結果を適切な統合方法で1つに統合する（最終的に1つの結果が得られる）

この手順のイメージは、高橋先生・伊藤先生のこちらの論文の図2.1がわかりやすいです。

重要なのは「M個のデータセットそれぞれに対して解析を実施し、最後に統合する」という手順。

M個のデータセットの平均を計算して1つのデータセットにして1回の解析をする、という間違った手順で理解している方がいるので注意が必要です。

多重代入法では何個のデータセット作成が必要？

多重代入法としてM個のデータセットを作って解析し、最終的に統合することはわかりました。

じゃあMの具体的な数値はどれぐらいが適切なの？と疑問に思うかなと思います。

この疑問に対しても、高橋先生・伊藤先生のこちらの論文がわかりやすいです。

概ね 5～10 では少なすぎ、20～50 程度が適切だと考えられる。
欠測率に応じて「20%未満ならば M =20」「20%～30%ならば M = 30」「30%～40%ならば M = 40」「40%～50%ならば M = 50」といった具合に設定することが適切。
欠測率に関わらず、M = 100 を超えて得られるものは非常に少ない。
たとえ M 数を数百まで拡大したとしても、補定値の精度を保証できなくなるおそれがある。

実際の論文ではどう設定しているのかをみると、例えば以下の論文ではM=20に設定されていることがわかります。

（参考：Multicenter Trial of a Combination Probiotic for Children with Gastroenteritis (Stephen B. Freedman et al., November 22, 2018, N Engl J Med 2018;379:2015-26.)）

そのため、総合的に考えると、常にM=50程度に設定しておけば問題なさそうかなと思います。

EZRで多重代入法はできる？

多重代入法の原理はわかったので、実際に多重代入法をやりたい！

無料の統計ソフトであるEZRでは実施できないだろうか？と思うかもしれません。

結露から言えば、EZRのメインメニューでは多重代入法を実施できないです。

しかし、バックグラウンドで動いているRでは問題なく多重代入法を使うことができます。

実際にはmiceというパッケージを使い、手順は以下の3つです。

miceを使ってM個の補完データを作成する
withでM個の解析を実施する
poolで最終的に統合する

Rで多重代入法を実施するプログラム例

では具体的なプログラム例を見ていきましょう。

M=50、Cox回帰を実施する、欠測のあるデータは「dat」という名前でインポートされている前提で例を紹介します。

miceを使ってM個の補完データを作成する：
tempdat <- mice (dat, m=50, method=”pmm”, pritFlag = FALSE, seed = 123)
withでM個の解析を実施する：
fit <- with(data=tempdat, coxph(formula = Surv(PFS, PFS.status == 1) ~ Grade + Sex, method = “breslow”))
poolで最終的に統合する：
summary(pool(fit), exponentiate=TRUE, conf.int=0.95)

上記の3つのプログラムを参考にしていただければ、多重代入法を実施できます！

まとめ

いかがでしたか？

この記事では「多重代入法（多重補完法）をわかりやすく解説！EZRでは実施できる？」ということでお伝えしました。

多重代入法（Multiple Imputation）は、医療系の論文でよく使われる方法。

多重代入法とは欠測値（欠損値）に対応する方法である
多重代入法の概念をわかりやすく解説
EZRで多重代入法はできる？

ということが理解できたのなら幸いです！！

ポアソン分布とは？わかりやすく簡単に例を用いて二項分布との関係も

beat1115 — Thu, 02 Apr 2026 22:00:26 +0000

正規分布や二項分布、カイ二乗分布の他に、統計学でよく出てくる分布にポアソン分布が存在します。

ポアソン分布は、「ランダムに起きる事象」がある期間に何回起こるかの確率を調べるときに用いる分布です。

ポアソン分布とはどのような分布なのでしょうか。

この記事ではポアソン分布について簡単にわかりやすく説明していきます。

ポアソン分布とは？わかりやすく解説！

ポアソン分布は、ある事象がある期間に生じる確率を表す分布です。

例えばある県内で、自転車事故が一日あたり、人口10万人あたり5件発生したとします。

では、人口10万人あたり1年間で生じる自転車事故の確率は、どうなるでしょうか。

このような問題はある”事象”を考えます。

上記の例で事象とは、「事故が生じるか生じないか」ということ。

このような考え方は、以前にも出てきました。

コインの表と裏のような物事を表す分布、二項分布でしたね。

ポアソン分布の事象はコインの表と裏のように、ある事象が起こるか、起こらないかの２通りあるで考えることができます。

そのため、ポアソン分布の基本となるのは、二項分布の考え方です。

>>>二項分布とは？初心者にもわかりやすく正規分布に近似できる問題も解説

二項分布について、非常に簡単におさらいしていきます。

ポアソン分布を理解するための復習: 二項分布

二項分布はコインの表と裏のように2通りの結果が生じる事象を繰り返して行なったときの分布でしたね。

2通りの結果が生じる事象を繰り返して行うことをベルヌーイ試行と呼びます。

ここで一番、思い出して欲しいのは、

二項分布では期待値（平均）はとても簡単に計算できることです。

二項分布の期待値は

二項分布の期待値 = 試行回数 x 成功する確率 = n x p

でした。

>>>二項分布とは？初心者にもわかりやすく正規分布に近似できる問題も解説

先ほどの自転車事故の例では、

人口10万人あたりの一年間の事故の発生確率の期待値

=365日 x 人口10万人あたりの一日の事故の発生回数（件数）

と同じように求めることができます。

（*ただし、冬場は事故が多いなどは無視して、1年中同じ確率で事故が発生すると仮定しています。）

二項分布の分散は

二項分布の分散 = n x p x (1 − p)

でしたね。

この考え方がポアソン分布でも用いることができます。

ポアソン分布は二項分布の極限！λは何を意味する？

では、ポアソン分布の確率関数P(k)はどのようにして求めることができるのでしょうか。

実は、ポアソン分布は二項分布の極限として求めることができるのです。

単位時間あたり平均λ回起こる事象が、単位時間あたりk回発生し、この確率をP(k)とする。

ある事象が起こる確率がλ／nであるような独立な試行をn回行った場合、この事象が起こる回数の期待値は、λ／n×n＝λとなりnによらないλという数になる。
n回の試行のうちある事象がk回起こる確率は、1回の試行である事象が起こる確率がλ／n、1回の試行でこの事象が起こらない確率が1－λ／nなので、λ／nのk乗と1－λ／nのn－k乗の積にn回の試行のうち、ある事象がk回起こる選び方の総数（二項係数）をかけ合わせたものになる。
試行回数nを∞としたものがP(k)となる。

具体的に数式を用いて計算すると以下のようになります。

ちなみにeはネイピア数または自然対数の底と呼ばれる定数で、e=2.718281828459045235360287471352・・・と無限に続く値。

ネイピア数を含む上の算式がポアソン分布の確率関数の具体的な算式です。

λが0.1、1.5、5の場合のポアソン分布のグラフを作るとこんな感じ。

このグラフから分かることは、

１．λが大きいと右にシフトする

２．λが小さいと急激に下がって0近くにへばりつく

例えば、上のポアソン分布が1日あたり交通事故の発生回数の分布だとしましょう。

1日あたり交通事故の発生回数が平均0.1回のポアソン分布にしたがう場合に、1日に2回交通事故の発生する確率は、ほぼ0。

1日あたり交通事故の発生回数が平均0.5回のポアソン分布にしたがう場合に、1日に2回交通事故の発生する確率は、ほぼ0.26くらい。

1日あたり交通事故の発生回数が平均5回のポアソン分布にしたがう場合に、1日に2回交通事故の発生する確率は、0.075くらいであることが上のグラフから読み取れます。

不思議なことに上のグラフの3例の中では、1日あたり交通事故の発生回数が平均1.5回のポアソン分布にしたがう場合において、1日に2回交通事故の発生する確率が一番高くなった。

要するに平均と近い回数の確率が高くなる傾向にあるということ。

ポアソン分布にしたがう現象の確率の求め方がお分かりになりましたか。

つまり二項分布とポアソン分布の違いをわかりやすくお伝えすると、「上限（n）が決まっている場合は二項分布、上限が決まっていない（無限大と考えられる）場合はポアソン分布」という使い分けが良いです。

例えば、コイン投げは10回という上限があるから二項分布。1日の来店者数は理論上上限がないからポアソン分布を考えることになります。

ポアソン分布をエクセルで確認してみよう

例えばマイクロソフトのエクセルでポアソンの確率関数を計算するには、POISSON.DIST(回数,平均,FALSE)という関数を使えば簡単に求められます。

時間がある方は是非やってみてください。

確率関数の形も、ネイピア数のマイナスλ乗とλのk乗の積をkの階乗で割っただけのものですから、簡単に計算できますよね。

簡単な割にいろいろな現実の問題に適用できて便利なのです。

ポアソン分布が適用できるデータの例は？

ポアソン分布は、ある事象の起こりやすさがランダムで生じると仮定したときに、

「単位時間あたり平均λ回生じる事象が、単位時間にk回生じる確率」を表すのに用いる確率分布です。

先ほどの自転車事故の例では、

人口10万人あたりの一年間の事故の発生確率の期待値（λ）

=365日 (n) x 人口10万人あたりの一日の事故の発生確率 (p)

となります。

上の例のように、nが大きく、pが小さいときλは一定と考えることができます。

1年あたり車の通る台数（n）はかなり大きいですが、事故の発生確率（p）は小さいですからね。

このとき、ある期間でλ回発生する事象が、一定時間にk回発生する確率がポアソン分布となります。

つまり、ポアソン分布はこのようにいうことができます。

ポアソン分布は、二項分布の試行回数nが十分に大きく、確率が非常に小さいとき、従う分布。

ポアソン分布の性質

次にポアソン分布の性質を説明していきます。

ポアソン分布も元は二項分布でしたよね。

そのため、k回生じたのkは整数の値をとります。

また、次に2つの性質があります。

ポアソン分布の期待値（平均）はλ
ポアソン分布の分散はλ

少しユニークですね。

期待値がλになるのは先ほど見た通りです。

分散がλになるのは、二項分布の分散、

二項分布の分散 = n x p x (1 − p)

から、考えることができます。

ポアソン分布の条件であるpが十分に小さいとき、

(1 − p) 〜 1

になります。

そのため、

ポアソン分布の分散 = n x p x (1 − p)　= n x p x 1 = n x p =　λ

となります。

さらに、ポアソン分布の最頻値はλ以下の最大の整数となります。

これは、λは整数以外の値をとるためです。

もし、λが整数ならλが最頻値をとります。

ポアソン分布と間違え注意: ピアソン

ポアソン分布とよく似た語幹の用語に、ピアソンがあります。

ピアソンは、ピアソンの相関係数でよく出てきます。

>>>相関係数とは？p値や有意差をどう解釈すれば良いのかわかりやすく！

たまに、ピアソンとポアソンを混乱することがあるので、気をつけましょう。

ポアソン分布はどのようなときに使うのか？

ポアソン分布はどのようなときに出てくるのかを考えていきます。

ポアソン分布の例でよく出てくるのは、不運にも事故に遭遇する回数です。

また、病気に疾患する確率や、不良品の割合など、世の中で発生する様々な事象に用いられています。

そのため、とても実用的な分布です。

ポアソン分布の期待値（平均）と分散はどうなっている？

ポアソン分布の期待値（平均）はポアソン分布の定義から明らか

ポアソン分布の期待値(平均値)を求めるために、まず、期待値(expctation)というものについて理解しましょう。

ポアソン分布のような確率関数が離散的であるような確率分布の期待値は、確率変数と確率関数の積について定義域に亘って和をとったもののことです。

確率変数の分布を端的に示す指標といえる。

ところがポアソン分布の期待値は、上のような和の計算を行わなくても、実は定義から直感的に求めることができます。

どういうことかと言うと、ポアソン分布とは平均してλ回ランダムに起こる事象が、単位時間にちょうどk回起きる確率の分布のことなので、λが期待値ということ。

次に、分散について理解しましょう。

期待値だけでは、ある確率分布がどのくらいの広がりをもって分布しているのかがわからない。

そこで、平均の周りにどの程度分布するかの指標として分散 (variance) がある。

平均と合わせると、確率分布を測定するときの良い指標となる。

確率関数が離散的であるような確率分布の分散は、確率変数と平均との差の2乗と確率関数の積ついて定義域に亘って和をとったもののことです。

ただ、上の定義式のまま分散を計算しようとすると、かなりの計算量となる場合が多いので、分散の定義式を変形して、以下のような式にしてから分散を求める方が多少計算が楽になる。

分散＝確率変数の2乗の平均－確率変数の平均の2乗

ポアソン分布の分散は、直感的には求まりませんが、上の定義に従って計算すると分散は期待値と同じλになります。

すなわち、ポアソン分布の場合、イベントの平均的な発生回数λだけ、平均からぶれるということ。

ポアソン分布の場合、平均値も分散もλとなる

ポアソン分布の期待値（平均）と分散の求め方・証明は？

ポアソン分布の期待値（平均）と分散の求め方は結構簡単

ポアソン分布の期待値（平均）は、「確率変数と確率関数の積ついて定義域に亘って和をとったものの」という定義式に沿ってとにかくひたすら計算すると求まります。

では実際に計算してみましょう。

ポアソン分布の期待値（平均）は、

上のような式変形だけで結構あっさり計算できる。

次に、ポアソン分布の分散は、確率変数と平均との差の2乗と確率関数の積について定義域に亘って和をとったもののですが、「ポアソン分布の期待値（平均）と分散はどうなっている？」で説明した必殺技である「分散＝確率変数の2乗の平均－確率変数の平均の2乗」を使って求めることにします。

よって、ポアソン分布の分散は

と、平均も分散もλとなりました。

これはシンプルで覚えやすい。

ポアソン分布の平均も分散も高校数学レベルの和の計算をひたすら繰り返すことで求めることが出来ることがお分かりいただけたでしょうか。

ポアソン分布に関してまとめ

ポアソン分布は、「単位時間あたり平均λ回生じる事象が、単位時間にk回生じる確率」をあらわっす
ポアソン分布の基本は二項分布の考え方
二項分布でnが大きく、pが小さいときλは一定と考えることができ、このときポアソン分布に従う
ポアソン分布の期待値はλ
ポアソン分布の分散はλ

メタアナリシスとは？システマティックレビューとの違いや結果の見方を徹底解説

beat1115 — Tue, 24 Feb 2026 00:50:28 +0000

メタアナリシスという言葉を耳にしたことはあるものの、「具体的にどのような手法なのか」「システマティックレビューとはどう違うのか」と疑問に感じている方は多いのではないでしょうか。

医学や公衆衛生をはじめとする多くの研究分野において、メタアナリシスは非常に重要な役割を担っています。複数の研究結果を客観的かつ統計的に統合することで、単一の研究では得られない信頼性の高い結論を導き出すことができるからです。

本記事では、メタアナリシスの基本概念や実施するメリット、システマティックレビューとの明確な違いについて分かりやすく解説します。さらに、実際の手順や「フォレストプロット」の見方、「出版バイアス」といった結果を解釈する際の重要な注意点まで網羅的にまとめました。メタアナリシスの全体像を体系的に理解したい方は、ぜひ最後までご覧ください。

メタアナリシスとは？基本概念と目的

メタアナリシスの定義と実施する目的・メリット

結論から言うと、メタアナリシスとは「複数の独立した研究結果を、統計的手法を用いて定量的に統合し、全体的な効果を推定する分析方法」のことです。過去に行われた類似するテーマの複数の研究データを集め、それらを数学的な手法で一つにまとめ上げることで、より信頼性の高い1つの結論を導き出そうとするのが主な目的です

メタアナリシスを実施する最大のメリットは、個々の研究の限界を補い、真の治療効果や要因の影響をより正確に評価できる点にあります。

例えば、ある新薬の効果を検証した小規模な研究Aと研究Bがあったとします。小規模な研究だけではデータのばらつきが大きく、偶然によって結果が左右されるリスクがあります。
しかし、これらを統合し、サンプルサイズが十分な大規模データとして解析を行うことで、統計的な検出力が高まり、より真実に近い効果量（リスク比やオッズ比など）を導き出すことが可能になります。

つまり、メタアナリシスの目的は、個々の研究のばらつきを克服し、科学的かつ客観的な「最適解」を定量的に示すことにあるのです。

なぜ「エビデンスレベル」が最も高いと言われるのか？

医療や科学の分野では、研究手法によって得られた情報の信頼性を「エビデンスレベル（科学的根拠の強さ）」という階層で評価します。その中で、メタアナリシス（およびシステマティックレビュー）は、エビデンスレベルのピラミッドの頂点、すなわち最も信頼性が高い手法として位置づけられています。

エビデンスレベル	内容
レベルI	システマティック・レビューまたはランダム化比較試験のメタアナリシス
レベルII	１つ以上のランダム化比較試験
レベルIII	非ランダム化比較試験
レベルIVa	コホート研究
レベルIVb	症例対照研究、横断研究
レベルV	症例報告、ケースシリーズ
レベルVI	専門委員会や専門家個人の意見

その理由は、単一の研究結果や研究者の主観によるバイアス（偏り）を極限まで排除できる手法だからです。

質の高い研究手法とされるランダム化比較試験（RCT）であっても、対象となった特定の集団や設定された条件に結果が依存してしまう可能性があります。

しかし、メタアナリシスでは、世界中で行われた複数の研究データを網羅的に集め、客観的な統計手法を用いて統合します。さらに、各研究の精度（サンプルサイズの大きさや標準誤差の小ささなど）に応じて適切な重みづけを行い、信頼性の高い研究結果ほど最終的な結論に大きく貢献するように計算されます。

様々な環境や集団で行われた複数の研究を厳密に統合することで、単一の研究では証明しきれなかった普遍的な事実（一般化可能性の高い結果）を提示できるため、メタアナリシスはエビデンスレベルが最も高いと評価されているのです。

＞＞エビデンスレベル（科学的根拠の強さ）のピラミッドや各研究デザインの信頼性について、さらに詳しく知りたい方はこちらの記事もご覧ください。

システマティックレビューとの違いと国際的なガイドライン

システマティックレビュー（SR）とは？

メタアナリシスと頻繁に混同されるのが「システマティックレビュー（Systematic Review: SR）」です。

システマティックレビューとは、特定のテーマ（リサーチクエスチョン）に関する既存の研究を、系統的かつ網羅的に収集・評価・統合する「包括的な文献レビュー手法」を指します。あらかじめ定められた厳密な検索手順に従って世界中のデータベースから論文を検索し、研究の質（バイアスのリスクなど）を批判的に吟味した上で、得られた知見を整理します。システマティックレビューの特徴は、結果の統合が「定性的」であっても「定量的」であってもよい点にあります。つまり、データを数値でまとめられない場合でも、文章や表を用いて全体的な傾向を論理的にまとめることが可能なのです。

メタアナリシスとシステマティックレビューの決定的な違い

システマティックレビューとメタアナリシスの決定的な違いは、「統計的手法を用いて定量的な統合を行っているかどうか」にあります。

システマティックレビューが文献の系統的な収集と評価（定性的・定量的の両方を含む）という大きな枠組みであるのに対し、メタアナリシスは、常に定量的な評価を実施し、主に統計的手法による結果の統合に焦点を当てた分析方法を指します。

言い換えれば、メタアナリシスはシステマティックレビューのプロセスの中に含まれる「解析手法の一つ」です。

システマティックレビューの中で、複数の研究結果（効果量）が類似した指標で測定されており、統計的にまとめることが可能かつ適切であると判断された場合にのみ、メタアナリシスが実行されます。

したがって、「システマティックレビューは行ったが、メタアナリシスは行わなかった」という論文は存在しますが、メタアナリシスを行うためには、その前提として必ずシステマティックレビューによる網羅的な文献収集が行われていなければなりません。

報告の質を担保するガイドライン「PRISMA声明」とは

システマティックレビューやメタアナリシスはエビデンスレベルが高いとされていますが、その質を担保するためには、研究プロセスが透明であり、客観的に評価可能でなければなりません。

そこで重要になるのが「PRISMA声明」です。

PRISMA声明とは、システマティックレビューやメタアナリシスを報告する際に遵守すべき国際的なガイドラインです。

研究者はPRISMA声明に従い、「どのようなデータベースを、どのような検索式で検索したのか」「どのような基準で論文を採択・除外したのか」といった使用した方法論や選択基準を論文内に明確に記述する必要があります。

これにより、他の研究者が同じ手順を再現し、結果の妥当性を検証することが可能になります。現在、質の高い医学雑誌の多くは、メタアナリシスの論文投稿においてこのPRISMA声明の遵守を必須条件としています。

メタアナリシスのやり方・手順

1. 研究課題の設定と文献の網羅的な収集・選択

メタアナリシスのやり方は、大きく分けて「事前の文献収集」と「統計解析」のフェーズに分かれます。

最初のステップは、明確な研究課題（リサーチクエスチョン）の設定です。

一般的には「PICO（Patient：対象患者、Intervention：介入、Comparison：比較対照、Outcome：結果）」というフレームワークを用いて検証したいテーマを具体化します。

次に、この設定に基づいて検索式を作成し、PubMedなどの主要なデータベースから関連する文献を網羅的に収集します。

その後、あらかじめ定めた包含基準と除外基準に沿って、タイトルや抄録のスクリーニング、さらには本文の精読を行い、最終的にメタアナリシスに組み込む研究を厳選します。

2. データの抽出と統計学的な統合（解析）

対象となる研究が選定されたら、各論文から必要なデータ（サンプルサイズ、イベント発生数、平均値など）を抽出します。そして、抽出したデータを用いて統計学的な統合を行います。

データの統合には、各研究の「効果量（オッズ比、リスク比など）」と「精度の指標」を用いて、それらを統合した全体効果量を算出します。

このとき、各研究結果のばらつき（異質性）を考慮して統計モデルを選択します。各研究が全く同じ母集団から抽出されたと仮定する「固定効果モデル」と、研究ごとに結果が大きく異なっていることを前提とし、そのばらつきを許容する「変量効果モデル」があります。

医療分野のように、研究が行われた環境や患者の背景が微妙に異なる場合は、より柔軟な「変量効果モデル」が採用されることが多くなっています。

＞＞無料の統計ソフト『EZR』を使って実際にメタアナリシスを行う手順や、データセットの作り方については、こちらの記事で詳しく解説しています。

メタアナリシスの結果の見方と重要な注意点

結果を視覚化する「フォレストプロット」の見方

メタアナリシスの結果は、「フォレストプロット」と呼ばれる特徴的なグラフを用いて視覚的に提示されます。論文を読む際は、このグラフの見方を理解しておくことが必須です。

フォレストプロットでは、縦軸に統合した各研究の名前が並び、横軸に効果量（オッズ比やリスク比など）が示されます。下記がフォレストプロットの一例です。

各研究の結果は、四角い「箱」とそこから伸びる「横線」で描かれます。箱の位置がその研究の効果量の点推定値を示し、箱の大きさがその研究の重みを表します。横線は95%信頼区間を示しています。

そして、プロットの一番下にある「ひし形」が、全研究を統合した最終的な効果量（メタアナリシスの結果）です。このひし形が、効果がないことを示す基準線（リスク比やオッズ比なら「1」、平均値の差なら「0」の縦線）と交わっていなければ、「統計的に有意な差がある」と判断することができます。

結果を歪めるリスク「出版バイアス」とは

メタアナリシスの結果を解釈する上で、最も警戒すべき落とし穴が「出版バイアス」です。

出版バイアスとは、「統計的に有意な結果や肯定的な結果が出た研究の方が、そうでない研究（有意差なし、否定的な結果）よりも学術雑誌に掲載（出版）されやすい傾向」のことです。

仮に、新薬の効果がないことを示す研究が存在していても、それらが出版されずにお蔵入りになっていれば、メタアナリシスを行う際に入手可能な論文は「効果があった」とするものばかりに偏ってしまいます。

その結果、統合された効果量が実際の効果よりも過大評価される方向に歪んでしまう危険性があるのです。

出版バイアスの有無を視覚的に調べるためには、「ファンネルプロット」というグラフが用いられます。

これは縦軸に研究の精度（サンプルサイズなど）、横軸に効果量をとった散布図で、出版バイアスがなければ点は逆さまの漏斗（ファンネル）のように左右対称に分布すると期待されます。

非対称な分布が見られる場合は出版バイアスの存在が疑われ、Egger検定などの統計手法を用いてさらに定量的に評価が行われます。

＞＞出版バイアスが起きてしまう原因や、ファンネルプロットを用いた具体的な評価方法については、こちらの記事で分かりやすくまとめています。

研究間のばらつきを示す「異質性」への配慮

最後に確認すべき重要なポイントが「異質性」です。

異質性とは、統合の対象となったそれぞれの研究で得られた効果の大きさが、研究間でどれくらい「ばらついているか」「異なっているか」の度合いを示しています。

研究のデザインや対象患者の背景などが研究ごとに異なると、結果にも大きなばらつきが生じます。異質性は主に「I^2（アイ二乗）統計量」という指標で評価され、一般的に25%以下なら異質性が低く、25〜50%で中等度、50〜75%で高度、75%以上で極めて高度な異質性があると判断されます。

もし高度な異質性が見られる場合、そもそもそれらの研究を一つに統合すること自体が適切でなかった可能性や、結果の解釈を慎重に行う必要性が生じます。

まとめ

メタアナリシスは、複数の研究結果を統計的に統合し、科学的に最も信頼性の高いエビデンスを提供する強力なツールです。システマティックレビューによる厳密な文献収集を基盤とし、PRISMA声明などのガイドラインを遵守することで、その質と透明性が担保されます。

一方で、フォレストプロットによる正しい結果の解釈や、出版バイアス、異質性といった限界や注意点を理解しておくことも欠かせません。本記事で解説した基本概念や手順、結果の見方を身につけることで、専門的な医学論文や研究データをより深く、正確に読み解くことができるようになるでしょう。

リッカート尺度の分析方法｜5件法は連続変数か順序尺度か？

beat1115 — Thu, 12 Feb 2026 00:39:57 +0000

アンケート調査や臨床研究において、心理的な態度や主観的な評価を測定するために頻繁に使用されるのが「リッカート尺度」です。「非常に満足」から「非常に不満」までといった選択肢を用意し、回答者に自身の考えに最も近いものを選んでもらうこの形式は、多くの研究者にとって馴染み深いものでしょう。

しかし、いざ集まったデータを分析する段階になると、多くの人が一つの大きな壁にぶつかります。それは、「このデータを数値（連続変数）として扱って平均値を出し、t検定などを行ってもよいのか？それとも順序尺度（カテゴリカルデータ）として厳密に扱うべきなのか？」という問題です。

結論から言えば、この問いに「絶対的な正解」はありません。研究の目的やデータの性質、そしてその分野の慣習によって適切なアプローチは異なります。しかし、それぞれの方法が持つ統計学的な意味やリスクを理解せずに安易に手法を選択することは、誤った結論を導く原因となりかねません。

本記事では、リッカート尺度データの性質を深く掘り下げた上で、2つの主要な分析アプローチ（順序尺度としての分析、連続変数としての分析）について、それぞれのメリット・デメリットを解説します。これを読めば、あなたの研究に最適な統計手法を選ぶための判断基準が得られるはずです。

リッカート尺度とは？ 4件法・5件法のデータの性質

リッカート尺度（Likert scale）は、主に心理学や社会調査、医療研究などで用いられる測定尺度の一つです。回答者に対して特定の質問文を提示し、それに対する同意や評価の程度を段階的な選択肢で尋ねる形式をとります。一般的には、「全くそう思わない」から「非常にそう思う」といった形容語句が用いられます。

分析手法を検討する前に、まずはこのデータの基本的な性質について理解を深めましょう。

順序尺度としての性質：「間隔は等しい」とは限らない

リッカート尺度は、本質的には「順序尺度（順序カテゴリカルデータ）」に分類されます。順序尺度とは、選択肢の間に明確な順序（大小関係）は存在するものの、その「間隔」が数値的に等しいとは限らないデータを指します。

例えば、ある製品の満足度を以下の5段階で尋ねたとします。

非常に不満
やや不満
どちらともいえない
やや満足
非常に満足

このとき、便宜上「1点、2点、3点…」と数値を割り振ることはよくあります。しかし、回答者の心理において、「非常に不満（1点）」と「やや不満（2点）」の間の心理的な距離（1点差）が、「やや満足（4点）」と「非常に満足（5点）」の間の距離（1点差）と完全に等しい保証はどこにもありません。

温度計の目盛りであれば、10℃と11℃の差は、20℃と21℃の差と同じ熱エネルギーの違いを意味します（これは間隔尺度や比率尺度です）。

しかし、リッカート尺度における「1点の差」は、あくまで便宜的なものであり、数学的に厳密な等間隔性を保証するものではないのです。この性質が、後の分析手法の選択において大きな論点となります。

4件法と5件法の違い：中立的な選択肢の有無

リッカート尺度には、選択肢の数によっていくつかのバリエーションがありますが、代表的なものが「4件法」と「5件法」です。

5件法（5-point scale）： 「どちらともいえない」「普通」といった中立的な選択肢が含まれます。回答者が明確な意見を持っていない場合や、判断を保留したい場合に選択しやすいという特徴があります。データの分布としては、中央に回答が集まりやすくなる傾向があります。
4件法（4-point scale）： 中立的な選択肢を排除し、回答者に肯定的か否定的かのどちらかの態度を強制する形式です。これを「強制的選択法」と呼ぶこともあります。日本人は「どちらともいえない」を選びがちであると言われることがありますが、4件法はそうした中心化傾向を防ぎ、意見の方向性を明確にするために用いられることがあります。

どちらを採用するかは研究デザインによりますが、分析上の扱いは基本的に同じです。5件法であれば1〜5、4件法であれば1〜4の数値を割り当ててデータ化しますが、いずれも「順序尺度である」という根本的な性質は変わりません。

リッカート尺度の分析アプローチ①：順序カテゴリカルデータとして厳密に分析する（基本原則）

リッカート尺度が本質的に順序尺度である以上、統計学的に最も厳密で「本来あるべき姿」とされるのは、データを順序カテゴリカルデータとして扱うアプローチです。このアプローチでは、数値の間隔に意味を持たせず、あくまで「順序（大小関係）」のみを利用して解析を行います。

推奨される要約統計量：中央値と割合（%）

データを連続変数（数値）として扱わない場合、要約統計量として「平均値」や「標準偏差」を算出することは適切ではありません。なぜなら、平均値は「足し算」や「割り算」の結果であり、間隔が等しいことを前提とした計算だからです。

その代わりに用いられるのが、「中央値（Median）」や「四分位範囲（IQR）」、あるいは各選択肢を選んだ人数の「度数」や「割合（%）」です。

中央値： データを大きさの順に並べたときに、ちょうど真ん中にくる値です。例えば、5人の回答が「1, 1, 5, 5, 5」だった場合、平均値は3.4ですが、中央値は5になります。リッカート尺度のような偏りが出やすいデータや、外れ値の影響を受けやすいデータにおいて、中央値は集団の代表的な値をより適切に示すことができます。
割合（%）： 「満足と回答した人の割合（4点以上を選んだ人の割合）」などを算出します。これは直感的にも理解しやすく、順序尺度の性質を崩さずに結果を提示できる優れた方法です。

論文やレポートでの記述例としては、「満足度は中央値4（四分位範囲：3-5）であった」や、「回答者の80%が肯定的評価（4または5）を選択した」といった表現が適切です。

統計手法：順序ロジスティック回帰分析の活用

では、要因分析や群間比較を行いたい場合はどうすればよいでしょうか。順序尺度としてデータを扱う場合に推奨される多変量解析の手法が、「順序ロジスティック回帰分析（Ordinal Logistic Regression）」です。

順序ロジスティック回帰分析は、目的変数が3つ以上のカテゴリーを持ち、かつそれらに順序関係がある場合（例：不満 < 普通 < 満足）に特化した統計モデルです。

通常のロジスティック回帰分析（二項ロジスティック回帰）が「イベントが起きるか否か（0か1か）」の2値を扱うのに対し、順序ロジスティック回帰は「あるカテゴリー以下になる確率（累積確率）」や「その起こりやすさ（累積オッズ）」に説明変数がどのように影響するかを分析します。

例えば、「ある治療法を行った群（説明変数）は、行わなかった群に比べて、満足度（目的変数）が高いカテゴリーに属する傾向があるか」を検定することができます。この手法を用いれば、データの「間隔が等しくない」という性質を保ったまま、順序関係に基づいた妥当な推測を行うことが可能です。統計学的な厳密さを最優先するならば、この手法が第一選択となります。

リッカート尺度の分析アプローチ②：連続変数として扱ってパラメトリック検定やノンパラメトリック検定を行う（現実的対応）

一方で、実務や多くの研究現場では、リッカート尺度を「連続変数（連続量）」とみなして分析することが広く行われています。これは、便宜的に「1点と2点の間隔は、4点と5点の間隔と同じである」と仮定して計算を進めるアプローチです。

なぜ、厳密には正しくないこの方法が頻繁に採用されるのでしょうか？それには実用上の大きなメリットがあるからです。

「間隔が等しい」と仮定して分析するメリット

リッカート尺度を連続変数として扱う最大のメリットは、「パラメトリック検定」と呼ばれる強力で汎用性の高い統計手法が利用可能になる点です。

平均値と標準偏差の算出： データの分布を一目で把握できる「平均値」や、ばらつきを示す「標準偏差」を計算できます。「満足度の平均は4.2点」といった表現は、中央値よりも直感的に微細な差を伝えやすい場合があります。
t検定や分散分析（ANOVA）の利用： 2群間の比較には「t検定」、3群以上の比較には「分散分析（ANOVA）」といった、統計学の教科書で必ず登場する標準的な検定手法を適用できます。これらの手法は多くの研究者にとって馴染み深く、解釈もしやすいという利点があります。
重回帰分析や共分散分析の適用： 他の連続変数（年齢や検査値など）と組み合わせて、より高度な多変量解析を行う際にも、連続変数扱いすることでモデルへの組み込みが容易になります。

このように、連続変数として扱うことで、分析の選択肢が広がり、結果の解釈や伝達がスムーズになるという実利的な側面があります。

連続変数扱いする際の注意点とリスク

しかし、このアプローチには常にリスクが伴います。あくまで「間隔が等しいと仮定している」に過ぎないため、その仮定が現実と大きく乖離している場合、分析結果の信頼性が揺らぐ可能性があります。

前提条件の不成立： パラメトリック検定（t検定など）は、データが「正規分布（左右対称の釣り鐘型の分布）」に従うことを前提としています。しかし、リッカート尺度のデータは、天井効果（全員が5を選ぶなど）や床効果によって分布が歪むことが多く、正規分布の仮定を満たさないケースが多々あります。
解釈の難しさ： 計算上「平均値 3.5」という結果が出たとしても、リッカート尺度において「3.5」という状態は現実には存在しません。「どちらともいえない（3点）」と「やや満足（4点）」の中間とは具体的にどのような心理状態なのか、厳密に定義することは困難です。
精度の低下： 本来は等間隔ではないデータを無理やり等間隔として扱うことで、データの持つ情報を歪めてしまい、本来あるはずの差を見逃したり（βエラー）、逆にないはずの差を有意としてしまったり（αエラー）するリスクも否定できません。

したがって、連続変数として扱う場合には、「各選択肢が等間隔であると仮定した上で解析を行っている」という前提（リミテーション）を、研究者自身が常に意識しておく必要があります。

＞＞リッカート尺度は「平均」を出してもいい？連続データとして扱う根拠と注意点

リッカート尺度の分析には結局どちらを選ぶべきか？適切な統計手法の選び方

ここまで2つのアプローチを見てきましたが、結局のところ、自分の研究ではどちらを選べばよいのでしょうか。

研究目的と先行研究との整合性で判断する

どちらの方法を選ぶかに、絶対的な正解・不正解はありません。両者の特性を把握した上で、研究目的に応じて研究者自身が判断する必要があります。判断の指針として以下のポイントを参考にしてください。

先行研究を確認する： あなたの研究分野（医学、心理学、社会学など）や、投稿を予定しているジャーナルにおいて、類似の研究がどのような手法を採用しているかを確認しましょう。その分野で「リッカート尺度は連続変数としてt検定を行うのが通例」となっているのであれば、それに倣うことは合理的です。逆に、厳密さを重視する分野であれば、順序ロジスティック回帰などを選択すべきです。
データの分布を確認する： ヒストグラムや箱ひげ図を作成し、データの分布を確認します。もしデータが極端に偏っており、明らかに正規分布から外れている場合は、連続変数としての分析（パラメトリック検定）は避けたほうが無難です。その場合は、順序尺度として扱うか、ノンパラメトリック検定（マンホイットニーのU検定など）の利用を検討しましょう。
統計専門家への相談： 判断に迷う場合は、統計の専門家に相談しながら進めることを強くお勧めします。

また、結果の報告においては、「平均値と中央値を併記する」という方法も有効です。パラメトリックな分析を行いつつも、ノンパラメトリックな要約統計量（中央値や四分位範囲）を併せて提示することで、データの分布特性を読者に誤解なく伝えることができます。

＞＞ウィルコクソンの順位和検定とは？マンホイットニーのU検定との違いは？

より精度の高い代替案：VAS（Visual Analogue Scale）の検討

もし、これから研究を計画する段階であり、より精度の高い連続データが必要であるならば、リッカート尺度ではなくVAS（Visual Analogue Scale：視覚的アナログ尺度）の導入を検討するのも一つの手です。

VASとは、例えば長さ100mmの直線を提示し、左端を「全くない（0）」、右端を「想像できる限り最大（100）」と定義して、回答者に自分の感覚に該当する位置に印をつけてもらう方法です。

回答者は「左端から何mm」という形で回答するため、得られるデータは0〜100の連続量となります。VASで得られたデータであれば、間隔や順序の悩みを抱えることなく、堂々と連続変数として扱い、平均値の算出やパラメトリック検定を行うことができます。痛みの評価などでよく用いられる手法ですが、満足度や主観的な評価全般に応用可能です。

まとめ

リッカート尺度（4件法・5件法）の分析方法には、大きく分けて2つの道があります。

順序カテゴリカルデータとして扱う（厳密なアプローチ）：
- 要約には「中央値」や「割合」を用いる。
- 解析には「順序ロジスティック回帰分析」やノンパラメトリック検定を用いる。
- 統計学的な妥当性が高い。
連続変数として扱う（現実的なアプローチ）：
- 要約には「平均値」や「標準偏差」を用いる。
- 解析には「t検定」「分散分析」「重回帰分析」などのパラメトリック検定を用いる。
- 分析の選択肢が多く、解釈が直感的だが、「間隔が等しい」という仮定が必要。

どちらを選択するかは、データの分布状況、研究の目的、そして先行研究の慣例を総合的に判断して決定しましょう。重要なのは、選んだ手法の限界と前提条件を理解し、誠実に結果を報告することです。迷ったときは、VASのような代替手法の検討や、専門家への相談も視野に入れつつ、最適な分析計画を立ててください。

＞＞SPSS で順序ロジスティック回帰を行う方法

内的妥当性と外的妥当性の違いは？予測研究で重要な妥当性の考え方

beat1115 — Tue, 09 Sep 2025 21:42:04 +0000

この記事では、予測研究における内的妥当性と外的妥当性に関して、重要性や考え方をわかりやすくお伝えしています。

また、外的妥当性に関しては最近提案されている、Internal-External Cross Validationといった方法も含めて紹介します。

論文アクセプトに少しでも近付くように、本内容をぜひ理解しましょう！

予測研究における妥当性の評価とは？内的妥当性と外的妥当性の違い

予測研究において、モデルがどの程度「使える」のかを判断するためには、妥当性の評価が欠かせません。

単にモデルを構築するだけでは、その予測性能が信頼できるかどうかはわかりません。

そこで、内的妥当性（internal validation）と外的妥当性（external validation）を区別し、それぞれの方法で評価を行う必要があります。

内的妥当性の評価

内的妥当性は、開発データあるいは同一集団の中でモデルがどれだけ予測力を発揮できているかを確認するものです。

つまり、モデルが開発時に用いたデータに対して過不足なくフィットしているかを評価するもの。

例えば、ある病気の発症を予測するために年齢・性別・血圧・喫煙歴を説明変数としたロジスティック回帰モデルを構築したとします。

このとき「内的妥当性が高い」とは、その研究で集められた対象者のデータに対して、モデルが適切に予測精度を発揮している状態を指します。

主な方法は以下の通りです。

見かけの予測能（apparent performance）
- 開発データそのものに対する予測能を評価する方法。
- AUC（C統計量）やCalibration slope（予測確率と実測の整合性）を算出する。
- ただし、開発データに最適化されているため、過大評価になりやすい。
交差検証（cross-validation）
- データを複数のサブセットに分割し、交互に学習と検証を行う方法。
- 開発集団の中での安定性を確認できる。
ブートストラップ法（bootstrapping）
- 元データから再標本を繰り返し抽出し、そのたびにモデルを構築して性能を評価する。
- モデルの過剰適合を補正した「optimism-corrected performance」を得られる。

これらの手法を通じて、開発データ内でのモデルの適切さを確認し、過剰適合のリスクを把握することが可能です。

外的妥当性の評価

一方、外的妥当性とは「研究の外に一般化できるか」という視点です。

すなわち、開発に使わなかった別のデータにおいても、モデルが同じように予測能を発揮できるかどうかを問います。

例えば、ある大学病院で作られた心血管リスク予測モデルが、地域のクリニックや他国の医療機関でも同様に機能するのか。あるいは、特定の年齢層で開発したモデルが、別の年齢層や背景を持つ患者集団でも通用するのか。

これらを確認するのが外的妥当性です。

外的妥当性を評価するには、以下の方法がよく用いられます。

独立データセットによる検証
- 開発データとは異なる施設・地域・時期に収集されたデータを用いる。
- 最も信頼性の高い外的妥当性評価。
地理的・時間的外部検証
- 地理的：別施設・別地域でのデータを用いる。
- 時間的：開発時期とは異なる期間のデータを用いる。
サブグループ検証
- 年齢・性別・疾患背景など異なる患者層で予測能を確認する。

外的妥当性を検証することにより、モデルの一般化可能性が担保され、臨床現場や他の研究環境での利用が正当化されます。

予測モデルの妥当性評価のための評価指標

予測モデルの妥当性を評価する際には、複数の指標を組み合わせて解釈することが重要です。

識別能（discrimination）
- モデルがイベント発生群と非発生群を区別できる力。
- 代表指標：AUC（C統計量）、Harrell’s C-index。
適合度（calibration）
- 予測された確率と実際の発生率がどの程度一致しているか。
- Calibration plotなどで評価。
臨床的有用性
- モデルを使うことで臨床意思決定が改善するかどうか。
- Decision curve analysis（DCA）などを利用。

内的妥当性・外的妥当性のいずれの検証でも、これらの指標を組み合わせて解釈することが求められます。

内的妥当性と外的妥当性にはトレードオフの視点が必要

予測モデル研究には、「内的妥当性を追求しすぎると外的妥当性が損なわれる」というトレードオフがあります。

開発データに過度に適合させると、外部データでの性能が落ちる＝オーバーフィッティングの状態になります。

逆に、外的妥当性を重視しすぎるとモデルが単純化され、開発集団での予測能が十分に得られない場合もあります。

したがって、研究者は「開発データでの適合」と「外部データへの一般化」のバランスを意識し、モデル構築から検証まで一貫した戦略を取ることが求められます。

IECV（内部–外部クロスバリデーション）とは？

予測モデル研究では、外的妥当性（generalizability）を示すことが必須です。

しかし、多施設データをまとめて「7:3にランダム分割」しても、開発と検証は同じ集団からのデータであり、真の外的妥当性とは言いにくいです。

そこでTRIPOD-Clusterが推奨するのが内部–外部クロスバリデーション（IECV）という方法。

IECVの方法（例：施設ABCDE）

施設ごとに外部検証データを設定
- Aを検証用に外し、B＋C＋D＋Eでモデルを開発 → Aで検証
- Bを検証用に外し、A＋C＋D＋Eでモデルを開発 → Bで検証
- …以下、すべての施設について繰り返す
施設ごとに外的妥当性を評価
- 各施設で、C統計量（AUC）、Calibration slope、Brierスコアなどを算出
- 「施設Aでは良好だが、施設Bでは性能が低下」など、施設間の差を明らかにする
結果を統合
- 全施設の評価指標を統合し、平均的な外的妥当性を算出

施設間のばらつき（異質性）も評価可能（ランダム効果メタ解析のイメージ）です。

画像引用：Thomas P A Debray et al., 2022

TRIPOD-Clusterでの位置づけとIECVのメリット

TRIPOD-Clusterは、IECVを「クラスター化データにおける外的妥当性評価の基本手法」と位置づけています。
特に多施設共同研究では、IECVを行うことで、

モデルの一般化可能性
施設間の予測性能のばらつき

の両方を示すことが可能になります。

これにより、下記のメリットが期待できます。

真の外的妥当性を評価できる
- 施設を完全に独立データとして扱うため、「新しい集団でも通用するか」を直接検証できる。
施設間の異質性を明示できる
- 「このモデルは都市部の病院では有効だが、地方病院では性能が低い」といった特徴を把握できる。
データを無駄にしない
- 7:3分割のように開発データを削らず、全データを活用できる

そもそも妥当性とは？妥当性と信頼性の違い

予測研究を理解するうえで混同されがちな概念に、「妥当性（validity）」と「信頼性（reliability）」があります。

どちらも研究の質を語る際に頻繁に登場しますが、意味するところは大きく異なります。

ここでは特に多変量解析による予測モデルを念頭に、その違いを整理していきます。

妥当性とは何か？

妥当性とは、予測モデルが「本当に測りたいものを測れているか」「研究の目的に沿った正しい推定ができているか」を指します。つまり「正確さ」に関わる概念です。

予測モデルにおける妥当性を考えるとき、先に説明した内的妥当性と外的妥当性に分けて考えるとわかりやすいでしょう。

内的妥当性：モデルが開発集団の中でどの程度うまく予測できているか
外的妥当性：そのモデルが別の集団や環境でも予測性能を維持できるか

妥当性が高いとは、「モデルが本来の目的に即して適切に機能している」ということです。

信頼性とは何か？

一方、信頼性は「測定や予測の一貫性」を指します。つまり、同じ条件で繰り返し評価したときに同様の結果が得られるかどうか、という安定性の問題です。

例えば、同じ患者集団で同じ予測モデルを複数回適用したとき、予測確率や判別性能が大きく変動しないのであれば、そのモデルには高い信頼性があるといえます。

逆に、データの取り扱いが少し変わるだけで結果が大きく揺らぐ場合は、信頼性が低いと評価されます。

信頼性は「正しさ（validity）」とは別物であり、たとえ一貫性が高くても間違った方向に安定していることもあります。

その場合は「信頼性は高いが妥当性が低い」という状態になります。

妥当性と信頼性の違いを例で考える

よく使われる比喩に「的当て」のイメージがあります。

的の中心を「真の値」とすると、妥当性は矢が中心に近いかどうか（正確さ）
信頼性は矢が同じ場所にまとまって刺さっているかどうか（一貫性）

つまり、矢がすべて中心から外れた同じ位置に集まっている場合は「信頼性は高いが妥当性が低い」。

逆に、矢が中心の周囲にまばらに散らばっている場合は「妥当性はまずまずだが信頼性が低い」ということになります。

予測研究における妥当性と信頼性

予測研究では、妥当性と信頼性の両立が求められます。例えばロジスティック回帰で構築した予測モデルが、同じ患者集団で繰り返し使っても似た結果を返すのであれば「信頼性が高い」と言えます。

しかし、それが本当に疾患リスクを正しく反映しているか（妥当性）は別問題です。

特に予測モデルの一般化可能性を議論する際には、外的妥当性の観点が欠かせません。

開発集団における信頼性や内的妥当性だけを確認しても、それが異なる患者群で通用するとは限らないからです。

外的妥当性とオーバーフィッティングの関係

ここで重要なのが、外的妥当性の評価はオーバーフィッティングを見抜く役割も果たすという点です。

予測モデルは、開発データに適合させすぎると一見高い精度を示しますが、未知のデータでは急激に性能が低下します。

これは「内的妥当性は高く見えるが外的妥当性が低い」典型的なケースであり、まさにオーバーフィッティングの問題です。

外的妥当性の検証を行うことで、開発時には見えなかった過剰適合が明らかになり、モデルの改良や変数選択の見直しを促すことができます。

したがって外的妥当性の検証は「一般化可能性の確認」という本来の目的に加え、「過剰適合を検出・改善するプロセス」としても重要なのです。

研究の一般化可能性とは

予測研究において重要な問いのひとつは、「このモデルは他の集団や環境でも使えるのか？」という点です。

この問いに答える概念が研究の一般化可能性（generalizability）です。

一般化可能性は、しばしば外的妥当性とほぼ同義で使われることもありますが、厳密には「研究結果や予測モデルを、開発に使われなかった別の対象に適用できる程度」を指します。

一般化可能性の基本的な考え方

研究の一般化可能性とは、「研究で得られた知見やモデルが、研究集団を越えて別の対象集団にも通用するか」という問いへの答えです。

臨床研究では「この治療効果は他の病院や他の患者にも当てはまるのか？」、予測研究では「このモデルは異なる患者群でも精度を保てるのか？」というかたちで議論されます。

たとえば、ある病院で構築された心血管リスク予測モデルがあるとします。開発対象は50〜60歳の男性患者でした。

このモデルが70代女性の患者や、別の地域の医療機関の患者にも適用可能かどうかが「一般化可能性」です。

もしその集団で予測能が著しく低下するなら、そのモデルの一般化可能性は乏しいことになります。

一般化可能性と外的妥当性

一般化可能性は外的妥当性と深く関わっています。外的妥当性が高ければ、そのモデルは多様な集団で安定した予測性能を発揮できるため、一般化可能性が高いといえます。

外的妥当性の検証にはいくつかの方法があります。

地理的外的妥当性：別の施設や地域のデータで検証する
時間的外的妥当性：異なる時期に収集したデータで検証する
集団外的妥当性：異なる背景（年齢層、性別、疾患背景）を持つ集団で検証する

これらの検証を通じて、研究の一般化可能性を評価することができます。

一般化可能性を損なう要因

予測研究における一般化可能性を低下させる主な要因は以下の通りです。

対象集団の限定性
研究対象が特定の年齢層・性別・疾患群に偏っている場合、他の集団では当てはまらない可能性が高い。
研究環境の特殊性
特定の医療機関の診療体制や検査方法が前提となっていると、別の環境では結果が再現できない。
過剰適合（オーバーフィッティング）
開発データに過度に適合したモデルは、未知のデータでは性能を維持できず、一般化可能性を著しく損なう。

このうち過剰適合は、予測研究における最も典型的な問題といえます。

一般化可能性とオーバーフィッティング

過剰適合は「開発データにおいては高精度を示すが、新しいデータでは精度が低下する」現象です。これはまさに「一般化できない」状態です。

予測モデル研究における外的妥当性の検証は、過剰適合を見抜くうえで不可欠です。

もし独立した検証データで性能が著しく落ちるなら、そのモデルは一般化可能性を持たないと判断できます。

逆に、外部データでも安定した予測性能を維持できるなら、そのモデルは高い一般化可能性を有することになります。

したがって、一般化可能性の議論は単なる理論的な話ではなく、オーバーフィッティングの問題と実務的に直結しています。

一般化可能性を高める工夫

研究の設計段階から一般化可能性を意識することが重要です。具体的な工夫としては、

多施設共同研究でモデルを開発する（特定施設のバイアスを避ける）
対象者の選定を広くする（年齢層や背景を限定しすぎない）
外部検証を前提とした研究計画を立てる
シンプルなモデルを選択する（複雑すぎるモデルは過剰適合しやすい）

これらの取り組みによって、研究結果の一般化可能性を高めることができます。

まとめ

予測研究においては、単に多変量解析でモデルを構築するだけでは十分ではありません。

そのモデルが「正しく作られているか」「新しい集団でも使えるか」を検証することが不可欠です。

そのために重要なのが、内的妥当性と外的妥当性という二つの視点です。

内的妥当性：開発集団で正しく機能しているか
外的妥当性：別集団や環境でも使えるか
信頼性：繰り返し評価しても結果が安定しているか
一般化可能性：研究成果が現実の臨床や他の場面でも再現できるか
過剰適合：これらを損なう最大のリスク要因

これらの視点をバランスよく取り入れることが、予測研究の成功を左右します。

臨床や実務で「本当に役立つモデル」を作るためには、内的妥当性と外的妥当性を両輪として検証し、過剰適合を避けつつ一般化可能性を高めていきましょう。

こちらの内容はYoutubeでも解説しております。

よろしければこちらの動画をご覧くださいませ。

確率密度関数とは？わかりやすく正規分布一様分布の面積が確率になる意味と求め方

beat1115 — Tue, 05 Aug 2025 23:00:39 +0000

統計学では、確率密度や確率密度関数といった語句がよく出てきます。

これらの言葉は、”確率”としばしば混同されて使われていますが、確率と確率密度は大きく異なります。

では、確率と、確率密度や確率密度関数は何が違うのでしょうか。

この記事では、統計学での重要単語”確率密度と確率密度関数”についてわかりやすく出てきます。

確率密度関数とは？理解するのに重要な確率変数

確率密度の話をするには、はじめに確率変数の話をする必要があります。

確率変数は、”ある変数の値をとる確率が存在する変数”です。

例えば、サイコロを例にして考えてみましょう。

サイコロは1、２、３、４、５、６と6つの目があります。

サイコロの各目が出る確率は1/6ですから、それぞれのサイコロの目は確率変数です。

身長の例を考えてみましょう。

身長のデータが得られて、ヒストグラムを作成してみると、下記のようになります。

そして、上記のヒストグラムを滑らかにしてみると、下記のようなグラフになります。

確率変数は、上の2つ図では横軸にあたります。

この確率変数は、確率変数の性質によって、

離散確率変数
連続確率変数

2種類に分けることができます。

離散変数は上のヒストグラムやサイコロの目のように、変数が飛び飛びで存在しているものを指します。

>>>ヒストグラムとは？エクセルでの作成方法と解釈を簡単にわかりやすく

サイコロの目は1から６と連続のように思えますが、これは飛び飛び、つまり離散的です。

連続な値は1、1.0000001、1.001111といったように、シームレスに繋がった値のことです。

1、1.1、1.2のような小数刻みでも離散的な値になります。

＞＞データの種類に応じて解析方法は決まる

確率変数が離散的な場合、各変数が生じる可能性が”確率”

離散的な変数の時とき、各変数が生じる可能性を”確率”と言います。

これは中学や高校などでも習う概念で、サイコロの目や、コインの表と裏のような話です。

ここではサイコロを例に考えてみます。

サイコロで1が出る確率は1/6です。

つまり各目が出る確率は1/6で、確率変数が6個あるので、

サイコロを振ってどれかの目が出る確率は1/6 x 6 = 1となります。

確率変数が連続変数の場合は？

次に、連続確率変数を考えます。

連続確率変数は上の２つ目の図のように、変数が連続的なものを指します。

例えば、1から6までの連続確率変数があったときに生じうる変数は、1.1や1.1111、1.010101といった様々な変数をとることができます。

もし、サイコロの時のように1から6までの値が生じる可能性が1/6の一様だったとしましょう。

このとき、どれかの値が出る可能性はどうなるでしょうか。

離散変数と同じように、確率で考えた場合。

1/6 X 無限　= 無限

と可能性が1ではなくなってしまいます。

これはおかしいですよね。

つまり、連続変数の場合では、従来の確率の概念を使うことができなくなってしまいます。

確率密度とは？一様分布の例で面積との関係や求め方をわかりやすく！

先ほど、連続確率変数では、確率の概念を用いるとおかしくなるということを見ました。

そこで、用いる概念を確率密度と呼びます。

先ほどの例を考えますと、1から6までの連続確率変数で、全ての値が一様な可能性で出るとします。

このような時は、1から6までの値の合計、つまり、何かの値が出る確率が1になるように定義します。

イメージは下の図ですね。

このイメージで高さに対応するものが、確率密度になります。

横の幅は6 − 1 = 5で、5ですので、確率密度は1/5となります。

では、ここで問題です。

上の例で2が出る”確率”はいくらでしょうか。

答えはほぼゼロです。

理由は、1/無限　= ほぼゼロだからです。

では2ぐらいの値（1.5から2.5まで）が出る確率はいくらでしょうか?

答えは1/5です。

この理由は、1/5x (2.5 −1.5) = 1/5 だからです。

連続変数では、高さが確率密度で面積が確率

このように、連続変数では確率は面積に対応します。

確率密度は上記の図で言うと、面積の高さに相当します。

高さである確率密度に、横幅である確率変数の範囲をかけて面積を求めることでようやく確率になります。

確率変数の幅というのは、以前に正規分布のところで出てきました。

これですね。

ある範囲に値が含まれている可能性という考え方は、統計学では広く用いられており、

それに伴い、確率密度の概念も広く用いられています。

>>>正規分布とは？簡単にわかりやすく標準偏差との関係やエクセルでのグラフ化を解説

>>>標準正規分布表の見方について！標準化やZ値の計算式はどうすればいい？

確率密度関数とは？正規分布の場合を例にわかりやすく

確率密度関数は確率密度と確率変数の関係を表した関数のことを表しています。

代表的な確率密度関数といえば、

正規分布の関数がそれにあたります。

これですね。

>>>正規分布とは？簡単にわかりやすく標準偏差との関係やエクセルでのグラフ化を解説

ここでは、難しい数式は取り上げませんが、確率と確率密度の関係は一般的には積分の形で表しています。

確率密度関数に関するまとめ

離散確率変数では、ある確率変数が生じる可能性を確率という

連続確率変数では、確率密度という概念を用いる。

連続確率変数では、確率密度と確率変数の幅の積が、確率に相当する。

連続確率変数と確率密度の関係を表したものを確率密度関数という。

確率密度は少し難しい概念ですが、統計学で非常に重要な概念です。

少しずつ慣れていきましょう!!