相関と回帰分析 – いちばんやさしい、医療統計

回帰分析での予測値の求め方は？残差を使って比較する方法も解説

beat1115 — Thu, 07 May 2026 21:00:44 +0000

本記事では「回帰分析での予測値の求め方は？残差を使って比較する方法も解説」ということでお伝えしていきます。

回帰分析をしていると、実測値・予測値・残差という用語が出てきて「どれがどんな意味を持つの？」ということが疑問になったりしますよね。。

そこで

実測値・予測値・残差の3つの用語を整理
予測値と残差の求め方をEZRで実践
予測値と実測値の比較方法

を解説してきますね！

回帰分析における予測値・実測値・残差とは？

まずは、実測値・予測値・残差の3つの用語を整理しておきましょう。

実測値とは、実際に測定して得られてた実データのことです。

「体重の実測値」と言われたら、実際に体重計に乗って測定したデータのことですね。

予測値とは、回帰分析で算出された偏回帰係数を使い、回帰式に準じて計算された値のことです。

回帰分析で計算された通りのデータだとするとこんな感じ、という理論値。

例えば「体重の予測値」と言われたら、目的変数を体重として説明変数を（仮に）身長と年齢にしたとき、身長と年齢の実測値と偏回帰係数から求められる体重の値のことです。

説明変数が変われば回帰式も変わるため、体重の予測値は変わります。

残差とは、実測値と予測値の差のこと。

残差が小さければ、予測値と実測値との乖離が小さいので、精度の良い回帰分析ができているということになります。

予測値と残差の求め方をEZRを使って解説

用語が整理できたところで、実際に架空のデータを使って予測値の求め方を解説していきます。

今回、「体重＝身長+年齢」という説明変数が2つの回帰分析を考えます。

それぞれの単位は「体重：kg、身長：インチ、年齢：歳」です。

EZRで予測値の求め方1：まずは回帰分析を実施する

予測値を求めるには、まず回帰分析を実施する必要があります。

というのも、予測値には「偏回帰係数」が必要だからです。

EZRではデータを読み込んだ後、以下の画面で回帰分析ができます。

「統計解析」＞「連続変数の解析」＞「線形回帰（単回帰、重回帰）」

目的変数に「体重」を選択し、説明変数に「身長」と「年齢」を選択します。

これでOKを押すと、重回帰分析の結果を出してくれます。

これで、偏回帰係数が得られました。

つまり今回の回帰分析では以下の回帰式が得られたということです。

体重の予測値＝4.7425*身長+0.9160*年齢-192.5269

この回帰式を元にすると、仮に身長が70インチ、年齢が30歳の人であれば

4.7425*70+0.9160*30-192.5269=166.9kg

という体重の予測値が得られる、ということになります。

EZRで予測値の求め方2：予測値と残差をデータセットに保存する

回帰分析をした結果から、予測値をデータセットに保存する方法をお伝えします。

まず、右上の「モデル」と書かれてある部分は「アクティブモデルなし」になっているかと思います。

この「アクティブモデルなし」の部分をクリックすると、「モデルの選択」をすることができます。

先程の回帰分析をした際のモデルをクリックします。

「回帰分析をした際のモデルって？？」と思うかもしれませんが、重回帰分析をした際に、EZRでは勝手にモデルを保存してくれます。

モデルを選択すると「モデル」の部分が変わります。

この状態になったら、「標準メニュー」＞「モデル」＞「計算結果をデータとして保存」を押します。

すると、どの計算結果を保存するかを選択できますので、「予測値」と「残差」を選択してOKを押します。

その後データセットを開くと、予測値（fitted〜〜）と残差（residuals〜〜）が保存されていることがわかります。

以上で、EZRで予測値と残差を求めることができました。

予測値と実測値を比較する方法は？

予測値や残差を求めることができましたね。

次に疑問になるのが「予測値を求めてどう使うの？」ということです。

予測値はあくまで「得られた回帰式からの理論式」なので、実測値との乖離度合いがどれぐらいか？という情報が重要そうですよね。

なので、予測値と実測値を比較してみることが重要です。

予測値と実測値の比較1：予測値と残差でプロットする

残差＝実測値-予測値ですから、残差を見ることで実測値と予測値の乖離度合いを見ることができそうですよね。

残差の定義を見ると、正の値の残差（Y軸）は予測が低いことを示し、負の値は予測が高いことを示し、0の値は予測が正しい、ということが言えそうです。

そこで、予測値をX軸に取り、残差をY軸に取った残差プロットを作成してみます。

（下記のグラフのY軸：残差は標準化しています）

このプロットからどんなことを読み取るのかというと、

分布が対称的で、プロットの中央にデータが多いかどうか
残差を標準化した場合、Y軸の±2の範囲にデータが多く集まっているかどうか
それ以外に明確なパターンがない

ということがざっくり読み取れればOKです。

上記のグラフはまぁまぁいい感じ、ということです。

予測値と実測値の比較2：重相関係数を出してみる

アイデアの2つ目は、重相関係数を算出してみる、ということです。

重相関係数とは、重回帰式による予測値と実際に測定される値（実測値）との相関関係の程度を示す数値。

1に近いほど分析の精度（予測値の精度）は高いです。

そこで、予測値と実測値でピアソンの相関係数を算出みると、以下の結果になりました。

一般的に相関係数が0.7はかなりいいので、トータル的に良い予測ができているのでは、と解釈できます。

ちなみに、重相関係数の2乗が、重回帰分析の寄与率（R2値）と呼ばれているものです。

まとめ

いかがでしたか？

本記事では「回帰分析での予測値の求め方は？残差を使って比較する方法も解説」ということでお伝えしました。

実測値・予測値・残差の3つの用語を整理
予測値と残差の求め方をEZRで実践
予測値と実測値の比較方法

が理解できたのなら幸いです^^

【わかりやすく解説】平均因果効果とは？ATEとATTの違いや正しい推定方法

beat1115 — Mon, 19 Jan 2026 22:19:51 +0000

「ある治療を行った結果、どれくらいの効果があったのか？」

臨床研究でこの問いに答える際、単純な平均値の比較だけでは正しい答えにたどり着けないことがよくあります。そこで重要になる指標が「平均因果効果」です。

しかし、この平均因果効果には「ATE（全集団）」と「ATT（介入群）」という2つの異なる種類があり、どちらを見るべきか迷う方も多いのではないでしょうか。

この記事では、因果推論の基礎から、ATEとATTの決定的な違い、そしてそれらを正しく推定するための「傾向スコア分析（IPW法・マッチング）」について、専門的な知識をわかりやすく噛み砕いて解説します。

平均因果効果とは？因果推論の基礎知識

平均因果効果（Average Treatment Effect）を理解するためには、まず「なぜ普通に比較してはいけないのか」という前提を知る必要があります。

原因と結果の差を見る「反事実」モデル

「効果」とは何でしょうか？統計学の権威であるルービンの因果モデルでは、以下のように定義されます。

効果＝（ある人が介入を受けた結果） − （その人がもし介入を受けなかった場合の結果）

しかし現実世界では、一人の人間が同時に「介入を受けた状態（事実）」と「受けなかった状態（反事実）」の両方を体験することは不可能です。これを「因果推論の根本問題」と呼びます。

個人の効果を観測することは不可能であるため、集団単位で平均をとって推測しようというのが「平均因果効果」の考え方です。

なぜ単純な比較ではダメなのか？「交絡因子」とバイアス

例えば、「高血圧の人ほど年収が高い」というデータがあったとします。これを見て「高血圧になれば年収が上がる」と考えるのは間違いです。

実際には、以下のような背景（交絡因子）が隠れています。

年齢が高い → 血圧が高くなりやすい
年齢が高い → 年収が高くなりやすい

このように、結果（年収）と原因（高血圧）の両方に影響を与える第三の要因を「交絡因子（こうらくいんし）」と呼びます。

観察データ（単に集めただけのデータ）にはこの交絡バイアスが含まれているため、単純なグループ比較では純粋な「効果」が見えなくなってしまうのです。

【重要】ATE（全集団）とATT（介入群）の違いと使い分け

交絡因子を取り除き、純粋な効果を測る指標として、主に以下の2つが使われます。この2つの使い分けが、分析設計の要（かなめ）となります。

ATE（Average Treatment Effect）：集団全体に施策を行ったら？

ATE（全集団の平均因果効果）は、対象となる集団全員が、もしその施策を受けたら（または受けなかったら）、平均的にどれくらいの効果差が出るかを示す指標です。

定義： 集団全体における「介入あり」と「介入なし」の平均的な差。
向いているケース：
- 社会全体への政策導入（例：国民全員に新しいワクチンを打つべきか？）
- 全顧客へのキャンペーン（例：全ユーザーにクーポンを配布したら売上はどうなるか？）

「もし全員に適用したらどうなるか？」という未来の全体最適を考える際に用いられます。

ATT（Average Treatment Effect on the Treated）：実際に受けた人の効果は？

ATT（介入群の平均因果効果）は、実際に施策を受けた人たち（介入群）にとって、その施策がどれくらい効果的だったかを示す指標です。

定義： 実際に介入を選択した人たちにおける、「介入あり」と「もし介入を受けていなかったら」の平均的な差。
向いているケース：
- 希望者参加型のプログラム（例：禁煙プログラムに参加した人は、参加しなかった場合に比べて禁煙成功率が上がったか？）
- 既存の利用者評価（例：有料プランに加入したユーザーは、加入しなかった場合より利用頻度が高いか？）

「実際に選んだ人にとって意味があったのか？」という事後評価やプログラムの効果検証によく用いられます。

図解でイメージするATEとATTでのターゲット層の違い

この図は、ATEとATTが統計学的に「どの部分の差」を見ようとしているのかを表しています。ここで最も重要なのは、黄色いマーカーで「実際には得られない」と書かれている部分（反事実）の存在です。

現実世界では、ある人が「介入を受けた結果」と「受けなかった結果」を同時に観測することはできません。そのため、以下の図のように比較のアプローチが異なります。

ATT（緑の矢印）：上段の「暴露群（z=1）」だけに注目します。「実際に介入を受けた人」が、もし受けなかったらどうなっていたか（右上の黄色い部分）を推定し、その差を比較します。
ATE（オレンジの矢印）：上下段を含めた「集団全体」に注目します。暴露群・非暴露群それぞれの「あり得たかもしれない結果（黄色い部分すべて）」を推定し、全体としての平均的な差を比較します。

つまり、「欠損しているデータ（黄色）を、どの範囲まで埋めて比較するか」の違いが、そのままATEとATTの違いになっているのです。

指標	対象（ターゲット）	問いかけのイメージ	推定手法の例
ATE	全員 (介入群 + 非介入群)	「もし全員にやらせたら、平均でどうなる？」	IPW法 (逆確率重みづけ)
ATT	介入群のみ	「やった人にとって、どれだけ得だった？」	マッチング法

平均因果効果を正しく推定する手法「傾向スコア分析」

観察データから交絡バイアスを取り除き、ランダム化比較試験（RCT）のような状態を擬似的に作り出す手法が「傾向スコア（Propensity Score）」を用いた分析です。

多変量解析と傾向スコア分析の違い

多くの研究で使われる「多変量解析（重回帰分析など）」も交絡因子の調整に使われますが、目的が少し異なります。

多変量解析：
- 主に「予測」や「要因の探索」に使われる。
- 「結果Yに対して、要因X1, X2…がどう効いているか」というモデルを作る。
傾向スコア分析：
- 純粋に「介入の効果（因果関係）」を知りたい場合に特化している。
- 群に対して、交絡因子をモデル化している。交絡因子をまとめて「傾向スコア（ある人が介入を受ける確率）」という1つの指標に変換し、群間の背景情報のバランスを整える。

「とにかくバイアスを取り除いて、フェアな比較をしたい」という場合には、傾向スコア分析が適しています。

ATEを推定する「IPW法（逆確率重みづけ）」

ATE（全集団の効果）を知りたい場合によく使われるのがIPW法（Inverse Probability Weighting）です。

これは、傾向スコア（介入を受ける確率）の逆数を重みとしてデータに掛ける方法です。

IPW法がどのようにして「公平な比較」を可能にしているのか、データの動きを3つのステップで見てみましょう。

Step1：調整前のデータ（バイアスがある状態）

まず、これが現実のデータ分布です。

上段（X=1 介入群）： 傾向スコアが高い（右側にある）人が多い。
下段（X=0 対照群）： 傾向スコアが低い（左側にある）人が多い。

このように、傾向スコア（なりやすさ）に偏りがあるため、そのまま比較するとバイアスがかかってしまいます。上下でドットの位置がずれているのが分かります。

Step 2：目指すゴール（擬似的な集団の作成）

ATE（全集団の平均因果効果）を知るためには、「全員が介入を受けた世界」と「全員が受けなかった世界」を比較する必要があります。

そこでIPW法では、データが足りない部分（薄いグレーの背景部分）を「数学的に補う」という操作を行います。これにより、あたかも全員のデータが揃っているかのような「擬似個体群」を作り出します。

Step 3：具体的な計算方法（重みの付与）

では、具体的にどうやって「補う」のでしょうか？ここで「逆確率による重みづけ」が登場します。

レアな人ほど、重みを大きくする：例えば、X=1（介入群）の中に、傾向スコアが0.3と低い（本来なら介入を受けにくい）人がいたとします。この人は「レアな存在」です。そこで、確率の逆数（1/0.3）を計算し、この1人のデータを「3.33人分」に膨らませて扱います。
よくいる人は、重みを小さくする：逆に、傾向スコアが0.85と高い（介入を受けて当然の）人は、逆数（1/0.85）となり、重みはあまり増えません。

このように「起こりにくいこと（逆確率）ほど重視する」ことで、擬似的に全体のバランスを整え、公平な平均因果効果（ATE）を算出可能にするのです。

介入を受けにくいのに受けた人（レアな人）の重みを大きくする。
介入を受けやすいのに受けた人（よくいる人）の重みを調整する。

これにより、擬似的に「介入群」と「対照群」の人数や背景因子のバランスが取れた全集団（擬似個体群）を作り出し、全体での効果を推定します。

＞＞EZRで逆確率重み付け（IPTW）を行う手順はこちら

ATTを推定する「マッチング法」

ATT（介入群の効果）を知りたい場合によく使われるのがマッチング法（傾向スコアマッチング）です。

これは、介入群の一人ひとりに対し、傾向スコア（背景情報）が非常によく似た「介入を受けなかった人」を探してきてペアを作る方法です。

ペアにする条件： 性別、年齢、年収などの背景がそっくりな人同士。
比較： 似たもの同士のペアで結果を比較する。

ペアにならなかった（似た相手がいなかった）データは捨てられるため、集団全体（ATE）の評価には向きませんが、介入群とそっくりな人を比較対象にするため、介入群における純粋な効果（ATT）を高精度に推定できます。

まとめ：研究目的に合わせて適切な平均因果効果を選ぼう

「平均因果効果」を分析する際は、ご自身の目的がどこにあるかを明確にすることがスタート地点です。

政策や全体戦略を決めたいなら → ATE（全集団の平均因果効果）
- 手法：IPW法など
特定の施策の効果検証をしたいなら → ATT（介入群の平均因果効果）
- 手法：マッチング法など

適切な指標と手法を選ぶことで、バイアスに惑わされない、真のデータ活用が可能になります。

DAG（有向非巡回グラフ）と因果推論：医療統計における交絡調整とバイアス回避の完全ガイド

beat1115 — Mon, 05 Jan 2026 05:51:55 +0000

臨床研究や疫学調査において、最も困難かつ重要な課題は「因果関係の証明」です。

「薬Aを投与した群の方が生存率が高かった」というデータがあったとしても、それが本当に薬の効果なのか、あるいは対象患者の年齢や重症度が異なっていただけなのか（交絡）を見極める必要があります。

従来、こうした背景因子の調整には、「測定した変数をすべて多変量解析モデル（ロジスティック回帰やCox比例ハザードモデルなど）に投入する」というアプローチが取られがちでした。しかし、近年の因果推論の枠組みにおいて、この方法は偏り（バイアス）を生む危険性が指摘されています。

そこで不可欠となるツールが、DAG（Directed Acyclic Graph：有向非巡回グラフ）です。

この記事では、医療統計におけるDAGの理論的背景から、交絡因子・中間因子・合流点の見分け方、そして具体的な共変量の調整手順までを、徹底解説します。

医療統計におけるDAGの役割とは？

DAGは、単なる「変数間の関係図」ではありません。

それは、研究者が持っている「因果関係に関する仮説（ドメイン知識）」を数学的に記述する言語であり、解析モデルを設計するための設計図です。

観察研究における「因果の壁」

ランダム化比較試験（RCT）であれば、対象者の背景因子はランダムに割り付けられるため、交絡因子の影響を最小限に抑えることができます。しかし、倫理的・費用的な制約からRCTが実施できないケースは多く、観察研究（コホート研究や症例対照研究）に頼らざるを得ない場面が多々あります。

観察研究で因果効果を推定するためには、「比較可能性（Exchangeability）」を担保するために適切な統計学的調整が必要です。ここで、「何を調整すべきか」を誤ると、真実とは逆の結果が導き出されてしまうことさえあります。

DAGは、この「調整の選択」を論理的に行うための羅針盤となります。

DAGを構成する基本要素

DAGは、以下の要素で構成されます。

ノード（Nodes/Vertices）： 変数。曝露（X）、アウトカム（Y）、その他の共変量（Z, C, Mなど）。
エッジ（Edges）： 変数を結ぶ矢印。X → Yは、「Xが変化すれば Yも変化する可能性がある」という因果の流れを示します。
パス（Path）： 変数をつなぐ経路。矢印の向きに関わらず、隣り合う変数を辿るルートのことです。

「非巡回（Acyclic）」という名前の通り、矢印を辿って元の場所に戻るループ構造は許されません。これは「原因は結果よりも時間的に先行する」という因果の原則に基づいています。

3つの基本構造：交絡・媒介・合流点

DAGを理解する上で最も重要なのは、3つの変数が織りなす「3つの基本パターン」を識別することです。これらを区別せずに解析モデルに投入することは、重大なバイアスにつながります。

交絡因子（Confounder）：共通の原因

最も一般的で、調整が必要なパターンです。

変数 Zが、曝露 Xとアウトカム Yの両方の原因になっている状態を指します。これを「フォーク（分岐）構造」とも呼びます。

構造： X ← Z → Y
例：
- X：運動習慣
- Y：心筋梗塞のリスク
- Z：年齢（高齢だと運動しにくく、かつ心筋梗塞リスクも高い）

この場合、Xと Yの間には因果関係がなくても、Zを通じて相関関係が生じます（見かけ上の関連）。

【対応】：Zを調整する必要があります。調整することでX ← Z → Yというバックドア（裏口）パスが遮断され、純粋な X → Yの効果を推定できます。

中間因子（Mediator）：因果の通り道

変数 Mが、Xから Yへの因果の連鎖の途中にある状態です。これを「チェーン（連鎖）構造」と呼びます。

構造： X → M → Y
例：
- X：減塩指導
- M：血圧の低下
- Y：脳卒中の発症の有無

研究の目的が「減塩指導（X）そのものの総合的な効果」を知ることである場合、Mを調整してはいけません。なぜなら、Mを一定に固定（調整）してしまうと、血圧低下による脳卒中予防効果という「治療のメインルート」を遮断してしまうからです。

【対応】：トータルな効果を見たい場合、調整してはいけません。

合流点（Collider）：共通の結果

最も直感に反し、かつ誤りやすいパターンです。

変数 Cが、Xと Yの両方から影響を受けている（結果である）状態です。

構造： X → C ← Y
例：
- X：インフルエンザ感染
- Y：骨折
- C：入院（インフルエンザでも入院するし、骨折でも入院する）

通常、インフルエンザと骨折には因果関係はありません。しかし、ここで「入院患者（C）」だけにデータを限定して解析（層別化・調整）するとどうなるでしょうか？

「入院しているが、インフルエンザではない」患者は、高い確率で「骨折している」ことになります。つまり、本来無関係なはずの Xと Yの間に、人工的な負の相関が生まれてしまうのです。

【対応】：合流点は絶対に調整してはいけません。これを調整することで生じる歪みを「合流点バイアス（Collider bias）」あるいは「選択バイアス」と呼びます。

「バックドア基準」による共変量の選択手順

では、実際の複雑なDAGにおいて、どの変数を調整すべきかをどう判断すればよいのでしょうか。そのための明確なルールが、Pearlらが提唱した「バックドア基準（Back-door Criterion）」です。

3-1. バックドア・パスとは

Xから Yへの因果効果を推定したいとき、Xから出ていく矢印（X → ・・・ → Y）は「因果パス」であり、これは知りたい効果そのものです。

一方、Xに入ってくる矢印から始まるパス（X ← ・・・ → Y）は、因果関係ではない相関を生み出す邪魔な経路です。これを「バックドア・パス」と呼びます。

3-2. 共変量選択のアルゴリズム

正しい因果効果を得るためには、以下の条件を満たす共変量のセット Zを見つけ出し、調整する必要があります。

因果の道を邪魔しない：Zの中に、Xから Yへの因果パス上にある変数（中間因子）が含まれていてはならない。
裏口を塞ぐ：Zで調整することで、XとYを結ぶすべてのバックドア・パスが「ブロック（遮断）」されること。

【パスがブロックされる条件】

あるパスは、以下のいずれかの場合に「ブロック」されているとみなされます。

パス上の「交絡因子（A ← Z → B）」または「中間因子（A → M → B）」が調整されている場合。
パス上の「合流点（A → C ← B）」が調整されていない場合。（※合流点は、何もしなければ最初から道を塞いでいますが、調整すると道が開通してしまう性質があります）

ケーススタディ：実際の臨床研究シナリオ

具体的なシナリオを用いて、DAGを使った変数選択のプロセスをシミュレーションしてみましょう。

【研究テーマ】

新規糖尿病薬（X）の使用が、腎機能障害の進行（Y）を抑制するかどうかを、電子カルテデータを用いて検証したい。

【検討すべき変数】

年齢（Age）： 高齢者は糖尿病薬が処方されやすく（適応による）、かつ腎機能も低下しやすい。
- 構造：X ← Age → Y
- 判定：交絡因子。バックドアを開いているため、調整が必要。
HbA1c値（血糖コントロール）： 薬（X）によってHbA1cが改善し、その結果として腎機能（Y）が守られる。
- 構造：X → HbA1c → Y
- 判定：中間因子。これを調整すると薬の効果が見えなくなるため、調整してはいけません。
社会経済的地位（SES）： 裕福な人は新薬（X）にアクセスしやすく、かつ栄養状態が良いため腎機能（Y）も保たれやすい。
- 構造：X ← SES → Y
- 判定：交絡因子。調整が必要。
過去の腎機能値（Baseline Kidney Function）： 過去に腎機能が悪いと、腎保護作用のある新薬（X）が処方されやすく、当然現在の腎機能（Y）にも影響する。
- 構造：X ← Baseline → Y
- 判定：交絡因子。調整が必要。
調査期間中の入院（Hospitalization）： 薬の副作用で入院することもあり（X → H）、腎機能悪化でも入院する（Y → H）。入院患者だけのデータセットで解析しようとしている。
- 構造：X → Hospitalization ← Y
- 判定：合流点。入院患者に限定（調整）するとバイアスが生じるため、可能な限り調整・限定すべきではない（あるいは解析時に感度分析が必要）。

【結論：モデルに投入すべき変数】

年齢、SES、過去の腎機能値。

（HbA1cと入院の有無はモデルから除外する）

このように、DAGを描くことで「HbA1cは重要だから入れておこう」という安易な判断が、実は過剰調整であったことに気づくことができます。

5. DAG作成の注意点と限界

DAGは強力なツールですが、魔法の杖ではありません。運用上の注意点も理解しておく必要があります。

5-1. ドメイン知識への依存

DAGはデータから自動的に生成されるものではありません（因果探索という分野もありますが、基本的には人間が描くものです）。

つまり、「矢印をどう引くか」は、研究者の医学的・生物学的な知識に完全に依存します。未知の交絡因子を見落としていたり、矢印の向きが逆だったりすれば、DAGに基づいた調整も誤ったものになります。

そのため、DAGの作成は統計家だけでなく、臨床医や基礎研究者を含めたチームでのディスカッションが不可欠です。

5-2. 未測定交絡因子の存在

DAGを描いた結果、「この Uという変数を調整しなければならない」と分かったとします。しかし、そのデータがカルテに残っていなければ、統計的な調整は不可能です。

DAGは「調整できないバイアスが残っていること」を自覚させてくれるツールでもあります。この場合、論文のLimitation（限界）セクションに「未測定の交絡因子Uの影響により、結果が過大評価されている可能性がある」と正直に記述することが誠実な態度です。

6. まとめ：統計モデルの前に、まずDAGを描こう

医療統計におけるDAG（有向非巡回グラフ）の活用について解説しました。

因果の地図： DAGは、変数間の因果関係を可視化し、バイアスの構造を明らかにするための設計図である。
3つの基本形：
- 交絡因子（フォーク）： 共通の原因。調整する。
- 中間因子（チェーン）： 因果の経路。調整しない（トータル効果を見たい場合）。
- 合流点（コライダー）： 共通の結果。調整しない（バイアスを生むため）。
バックドア基準： どの変数を調整すべきかを論理的に決定するルール。

「多変量解析を行えば、すべての背景因子が調整される」という考えは、現代の因果推論においては過去のものとなりつつあります。

p値を計算するプログラムを回す前に、まずは紙とペン、あるいは「DAGitty」のようなツールを使ってDAGを描いてみてください。そうすることで、あなたの研究結果はより堅牢で、科学的に信頼性の高いものになるはずです。

級内相関係数とは？ICCの意味と計算式をわかりやすく解説！

beat1115 — Wed, 23 Jul 2025 03:00:32 +0000

級内相関係数(ICC:intraclass correlation coefficients)は、研究で何か計測を行う時にしばしば登場する指標です。

論文でも「ICC(1,1)が〜〜で」というような記載をしばしば見かけます。

でも級内相関係数って一体何なのか、気になっている方も多いのではないでしょうか？

相関係数は知っているけど、級内相関係数ってなんだろう。。

本記事ではそんな方のため、級内相関係数の意味や計算方法をなるべくわかりやすく解説していきます。

数学が苦手な方でも大丈夫なのようにわかりやすくしてあるので、安心して下さいね！

級内相関係数とは？ICCをわかりやすく解説！

まずは級内相関係数の概要を把握していきましょう！

級内相関係数とは？

級内相関係数(ICC)とは、連続量である検査の信頼性を確かめる指標です。

信頼性といっても以下の2つの意味があります。

検者内信頼性：同じ人が何回検査をしても同じ値が出る
検者間信頼性：誰が検査をしても同じ値が出る

検者内信頼性が低い検査は毎回検査するたびに違う値が出てしまいますし、検者間信頼性が低い検査は、検査者によって違う値が出てしまいます。

どちらが低くても困りますよね。

信頼性が高い検査とは、”誰が検査を何回とっても、常に同じ値が出る検査”のことです。

級内相関係数はその検査の信頼性が高いかどうか確かめる指標、というわけです。

ちなみに、カテゴリカル変数の検査の一致度合いはカッパ係数が用いられます。

級内相関係数の種類

級内相関係数はICC(1,1)というように2種類の数字を使って表現します。

この2つの数字は一体何なのでしょうか？

1つ目の数字は”何の信頼性か”を示しています。

1から3まで3種類あり、以下の意味をもっています。

ICC(1,~)：検者内信頼性
ICC(2,~)：検者間信頼性
ICC(3,~)：相対一致検者間信頼性

主に使うのはICC(1,~)とICC(2,~)で、最初に説明した検者内信頼性と検者間信頼性を示します。

ICC(3,~)はほとんど使われませんが、ICC(2,~)との違いを簡単な例を使って説明しますね。

興味のない方は読み飛ばしても構いません。

例えば身長を測る係の人が3人いるとしましょう。

そのうち1人はバーを力強く押し付けてくるため実際の身長より1cm低く測定してきます。

ですので同じ人を測定しても、その人だけは常に1cm低い検査結果になります。

このようなケースだと、ICC(2,~)だと信頼性が低くなりますが、ICC(3,~)だと信頼性は下がりません。

ただこのようなケースはほとんどありませんので、ICC(3,~)が使われることはほとんどありません。

まずはICC(1,~)なら検者内、ICC(2,~)なら検者間の信頼性の指標だと覚えておきましょう。

次に2つ目の数字の意味を解説します。

2つ目の数字は”同じ検者が同じ人に同じ計測を何回したか”を示します。

例えば1人の検者が1人の被験者に3回ずつ測定を行い、その平均値を使って級内相関係数を求めた場合、ICC(1,3)となります。

級内相関係数の解釈

ICCは0~1の値をとり、基本的に0.7以上であれば信頼性があると判定します。

ただ0.7という基準に理論的根拠はないため、あくまで目安として捉えるようにしましょう。

級内相関係数の求め方をエクセルで解説！

級内相関係数はエクセルでも計算できますので、その具体例を解説します！

級内相関係数の計算式

ICC(1,1)の計算式は以下のようになります。

BMS=サンプル間の変動
WMS=”測定ごとの変動”＋”誤差”
k=測定回数

このままだとよく分かりませんね(^^;)

この計算式を解説すると数学の授業になってしまうので、ひとまず「こんな計算式なのね」と認識していただければ十分です。

後は実際にエクセルで級内相関係数を求めながら理解していきましょう！

級内相関係数をエクセルで計算するためのデータの準備

具体例を使って級内相関係数を計算してみましょう。

ある検者が10人の被験者の身長を2回ずつ測定したとしましょう。

この時の測定の検者内信頼性を級内相関係数を使って確認します。

データはこのようにまとめました。

2回の測定のばらつき(変動)が少なければ少ないほどこの場合、級内相関係数は高くなるはずです。

BMS,WMSを計算

厄介なBMSとWMSの計算ですが、実は簡単に計算する方法があります。

まずはエクセルのデータ分析機能を使って、”繰り返しのない二元配置分散分析”という分析をしてみましょう。

エクセルのデータタブを開くとデータ分析という項目があります。（ない方はアドインで追加しましょう）

この”データ分析”をクリックして”繰り返しのない二元配置分散分析”を選択、先ほどの表をデータ範囲に指定しましょう。

実行すると以下の表が出力されます。

下の”分散分析表”を使えばBMSとWMSを簡単に算出できます。

BMS=”行”の分散
WMS=(“列”の変動 + “誤差”の変動) / (“列”の自由度 + “誤差”の自由度)
k=2(今回は2回測定しているため）

エクセルの数式は以下のようになります。

級内相関係数を算出

BMS,WMS,kが算出できたので、後は最初に説明した数式を組み込むだけです。

実際にエクセルに入力すると以下のようになります。

最後にEnterキーで級内相関係数を算出できます。

ICC(1,1)=0.97ですので、検者内信頼性は高いと言えそうです。

ちなみに測定ごとのデータの変動を反映するWMSの値を大きくすると結果はこのように変わります。

このように測定ごとのデータの変動(ばらつき)が大きいほどICCも下がります。

いかがでしょうか？

計算式で見ると難しいですが、エクセルの計算自体はそこまで難しいわけではありません。

エクセルでICCを算出する際は、是非参考にしてくださいね。

まとめ

最後におさらいをしましょう。

級内相関係数とは検査の信頼性を示す指標
ICC(1,~)は検者内信頼性、ICC(2,~)は検者間信頼性を示す
ICC(~,n)は同じ被験者にn回測定を繰り返し、その平均値を使って算出する
ICCは0~1の値をとり、基本的に0.7以上であれば信頼性があると判定する

級内相関係数はエビデンスの乏しい検査方法を採用する時に必ず必要になってきます。

級内相関係数を計算していないためにリジェクトされるケースもよくあります。

そのため少し難しいところもありますが、この記事の内容を是非覚えておいて下さいね！

最後までお読みいただきありがとうございました。

＞＞EZRで級内相関係数（ICC）を算出する方法

最小二乗平均（LSMean）とは？共分散分析で有意差がある場合とない場合のパターン

beat1115 — Tue, 01 Jul 2025 22:00:04 +0000

この記事では「最小二乗平均（LSMean）とは？共分散分析で有意差がある場合とない場合のパターン」としてお伝えします。

論文を読んでいると最小二乗平均（LSMean）という単語が出てくる場合がありますよね。

最小二乗平均を知らない場合、普通の平均値と何が違うの？と疑問に思うかなと思います。

そのためこの記事では

最小二乗平均値と普通の平均値（算術平均値）と何が違うのか？
最小二乗平均値を用いた解析である共分散分析の例
共分散分析で有意差がある場合とない場合のパターンについて解釈

を具体的にお伝えします！

最小二乗平均とは？算術平均と何が違う？

まずは最小二乗平均と算術平均との違いを整理していきましょう！

算術平均値とは？

算術平均値とは、皆さんが日ごろから使っている”平均値”と同じ意味となります（それほど多くはないと思いますが”相加平均値”という用語が使われることもあるようです）。

例えばある3つの値1、2、3があるとしましょう。

その算術平均値は、(1+2+3)/3と計算して、2となります。

算術平均値のよくある使い方としては、ある集団での代表的な値を示すために用いられます。具体的には、ある学校に所属する学生の身長などが挙げられますね。

いわゆる量的データ（連続量）に対する「要約統計量」を算出する際には算術平均値が用いられます。

最小二乗平均値とは？

では、最小二乗平均値とはなんでしょうか。

英語ではLS Mean (Least Square Mean)と表記され、個人的な印象では”最小二乗平均値”よりも”LS Mean”や”LSM”の用語を用いることの方が多いです。

さて、ここで回帰分析を既に勉強した方であれば、”最小二乗”という用語にピンときたかもしれません。

簡単に説明しますと、最小二乗平均値とは最小二乗法により求められた（今回の説明では）直線上の”ある点”となります。

これでは分かりづらいと思いますので、具体的な例やイメージ図を用いながら説明していきましょう。

例えば以下のようなデータがあったとして、これからYの最小二乗平均値を求めたいと思います。

X	Y
1	10
1	40
2	20
2	50

まずデータを散布図にしてみると、下記の図のようになります。

青い点が各データを示しています。

次に最小二乗法による直線（赤線）を求める方法ですが、非常に簡単に説明しますと上記の図の②（あるデータから直線までの距離）の合計値（今回の場合は4つ）が最小となるような直線（①）を探していくこととなります（具体的な計算方法は、ここでは省略させていただきます）。

先ほど最小二乗平均値とは、「最小二乗法により求められた直線上の”ある点”」と説明しました。

直線上の点は、直線上で文字通り無数に存在します。

ではどの点が最小二乗平均値なのでしょうか。

それは、”Xの平均値のときのYの値”が最小二乗平均値となります。

ですので上記の例では、Xの平均値（1+1+2+2）/4、つまりXが1.5のときのYの値30（図の③）が最小二乗平均値となります。

算術平均値と最小二乗平均値の同じところと違うところ

算術平均値と最小二乗平均値のそれぞれがわかったところで、算術平均値と最小二乗平均値同じところと違うところについて説明していきます。

先ほど最小二乗平均値の説明の箇所で”最小二乗法”という用語が出てきました。

普段私たちは意識していないかもしれませんが、算術平均値も最小二乗法を用いて算出することができます。

例えば以下の通り、Yだけのデータがあったとします。

この時算出する算術平均値とは、言い換えれば「最小二乗法により求められた”ある点”（以下の図の青色の×）」となります。

最小二乗平均値との違いは、「直線上の”ある点”」の”直線上”という文言の有無でしかありません。

では、「直線上のある点」と只の「ある点」との違いとは何でしょうか？

中学生の時、直線を1次関数でY=aX + bのように表現できると習ったかと思います（YとXは変数（変化する値）、aとｂは決まった値）。

”ある点”を定数と読み替えるとY=bと表現することができ、この式は、1次関数Y=aX + bのaが0（つまり傾きが0）であった場合と考えることが出来ます。

以上をまとめますと、算術平均値と最小二乗平均値の同じところは、共に最小二乗法により求めることができるということです。

そして最小二乗法を用いる際に直線（Y = aX + b）を用いるか、それとも定数（Y = b）を用いるかが両者の違いとなります。

最小二乗平均値が用いられる解析手法の例

最小二乗平均値が用いられる解析手法として、共分散分析（ANCOVA：Analysis of Co-Variance）があります。

さて、共分散分析を簡単に説明すると、回帰分析と分散分析を併せた分析方法です。

交絡因子を調整した2グループのアウトカム（ある値）の違いを解析したい場合に良く用いられます。

例えば以下の通りのデータがあったとして、A剤グループとB剤グループとの間でYの値に違いがあるか知りたいとします。

X	Y		Yの平均値
X	A剤グループ	B剤グループ	Yの平均値
1	1		2.75
2	3
3	2
4	5
5		5	6.50
6		7
7		6
8		8

Yの算術平均値は通りそれぞれのグループで2.75と6.50であり、グループ間でY値に違いがありそうです。

次にデータを散布図にしてみました。

そうすると、Y値に違いがありそうであるのと同時に、Xの値もグループ間で違いがありそうです。

こうなると、Y値の違いが、薬剤の違いなのか、X値の違いなのか区別できません。

何とかして”もしXの値がグループ間で同じであった場合の”A剤とB剤グループ間のY値の違いを調べることはできないだろうか？

そのような場合、共分散分析が使えます。

まずグループごとに最小二乗法を用いて直線を求めます。

次に、繰り返し出てくる「直線上の”ある点”」を求めるのですが、共分散分析の場合はちょっと異なり、”便宜的に”A剤とB剤全体の平均値（今回の例では4.5）におけるYの値となります。

つまり、A剤とB剤でぞれぞれ下記の図の水色と緑色の×印の箇所となります。

最後に×印の差（赤線）を調べます。

するとYの算術平均値の差（図の緑線）よりも、最小二乗平均値の差（図の赤線）の方が小さくなり、A剤とB剤グループとでのY値の違いは大きくないように思えます。

共分散分析を用いるための前提条件・注意点

共分散分析は、グループぞれぞれの最小二乗平均値を求めてその差を解析する方法ということがわかったかなと思います。

この方法を言い換えると、グループ間でＹ値以外の値の分布（今回の例ではＸ）に違いがある時、その違いを調整してＹ値を比較することができる非常に強力な解析方法です。

ですがこの方法を用いる場合には、それぞれのグループで決定した直線が平行であることが大前提の解析方法となります。

例えば以下の図では、A剤グループとB剤グループそれぞれの直線は明らかに平行ではありません。

X値が高い箇所では、A剤グループの方でY値が高い（図の赤線）のですが、X値が低い箇所ではB剤グループの方でY値が高く（図の緑線）なっています。

この様な場合、Xと群との間に交互作用があると言い、共分散分析を使用する前提に反していることになります。

ただし、実データで直線が並行になることは稀であり、少なからず傾きが違うはずです。

なのでどこまでの傾きならOKなのか、という程度問題にはなります。

最小二乗平均を用いた共分散分析での有意差がある場合とない場合の解釈について

共分散分析を用いた解析結果の解釈について説明していきます。

共分散分析での結果と算術平均値を用いた場合での結果を組み合わせると4パターンを取りうることが予想できます（下表のa、b、c、d）。

		算術平均値の差
		なし	あり
共分散分析（最小二乗平均値の差）	なし	a	b
共分散分析（最小二乗平均値の差）	あり	c	d

これからそれぞれのパターンごとの解釈の仕方について説明していきます。

まずパターンaの一例としては以下のような図が挙げられます。

このような場合は、薬剤グループ間でＹ値の違いは見つからなかったとの結論で問題ないと考えられます。

次にパターンbの場合は以下の通りで、グループ間のＹ値の差は薬剤の違いが起因しているのではなく、X値の違いであるという解釈が妥当となります。

パターンcの場合は、X値の違いにより薬剤の違いが消えてしまっていると解釈できます。

最後にパターンdの場合は、X値の違いを取り除いたとしても、グループ間で差は認められるという解釈が成り立ちます。

まとめ

いかがでしたか？

この記事では「最小二乗平均（LSMean）とは？共分散分析で有意差がある場合とない場合のパターン」としてお伝えしました。

最小二乗平均値と普通の平均値（算術平均値）と何が違うのか？
最小二乗平均値を用いた解析である共分散分析の例
共分散分析で有意差がある場合とない場合のパターンについて解釈

が理解できたのなら幸いです！

ステップワイズ法とは？意味や強制投入法との違いなどをわかりやすく解説！

beat1115 — Mon, 30 Jun 2025 21:00:59 +0000

重回帰分析やロジスティック回帰分析などの多変量解析での説明変数を選ぶ際に、よく”ステップワイズ法”という方法が使われています。

しかし

「ステップワイズ法ってどんな方法？」
「ステップワイズ法って良いの？」

などといった疑問を持っている方も多いはずです。

最近は「ステップワイズ法は使わないほうがいい」という批判もみられるようになってきました。

実際のところはどうなのでしょうか？

本記事ではステップワイズ法とはどういう方法なのか、どんなメリットがあるのか、なぜ批判されるのか、解説していきたいと思います。

初心者の方でも大丈夫なように、なるべく分かりやすく解説していきますね！

ステップワイズ法（変数増減法）とはどんな方法？強制投入法との違いは？

ステップワイズ法（変数増減法）とは？

ステップワイズ法とは投入した説明変数の中で、目的変数と関係する変数を”自動で”選んでくれる方法です。

ちなみに変数を選ばずに全部の変数を使って解析する方法は、”強制投入法”または”総当り法”なんて呼ばれます。

どのように変数を選んでいくのか、具体例を使って説明していきますね。

ステップワイズ法を例で考える

たとえば患者の入院期間（入院から退院するまでの日数）に関連する要因を知りたいとしましょう。

この時考えられる要因(説明変数)はたくさんありますが、ここでは”年齢”と病気の”重症度”、”治療内容”の3つに限定します。

いずれも入院期間に影響しそうですが、実際に影響するかどうかは解析してみないと分かりません。

ステップワイズ法（変数増減法）の場合、まずは変数が何もないモデル(これをヌルモデルといいます)を作成します。

もちろんまだ変数がないので、何の予測もできない状態です。

次に”年齢”、”重症度”、”治療内容”の3つの変数の中から1つの変数を選択してモデルを作ります。

ここでどの変数をモデルに入れるのかが問題となります。

そこでAICやBICといった指標を使うことで、どの変数を選択したモデルが一番良いか判定します。

AICやBICの詳細は難しいので割愛しますが、ひとまずモデルの最適さを示す指標だと覚えておけばOKです。

さて、これで一つの変数を選択したモデルが出来たわけですが、さらに変数を追加した方がよりよいモデルができるかもしれませんよね。

そこで残った2つの変数から更に1つ変数を追加することを検討します。

このように入院期間と関係の強い変数を1つずつどんどん追加していくわけですが、いずれ変数を追加してもAICやBICが変化しなくなります。（関係の強い変数を追加している間はAICやBICは良くなっていきます)

そうなると変数の追加を終了し、今度は余計な変数が入っていないか確認するために、ひとつずつ変数を減らしてAICやBICが変化しないか検討します。

この時にもし入院期間(目的変数)に関係ない変数があれば削除されます。

そうして最終的に入院期間(目的変数)に関係のある変数だけが選択された状態で結果が出力されます。

以上が変数増減法の概要です。

いかがでしたでしょうか？

要はAICやBICが最適になるように変数を増やして減らしてを繰り返しているだけですね。

このように投入された変数のうち、目的変数に関係のある変数だけを選ぶ方法がステップワイズ変数増減法です。

変数増減法と変数減増法の違い

ステップワイズ法というと、一般的に変数増減法を指します。

しかしたまに変数減増法のことをステップワイズ法と呼んでいる場合があるため注意が必要です。

変数減増法は最初に全部の変数を投入したモデルを作り、そこから1つずつ変数を減らしていく方法のことです。

最初に変数のないモデルを作る変数増減法とは逆の方法ですね。

どちらの方法を使うかで、最終的な結果が変わってきます。

どちらの方法がよいかはケース・バイ・ケースなのですが、変数減増法は変数が多すぎる場合やデータ数が少なすぎる場合には使ってはいけません。

基本的には適用範囲が広い変数増減法を使うことをおすすめします。

ステップワイズ法のメリット

ステップワイズ法のメリットは、変数を絞ることができる点です。

変数を絞ることでどんなメリットがあるのでしょうか？

少ないデータ数で回帰分析をする場合、基本的に変数を多くすることはNGとされています。

重回帰分析の場合はデータ数(n数)÷15までしか変数を入れてはいけないと言われています。

もしn数が100なら変数は多くても7程度までしか入れることができません。（詳細は割愛しますが、変数をたくさん入れすぎると結果が乱れます）

でも「検討したい変数はたくさんあるんだけど、データ数が足りなくて困った！」という時ってありますよね。

そんな時にステップワイズ法が役立ちます。

先ほどご説明したように、ステップワイズ法は少ない変数から検討していくので、変数がたくさん入るすぎるリスクを減らせるというわけです。

このようにステップワイズ法は変数が多すぎる場合でも変数を絞って解析ができるため、論文などで非常によく使われています。

ステップワイズ法と強制投入法との違いは？

ステップワイズ法と同じ場面でよく見る用語として「強制投入法」があります。

ステップワイズ法とは投入した説明変数の中で、目的変数と関係する変数を”自動で”選んでくれる方法です。

例えば、10個の説明変数を選んだら、その中で統計ソフトがAICなどに基づいて5個や3個の説明変数を自動で選んでくれます。

一方の強制投入法は、投入した説明変数を全て使って回帰分析をする、ということです。

例えば10個の説明変数を選んだら、10個全てをモデルに含めて回帰分析をします。

強制的に全てをモデルに含めるか、それとも統計ソフトに任せて自動で取捨選択をするかの違いですね。

ステップワイズ法に批判があるのはなぜ？

自動で説明変数を選んでくれるため、一見便利そうなステップワイズ法。

でも便利な一方で、問題点も指摘されています。

ステップワイズ法の問題点

便利なステップワイズ法ですが、ステップワイズ法が批判されることもあります。

ステップワイズ法は”結果を見ながら変数を選択する”という点で問題があるからです。

本来使用する変数は、解析をする前にすべて決めておかなければなりません。

結果をみてからだと、本来関係ないのにたまたまいい結果が出た変数を過剰に優遇してしまうリスクがあるからです。

確かにたくさん変数があればあるほど、たまたま目的変数に影響するデータが出てきやすくなります。

「結果を見てから入れる変数を決めたら意味ないじゃないか」

というのがステップワイズ法を批判する人たちの言い分で、これは正しいです。

もしステップワイズ法を使わずに済むなら、確かに避けた方がいいです。

ステップワイズ法を使わずに解析する方法

ステップワイズ法を使わない方法は

先行研究から使う変数を絞る
似たような変数は合体または片方を削除する
n数を増やす(可能なら)

といった方法があります。

①先行研究から使う変数を絞る

研究であればまずは先行研究を使う方法を模索してみましょう。

似たような先行研究を探して、その研究で目的変数と有意に関連があった変数と新しく検証したい変数だけ使う、という方法ですね。

また、アウトカムとの臨床的な関係を踏まえて決めることも重要。

要するに、解析に依存しない方法で事前に変数は決める、ということが重要な点です。

②似たよう変数は合体または片方を削除する

変数がたくさんある場合、たいていは似たような変数が紛れています。

例えば”身長”と”座高”のようなものです。

身長と座高の場合、合体（合計するか平均を取るか）すると解釈が難しいので、どちらかを削除することになります。

どちらを削除するかは明確な決まりはありません。

より有用だと思う方またはより検証したい方を残すといいと思います。

n数を増やす

難しい場合も多いと思いますが、可能ならn数を増やしてしまえばステップワイズ法を使う必要がなくなります。

n数が増やせないかも検討してみましょう。

ステップワイズ法を使ってはいけないのか？

変数を減らすことが難しい場合、ステップワイズ法を使ってはいけないのでしょうか？

厳格な人は「絶対使ってはいけない」と言うかもしれません。

ただステップワイズ法の欠点を理解した上で使用するのであれば、問題ないのではないかと思います。

確かに問題はありますが、解析できないよりかは遥かに良いですし、必ずしも間違って結果が出てくるわけではないからです。

あくまでも、”間違った結果が出てくる可能性がある”というだけの話です。

そのため論文では慎重に使ったほうがいいかもしれません。

ステップワイズ法を重回帰分析やロジスティック回帰分析での実施例

ステップワイズ法はエクセルでは実施できません。

SPSSやEZRなどの統計ソフトを利用しましょう。

特にEZRは無料で利用できる統計ソフトです。

論文でも使われているソフトで実績もあるので、安心して使えます。

EZRでステップワイズ法を選択する場合は、重回帰分析やロジスティック回帰分析を使用する際に、チェックボックスにチェックをいれるだけです。

架空のデータでステップワイズをやってみると、最初に投入した説明変数は

Sex
コレステロール
最高血圧
身長
年齢

の5つであることがわかります。

そして最終的に得られたモデルの結果を見ると、以下の通り

Sex
コレステロール

の2つになったことがわかりました。

AICとBICどちらを使うか選択できますが、初心者のうちはどちらでも大丈夫です。

SPSSでも同様に解析画面でステップワイズ法を選択する画面があります。

解析方法の詳細はEZRはこちら、SPSSはこちらをご覧ください。

まとめ

最後におさらいをしましょう

ステップワイズ法は変数を絞って解析する方法
変数増減法は目的変数と最も関連する変数から1つずつ順番に加えていく方法
ステップワイズ法は結果を見て変数を絞る点で批判がある
ステップワイズ法を実施するためには専用の統計ソフトが必要

いかがでしたでしょうか？

批判はありますが、ステップワイズ法は論文で非常によく使われおり実績のある解析方法です。

是非覚えておいてくださいね！

最後までお読み頂きありがとうございました。

こちらの内容は動画でもお伝えしておりますので、併せてご確認くださいませ。

多変量解析の説明変数はどんな選び方が適切？重回帰分析やロジスティック回帰で説明変数は何個まで？

beat1115 — Wed, 25 Jun 2025 23:00:25 +0000

多変量解析（重回帰分析やロジスティック回帰分析、Cox比例ハザードモデルなど）は、回帰分析の中で説明変数を複数個入れた解析のこと。

一度にたくさんの変数を扱えるので非常に便利ですよね。

でも説明変数をどれくらい入れてもいいのか、悩んだことがある人は多いのではないでしょうか。

「説明変数はいくつくらいが最適なのか？」
「説明変数はなぜ多いといけないのか？」
「解析に使う説明変数をどうやって選べばいいのか？」

本記事ではそんな疑問を持つ方に向けて、多変量解析の説明変数の選び方について解説していきます。

初心者の方でも大丈夫なように、なるべく分かりやすく解説していきますね！

多変量解析（重回帰分析やロジスティック回帰分析、Cox比例ハザードモデルなど）での説明変数は何個が適切なの？多いとどうなる？

多変量解析とは、説明変数を複数入れた解析のこと。

「説明変数を複数入れる」と一言で言っても、「じゃあ何個でも入れていいの？」というのは疑問になりますよね。。

どう言った考え方をして説明変数の個数を決めればいいのでしょうか？

多変量解析（重回帰分析・ロジスティック回帰分析・Cox比例ハザードモデル）での説明変数の適切な数

参考となる文献によると、説明変数の目安として以下の数を推奨しています。

重回帰分析(目的変数が連続変数の場合：共分散分析)
→n数を15で割った数まで
ロジスティック回帰分析(目的変数が2値のカテゴリカルデータの場合)
→アウトカムのうち少ない方のn数を10で割った数まで
Cox比例ハザードモデル（Cox回帰）
→イベントありのn数を10で割った数まで

参考文献：Frank E. Harrell Jr., Regression Modeling Strategy, Springer Verlag, 2001、Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR. (1996). A simulation study of the number of events per variable in logistic regression analysis. Journal of Clinical Epidemiology, 49(12), 1373-1379.

この目安は非常に分かりやすく、ひとまずこの基準に従っておけば問題ありません。

ここで、”目安”と表現したのには理由があります。

実は説明変数の数に絶対の答えはなく、統計家の中でもしばしば意見が分かれるからです。

ただ確実に言えることが一つあります。

それは“説明変数はなるべく少ない方が良い”ということです。

多変量解析の説明変数の数が多いとどうなる？

説明変数が多いと

解析の信頼性(再現性)が下がる
結果の解釈が難しくなる

といった問題があります。

一つずつ解説していきましょう。

①解析の信頼性が下がる

データ数に対して説明変数の数が多すぎると、間違った解析結果が出る確率が高くなります。

なぜそうなるのか、数式を使わずに説明したいので例を挙げてみましょう。

“小学生の脚の速さを決める要因を解析したい”としましょう。

50m走のタイムを目的変数として、説明変数には”年齢”と”性別”を使うことになりました。

しかしデータが5人分(男子2名,女子3名)しか集まりませんでした。

データ数5に対して説明変数を2つも入れるのは多すぎますが、なぜダメなのか考えていきましょう。

単変量解析(変数が1つだけ)であれば、50mタイムと年齢、性別を見比べていけば5人分あるのでなんとか傾向だけでも掴めるかもしれません。

ですが多変量解析となると、もっと解釈が難しくなります。

性別を男子に固定した状態で年齢が50mタイムに与える影響を見てみましょう。

こうなると男子は2名しかいませんので、結果が信頼性が低いのは直感的にも分かりますね。(たまたま年齢が上の子の脚が遅かった場合、年齢が高いほど脚が遅いという結果になってしまいます)

このように説明変数の数が増えれば増えるほど、必要なデータ数が多くなります。

反対にデータ数が少ないのに説明変数が多いと、信頼性が低下してしまいます。

もちろんこの例はかなりおおげさですが、通常の解析でも同じことが言えます。

②解釈が難しくなる

解析の結果、有意な説明変数が多すぎると解釈が難しくなります。

どういうことでしょうか？

こちらも例を使って説明していきますね。

研究者AとBが健康寿命を伸ばすために有効なことを解析して結果が出ました。

研究者A「健康寿命を伸ばすのに有効なのは、バランスの良い食事と適度な運動である」
研究者B「健康寿命を伸ばすのに有効なのは、バランスの良い食事と適度な運動、十分な睡眠時間、ストレスのない生活、田舎暮らし、結婚していること、車を所有していることである」

いかがでしょうか？

Bさんの結果は確かにそうなのかもしれないですが、分かりにくくないでしょうか？

もう少し絞ってくれた方が聞き手としても解釈しやすいと感じるはずです。(「で、結局一番大事なのはどれなの？」といった具合です)

このように説明変数が多すぎると解釈が難しくなるという問題もあります。

多変量解析での説明変数の選び方（選択方法）は？

では、多変量解析ではどのように説明変数を選ぶのが適切なのでしょうか？

多変量解析での説明変数の間違った選び方

相関分析などの解析結果を見ながら説明変数を選ぶのは、実は間違った方法です。

論文などでもよく見るやり方なので、真似してしまいがちですが、気をつけて下さい。

目的変数と相関係数が高い変数だけを使って解析をする
目的変数と有意差が得られた変数だけを使って解析をする
ステップワイズ法(AICやP値などの統計的な指標を使って変数を自動選択する方法)を使って解析する

上記の方法はいずれもよく見ますが、間違った方法です。

この方法で変数を選ぶと、今回だけたまたま目的変数と関連した変数が有意なものとして抽出されやすくなってしまうからです。

たとえば目的変数と全く関係ない変数が100あるとしましょう。

全く関係なくてもこれだけの数の変数があると、どれか1つはたまたま目的変数と有意に関連していることがよくあります。

この時解析結果だけを見て説明変数を選ぶと、たまたま関連した変数が最終的に有意な関連因子となってしまうわけです。

本来関連のないものを関連があるとしてしまうのは、避けるべき問題です。

ではどのように説明変数を選ぶのが正しいのでしょうか？

多変量解析での説明変数の正しい選び方

説明変数は解析を行う前に適切な数まで絞らなければなりません。

具体的には以下の方法で絞っていきます。

先行研究を参考に説明変数を絞る
似たような説明変数は合成するか片方を削除する

もう少し詳しく説明していきますね。

①先行研究を参考に説明変数を絞る

まずは先行研究を使う方法を模索してみましょう。

たいていの場合は、同じ目的変数(アウトカム)を使って似たような解析をした先行研究があるはずです。

その研究で有意に関連していた変数は必ず使用し、有意でなかった変数は削ってしまいましょう。

後はそこに今回新しく検証した変数や、臨床的に考えて絶対関連していそうな変数を加えたものだけに絞ってしまいます。

くれぐれも「データがあるから使う」ことがないようにしましょう。

ほとんどの場合は、この方法だけでもかなり変数を絞れるのではないかと思います。

②似たよう変数は合体または片方を削除する

似たような変数は一つにまとめてしまえば、変数の数を減らせます。

変数がたくさんある場合、たいていは似たような変数が紛れています。

例えば”身長”と”座高”のようなものです。

身長と座高の場合、合成（合計したり平均をとったり）すると解釈が難しいので、どちらかを削除することになります。

この時、どちらを削除するかは明確な決まりはありません。

より有用だと思う方、またはより検証したい方を残すといいと思います。

まとめ

最後におさらいをしましょう。

重回帰分析の説明変数は”n数÷15″まで
ロジスティック回帰分析の説明変数は”少ない方のn数÷10″まで
Cox比例ハザード分析の説明変数は”イベント有のn数÷10″まで
説明変数が多すぎると結果の信頼性が下がり、解釈も難しくなる
結果を見て説明変数を選ぶのは間違った方法
解析をする前に先行研究から説明変数を絞るのが正しい方法

いかがでしたでしょうか。

これらを知った上で論文をみてみると、説明変数の数や選び方を間違っている研究が多いことに気づくはずです。

今後は正しい解析をした研究が増えてくることを祈っています。

間違った結果を発表しないように気をつけたいですね。

最後までお読み頂きありがとうございました。

今回の内容は動画でも解説していますので、併せてご確認くださいませ。

多変量解析でのサンプルサイズの決め方求め方は？サンプル数（n数）が少ないのは致命的

beat1115 — Sat, 14 Jun 2025 07:00:26 +0000

この記事では「多変量解析でのサンプルサイズの決め方求め方は？サンプル数少ないのは致命的」ということでお伝えします。

多変量解析をやっている論文でもサンプルサイズ計算はT検定でやっているけど、それっていいの？
予測モデル構築のためにはサンプルサイズはどれぐらい必要？

ということが疑問になることも多いかなと思います。

そのため本記事では「群間比較を目的とする多変量解析」と「予測モデルを構築するための多変量解析」に分けてサンプルサイズの決め方をお伝えします！

多変量解析が使われる研究目的

多変量解析は、医学研究で多くの目的で使われます。

それらを整理すると、医学研究では主にこの4つの研究目的で使われるかなと思います。

アウトカムの原因（要因）の同定に関する観察研究
介入研究（ランダム化・非ランダム化）
診断に関する研究
予後に関する研究

多変量解析のサンプルサイズ計算だけを考えた場合、「介入研究での群間比較」と「それ以外」で意味合いが異なります。

群間比較が目的であれば、いわゆるT検定ベースなどのサンプルサイズが必要。

それ以外の目的であれば、「多変量解析のモデルにどれほどの数の説明変数を入れることができるか」という意味合いが強い、ということ。

そのためこの記事では「群間比較」と「それ以外の3つの目的」の2つに分けてサンプルサイズの決め方について考えます。

多変量解析を群間比較の目的で使う場合のサンプルサイズの求め方

まずは、多変量解析を群間比較の目的で使う場合のサンプルサイズ計算についてお伝えします。

多変量解析を群間比較の目的で使う場合とは、例えば、新薬開発でのRCTなどの場合が容易に想定できますよね。

この場合、多変量解析を使う目的は「アウトカムに対して介入の有無がどう違いをもたらすか？」が分かれば良いのです。

他の説明変数は交絡調整のために含めるもので、モデル自体がどうか、という議論はなしでOK。

そのためあくまで目的は「群間比較」する部分に対してサンプルサイズ計算ができればOKなんです。

群間比較のための多変量解析ではT検定ベースやカイ二乗検定ベースでのサンプルサイズ計算で良い

この目的の場合に、実際にはどうやってサンプルサイズを計算するか？

ですが、結論としては以下の通り。

通常の「T検定ベース」や「カイ二乗検定ベース」で計算してOK

例えば、EZRでサンプルサイズ計算をするように、統計解析ソフトでポチポチと計算することができます。

しかしそこで疑問が生まれますよね。

実際には多変量解析（共分散分析やロジスティック回帰分析）をするから多変量解析を用いてサンプルサイズ計算をしなきゃいけないのでは？

という疑問です。

その疑問に関していえば、厳密に多変量解析でできるのであればそれでやってもいいです。

しかし多変量解析でサンプルサイズ計算を実施するには統計ソフトで簡単に計算できず、シミュレーションで実施するしかありません。

かなりハードル高いです。

それに、群間比較のサンプルサイズ計算はそれほど厳密さが要求されないんです。

どういうことかと言うと、群間比較のサンプルサイズ計算で必要な検出力に関して、80%や90%という値がそもそも厳密な値ではないですよね。

検出力の設定は、研究者の匙加減で決まります。

また、想定する平均やSDも、先行研究やプレのデータから「今回もこのぐらいは期待できるかな」という、厳密な値ではないはず。

そのため、厳密ではない値を用いて、厳密に多変量解析をしても、あまり意味はない、というのが「群間比較のサンプルサイズ計算はそれほど厳密さが要求されない」という理由です。

それよりも、計算されたサンプルサイズをちゃんと確保する努力をすることがとても重要になります。

多変量解析をモデル作成（予測モデルなど）で使う場合のサンプルサイズの決め方

では次に、多変量解析をモデル作成（予測モデルなど）で使う場合のサンプルサイズの決め方についてです。

この時の目的は「予測モデル」を作ることなので、モデルに含まれる説明変数の数も重要。

じゃあ説明変数を入れれるだけ入れればいいのか？と言われれば、そうではありません。

なぜなら、説明変数をモデルに入れ過ぎてしまうとモデルの結果が不安定になってしまうから。

なので、サンプル数の小さな研究ではモデルに加えられる説明変数の数は限られるんです。

ではどのぐらいのサンプルサイズが必要か？と言われれば、絶対的な正解はありません。

ですが一応の目安はあって、新谷先生や神田先生が目安を示してくれています。

下記の数値は、サンプルサイズに対する説明変数の数なので、サンプルサイズは逆算すればOKです。

多変量解析での説明変数の数の上限目安

共分散分析だったら全データの1/15程度まで
ロジスティック回帰ならイベント有無の少ない方の1/10程度まで
Cox回帰ならイベントの数の1/10程度まで

繰り返しになりますが、あくまで目安であり、正解はないし、説明変数の数は少なければ少ないほどいいです。

そのため一つ言えることは、統計学はデータ数が命であるということ。

少ないサンプルサイズで「あれもやろう」「これもやろう」は無理なんです。

統計は魔法ではないので、ぜひサンプル数の確保は重要な点として認識しておきましょう。

まとめ

いかがでしたか？

この記事では「多変量解析でのサンプルサイズの決め方求め方は？サンプル数少ないのは致命的」ということでお伝えしました。

多変量解析をやっている論文でもサンプルサイズ計算はT検定でやっているけど、それっていいの？
予測モデル構築のためにはサンプルサイズはどれぐらい必要？

ということに対して理解が深まったのなら幸いです！

こちらの内容は動画でも解説していますので、あわせてご確認くださいませ。

負の二項回帰モデルとは？ポアソン回帰との関連やオフセット項の解説も

beat1115 — Mon, 09 Jun 2025 22:00:18 +0000

この記事では「負の二項回帰モデルとは？ポアソン回帰との関連やオフセット項の解説も」ということでお伝えします。

論文を読むと、たまに負の二項回帰モデル（Negative Binomial Regression Model）なるものが出てくることがあります。

あまりみない解析なので、「どんな解析手法？」と思いますよね。

そのためこの記事では

負の二項回帰モデルとはどんな解析手法？
ポアソン回帰と負の二項回帰の関係は？
オフセット項とはどんな役割を果たしているの？

ということをわかりやすく解説します！

負の二項回帰モデル（Negative Binomial Regression Model）とは？

負の二項回帰モデル（Negative Binomial Regression：NB回帰）は、カウントデータを解析する時に使う解析手法です。

連続データやカテゴリカルデータなどは比較的身近なデータですが、カウントデータはどんなデータでしょうか？

負の二項回帰で扱うカウントデータとは？

カウントデータとは、イベントの有無だけではなく、イベントの回数に着目したデータのこと。

例えば、副作用の発現の有無、である場合には2値のカテゴリカルデータです。

ですが、副作用の発現回数、となるとカウントデータになります。

副作用の発現回数は、1件、2件、3件、、、のようにカウントできますから。

また、出血の回数もカウントデータですね。

「出血の有無」だけだとカテゴリカルデータですが、「出血の回数」はカウントデータになります。

＞＞例数と件数の違い

ポアソン回帰：カウントデータの場合に使う最も有名な回帰分析

カウントデータがどんなデータなのか理解できたところで、カウントデータに対する解析手法を紹介します。

実は、カウントデータの解析で最も有名なのは負の二項回帰ではなく、ポアソン回帰です。

ポアソン分布を仮定して回帰分析をする解析手法ですね。

ポアソン分布をちょっとだけ復習すると、以下の2つの特徴がある分布です。

ポアソン分布は、二項分布の試行回数nが十分に大きく、確率が非常に小さいとき、従う分布。
ポアソン分布では、平均値も分散もλとなる

特に「平均値も分散もλ」という特徴は重要で、この特徴が負の二項回帰モデルと最も差別化される特徴だからです。

負の二項回帰とポアソン回帰との違いは？

ポアソン回帰まで理解できたところで、負の二項回帰です。

負の二項回帰を一言で言えば、ポアソン分布よりも分散が大きいと考えられる時に使う回帰分析なのです。

そのため「ポアソン分布よりも分散が大きい時」という特徴以外は、ポアソン回帰と同じ状況で使える回帰分析なんだな、というイメージを持ってもらってOKです。

なので、ポアソン回帰と負の二項回帰は親戚みたいなものですね。

負の二項回帰モデルに出てくるオフセット項をわかりやすく解説

負の二項回帰がどんなデータに対して使われるかが整理できたところで、次に理解すべきは「オフセット項」に関してです。

ポアソン回帰でも負の二項回帰でも共通の話題として出てくる「オフセット項」。

少々わかりづらい概念かなと思うので、具体的に解説したいと思います。

オフセット項を一言でいうと？

オフセット項を一言でいえば「回帰係数が1に固定された説明変数」ということ。

つまり、回帰係数の推定自体に全く興味はないんだけど、アウトカムに影響を与える変数なので説明変数として入れる、ということです。

なぜこのような説明変数が必要なのでしょうか？

例えば、「副作用の件数を比較したい」と思った場合、副作用の件数はあるものに左右されます。

それは「追跡できた日数」です。

A群とB群の比較で「A群の方が副作用の件数が少ない」という結論が出たとしても、結果的にA群の方が追跡日数が短かったら、その結論には疑問符がつきますよね。

そのため、カウントデータ（今回の場合、副作用の件数）に対して影響を与える影響要因（今回の場合、追跡日数）を考慮しなければならない、ということになります。

では、この影響要因に対処するアイデアはどんなものがあるでしょうか？

2つ考えられます。

割り算したものをアウトカムにする
オフセットとして考慮する

1つ目のアイデア：割り算したものをアウトカムにする

1つ目のアイデアは単純ですし、直感的にわかりやすいです。

アウトカムを「副作用の件数/追跡日数」にしてしまえば良い、という考え方ですね。

そうすれば追跡日数を考慮する、という点はクリアできます。

でも。。

この「副作用の件数/追跡日数」には大きな問題点があるのです。

その問題点とは「分母の値（追跡日数）が違うのに同じ値として考慮していいのか？」という問題。

つまり、副作用の発生が0でも、1日追跡して0なのか、365日追跡して0なのか、同じ「0」でも情報は全く違う、ということ。

割り算で対処すると、どちらも「0」というアウトカムで解析することになってしまうので、それはいいの？ということになりかねません。

そのため、割り算で出てきた問題点を解決するためにオフセット項という2つ目のアイデアが出てくるのです。

2つ目のアイデア：オフセット項にする

オフセット項にする場合の考え方のスタートは同じく、アウトカムを「副作用の件数/追跡日数」にしたい、です。

そして、説明変数がXだけのモデルを考えましょう。

つまり、「副作用の件数/追跡日数 = a*X + b」というモデルを考える、ということです。

aが回帰係数で、bが切片ですね。

その時、ポアソン回帰と負の二項回帰のリンク関数はLogです。

よって回帰分析の時には、「Log（副作用の件数/追跡日数）＝a*X + b」を考えることになります。

では「Log（副作用の件数/追跡日数）＝a*X + b」を式展開してみましょう。

Log（副作用の件数/追跡日数）＝a*X + b
Log（副作用の件数）-Log（追跡日数）＝a*X + b
Log（副作用の件数）＝a*X + b + Log（追跡日数）

となり、副作用の件数をアウトカムにした場合、Log（追跡日数）は回帰係数が1の説明変数として考慮すれば良い、ということになるのです。

この、回帰係数が1の説明変数のことをオフセット項と呼んでいるのです。

負の二項回帰の解析結果として得られるのは発生率比（IRR）

負の二項回帰はカウントデータで扱う解析であること、そして、追跡期間を考慮するためにオフセット項が重要であることを学びました。

では、負の二項回帰で得られる解析結果は何でしょうか？

結論から言えば、発生率比（Incidence Rate Ratio：IRR）になります。

復習ですが、負の二項回帰は、来院回数や事故件数といった「回数」を分析する手法です。しかし、人によって観察期間（追跡期間）が違うと、単純に回数を比べられませんよね。

そこで、観察期間の違いを「オフセット項」として調整します。これにより、分析は単なる回数の比較から、「発生率（単位時間あたりの発生しやすさ）」の比較へと変わります。

この発生率をグループ間で比べた結果が「発生率比（Incidence Rate Ratio: IRR）」です。

例えばIRRが2なら、「あるグループは基準のグループより、2倍イベントが起こりやすい」と解釈できます。

実際の研究では、年齢、性別、重症度など、結果に影響を与えうる様々な要因（共変量、交絡因子）があります。

負の二項回帰のような統計モデルを使うと、これらの共変量の影響を調整したうえで、より精緻なIRRを推定できます。

モデルから得られる回帰係数（β）を指数変換（e^β）することで、調整済みのIRRが算出されます。

このように、発生率比（IRR）は、観察期間が異なるデータのイベントの起こりやすさを公平に比較するための、非常に強力で重要な指標です。

まとめ

いかがでしたか？

この記事では「負の二項回帰モデルとは？ポアソン回帰との関連やオフセット項の解説も」ということでお伝えしました。

負の二項回帰モデルとはどんな解析手法？
ポアソン回帰と負の二項回帰の関係は？
オフセット項とはどんな役割を果たしているの？

ということが理解できたのなら幸いです！

多重共線性の問題点をわかりやすく！基準や目安はvifと相関係数のどちらを使う？

beat1115 — Tue, 08 Apr 2025 06:00:15 +0000

データ分析をする際には、多重共線性というものを考慮しなければならないことがあります。

多重共線性を考慮しないと間違った分析結果が出てしまうという問題点があるからです。

しかし実際の現場では、多重共線性を考慮せずに間違った結果を出してしまっているケースが非常に多くみられます。

データ分析をするなら、多重共線性は必ず知っておいてほしい知識です。

でも、多重共線性とは一体何のことでしょうか？

VIFや相関係数といった共線性の基準についてご存知でしょうか？

この記事では多重共線性の問題点や、VIFと相関係数のどちらが基準として適切か、なるべくわかりやすく解説していきます。

多重共線性を学んで正しい分析ができるようになりましょう！

多重共線性とは？

まずは多重共線性の正しい意味をみてみましょう。

重回帰分析において、いくつかの説明変数間で線形関係（一次従属）が認められる場合、共線性があるといい、共線性が複数認められる場合は多重共線性があると言う。

※統計WEBより引用

「説明変数？線形関係？何のこっちゃ？」となりますよね。

安心してください！

かなり噛み砕いて説明していきますね！

共線性とは、説明変数のある変数とある変数がお互いに強く相関しすぎている状態です。

例えば”座高”と”身長”のような場合です。

座高が高ければ身長もたいてい高くなりますよね？

この場合、”座高”と”身長”に共線性を認めています。

この共線性が多変量解析で複数起きている状態を、多重共線性が生じている状態と表現します。

複数の変数を扱う解析の場合、共線性が単発で生じることはほとんどなく、たいてい多重共線性が生じてきます。

そのため多変量解析を行うときは、多重共線性を考慮した上で分析を行います。

多重共線性とは、「説明変数同士で強い相関があること」と覚えておきましょう。

多重共線性の問題点は？

多重共線性の問題点は、目的変数と有意に影響を与える変数を見逃してしまうことです。

統計用語を使うとβエラー（第二種の過誤）が起きやすくなるということです。

ここからはもう少し簡単にしていきましょう。

なぜそうなってしまうのか、例を使って説明していきますね。

多重共線性の問題を例でわかりやすく！

“脚の速さ”を決める因子を見つけるために、多変量解析をするとしましょう。

そして、説明変数の中に”身長”と”座高”が含まれているとします。

先ほどご説明した通り、”身長”と”座高”はお互いに強く相関しますので、共線性の問題を認めます。

“身長”は”脚の速さ”を決める因子に含まれそうな気がしますが、”座高”は”脚の速さ”に直接は関連しない因子ですよね。

ですが”身長”と相関する”座高”は”脚の速さ”と偽相関してしまいます。

そのため分析の仮定で、どちらが”脚の速さ”を決める因子なのかわからなくなって計算式に不具合が出てきてしまいます。

「”脚の速さ”と”身長”も”座高”もどっちも関係しそうだぞ？でも”身長”と”座高”も無関係じゃなさそうだ。よく分からないからどちらも誤差を大きくして結果を出しておこう！」

という判断を（勝手に統計ソフトが）下してしまい、不当に大きな標準誤差が出力される結果になります。

誤差が大きくなればなるほど、有意な関係は得られにくくなるため、誤差を異常に大きくされた”身長”と”座高”はどちらも”脚の速さ”に関係しないとされてしまうことに。

要するに多重共線性の問題点は、”共線性を認める説明変数の標準誤差が異常に大きくなってしまうため、有意な関係が得られなくなってしまう”ことです。

今の説明で納得できなかった人のために、もう少し突っ込んだ話をしましょう。

本来、重回帰分析やロジスティック回帰分析のような多変量解析は、説明変数同士が相関しないことを仮定した上で行う分析。

ですので、そもそも多重共線性を認める場合は、多変量解析を使ってはダメで、正しい結果が出なくて当然なんです。

多変量解析を行う際は、必ず多重共線性の確認をするようにしましょう。

多重共線性があるか判断する基準は？

ここまで読んでいただければ、多重共線性がいかに問題かご理解いただけたかと思います。

次の問題は、”多重共線性があるかないか、どう判断すればいいのか？”ですよね。

結論から言えば、多重共線性の判断はVIF(分散拡大係数)をみるのが手っ取り早いです。

VIFについての詳細は難しい話になるので省略しますが、多重共線性を判定するために算出するものだと覚えておいて問題ないです。

SPSSなどの統計ソフトであれば簡単に出せますのでご安心ください。

VIFがいくつなら多重共線性の問題があるの？

実は、多重共線性を判断するVIFの正確な基準値は決まっていません。

ただよく言われる基準は、”10″です。

VIFが10を超えると多重共線性を認めていると言えるわけです。

ただVIFが10というのは、かなり甘めの基準ではあります。

先ほどご説明した通り、本来多変量解析は説明変数同士が全く相関していない状態であることを仮定しています。

そう考えると、VIFが3を超えた時点ですでに結果は多少歪み始めていると考えていいでしょう。

VIFがいくつまで許容するかは統計家の中でも意見が分かれますが、個人的な意見としては最低でもVIFが5以下に収まるようにしておいた方が無難かと思います。

イメージとしてはVIFが3で「ちょっとまずい」、5で「まあまあまずい」、10で「かなりまずい」でいいかなと。

多重共線性の基準はVIFが最も適しており、VIFが高ければ高いほど多重共線性を強く認めることだけは覚えておきましょう。

ちなみに多重共線性を認めた場合の対処法ですが、共線性の関係にある変数のどちらか（または複数）を削除してしまうことです。

どちらを残し、どちらを削除するかは臨床的な意義を考えて実施するのがいいですね。

VIFか相関係数か？多重共線性の判定に適した基準は？

ここまでの説明を聞いて、勘のいい方なら「VIFなんか使わずに相関係数じゃだめなのか？」と感じるかもしれません。

結論から言いますと、多重共線性の判定に相関係数だけでは不十分。

なぜなら相関係数は2変数間の関係だけしか見ていないからです。

実は、「2変数間ではそんなに相関しないけど、3変数間だとお互い相関しあっている」なんて場合があります。

多変量解析の分析なら、多変量の相関で考えるべきなので、2変数間の関係しかみれない相関係数だと、不十分なのです。

それに対してVIFは全ての変数を使って計算していますので、多変数間の相関も考慮してくれます。

「相関係数で見たときは問題なかったけど、VIFで見ると問題だった」というケースはあります。

よほどの事情がなければ、多重共線性の判定にはVIFを使うほうが無難ですね。

ただし多重共線性の問題は、相関係数がかなり高い値じゃないと生じないのも事実。

目安としては、0.7とかそれ以上の相関係数の場合に考えなければならないことです。

そして今までの経験上、医学系のデータで0.7以上の相関を持つ変数ってなかなかないんですよね。。

0.3ぐらいあれば「お、関連があるかも」と考え出すレベルなので。

なので、0.4以下の相関係数であればVIFを確認せずとも多重共線性の問題はないとして解析を進めていいのではと、個人的には思います。

まとめ

最後におさらいをしましょう。

多重共線性とは説明変数同士に相関がみられること
多重共線性があると、間違った分析結果になる（βエラーの増加）
多重共線性の判定には相関係数ではなくVIFを用いる
VIFの基準は一般的には10だが、5以下が理想

いかがでしょうか？

多重共線性は分析結果にかなり影響するため、多変量解析を行うなら必須の知識です。

ですが、多重共線性を知らずに多変量解析を使っている方も多くいます。

間違った解析をしないためにも、是非多重共線性について覚えていただければ幸いです。