多変量解析の説明変数はどんな選び方が適切？重回帰分析やロジスティック回帰で説明変数は何個まで？

2025年6月26日

多変量解析（重回帰分析やロジスティック回帰分析、Cox比例ハザードモデルなど）は、回帰分析の中で説明変数を複数個入れた解析のこと。

一度にたくさんの変数を扱えるので非常に便利ですよね。

でも説明変数をどれくらい入れてもいいのか、悩んだことがある人は多いのではないでしょうか。

「説明変数はいくつくらいが最適なのか？」
「説明変数はなぜ多いといけないのか？」
「解析に使う説明変数をどうやって選べばいいのか？」

本記事ではそんな疑問を持つ方に向けて、多変量解析の説明変数の選び方について解説していきます。

初心者の方でも大丈夫なように、なるべく分かりやすく解説していきますね！

＞＞もう統計で悩むのは終わりにしませんか？

↑1万人以上の医療従事者が購読中

多変量解析（重回帰分析やロジスティック回帰分析、Cox比例ハザードモデルなど）での説明変数は何個が適切なの？多いとどうなる？

多変量解析とは、説明変数を複数入れた解析のこと。

「説明変数を複数入れる」と一言で言っても、「じゃあ何個でも入れていいの？」というのは疑問になりますよね。。

どう言った考え方をして説明変数の個数を決めればいいのでしょうか？

多変量解析（重回帰分析・ロジスティック回帰分析・Cox比例ハザードモデル）での説明変数の適切な数

参考となる文献によると、説明変数の目安として以下の数を推奨しています。

重回帰分析(目的変数が連続変数の場合：共分散分析)
→n数を15で割った数まで
ロジスティック回帰分析(目的変数が2値のカテゴリカルデータの場合)
→アウトカムのうち少ない方のn数を10で割った数まで
Cox比例ハザードモデル（Cox回帰）
→イベントありのn数を10で割った数まで

参考文献：Frank E. Harrell Jr., Regression Modeling Strategy, Springer Verlag, 2001、Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR. (1996). A simulation study of the number of events per variable in logistic regression analysis. Journal of Clinical Epidemiology, 49(12), 1373-1379.

この目安は非常に分かりやすく、ひとまずこの基準に従っておけば問題ありません。

ここで、”目安”と表現したのには理由があります。

実は説明変数の数に絶対の答えはなく、統計家の中でもしばしば意見が分かれるからです。

ただ確実に言えることが一つあります。

それは“説明変数はなるべく少ない方が良い”ということです。

多変量解析の説明変数の数が多いとどうなる？

説明変数が多いと

解析の信頼性(再現性)が下がる
結果の解釈が難しくなる

といった問題があります。

一つずつ解説していきましょう。

①解析の信頼性が下がる

データ数に対して説明変数の数が多すぎると、間違った解析結果が出る確率が高くなります。

なぜそうなるのか、数式を使わずに説明したいので例を挙げてみましょう。

“小学生の脚の速さを決める要因を解析したい”としましょう。

50m走のタイムを目的変数として、説明変数には”年齢”と”性別”を使うことになりました。

しかしデータが5人分(男子2名,女子3名)しか集まりませんでした。

データ数5に対して説明変数を2つも入れるのは多すぎますが、なぜダメなのか考えていきましょう。

単変量解析(変数が1つだけ)であれば、50mタイムと年齢、性別を見比べていけば5人分あるのでなんとか傾向だけでも掴めるかもしれません。

ですが多変量解析となると、もっと解釈が難しくなります。

性別を男子に固定した状態で年齢が50mタイムに与える影響を見てみましょう。

こうなると男子は2名しかいませんので、結果が信頼性が低いのは直感的にも分かりますね。(たまたま年齢が上の子の脚が遅かった場合、年齢が高いほど脚が遅いという結果になってしまいます)

このように説明変数の数が増えれば増えるほど、必要なデータ数が多くなります。

反対にデータ数が少ないのに説明変数が多いと、信頼性が低下してしまいます。

もちろんこの例はかなりおおげさですが、通常の解析でも同じことが言えます。

②解釈が難しくなる

解析の結果、有意な説明変数が多すぎると解釈が難しくなります。

どういうことでしょうか？

こちらも例を使って説明していきますね。

研究者AとBが健康寿命を伸ばすために有効なことを解析して結果が出ました。

研究者A「健康寿命を伸ばすのに有効なのは、バランスの良い食事と適度な運動である」
研究者B「健康寿命を伸ばすのに有効なのは、バランスの良い食事と適度な運動、十分な睡眠時間、ストレスのない生活、田舎暮らし、結婚していること、車を所有していることである」

いかがでしょうか？

Bさんの結果は確かにそうなのかもしれないですが、分かりにくくないでしょうか？

もう少し絞ってくれた方が聞き手としても解釈しやすいと感じるはずです。(「で、結局一番大事なのはどれなの？」といった具合です)

このように説明変数が多すぎると解釈が難しくなるという問題もあります。

多変量解析での説明変数の選び方（選択方法）は？

では、多変量解析ではどのように説明変数を選ぶのが適切なのでしょうか？

多変量解析での説明変数の間違った選び方

相関分析などの解析結果を見ながら説明変数を選ぶのは、実は間違った方法です。

論文などでもよく見るやり方なので、真似してしまいがちですが、気をつけて下さい。

目的変数と相関係数が高い変数だけを使って解析をする
目的変数と有意差が得られた変数だけを使って解析をする
ステップワイズ法(AICやP値などの統計的な指標を使って変数を自動選択する方法)を使って解析する

上記の方法はいずれもよく見ますが、間違った方法です。

この方法で変数を選ぶと、今回だけたまたま目的変数と関連した変数が有意なものとして抽出されやすくなってしまうからです。

たとえば目的変数と全く関係ない変数が100あるとしましょう。

全く関係なくてもこれだけの数の変数があると、どれか1つはたまたま目的変数と有意に関連していることがよくあります。

この時解析結果だけを見て説明変数を選ぶと、たまたま関連した変数が最終的に有意な関連因子となってしまうわけです。

本来関連のないものを関連があるとしてしまうのは、避けるべき問題です。

ではどのように説明変数を選ぶのが正しいのでしょうか？

多変量解析での説明変数の正しい選び方

説明変数は解析を行う前に適切な数まで絞らなければなりません。

具体的には以下の方法で絞っていきます。

先行研究を参考に説明変数を絞る
似たような説明変数は合成するか片方を削除する

もう少し詳しく説明していきますね。

①先行研究を参考に説明変数を絞る

まずは先行研究を使う方法を模索してみましょう。

たいていの場合は、同じ目的変数(アウトカム)を使って似たような解析をした先行研究があるはずです。

その研究で有意に関連していた変数は必ず使用し、有意でなかった変数は削ってしまいましょう。

後はそこに今回新しく検証した変数や、臨床的に考えて絶対関連していそうな変数を加えたものだけに絞ってしまいます。

くれぐれも「データがあるから使う」ことがないようにしましょう。

ほとんどの場合は、この方法だけでもかなり変数を絞れるのではないかと思います。

②似たよう変数は合体または片方を削除する

似たような変数は一つにまとめてしまえば、変数の数を減らせます。

変数がたくさんある場合、たいていは似たような変数が紛れています。

例えば”身長”と”座高”のようなものです。

身長と座高の場合、合成（合計したり平均をとったり）すると解釈が難しいので、どちらかを削除することになります。

この時、どちらを削除するかは明確な決まりはありません。

より有用だと思う方、またはより検証したい方を残すといいと思います。

＞＞もう統計で悩むのは終わりにしませんか？

↑1万人以上の医療従事者が購読中

まとめ

最後におさらいをしましょう。

重回帰分析の説明変数は”n数÷15″まで
ロジスティック回帰分析の説明変数は”少ない方のn数÷10″まで
Cox比例ハザード分析の説明変数は”イベント有のn数÷10″まで
説明変数が多すぎると結果の信頼性が下がり、解釈も難しくなる
結果を見て説明変数を選ぶのは間違った方法
解析をする前に先行研究から説明変数を絞るのが正しい方法

いかがでしたでしょうか。

これらを知った上で論文をみてみると、説明変数の数や選び方を間違っている研究が多いことに気づくはずです。

今後は正しい解析をした研究が増えてくることを祈っています。

間違った結果を発表しないように気をつけたいですね。

最後までお読み頂きありがとうございました。

今回の内容は動画でも解説していますので、併せてご確認くださいませ。

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

リサーチクエスチョン探し？データ分析？論文投稿？、、、で、もう悩まない！

第1章：臨床研究ではなぜ統計が必要なのか？計画することの重要性

推定ってどんなことをしているの？
臨床研究を計画するってどういうこと？
どうにかして標本平均を母平均に近づけられないか？

第2章：研究目的をどれだけ明確にできるのかが重要

データさえあれば解析でどうにかなる、という考え方は間違い
何を明らかにしたいのか？という研究目的が重要
研究目的は4種類に分けられる
統計専門家に相談する上でも研究目的とPICOを明確化しておく

第3章：p値で結果が左右される時代は終わりました

アメリカ統計協会（ASA）のp値に関する声明で指摘されていること
そうは言っても、本当に有意差がなくてもいいの…？
なぜ統計専門家はp値を重要視していないのか
有意差がない時に「有意な傾向があった」といってもいい？
統計を放置してしまうと非常にまずい

第4章：多くの人が統計を苦手にする理由

残念ながら、セミナー受講だけで統計は使えません。
インプットだけで統計が使えない理由
どうやったら統計の判断力が鍛えられるか？
統計は手段なので正解がないため、最適解を判断する力が必要

第5章：統計を使えるようになるために今日から何をすれば良いか？

論文を読んで統計が使えるようになるための5ステップ

第6章：統計を学ぶために重要な環境

統計の3つの力をバランスよく構築する環境

『統計を身につける5つのステップ』を
通常1,650円 → メルマガ登録で無料でプレゼント

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

~~通常価格：1,650円~~　→　無料でお届け

【無料】統計を使いこなすための秘策を学ぶ

コメント一覧（1件）

AICとはどんな指標？医療統計で変数選択（モデル選択）するときに有用！｜いちばんやさしい、医療統計 より:

2021年8月23日 10:53 AM

[…] これは研究をする上で大変喜ばしいことなのですが今までは取得できなかったデータが存在することで多変量解析に投入可能な説明変数の種類が多くなりすぎて困ることもあります。 […]

返信