多変量解析(重回帰分析やロジスティック回帰分析、Cox比例ハザードモデルなど)は、回帰分析の中で説明変数を複数個入れた解析のこと。
一度にたくさんの変数を扱えるので非常に便利ですよね。
でも説明変数をどれくらい入れてもいいのか、悩んだことがある人は多いのではないでしょうか。
- 「説明変数はいくつくらいが最適なのか?」
- 「説明変数はなぜ多いといけないのか?」
- 「解析に使う説明変数をどうやって選べばいいのか?」
本記事ではそんな疑問を持つ方に向けて、多変量解析の説明変数の選び方について解説していきます。
初心者の方でも大丈夫なように、なるべく分かりやすく解説していきますね!
多変量解析での説明変数は何個が適切なの?多いとどうなる?
多変量解析(重回帰分析・ロジスティック回帰分析・Cox比例ハザードモデル)での説明変数の適切な数
大阪市立大学大学院の教授で統計の専門家である新谷歩先生は、説明変数の目安として以下の数を推奨しています。
- 重回帰分析(目的変数が連続変数の場合:共分散分析)
→n数を15で割った数まで - ロジスティック回帰分析(目的変数が2値のカテゴリカルデータの場合)
→アウトカムのうち少ない方のn数を10で割った数まで - Cox比例ハザードモデル(Cox回帰)
→イベントありのn数を10で割った数まで
この目安は非常に分かりやすく、ひとまずこの基準に従っておけば問題ありません。
ここで、”目安”と表現したのには理由があります。
実は説明変数の数に絶対の答えはなく、統計家の中でもしばしば意見が分かれるからです。
ただ確実に言えることが一つあります。
それは“説明変数はなるべく少ない方が良い”ということです。
説明変数の数が多いとどうなる?
説明変数が多いと
- 解析の信頼性(再現性)が下がる
- 結果の解釈が難しくなる
といった問題があります。
一つずつ解説していきましょう。
①解析の信頼性が下がる
データ数に対して説明変数の数が多すぎると、間違った解析結果が出る確率が高くなります。
なぜそうなるのか、数式を使わずに説明したいので例を挙げてみましょう。
“小学生の脚の速さを決める要因を解析したい”としましょう。
50m走のタイムを目的変数として、説明変数には”年齢”と”性別”を使うことになりました。
しかしデータが5人分(男子2名,女子3名)しか集まりませんでした。
データ数5に対して説明変数を2つも入れるのは多すぎますが、なぜダメなのか考えていきましょう。
単変量解析(変数が1つだけ)であれば、50mタイムと年齢、性別を見比べていけば5人分あるのでなんとか傾向だけでも掴めるかもしれません。
ですが多変量解析となると、もっと解釈が難しくなります。
性別を男子に固定した状態で年齢が50mタイムに与える影響を見てみましょう。
こうなると男子は2名しかいませんので、結果が信頼性が低いのは直感的にも分かりますね。(たまたま年齢が上の子の脚が遅かった場合、年齢が高いほど脚が遅いという結果になってしまいます)
このように説明変数の数が増えれば増えるほど、必要なデータ数が多くなります。
反対にデータ数が少ないのに説明変数が多いと、信頼性が低下してしまいます。
もちろんこの例はかなりおおげさですが、通常の解析でも同じことが言えます。
②解釈が難しくなる
解析の結果、有意な説明変数が多すぎると解釈が難しくなります。
どういうことでしょうか?
こちらも例を使って説明していきますね。
研究者AとBが健康寿命を伸ばすために有効なことを解析して結果が出ました。
- 研究者A「健康寿命を伸ばすのに有効なのは、バランスの良い食事と適度な運動である」
- 研究者B「健康寿命を伸ばすのに有効なのは、バランスの良い食事と適度な運動、十分な睡眠時間、ストレスのない生活、田舎暮らし、結婚していること、車を所有していることである」
いかがでしょうか?
Bさんの結果は確かにそうなのかもしれないですが、分かりにくくないでしょうか?
もう少し絞ってくれた方が聞き手としても解釈しやすいと感じるはずです。(「で、結局一番大事なのはどれなの?」といった具合です)
このように説明変数が多すぎると解釈が難しくなるという問題もあります。
多変量解析での説明変数の選び方(選択方法)は?
説明変数の間違った選び方
相関分析などの解析結果を見ながら説明変数を選ぶのは、実は間違った方法です。
論文などでもよく見るやり方なので、真似してしまいがちですが、気をつけて下さい。
- 目的変数と相関係数が高い変数だけを使って解析をする
- 目的変数と有意差が得られた変数だけを使って解析をする
- ステップワイズ法(AICやP値などの統計的な指標を使って変数を自動選択する方法)を使って解析する
上記の方法はいずれもよく見ますが、間違った方法です。
この方法で変数を選ぶと、今回だけたまたま目的変数と関連した変数が有意なものとして抽出されやすくなってしまうからです。
たとえば目的変数と全く関係ない変数が100あるとしましょう。
全く関係なくてもこれだけの数の変数があると、どれか1つはたまたま目的変数と有意に関連していることがよくあります。
この時解析結果だけを見て説明変数を選ぶと、たまたま関連した変数が最終的に有意な関連因子となってしまうわけです。
本来関連のないものを関連があるとしてしまうのは、避けるべき問題です。
ではどのように説明変数を選ぶのが正しいのでしょうか?
説明変数の正しい選び方
説明変数は解析を行う前に適切な数まで絞らなければなりません。
具体的には以下の方法で絞っていきます。
- 先行研究を参考に説明変数を絞る
- 似たような説明変数は合成するか片方を削除する
もう少し詳しく説明していきますね。
①先行研究を参考に説明変数を絞る
まずは先行研究を使う方法を模索してみましょう。
たいていの場合は、同じ目的変数(アウトカム)を使って似たような解析をした先行研究があるはずです。
その研究で有意に関連していた変数は必ず使用し、有意でなかった変数は削ってしまいましょう。
後はそこに今回新しく検証した変数や、臨床的に考えて絶対関連していそうな変数を加えたものだけに絞ってしまいます。
くれぐれも「データがあるから使う」ことがないようにしましょう。
ほとんどの場合は、この方法だけでもかなり変数を絞れるのではないかと思います。
②似たよう変数は合体または片方を削除する
似たような変数は一つにまとめてしまえば、変数の数を減らせます。
変数がたくさんある場合、たいていは似たような変数が紛れています。
例えば”身長”と”座高”のようなものです。
身長と座高の場合、合成(合計したり平均をとったり)すると解釈が難しいので、どちらかを削除することになります。
この時、どちらを削除するかは明確な決まりはありません。
より有用だと思う方、またはより検証したい方を残すといいと思います。
まとめ
最後におさらいをしましょう。
- 重回帰分析の説明変数は”n数÷15″まで
- ロジスティック回帰分析の説明変数は”少ない方のn数÷10″まで
- Cox比例ハザード分析の説明変数は”イベント有のn数÷10″まで
- 説明変数が多すぎると結果の信頼性が下がり、解釈も難しくなる
- 結果を見て説明変数を選ぶのは間違った方法
- 解析をする前に先行研究から説明変数を絞るのが正しい方法
いかがでしたでしょうか。
これらを知った上で論文をみてみると、説明変数の数や選び方を間違っている研究が多いことに気づくはずです。
今後は正しい解析をした研究が増えてくることを祈っています。
間違った結果を発表しないように気をつけたいですね。
最後までお読み頂きありがとうございました。
コメント
コメント一覧 (1件)
[…] これは研究をする上で大変喜ばしいことなのですが今までは取得できなかったデータが存在することで多変量解析に投入可能な説明変数の種類が多くなりすぎて困ることもあります。 […]