MENU

【無料プレゼント付き】学会発表・論文投稿に必要な統計を最短で学ぶことができる無料メルマガ

線形回帰の罠:なぜ「データの正規性」は必須ではないのか


統計学やデータ分析の初学者が線形回帰を学ぶ際、最初につまずくポイントがある。それが「正規性の仮定」だ。「分析対象のデータ(目的変数)が正規分布していなければ、回帰分析は使えない」と思い込み、分析を断念したり、無理なデータ変換を繰り返したりするケースは少なくない。

しかし、結論から言えば、目的変数そのものが正規分布している必要はない。 本記事では、この誤解の正体を解き明かし、実務において真にチェックすべきポイントを解説する。


>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

目次

目的変数の正規性が必須という誤解はどこから来るのか

「目的変数が正規分布している必要がある」という誤解が広まっている背景には、統計教育のプロセスと、他の手法との混同がある。

  • t検定などの印象: 統計学の基礎で学ぶ「t検定」や「ANOVA(分散分析)」では、母集団の正規性が前提とされることが多い。そのイメージが回帰分析にも無批判に持ち込まれている。
  • 教科書の単純化: 入門書では、理解を助けるために「綺麗にベルカーブを描くデータ」を例題に使う。これが「正規分布していなければならない」というルールとして誤認されてしまう。

実際には、目的変数がどのような分布であっても、説明変数によってその変動が説明され、残った誤差が適切であれば線形回帰は成立する。


残差の正規性について

線形回帰において真に重要なのは、データそのものの分布ではなく、モデルを当てはめた後に残る「残差(ざんさ)」の分布である。

線形回帰モデルは数式で以下のように定義される。

$$y = \beta_0 + \beta_1x + \epsilon$$

ここで最も重要な仮定は、$\epsilon$(誤差項)が平均 0、分散 $\sigma^2$ の正規分布に従うこと($\epsilon \sim N(0, \sigma^2)$)である。残差がこの条件を満たしていることで、初めて係数の有意性(p値)や信頼区間が統計的に意味を持つ。

つまり、元のデータがどれほど歪んでいても、モデルがその歪みを説明しきれており、予測から外れた部分(残差)がランダムで左右対称であれば、線形回帰モデルとして妥当と言える。


>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

正規性の確認方法

残差の正規性を確認する手法は、主に以下の2つである。

① Q-Qプロットによる視覚的確認

最も実用的で推奨される方法である。理論上の正規分布と実際の残差を比較した散布図を確認する。

  • 妥当な状態: 点が対角線(45度線)上にほぼ重なっている。
  • 問題がある状態: 点が大きく弧を描いたり、S字型にうねったりしている。

② 統計的検定(シャピロ・ウィルク検定など)

数値によって厳密に判定する方法だ。ただし、サンプルサイズが大きくなると、実務上問題のない微細なズレでも「正規分布ではない(有意)」と判定されてしまう欠点がある。そのため、基本的にはQ-Qプロットによる目視確認を主軸に据えるのが定石である。


それでも批判される場合どうしたらよいか

分析結果を報告する際、あるいは論文査読において正規性の欠如を指摘された場合は、以下の順に検討を行うべきである。

  1. 変数の変換: 目的変数を対数変換($\log$ 変換)することで、残差の分布を正規分布に近づける。特にお金や人口など、裾の長いデータに有効である。
  2. 外れ値の精査: 特定の数点が正規性を著しく損なっている場合、そのデータが入力ミスや異常値でないかを確認し、除外の是非を検討する。
  3. 一般化線形モデル(GLM)への移行: データがカウントデータならポアソン回帰、0か1の二値ならロジスティック回帰など、そもそも正規分布を前提としないモデルを選択する。
  4. 中心極限定理による正当化: サンプルサイズが十分に大きい(一般に数百以上)場合、中心極限定理により、回帰係数の推定値は正規性に依存せず妥当であると主張できる。

まとめ

線形回帰における「正規性」の条件は、目的変数ではなく残差にかかっている。

  • 目的変数が正規分布していなくても、直ちに分析を諦める必要はない。
  • 分析後は必ずQ-Qプロットで残差を確認する。
  • 分布が歪んでいる場合は、変換やGLMなどの代替案を検討する。

このステップを正しく理解していれば、データが持つ本来の意味をより正確に捉えることができるようになるだろう。


おすすめ書籍

誰も教えてくれなかった 医療統計の使い分け〜迷いやすい解析手法の選び方が,Rで実感しながらわかる!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

リサーチクエスチョン探し?データ分析?論文投稿?、、、で、もう悩まない!

第1章臨床研究ではなぜ統計が必要なのか?計画することの重要性
  • 推定ってどんなことをしているの?
  • 臨床研究を計画するってどういうこと?
  • どうにかして標本平均を母平均に近づけられないか?
第2章:研究目的をどれだけ明確にできるのかが重要
  • データさえあれば解析でどうにかなる、という考え方は間違い
  • 何を明らかにしたいのか? という研究目的が重要
  • 研究目的は4種類に分けられる
  • 統計専門家に相談する上でも研究目的とPICOを明確化しておく
第3章:p値で結果が左右される時代は終わりました
  • アメリカ統計協会(ASA)のp値に関する声明で指摘されていること
  • そうは言っても、本当に有意差がなくてもいいの…?
  • なぜ統計専門家はp値を重要視していないのか
  • 有意差がない時に「有意な傾向があった」といってもいい?
  • 統計を放置してしまうと非常にまずい
第4章:多くの人が統計を苦手にする理由
  • 残念ながら、セミナー受講だけで統計は使えません。
  • インプットだけで統計が使えない理由
  • どうやったら統計の判断力が鍛えられるか?
  • 統計は手段なので正解がないため、最適解を判断する力が必要
第5章:統計を使えるようになるために今日から何をすれば良いか?
  • 論文を読んで統計が使えるようになるための5ステップ
第6章:統計を学ぶために重要な環境
  • 統計の3つの力をバランスよく構築する環境

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

この記事を書いた人

統計 ER ブログ執筆者

元疫学研究者

コメント

コメントする

目次