統計学やデータ分析の初学者が線形回帰を学ぶ際、最初につまずくポイントがある。それが「正規性の仮定」だ。「分析対象のデータ(目的変数)が正規分布していなければ、回帰分析は使えない」と思い込み、分析を断念したり、無理なデータ変換を繰り返したりするケースは少なくない。
しかし、結論から言えば、目的変数そのものが正規分布している必要はない。 本記事では、この誤解の正体を解き明かし、実務において真にチェックすべきポイントを解説する。
目的変数の正規性が必須という誤解はどこから来るのか
「目的変数が正規分布している必要がある」という誤解が広まっている背景には、統計教育のプロセスと、他の手法との混同がある。
- t検定などの印象: 統計学の基礎で学ぶ「t検定」や「ANOVA(分散分析)」では、母集団の正規性が前提とされることが多い。そのイメージが回帰分析にも無批判に持ち込まれている。
- 教科書の単純化: 入門書では、理解を助けるために「綺麗にベルカーブを描くデータ」を例題に使う。これが「正規分布していなければならない」というルールとして誤認されてしまう。
実際には、目的変数がどのような分布であっても、説明変数によってその変動が説明され、残った誤差が適切であれば線形回帰は成立する。
残差の正規性について
線形回帰において真に重要なのは、データそのものの分布ではなく、モデルを当てはめた後に残る「残差(ざんさ)」の分布である。
線形回帰モデルは数式で以下のように定義される。
$$y = \beta_0 + \beta_1x + \epsilon$$
ここで最も重要な仮定は、$\epsilon$(誤差項)が平均 0、分散 $\sigma^2$ の正規分布に従うこと($\epsilon \sim N(0, \sigma^2)$)である。残差がこの条件を満たしていることで、初めて係数の有意性(p値)や信頼区間が統計的に意味を持つ。
つまり、元のデータがどれほど歪んでいても、モデルがその歪みを説明しきれており、予測から外れた部分(残差)がランダムで左右対称であれば、線形回帰モデルとして妥当と言える。
正規性の確認方法
残差の正規性を確認する手法は、主に以下の2つである。
① Q-Qプロットによる視覚的確認
最も実用的で推奨される方法である。理論上の正規分布と実際の残差を比較した散布図を確認する。
- 妥当な状態: 点が対角線(45度線)上にほぼ重なっている。
- 問題がある状態: 点が大きく弧を描いたり、S字型にうねったりしている。
② 統計的検定(シャピロ・ウィルク検定など)
数値によって厳密に判定する方法だ。ただし、サンプルサイズが大きくなると、実務上問題のない微細なズレでも「正規分布ではない(有意)」と判定されてしまう欠点がある。そのため、基本的にはQ-Qプロットによる目視確認を主軸に据えるのが定石である。
それでも批判される場合どうしたらよいか
分析結果を報告する際、あるいは論文査読において正規性の欠如を指摘された場合は、以下の順に検討を行うべきである。
- 変数の変換: 目的変数を対数変換($\log$ 変換)することで、残差の分布を正規分布に近づける。特にお金や人口など、裾の長いデータに有効である。
- 外れ値の精査: 特定の数点が正規性を著しく損なっている場合、そのデータが入力ミスや異常値でないかを確認し、除外の是非を検討する。
- 一般化線形モデル(GLM)への移行: データがカウントデータならポアソン回帰、0か1の二値ならロジスティック回帰など、そもそも正規分布を前提としないモデルを選択する。
- 中心極限定理による正当化: サンプルサイズが十分に大きい(一般に数百以上)場合、中心極限定理により、回帰係数の推定値は正規性に依存せず妥当であると主張できる。
まとめ
線形回帰における「正規性」の条件は、目的変数ではなく残差にかかっている。
- 目的変数が正規分布していなくても、直ちに分析を諦める必要はない。
- 分析後は必ずQ-Qプロットで残差を確認する。
- 分布が歪んでいる場合は、変換やGLMなどの代替案を検討する。
このステップを正しく理解していれば、データが持つ本来の意味をより正確に捉えることができるようになるだろう。




コメント