標準偏差 – いちばんやさしい、医療統計

不偏分散とは？n-1で割る理由や求め方を簡単にわかりやすく解説！

beat1115 — Fri, 01 Aug 2025 04:00:42 +0000

統計での分散には、”nで割る分散”と”n-1で割る分散”の二種類があります。

“nで割る分散”は、一般的な分散です。

“n-1で割る分散”を不偏分散と呼びます。

この記事では、

一般的な分散と不偏分散では何が違うのか。
どうして、不偏分散はn-1で割る必要があるのか。
分散と不偏分散の使い分け方

ついて説明していきます。

不偏分散と標本分散の違いは？n-1で割る理由

まずは、標本分散と普遍分散の違いについて。

標本分散：データのバラツキを表すために用いられる
不偏分散：標本から母集団の分散を推定するために用いられる

そして分散には母分散と標本分散があります。

“標本分散”と”不偏分散”の違いを理解するためには、まず、母集団と標本の性質について知る必要があります。

不偏分散を理解するのに必要な母集団と標本とは？

母集団と標本の意味は以下のようです。

母集団は“知りたい対象のすべて”を指します。
標本は“知りたい対象の一部”を指します。

母集団と標本の関係性は意味は以下のようです。

“知りたい対象のすべて”を調べるために、“知りたい対象の一部”を調べることを”抽出“と言います。
“知りたい対象の一部”から”知りたい対象のすべて”を予測することを”推定“と言います。

詳しくは、母集団と標本の関係とはでも説明しています！

“標本分散”と”不偏分散”が使われるのは、母集団から抽出した標本の性質に由来します。

不偏分散がn-1で割る分散

母集団と標本の関係には

“母集団の性質と、母集団から抽出した標本の性質は一緒ではない”という性質があります。

母集団の、平均、分散、標準偏差と、

標本の、平均、分散、標準偏差は、

一致するとは限りません（偶然一致することはあります）。

そのため、統計学では母集団と標本の統計の値は区別して考えられています。

統計学では母集団と標本の統計の値は区別して考えるため、

母集団の分散を母分散、

標本の分散を標本分散と呼びます。

標本分散は、式ではこのように書きます。

多くの調査や研究は、母集団の性質を明らかにするが目的で行われています。

しかし、母集団を調査することは、コストや技術的に不可能なことが多いです。

そこで、標本から母集団を推定する必要が生まれます。

標本から母集団の分散を推定するために、不偏分散が用いられます。

不偏分散は、式ではこのように書きます。

(観測データ-1)と、データ数から1を引くのが標本分散との違いです。

これが俗にいうn-1の分散。

ここまでの話をまとめると、

母集団の分散を母分散という
標本の分散を標本分散という
標本から母集団の分散を推定した分散を不偏分散という

不偏分散の名前の由来：分散の不偏推定量だから

不偏分散という名前は、不偏分散分散の不偏推定量であることに由来します。

標本から母集団の性質を推定するために、不偏推定量というものが用いられます。

不偏とは、漢字の通り、”偏りのないもの”という意味です。

統計学には、“平均的に過大にも過少にも推定していない”という意味です。

“母集団の性質と、母集団から抽出した標本の性質は一緒ではない”という性質により、

標本の性質は、母集団と比べたとき、偏りが生じてしまいます。

この偏りを補正することで、母集団の性質を推定したものを不偏推定量といます。

どうして、不偏分散はn-1で割るのか？

不偏分散で、n-1で割るのは”偏り”を補正するためです。

先ほど、”母集団の性質と、母集団から抽出した標本の性質は一緒ではない”と説明しました。

これは、標本の性質は、母集団の性質と比べてからみて”偏り”といえます。

不偏分散で、n-1で割るのはこのかたよりを補正するためです。

具体的には、標本分散は母分散よりも小さくなるという性質に由来します。

これを防ぐために、n-1で割ります。

1を引くと分母が小さくなるので、分散は少し大きくなります。

不偏分散から不偏標準偏差へ：注意してほしいこと

不偏〇〇というのは、母集団の性質の不偏推定量と上で説明しました。

そのため、不偏標準偏差を母集団の標準偏差（母標準偏差）として定義します。

しかし、多くの文献やネットの情報では、

“不偏分散の平方根”を、不偏標準偏差として定義していますが、

これは誤用なので気をつけてください。

正しい不偏標準偏差は、“不偏分散の平方根を補正した値”です。

“不偏分散の平方根”は“不偏分散の平方根”や”不偏分散平方根”として定義されています。

しかし、Excelなどでは、“不偏分散平方根”の計算が用いられており、名称以外はそこまで意識する必要はありません。

不偏分散と標本分散はどちらを使うべき？

データの分散が知りたいとき：分散（標本分散　or 母分散）
データから母集団の性質を推定したいとき：不偏分散

母集団の推定が目的のときは、不偏分散を用います。

クラスのテストの結果など、母集団のデータが揃っている場合は、分散を用います。

標準偏差のときは

データの標準偏差が知りたいとき：標準偏差（標本標準偏差　or 母標準偏差）
データから母集団の性質を推定したいとき：不偏標準偏差　or 不偏分散平方根

標準偏差と分散の関係については、こちらの記事をご覧ください！

＞＞標準偏差と分散の関係は？

不偏分散を求めるのにエクセルでの関数は？

最後に、エクセルで分散または、不偏分散または不偏標準偏差を用いる時に使う関数について紹介します。

分散と不偏分散

分散（標本分散　or 母分散）	VAR.P
不偏分散	VAR または　VAR.S

標準偏差と不偏標準偏差または不偏分散平方根

標準偏差（標本標準偏差　or 母標準偏差）	STDEV.P
不偏標準偏差	該当なし
不偏分散の平方根	STDEV または　STDEV.S

まとめ

母集団の分散を母分散という
標本の分散を標本分散という
標本から母集団の分散を推定した分散を不偏分散という
不偏分散で、n-1で割るのは”偏り”を補正するため

＞＞要約統計量とは？何を出力すればいいの？

＞＞95%信頼区間とは何？1.96の意味とは？

＞＞母集団と標本の違いとは？

＞＞標準偏差と分散の関係は？

標準偏差と分散の関係や違いとは？データの単位と同じ次元はどっち？

beat1115 — Wed, 30 Jul 2025 21:00:15 +0000

データのバラツキを表すパラメーターである”標準偏差”。

しかし標準偏差と同様に、統計では”分散”というもう一つのデータのバラツキを表すパラメーターが出てきます。

バラツキを表すパラメータとして、分散と標準偏差は何が違うのでしょうか？

この記事では、分散と標準偏差の関係と分散と標準偏差の求め方について説明します。

分散と標準偏差の関係とは？

標準偏差と分散はどちらもデータのバラツキを表すパラメーター（指標）です。

標準偏差と分散の関係は、次のような関係があります。

(標準偏差)²=分散

そのため、標準偏差と分散の性質は非常によく似ています。

標準偏差とは?

“標準偏差”は一言で言うならば、データのバラツキを表すパラメーターです。

そのため、標準偏差には次のような特徴があります。

標準偏差が小さい　→ 平均に近いデータが多い　→データのバラツキが小さい
標準偏差が大きい　→ 平均から離れたデータが多い　→データのバラツキが大きい

詳しくは、正規分布とは？簡単にわかりやすく標準偏差との関係やエクセルでのグラフ化を解説の記事で紹介しています。

次に、分散について説明していきます。

分散とは?

分散も、標準偏差と同様にデータのバラツキを表すパラメータです。

そのため、分散にも標準偏差と同様に次のような特徴があります。

分散が小さい　→ 平均に近いデータが多い　→データのバラツキが小さい
分散が大きい　→ 平均から離れたデータが多い　→データのバラツキが大きい

分散と標準偏差の関係

分散と標準偏差との関係を再度確認してみましょう。

分散と標準偏差には、次のような関係がありましたね。

(標準偏差)²=分散

標準偏差ですが、分散から求めるしか計算方法がありません。

そのため、標準偏差を求めるには、先に分散を求める必要があります。

次に分散と標準偏差の計算方法を見ていきます。

分散と標準偏差の求め方

分散と標準偏差は次のように求めることができます。

分散：”各データと平均の差の2乗”の平均
標準偏差：分散の平方根（ルート）

詳しく見ていきましょう。

分散の求め方

分散は”各データと平均の差の2乗”の平均として求めることができます。

これを数式で表すと、次の式になります

具体的な計算方法は下のように行います。

平均を計算する。
各観測データから平均を引く。
“各観測データから平均を引いた値”を2乗する。
“各観測データから平均を引いた値を2乗した値”をすべて足し合わせる。
最後に観測データの数で割る。

結構手順が多く、計算がめんどくさいですね。

どうして、このような計算方法をとるのでしょうか。

次に、説明していきます。

分散の考え方

分散の計算が少しややこしいのは、

データのバラツキを正確に表すため
実は、数学的に計算を楽にするため

という理由があるからです。

このことを、分散の考え方から説明していきます。

データのバラツキをどう評価したら良いかを考えてみます。

このようなデータがあるとします。

このグラフでオレンジは平均で表しています。

このとき、バラツキに対応するのは、データと平均の差（→）の部分です。

ちなみにデータと平均の差（→）のことを偏差と言います。

バラツキの評価するには、データと平均の差（→）を合計すればできます。

このデータと平均の差（→）をどのように合計したら良いのでしょうか。

一番簡単な方法は、

バラツキ（→）を全て足し合わせる

ことです。

しかし、この方法には問題があります。

それは、データと平均の差には正の数と負の数の両方があります。

そのため、ただ足し合わせるだけだと、正の数と負の数が互いに打ち消し合ってしまうため、バラツキは本来の値よりも小さくなってします。

極端な場合では、正方向の差と負方向の差が等しいとき、バラツキが0になってしまうこともあります。

バラツキがあって、計算しているのに、バラルキが0になってしまうのはおかしいですよね。

次の方法は、

バラツキ（→）の”絶対値”を全て足し合わせる

ことです。

この方法は、さっきのすべてを足し合わせるよりも、データのバラツキを正確に表すことができています。

しかし、絶対値の計算は正の数と負の数を場合分けして考える必要があります。

そのため、数学的に面倒であるというデメリットがあります。

そのため、分散ではデータのバラルキの評価に

バラツキ（→）の2乗を全て足し合わせる

という方法が用いられています。

標準偏差の求め方

標準偏差の求め方は簡単です。

分散の平方根をとるだけです。

平方根をとる理由は、分散を計算するときに、データと平均の差を2乗したので、単位も実際のデータの2乗になっています。

例えば、平均値の単位はmなのに、分散の単位はm²になっています。

これを元に戻す必要がありますよね。

そのため、分散の平方根を取って単位を平均値に合わせたのが標準偏差です。

標準偏差の名前

標準偏差という名前は、データと平均の差を偏差ということに由来します。

データと平均の差の2乗は、つまり、偏差の2乗です。

偏差の2乗の平均が、分散です。

ここから、平方根により2乗を外したもののが、”標準”偏差です。

分散と標準偏差の違い：平均値と同じ次元なのはどっち？

ここまで分散と標準偏差の計算方法についてみてきました。

分散：”各データと平均の差（偏差）の2乗”の平均
標準偏差：分散の平方根（ルート）

ここから違いを説明していきます。

分散は、各データと平均の差（偏差）の2乗です。

そのため、分散は実際のデータとは次元が違います。

例えば、テストの点のデータの分散は必ず、(点)²の次元を持ちます。

これでは、平均やデータと直接比較することができません。

一方で、標準偏差は実際のデータと同じ次元を持ちます。

例えば、テストの点のデータの標準偏差は必ず、点とデータと次元を持ちます。

よって、標準偏差は実際のデータと同じ次元を持つため、バラツキを評価するときは、分散より標準偏差の方が使いやすいです。

これが、標準偏差の方がよく用いられる理由です。

ポイント

分散はその計算式の関係上、実際のデータの2乗の単位を持つ
標準偏差は、実際のデータと同じ単位を持つ
そのため、標準偏差の方が使いやすい

実際に、被験者背景の集計（いわゆるTable1）では、分散ではなく標準偏差が使われます。

まとめ

分散と標準偏差はどちらもデータのバラツキを表すパラメータです。
分散の求め方：”各データと平均の差（偏差）の2乗”の平均
標準偏差の求め方：分散の平方根（ルート）
標準偏差の方が、実際のデータと同じ次元を持つため使いやすい

＞＞正規分布とは？

＞＞標準正規分布表の見方を徹底解説！

＞＞要約統計量とは？何を出力すればいいの？

＞＞95%信頼区間とは何？1.96の意味とは？

＞＞ヒストグラムとは？

＞＞エクセルで標準偏差はどの関数を使えばいい？

相関係数とは？p値や有意差の解釈などを散布図を使ってわかりやすく！

beat1115 — Mon, 07 Apr 2025 00:00:44 +0000

この記事では、相関係数に関して散布図を使ってわかりやすく解説しています。

相関分析でのp値の意味や有意差に関する解釈もお伝えしています。

複数の変数（データ）がある場合の解析手法として、回帰分析を紹介しました。

そして回帰分析と同様、複数の変数がある場合の解析手法として、記事では相関を紹介します。

まずは、相関係数に関する基礎知識について。

そして、相関と回帰分析の違いについて解説。

最後に、相関係数を解釈するときのp値や有意差に関する注意点を解説します。

相関係数とは？散布図を見ながら基礎的な知識をわかりやすく

2つの変数間の相関を知るために用いる指標は、相関係数という値です。

相関係数は、以下のような４つの特徴を持っています。

単位がない
-1から1までの実数である
1に近いときは、2つの確率変数には正の相関があるといい、-1に近ければ負の相関があるという。0に近いときには相関が弱い
直線関係の強さを表している。

相関係数の３つ目の特徴である「1に近いときは、2つの確率変数には正の相関があるといい、-1に近ければ負の相関があるという。0に近いときには相関が弱い」を図で示すと、以下のようになります。

また、相関係数の4つ目の特徴である「直線関係の強さを表している」を図で説明すると、以下のようになります。

相関係数はあくまで「直線関係」を示しています。

そのため、二次関数的な関係があったとしても、相関係数は0に近くなります。

逆に言えば、相関係数が0に近い値であっても直線関係以外の関係を見いだせることがあるため、散布図を作成するなどして目視的に確認する事が重要です。

相関係数の性質：正の相関と負の相関の例

では、身近にある正の相関と負の相関の例を考えてみましょう。

一般的に、身長が高くなると体重が重くなります。

ということは、「身長」と「体重」の間には正の相関があります。

一方で、運動している習慣がある人は、生活習慣病の原因の一つである血圧が低い傾向にあります。

そのため例えば、「1週間の間に運動している時間」と「血圧」の間には負の相関があるということができます。

相関係数のp値や有意差はどんな意味があるか？

相関係数の分析でたまにこのような質問をいただく事があります。

「相関係数に関する検定で有意でなければ「相関が高い」とはいえないのでしょうか？」

あなたはどう思いますか？

なんとなく、正当なことを言っているように思えます。

それに、世間的には「相関係数の検定のp値が小さい方が相関が高い、すなわち関連が強いことを意味している」という誤解された解釈が広く認識されている気もします。

ですが、ちゃんと把握してもらう必要があるのは、次のことです。

「相関係数が大きいことと、相関係数の検定が有意であることは、切り離して考える」

なぜか。

基本に立ち返って考えてみましょう。

相関係数の帰無仮説と対立仮説は？p値が0.05を下回って有意差がある時何が言える？

検定をするからには、帰無仮説と対立仮説があるはずです。

相関係数の検定に関する帰無仮説と対立仮説は何であるか、分かりますか？

答えは、以下の通りです。

相関係数の検定の帰無仮説と対立仮説

帰無仮説：相関係数＝０

対立仮説：相関係数≠０

つまり、相関係数のp値が0.05を下回った時に言えることは、「相関係数が０ではなさそうだ」ということだけです。

そのため、相関係数の検定に有意差があった時、「相関がないわけではない」という程度の意味しかなく、「相関が高い」ということは言えません。

相関係数のp値の意味と解釈は？

相関係数が0.1であっても、p＜0.05の場合があります。

一方で、相関係数が0.8であっても、p＞0.05の場合もあります。

この時、前者が「相関が高い」後者が「相関が低い」と言えるでしょうか？

言えないですよね。

なぜかというと、p値は相関係数の大小だけでなく、データの数に依存するからです。

このp値がデータ数に依存する、という性質はT検定などとも一緒です。

T検定では、２群の差の大きさだけでなく、データの数にも依存してp値が変わります。

そのような背景があるため、相関係数が高いことと相関係数の検定が有意であることは、切り離して考える必要があります。

相関分析と回帰分析はどう違う？

相関係数の特徴はわかりました。

ですが、ここで１つ疑問が。

２つの変数の比例関係を見る点では、相関も回帰分析も変わらないように感じます。

相関と回帰分析はどう違うでしょうか？

あなたは答えられますか？

実は、かなりの違いがあります。

相関は、２つの変数がどれくらい散らばっているかを表している解析になります。

一方で回帰分析は、一方の変数から他方の変数を予測するために最も都合の良い直線を引いています。

つまり、相関ではxとyが、どっちがどっちでもいいのです。

ピアソンの積率相関係数の数式を眺めてみます。

詳しいことは把握しなくても大丈夫です。

わかっていただきたいことはただ一つ。

この数式で、xとyを入れ替えたとしても、相関係数（r）の値は全く変わらないということです。

一方で回帰分析は、一方の変数（x）から他方の変数（y）を予測（説明）するために最も都合の良い直線を引いている、ということでした。

つまり、回帰分析ではどちらがxでどちらがyか、ということがとても重要になってくるのです。

相関係数に関する解釈の注意点

-1〜1の間しか取りうる数字がなく、しかもp値まで算出できるので、何かと便利に感じる相関係数。

しかし、相関係数にも解釈上の注意点があります。

相関係数の解釈注意点1：データ数が十分かどうか

統計全般に言える事ですが、データ数が十分でない場合には、相関係数の信頼性が低くなります。

例えばデータ数が5で、相関係数が0.7といった結果が出たとしても、その信頼性は高くありません。

ではどれぐらいのデータ数だったら十分なのか？という疑問もあるかと思いますが、それは一概には言えませんので、個々の判断になります。

相関係数の解釈注意点2：相関関係は因果関係を示すものではない

注意点の2つ目は、”相関関係は因果関係を示すものではない”という事です。

例えば、先ほどの負の相関の例で挙げた「1週間の間に運動している時間」と「血圧」の間には負の相関がある、ということを考えてみます。

一見すると、運動すれば血圧が下がる、というのは因果関係がありそうに思えます。

しかし逆を考えてみましょう。

血圧が正常である健康な人ほど、運動する余力があるので運動する時間が長い、という関係になっているかもしれませんよね。

そのため、あくまで相関関係は”何かしらの関係がある”ということしか示しておらず、”因果関係を示している”という事ではないので、注意してください。

因果関係を示しているかどうかを考察するには、データの取り方を工夫しなければなりません。

相関係数に関するまとめ

複数の変数を解析する手法の一つが相関。

相関係数は、以下の４つの性質がある。

単位がない
-1から1までの実数である
1に近いときは、2つの確率変数には正の相関があるといい、-1に近ければ負の相関があるという。0に近いときには相関が弱い
直線関係の強さを表している。

相関係数のp値と、相関の大きさは切り離して考える。

動画でも相関係数の解説をしているので、記事を合わせてご確認くださいませ。

平均値と中央値の違いとは？同じ時や差が大きい場合には何を意味する？

beat1115 — Tue, 14 Jan 2025 05:00:56 +0000

「データを解析してください」と言われたら、真っ先にイメージするのは「平均値を計算してみる」ということではないでしょうか？

それぐらい、統計＝平均値、というイメージが皆さんの頭の中に存在しているように思えます。

それはある意味正解で、ある意味不正解です。

平均値は、統計解析をする上で重要な代表値であることは間違いありません。

ですが、平均値だけでは統計を知っている、とは言えませんね。

この記事では、統計でとても重要な平均値に関して簡単にわかりやすく解説します。

この記事を読めば、このようなことがわかるようになります。

平均値の公式は？わかりやすく言葉で解説
平均値と同じぐらい統計では重要な中央値について
平均値と中央値が違った場合にどうする？
平均値と中央値をエクセルで計算する方法

それでは早速いってみましょう！

平均値とは？意味や特徴などどんな場面で有効な指標なの？

「データを要約する」といった場合に、ほとんどの人は「平均値を出力する」ことから始めると思います。

それはそれで間違いないことです。

平均値を出す、ということは、立派な統計解析です。

しかし、一つだけ難点があります。

それは「平均値”だけ”を計算するのでは不十分」ということ。

なぜなら、平均値がその効力を発揮する場面というのは、「データの分布が左右対称」である場合です。

左右対称のデータ分布で、一番有名なのが正規分布です。

例えば、身長のデータは正規分布に従うことが知られています。

正規分布のような左右対称の分布の場合、平均値はデータの真ん中に近くになります。

下記のグラフが正規分布です。

この場合、平均値は山の頂点に近い値になります。

重要なので、もう一度書いておきますね。

平均値が有効な場面

データが正規分布などの左右対称な分布の時

ぜひこの特徴は覚えておいてください！

平均値の公式を簡単にわかりやすく！

ここで統計のサイトっぽく、平均値の公式を載せておきます。

余談ですが、やはり統計に苦手意識を持つ原因の一つが「数式記号」だと思います。

数式記号の意味するところが分からなくなり、調べるだけで一苦労。

統計の勉強をしているのか、数式記号の勉強をしているのか分からなくなって嫌になってしまいます。

実際に私がそんな一人でした。

なので、平均値を数式記号を使わずに、表現しますね。

平均値は一つだけじゃない。それぞれの特徴とは

平均値といえば算術平均をイメージする方が大半だと思います。

この記事でも、平均値＝算術平均として記事を書いています。

しかし、実は平均値にも様々な種類があるのです。

算術平均：上記で記載した平均値です。
幾何平均：全てのデータの値を掛け合わせて、データ数の累乗根を求めた値です。
調和平均：逆数の算術平均の逆数です。

この中で、医薬品開発によく使われる平均値は、算術平均と幾何平均です。

調和平均は見たことがありません。

幾何平均は、分布が右裾を引いている場合に有効です。

右に裾を引いている分布のことを対数正規分布と呼びます。

対数正規分布の特徴は、データを対数変換することで正規分布に近づくということ。

そして、幾何平均とは、対数変換後のデータにおける算術平均と同じ意味です。

平均値が相応しくない場合には中央値を使う！違いとは？

平均値は、統計解析で重要な指標であることを学びました。

では逆に、平均値が代表値として相応しくない場面はどのような場合でしょうか？

それは”平均値がふさわしい場面”の反対なので「データの分布が左右対称でない場合」です。

例えば、臨床検査値（ASTやALTなど）は左右対称の分布ではないことが知られています。

臨床検査値は、少数のデータが非常に大きいデータになることがあり、右裾を引いた分布になっています。

先ほど出てきた対数正規分布ですね。

下記が対数正規分布です。

対数正規分布の場合には、少数の大きなデータに引っ張られて平均値は大きくなります。

そのため、平均値は分布の山より右側に寄ることになります。

このように左右対称の分布ではない場合には、中央値が代表値としてふさわしいです。

平均値と中央値の違いは？それぞれの特徴

具体例を用いて、平均値と中央値の特徴をまとめてみたいと思います。

5人の小学生がいて、あるテストの点数が 30 点、40 点、50 点、60 点、70 点だったとき、平均値はどうなりますか？

この問題。

簡単に解けますよね。

（30＋40＋50＋60＋70）÷5＝50 点、となります。

では、中央値はどうでしょうか。

中央値は真ん中（3 つ目）の値である 50 点となります。

このケースでは平均値と中央値が同じになりました。

では、次の場合はどうでしょう。

5人の小学生がいて、あるテストの点数が 30 点、35点、40点、40 点、90 点だったとき、平均値はどうなりますか？

平均値は（30＋35＋40＋40＋90）÷5＝47 点となり、90 点以外の４人は平均値以下です。

中央値は、真ん中の値ですので 40 点となります。

このように、平均値の場合は他の値と比べて極端に高い（もしくは低い）値があることによって、影響を受けてしまいます。

中央値の場合は、真ん中の値ですので、そのような影響は受けません。

平均値と中央値の差が大きいなら左右対称ではない

詳しい中央値の求め方はこちらの記事で記載しています。

そこからわかることは、当たり前ですが、中央値はどのようなデータであってもその真ん中を示すということ。

そして、上記の例の通り、極端な値に全く影響を受けません。

一方の平均値は、左右対称のデータであればデータの真ん中付近になりますが極端な値があった場合にはその値に引っ張られた値になります。

つまり、以下のようなことを知ることができます。

左右対称の分布の場合、最頻値＝中央値＝平均値となります。
右に裾を引く分布の場合、最頻値＜中央値＜平均値となります。
左に裾を引く分布の場合、最頻値＞中央値＞平均値となります。

この性質を知っていると、平均値と中央値を見ると以下のようなことが分かります。

平均値と中央値からわかること

平均値と中央値が同じような値を示している場合には、そのデータが左右対称の分布になっている。

平均値と中央値が異なる値を示している場合には、そのデータが左右対称の分布になっていない。

かなり重要な性質なので、これも覚えておきましょう！

要約統計量を出力するときには、平均値と中央値をセットで出力する

平均値と中央値にはかなり違いがあることがわかりました。

そのため、実際にデータを要約する際には、中央値と平均値をセットで出力することが有益です。

平均値と中央値が異なる場合どうすればいい？

平均値と中央値が異なる場合、データの分布が左右対称ではないことがわかりました。

では実際には、平均値と中央値が異なる場合にどういった処理をする必要があるのでしょうか？

これは一概には言えませんが、多くの場合、変数変換をすることを検討する可能性があります。

変数変換をすることで、データの分布が左右対称に近づくことがあるからです。

例えば先ほど例に挙げた、臨床検査値のような右裾を引いたデータは「対数正規分布」と呼ばれます。

なぜ対数正規分布と呼ばれるかというと、データを対数（Log）変換すると、正規分布に従うという性質があるからです。

正規分布に従えば、データの扱いがかなり楽になります。

平均値を算出することがOKになりますし、T検定のようなパラメトリックな検定を実施することも可能になります。

中央値の方が扱いやすい気がするけど…

ここまでしっかり解説を読んでいただいている方は、恐らくこのように思うのではないでしょうか。

データ解析をする際には、常に中央値を出せばよいのでは…

私も一時期、そのように思っていました。

確かに、中央値はどのようなデータでも同じように解釈が可能であるため、かなり便利な指標です。

しかしそれでも平均値を出すことが有益であることがあるのです。

それは、統計学的検定の話と絡みます。

要するに、パラメトリックな検定の一つであるT検定では、平均値をベースにして検定を実施していますし、多くの解析で正規分布が前提としているためです。

このような理由から、平均値を要約統計量として出力することは大変意味のあることなのです。

エクセルで平均値と中央値を算出する

平均値と中央値がわかったところで、エクセルではどんな関数を使えばいいのか？という話です。

まずは結論から。

エクセルで平均値を算出する関数は「=average()」です。
エクセルで中央値を算出する関数は「=median()」です。

実際に、先ほどの5人の小学生がいて、あるテストの点数が 30 点、35点、40点、40 点、90 点だったときの平均値と中央値をエクセルで算出してみます。

平均値はこのように「=average(A2:A6)」とすれば47が出てきます。

中央値はこのように「=median(A2:A6)」とすれば40が出てきます。

平均値の特徴を知れば数値の解釈に気をつけなければならない場面がわかる

平均値はかなり有名で、統計を知らなくても平均値だけは知っている方も多いと思います。

しかし、前述の通り平均値は左右対称の分布の場合に有効であり、それ以外では誤用しているということになります。

誤用の例として、平均結婚年齢というものをみてみましょう。

平均という言葉に騙されてはいけない！

平均結婚年齢というものがあります。

文字通り、結婚する年齢の平均値のことですね。

2016年現在での女性の平均結婚年齢は、おおよそ30歳です。

私の周りでは、このような会話を聞くことがあります。

「ちょうど平均結婚年齢になったけど、まだ大丈夫！」

これを聞いたとき、みなさんはどう思いますか？

結婚できる年齢の分布を考えてみる

平均値と中央値を学んだ皆さんの中には、「あれ？」と気づく方もいらっしゃるのではないでしょうか。

そう、結婚年齢の中央値はもっと若いところにあるのです。

女性が結婚出来る下限は16歳です。

ですが上限はなく、40代でも50代でも結婚できます。

するとどうなるでしょうか？

年収の分布と同じように、右側に外れ値が出てくる分布になっていないでしょうか？

つまり、平均結婚年齢は、40代や50代に引っ張られている可能性があるのです！！

平均値と中央値の違いに関するまとめ

要約統計量を出力する際には、平均値と中央値を両方ともに出力することが望ましい。
平均値と中央値を確認することで、そのデータが左右対称の分布であるかが分かる。
平均値と中央値が異なる場合には、変数変換（例えば対数変換など）を検討する必要がある。

そして、平均値の算出がふさわしい正規分布かどうかを視覚的に判断するのにヒストグラムというグラフ化がとても重要ですので、合わせてご確認ください。

また、中央値に対応するグラフに箱ひげ図というものがありますので、そちらも合わせてご確認ください。

統計に関するご質問があれば、メルマガにご登録の上ご質問くださいませ！

＞＞メルマガ登録はこちら（無料プレゼントあります。）

標準誤差とは？標準偏差との違いをわかりやすく！計算式やエラーバーでの使い分けは？

beat1115 — Thu, 08 Aug 2024 09:00:49 +0000

統計学は、バラツキ（誤差）を扱うことに、ユニークな点があります。

データにバラツキがなければ、統計を使う必要なんてありません。

それぐらい、統計ではバラツキが重要。

しかしバラツキといっても、似たような用語の指標として「標準偏差」と「標準誤差」の二種類があります。

標準偏差と標準誤差は何が違うのでしょうか。

標準偏差と標準誤差のどちらをつければいいのでしょうか。

標準偏差と標準誤差は似ているようで実は全く異なる概念です。

この記事では、標準偏差と標準誤差の違いを明確にし、どのような時に標準偏差を使うべきで、どのような時に標準誤差を使うべきかを明らかにしていきます。

標準偏差（SD）と標準誤差（SE）の違いは？エラーバーでの使い分けは？

結論から言えば、標準偏差と標準誤差は下記のような違いがあります。

標準偏差は、データのバラツキを表すパラメーターです。
標準誤差は、推定量のバラツキ（=精度、信頼性）を表します。

標準偏差はSD：Standard deviation、標準誤差はSE：Standard Error

と英語で書かれることもあります。

では、標準偏差と標準誤差にはどのような違いがあるのでしょうか。

例えば実験データから棒グラフを作成するとき、下記のようなエラーバーをつけますよね。

この時、標準偏差にすべき？

それとも標準誤差にすべき？

というのが疑問になると思います。

標準偏差とは？わかりやすく言うとどんなこと？

“標準偏差”は一言で言うならば、データのバラツキを表すパラメーターです。

もうちょっと具体的にすると、データが平均値からどれくらい散らばっているかを示す指標。

そのため、標準偏差には次のような特徴があります。

標準偏差が小さい　→ 平均に近いデータが多い　→データのバラツキが小さい
標準偏差が大きい　→ 平均から離れたデータが多い　→データのバラツキが大きい

詳しくは、正規分布とは？簡単にわかりやすく標準偏差との関係やエクセルでのグラフ化を解説の記事で紹介しています。

標準誤差とは？わかりやすく言うとどんなこと？

標準誤差は“推定量の標準偏差”です。

つまり、標準誤差は推定量のバラツキ（=精度）を表します。

母集団と標本の関係には、

“母集団の性質と、母集団から抽出した標本の性質は一緒ではない”という性質があります。

そのため、標本から母集団の性質を推定する必要があるのです。

そして、標本から母集団の性質を推定した統計量のことを、推定量と言います。

母集団と標本の関係はこちらにも記していますので参照してみてください。

>>>不偏分散とは？簡単にわかりやすくn-1で割る理由とエクセルの関数を解説！

推定量は、あくまで標本からの推定した統計量でしかありません。

そのため、実際の母集団の統計量とは多少の誤差を含みます。

この推定量と母集団の統計量の誤差を、推定量の標準偏差として表すものを標準誤差と言います。

つまり、標準誤差は推定量のバラツキ（=精度）を表しています。

標準誤差が小さいことは、推定量の精度が良いことを意味します。
標準誤差が大きいことは、推定量の精度が悪いことを意味します。

標本平均の誤差範囲としての標準誤差

標準誤差は、推定量の標準偏差を表しますが、一般的に標準誤差は標本平均の誤差範囲を表します。

冒頭で述べた、グラフで使うエラーバーとしての標準誤差も標本平均の誤差範囲を意味します！

標準誤差は次の式で表すことができます。

ここで、サンプルサイズは標本のデータの数を表しています。

このような式になるのは、“母集団の分布にかかわらず、母集団から抽出された標本の数が十分に多い場合、標本平均の分布は正規分布に従う”といった性質が存在するからです。

>>>正規分布とは？簡単にわかりやすく標準偏差との関係やエクセルでのグラフ化を解説

この性質で出現する正規分布での標準偏差は、“標準偏差/√サンプルサイズ”になります。

だから平均の標準偏差は上の式で表します。

標準誤差も、”標本平均の標準偏差”ですので、標準偏差としての性質を持ちます。

これはつまり、

標本平均±標準誤差の範囲中に約68パーセントの確率で母平均が含まれる。
標本平均±2×標準誤差の範囲中に約95パーセントの確率で母平均が含まれる。
標本平均±3×標準誤差の範囲中に約99.7パーセントの確率で母平均が含まれる。

という性質があるということです。

そのため、標準偏差を求めると、母平均が存在する区間の推定ができます。

標準偏差の性質については、

>>>正規分布とは？簡単にわかりやすく標準偏差との関係やエクセルでのグラフ化を解説

で解説しています。

また、95%信頼区間も、標準誤差の上記の性質を使って理解することができます。

標準偏差と標準誤差の使い分けは？

標準偏差はデータの散らばり具合を、標準誤差はサンプル平均の信頼性を示します。

そのため、標準偏差はデータそのものの特性を、標準誤差はサンプルを通して母集団についての情報を得るための指標です。

データのバラツキが知りたいとき：標準偏差
母集団の性質を知りたいときは：　標準誤差

特に、母平均を推定したいときに、標準誤差を用います。

目的が異なりますので、ぜひ上記のことは強烈に意識していただければと思います！

標準偏差を使うとき

標準偏差がわかれば、その範囲にどれくらいの観測データが含まれているかが分かります。

そのため、

データのバラツキを示したいとき
データのバラツキを比べたいとき

標準偏差を使うべきです。

例えば医学論文で言えば、被験者背景データ（Table1）は標準偏差で示すべきです。

そうすることで、どのような特徴を持った集団が、この論文の対象なのかを読者は知ることができるからです。

標準誤差を使うとき

標準誤差は、標本平均の誤差範囲でした。

つまり、標本誤差は、母平均を推定するときに用います。

母平均を推定をしたいとき
母平均比べたいとき

は標準誤差を使うべきです。

医学論文では、プライマリーエンドポイントの結果の記載は標準誤差がいいですね。

標準誤差を拡張して95%信頼区間を示すことでもOKです。

結果はやはり母集団の推定結果が知りたいため、標準誤差が適切です。

標準誤差の利用法：サンプルサイズの決定

アンケートなどを行うとき、

どのサイズのサンプルサイズが必要かを考えるときも

標準誤差を利用します。

ここでは一例として、内閣支持率の世論調査を考えてみたとします。

2019年時点で日本国内に有権者数は約1億人います。（総務省統計による）

何人くらいからアンケートをとると、どれくらいの精度で支持率が確認できるでしょうか。

ここではアンケートの結果、内閣支持率は50%だったと過程します。

（注意：ここでは二項分布を用いています。）

二項分布の標準誤差は

標準誤差=√確率×(1−確率)/サンプル数

で表します。

100人に聞いてみたとき

標準誤差=√0.5×(1−0.5)/100=0.05=5%

つまり、45~55%の間に約68パーセントの確率で有権者全員の支持率母平均が含まれます。

1000人に聞いてみたとき

標準誤差=√0.5×(1−0.5)/1000=0.0158=約1.6%

つまり、48.4~51.6%の間に約68パーセントの確率で有権者全員の支持率母平均が含まれます。

10000人に聞いてみたとき

標準誤差=√0.5×(1−0.5)/1000=0.005=約0.5%

つまり、49.5~50.5%の間に約68パーセントの確率で有権者全員の支持率母平均が含まれます。

このように、標準誤差を使えば、目的の精度に合わせて、サンプルサイズを決定することができます。

サンプルサイズに関して、より詳細に知りたい方はこちらをご覧ください。

＞＞サンプルサイズの決め方は？

Rで標準偏差と標準誤差を算出してみる！標準誤差の求め方も紹介！

実際に、サンプルデータを用いて標準偏差と標準誤差を出力してみます。

Rをダウンロードした際に含まれている「CO2」というデータを使います。標準誤差（Standard Error, SE）は下記の式で表されます。

$$SE = \frac{SD}{\sqrt{n}}$$

SDは標準偏差、nはサンプルサイズです。こちらの式を用いてプログラムを作成します。

#1度だけ実施する。過去にインストールしたことがあれば実行しなくてOK
install.packages("dplyr")


# dplyr パッケージを読み込む
library(dplyr)

# CO2データセットを使って、uptakeの要約統計量を計算
summary_stats <- CO2 %>%
  summarise(
    n = n(),
    mean = mean(uptake, na.rm = TRUE),
    sd = sd(uptake, na.rm = TRUE),
    median = median(uptake, na.rm = TRUE),
    min = min(uptake, na.rm = TRUE),
    max = max(uptake, na.rm = TRUE)
  )

# 計算結果の表示
print(summary_stats)

上記を実施すると、下記のような結果になりました。

n	84
Mean	27.2
SD	10.8
SE	1.18

標準偏差と標準誤差の違いに関してまとめ

標準偏差は、データのバラツキを表すパラメーター
標準誤差は、推定量のバラツキ（=精度）を表す
データのバラツキが知りたいときは、標準偏差を用いる
母集団の性質を知りたいときは、標準誤差を用いる
標準誤差を使えば、目的の精度となるサンプルサイズを決定できる

外れ値とはどんな定義で求め方は？統計的検定で除外するのがいいの？

beat1115 — Mon, 01 Apr 2024 09:21:28 +0000

データを要約する時に、意外と頭を悩まされるのが外れ値です。

外れ値の定義や求め方は、実は難しい。

直感的には見た目で「このデータ、他のデータからすごく離れたところにあるな」と思うようなデータは外れ値になるのだと思います。

ただ、外れ値と外れ値ではない値の明確な違いがないのが現実です。

例えば、平均値から3SDより離れたところにあるデータは外れ値とする、などといった定義を作ることは可能です。

ですが、それも他の第3者から見れば、「なんで外れ値はこんな定義なの？」ってなります。

外れ値を統計的検定で除外する、という方法もありますが、検定だとデータ数が多くなれば必ず外れ値が出てきますし・・・。

ということで、このページでは外れ値に関して深く考えてみます。

外れ値とは？その定義や求め方

外れ値は、各研究領域によって定義が異なってきます。

そのため、この記事では「医薬統計」に限定して話を進めますね。

医薬研究において「外れ値」として扱うべき定義は2つあります。

医学的に取り得ない値
溶血したデータ

これ以外は、基本的に外れ値としては見なされません。

溶血データは「外れ値」というよりは「信頼に足らない値」というイメージかもしれませんが、大きな括りとして外れ値としておきます。

外れ値とはどんなとき？例を挙げて考える

例えば、白血球数がマイナスになっている場合。

数なので、本来であれば絶対０より大きい値をとりますよね。

であれば、白血球数がマイナスというのは医学的に明らかに取り得ない値なので、外れ値として扱い解析から除外するべきです。

また、測定の際に溶血してしまったデータも、それが本当のデータかどうかが分からないデータです。

そのため、外れ値として扱い解析から除外することを検討する必要があります。

つまり臨床試験で外れ値を検討する場合は、これがポイントになりますね。

医薬研究で外れ値を検討する場合、統計的に離れている値かどうか？という視点はほとんど意味がなく、医学的に信頼できるかどうか？といった観点が重要。

外れ値を統計的検定で除外する？スミルノフ・グラブス検定は使えるの？

世の中には、その値が外れ値かどうかを統計学的に検定する方法もあります。

「スミルノフ・グラブス検定」というのがその検定の一つです。

外れ値の定義が難しいのであれば、統計学的検定で判定してもらおう。

その方が客観的じゃないか？

と思うのも、ある意味では納得できます。

しかし、統計学的検定には一つだけ難点があるのです。

検定なので、有意差があるかどうかは、”あること”に左右されるからです。

そう、”データの数”、ですね。

ということは、同じ値であっても、データ数が少ない時には外れ値と見なされないけど、データ数が多い時には外れ値と見なされてしまう、ということです。

これではあまり意味がないですよね。

そのため結論から言うと、医薬研究において外れ値かどうかに対して統計学的な検定を行うのはナンセンスです。

臨床試験では、得られたデータをすべて使うことが基本になり、前述の通り「臨床的に取り得ない値」である場合のみ除外します。

エクセルで外れ値の統計的検定であるスミルノフ・グラブス検定は実施できる？

ちょっとだけ横道に逸れますが、エクセルで「スミルノフ・グラブス検定」をできるかどうか。

調べてみましたが、おそらくデフォルトのままでは難しそうです。

エクセル以外の統計ソフトであれば、スミルノフ・グラブス検定が入っていることが多いです。

R環境が裏で動いている、EZRという統計ソフトでも簡単にスミルノフ・グラブス検定はできるみたいですね。

外れ値ではないけど、不自然なデータがある場合の解析方法

医薬研究において、外れ値とは医学的な観点でありえない値ということでした。

それ以外の値は、どれだけかけ離れた値であろうと外れ値ではなく、解析には用いることが必要です。

ですが、実データを解析していると、そうはいっても・・・というデータが出てきます。

どういうデータかというと、医学的には取り得るけど、もろもろを考えるとすごく不自然なデータ、というものです。

こういった場合には、何かしら対策を取りたいですよね。

ではどういった解析をすればよいのでしょうか？

それは、外れ値を含めた場合と含めたかった場合で、どのような結論の違いが出てくるかを述べる、ということです。

これはICH E9（臨床試験のための統計的原則）にも記載されていて、以下のような記載です。

実際の値を用いた解析のほかに、外れ値の影響を除くか小さくする別の解析を少なくとも一つ行うべきであり、それらの結果の間の差異を議論すべきである。

外れ値と思われるデータを含めた場合と除外した場合の解析の2つの間で差異がない場合には、その解析結果は頑健であると言えます。

つまり、感度解析を実施するということ。

たとえ違いがあったとしても、それが薬剤の影響ではないということを、いろんな視点（生物学的なRationaleなど）から論述することが出来れば、問題ありません。

大切なのは、”なぜそのような値が出てきたのか”を考察することにあります。

外れ値とは？まとめ

外れ値は、統計学的に議論することではなく、医学的な知見が重要になる。
医薬研究において、外れ値を統計学的な検定で判定することは、ナンセンスである。
不自然なデータがあった場合には、その値を含めた場合と含めなかった場合の、2つの解析結果の際を議論する必要がある。

動画でも解説していますので、併せてご覧くださいませ！

回帰分析とは？p値や回帰係数の意味も例題で簡単にわかりやすく！

beat1115 — Thu, 25 Jan 2024 01:48:06 +0000

「回帰分析」という解析手法を知っていますか？

「回帰分析」という名前を聞くと何となく「難しそう」と思ってしまいますが、実は簡単なんです！

回帰分析がどれぐらい簡単かというと、中学校で学んだ「y=ax+b」が分かれば、理解できます！

ということで、この記事では回帰分析について例題を用いながらわかりやすく簡単に解説します！

具体的には

回帰分析とは何をやっているの？
回帰分析で出てくる回帰係数とは？
回帰係数のP値や有意の意味とは？

といったことをお伝えしますね。

回帰分析は２種類以上のデータがあった時にやる解析

２種類以上のデータがあった時。

あなたはどんな解析をしますか？

例えば、体重と身長のデータがあった時。

どんな解析をしたとしても、特に正解や不正解があるわけではありません。

私がやるとしたら、こんな解析をしてみます。

各データで要約統計量を計算してみる
　　　↓
各データでヒストグラムや箱ひげ図を作り、可視化してみる
　　　↓
X軸に身長、Y軸に体重を示した、散布図を書いてみる。
　　　↓
回帰分析や、相関を算出してみる

最初にやっぱりそれぞれのデータがどうなっているか確認しますね。

そして、より複雑な解析に移動していく。

このページでは、私の中で最後に実施する、回帰分析の話をします。

回帰分析とは何をやっているか例を用いてわかりやすく

回帰分析ってよく聞くけど、何をやっているのかわからない。。

あなたもそんな1人かもしれません。

中学校で必ず学ぶこの方程式。

Y=ax+b

懐かしいなーと思う方が多いと思います。

中学校では、こんな問題が出ますよね。

「(2,8),(4,14)の２点を通る直線y=ax+bのaとbを求めよ」

この時に、連立方程式を解いて、a=3, b=2という答えを導き出しました。

回帰分析でやっていることは、これと同じです。

まずは、回帰分析の式を見てみます。

式は、以下の通りです。

Y=ax+b+誤差

中学校で習った方程式と一緒じゃないですか？

唯一違うのが、最後に「誤差」がある点。

回帰分析の最後の誤差は何者？

回帰分析で特徴的な最後の誤差。

これがあることで、一気に難しくなった感じがしますよね。

でも、何のことはないです。

統計の基礎を思い出してください。

データはばらつきます。

このばらつきを、最後の誤差で表現しているにすぎません。

回帰分析の誤差を例を用いて概要を理解してみる

例えば、身長が170センチの男性。

この男性の体重を知りたいとします。

でも、同じ170センチだったとしても、体重は50kgの人がいたり、100kgの人がいたりしますよね。

つまり、以下のような方程式を作った場合。

Y（体重）=ax（身長）+b+誤差

Xに170を入れたとしても、Yが50だったり100だったりします。

つまり、aとbが決まったとしても、170センチの身長の人が全員同じ体重になりませんよね。

統計用語で言えば、バラつきがあるということ。

そのバラつきを、最後の「誤差」で表現しているのです。

全てのデータが一直線上に乗るようなデータであれば誤差は０なので、中学校で習った方程式と一緒になります。

でも、現実世界のデータでそのような一直線になる関係は絶対にありえないのです。

そのため、最後に「誤差」があるのです。

回帰分析では回帰係数のaとbをどうやって決めるか？

全てのデータが完全に直線上に乗るのであれば、aとbはすぐに決まりました。

でも、バラついたデータでは、aとbは簡単には決められないのです。

なぜなら、データに対して様々な直線を引く選択肢が出てくるからです。

この無数の選択肢がありそうな直線の中から、「良い」直線を選ぶ方法が必要になります。

あなたならどういった直線が「良い」直線と思うでしょうか？

統計の世界では、「良い」直線を決めるための方法の１つに最小二乗法という方法を採用しています。

もしかしたら、聞いたことがあるかもしれませんね。

最小二乗法は何をやっているのかというと、以下の３つです。

直線とデータの差を二乗する。
データの数だけ１番目を足し合わせる
２番目が一番小さくなるaとbを選ぶ。

専門用語を使って、この1-3を表現すると以下のようになります。

偏差を二乗する。
偏差平方和を算出する
偏差平方和が一番小さくなるaとbを選ぶ。

最も小さい偏差平方（二乗）和を求めるので、最小二乗法と言います。

回帰分析に関して用語の整理

今後の説明がスムーズになるように、回帰分析で出てくる用語を整理しておきます。

Y=ax+b+誤差

Y：応答変数（目的変数）

x：説明変数

a：係数

b：切片

誤差：誤差項（残差）

これだけ覚えておけば、他の教科書を見てもスムーズに理解できると思います。

特に、目的変数と説明変数は混同している方が多かったりしますので、ぜひ正確に覚えておきましょう。

単回帰分析と重回帰分析の違いは？

ちなみに、説明変数が一つの場合に「単回帰分析」と言います。

説明変数が２つ以上の場合に「重回帰分析」と言います。

Y（体重）＝a*x（身長）+b+誤差

は単回帰分析。

Y（体重）＝a*x1（身長）+c*x2（年齢）+b+誤差

は重回帰分析です。

回帰分析の解析結果の例からp値や有意の意味を理解する

理論的なことはこれだけなのですが、実際の解析結果の例を見ながら、さらに理解していきましょう。

回帰分析ではp値が出てきますが、その意味は？というのも解説します。

例えば、統計検定２級の２０１８年６月の問題から。

このような出力結果があった時の、結果の解釈を理解してみましょう。

回帰分析では回帰式を思い浮かべる

このような出力結果が出てきた時に、真っ先に以下のような回帰式を思い浮かべてください。

回帰式の定義をもう一度復習しておきます。

Y=ax+b+誤差

これに、当てはめただけなので、そんなに難しいことはないはずです。

回帰分析のp値や有意の解釈は？帰無仮説を確認する！

この出力結果にp値が出ていますよね。（Pr > (|t|)の部分）

悩ましいのが、この解釈かなと思います。

p値が出てきた時、当然、何かの統計学的な検定をしているはずです。

検定が出てきたら気にすべきこと。

ありましたよね。

そうです、帰無仮説と対立仮説を確認することです。

回帰分析での帰無仮説と対立仮説もあるんです。

帰無仮説：回帰係数＝０

対立仮説：回帰係数≠０

これが帰無仮説と対立仮説です。

で、p値が0.05を下回ったら有意差がある。

つまり、解釈としてはこうなります。

回帰係数のp値が0.05を下回った場合、有意差がある。

つまり、その回帰係数が０であるという帰無仮説を棄却する。

これがp値が0.05を下回った場合の解釈です。

回帰係数が０である、ってどういうこと？

p値が0.05を下回れば、回帰係数が０ではない、ということが言えました。

重要なのが、その意味です。

意味を解釈するには、まずは回帰係数が０である、ということを理解する必要があります。

回帰係数が０って、どう意味かわかりますか？

回帰係数が０の場合、その変数（Xの値）がどのような値を取ろうとも、Yには全く影響を与えませんよね。

例えば、「体重=０×身長＋５０＋誤差」という式があった時。

変数である「身長」の回帰係数が０です。

この時、身長が１５０センチだろうが、２００センチだろうが、体重は変わりません。

だって、回帰係数が０だから。

体重（Y）に対して、身長（X）が全く影響を与えない。

ここが重要なのです。

長々と書いてしまったので、簡潔にまとめます。

回帰係数が０の場合、その変数（X）は応答変数（Y）に影響の与えない因子である。

逆に、回帰係数が０ではない時には、その変数（X）は応答変数（Y）に影響の与える因子である。

この解釈を、ぜひ理解してください。

回帰分析から、共分散分析へ

回帰分析を学ぶことで、XとYの関係を知ることができます。

また、p値の解釈ができると、その結果の見方がかなり変わります。

ぜひ、なんども読んで理解してみてくださいね。

そして、回帰分析を理解することは、共分散分析を理解することにつながります。

医薬統計をやっていると、共分散分析は絶対に避けては通れないので、ぜひその意味でも回帰分析をちゃんと理解しましょう。

また、ロジスティック回帰やCox比例ハザードモデルなんかも、この回帰分析の知識の上に成り立っています。

回帰分析に関してまとめ

回帰分析とは、中学校で学んだ「Y=ax+b」という式と同じ。

上記の式に誤差を含んだもの。

aとbを求めるために、最小二乗法という方法を用いている。

回帰分析を学ぶことで、共分散分析を理解することができる。