<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>標準偏差 &#8211; いちばんやさしい、医療統計</title>
	<atom:link href="https://best-biostatistics.com/tag/%e6%a8%99%e6%ba%96%e5%81%8f%e5%b7%ae/feed" rel="self" type="application/rss+xml" />
	<link>https://best-biostatistics.com</link>
	<description>数式にとらわれない、イメージとしての統計！</description>
	<lastBuildDate>Fri, 01 Aug 2025 04:17:52 +0000</lastBuildDate>
	<language>ja</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://best-biostatistics.com/wp/wp-content/uploads/2024/04/cropped-Data-Seed-Inc.-logo-I-32x32.png</url>
	<title>標準偏差 &#8211; いちばんやさしい、医療統計</title>
	<link>https://best-biostatistics.com</link>
	<width>32</width>
	<height>32</height>
</image> 
<atom:link rel="hub" href="https://pubsubhubbub.appspot.com"/>
<atom:link rel="hub" href="https://pubsubhubbub.superfeedr.com"/>
<atom:link rel="hub" href="https://websubhub.com/hub"/>
<atom:link rel="self" href="https://best-biostatistics.com/tag/%e6%a8%99%e6%ba%96%e5%81%8f%e5%b7%ae/feed"/>
	<item>
		<title>不偏分散とは？n-1で割る理由や求め方を簡単にわかりやすく解説！</title>
		<link>https://best-biostatistics.com/summary/fuhen-bunsan-n1.html</link>
					<comments>https://best-biostatistics.com/summary/fuhen-bunsan-n1.html#respond</comments>
		
		<dc:creator><![CDATA[beat1115]]></dc:creator>
		<pubDate>Fri, 01 Aug 2025 04:00:42 +0000</pubDate>
				<category><![CDATA[データを解析しよう]]></category>
		<category><![CDATA[Summary]]></category>
		<category><![CDATA[標準偏差]]></category>
		<guid isPermaLink="false">https://best-biostatistics.com/?p=1883</guid>

					<description><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/screenshot-2019-10-11-11.09.59.png" class="webfeedsFeaturedVisual" /></p>統計での分散には、&#8221;nで割る分散&#8221;と&#8221;n-1で割る分散&#8221;の二種類があります。 &#8220;nで割る分散&#8221;は、一般的な分散です。 &#8220;n-1で割る分散 [&#8230;]]]></description>
										<content:encoded><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/screenshot-2019-10-11-11.09.59.png" class="webfeedsFeaturedVisual" /></p>
<p>統計での分散には、&#8221;nで割る分散&#8221;と&#8221;n-1で割る分散&#8221;の二種類があります。</p>



<p>&#8220;nで割る分散&#8221;は、一般的な分散です。</p>



<p>&#8220;n-1で割る分散&#8221;を不偏分散と呼びます。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>この記事では、</p>



<ul class="wp-block-list">
<li><strong>一般的な分散と不偏分散では何が違うのか。</strong></li>



<li><strong>どうして、不偏分散はn-1で割る必要があるのか。</strong></li>



<li><strong>分散と不偏分散の使い分け方</strong></li>
</ul>



<p>ついて説明していきます。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">不偏分散と標本分散の違いは？n-1で割る理由</h2>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="640" height="345" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/987eca87017b5f2fa265f89558d4724a_s-e1577496841202.jpg" alt="" class="wp-image-2530" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/987eca87017b5f2fa265f89558d4724a_s-e1577496841202.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/987eca87017b5f2fa265f89558d4724a_s-e1577496841202-300x162.jpg 300w" sizes="(max-width: 640px) 100vw, 640px" /></figure>
</div>


<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>まずは、標本分散と普遍分散の違いについて。</p>



<ul class="wp-block-list">
<li><strong>標本分散：データのバラツキを表すために用いられる</strong></li>



<li><strong><span style="color: #333333;">不偏分散：標本から母集団の分散を推定するために用いられる</span></strong></li>
</ul>



<p>そして分散には母分散と標本分散があります。</p>



<p>&#8220;標本分散&#8221;と&#8221;不偏分散&#8221;の違いを理解するためには、まず、母集団と標本の性質について知る必要があります。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">不偏分散を理解するのに必要な母集団と標本とは？</h3>



<p>母集団と標本の意味は以下のようです。</p>



<ul class="wp-block-list">
<li>母集団は<strong>&#8220;知りたい対象のすべて&#8221;</strong>を指します。</li>



<li><span style="font-size: 1em; letter-spacing: 0.05em;">標本は<strong>&#8220;知りたい対象の一部&#8221;</strong>を指します。</span></li>
</ul>



<p>母集団と標本の関係性は意味は以下のようです。</p>



<ul class="wp-block-list">
<li><strong>&#8220;知りたい対象のすべて&#8221;を調べるために、<span style="font-size: 1em; letter-spacing: 0.05em;">&#8220;知りたい対象の一部&#8221;を調べることを&#8221;<span style="color: #ff0000;">抽出</span>&#8220;と言います。</span></strong></li>



<li><strong><span style="font-size: 1em; letter-spacing: 0.05em;">&#8220;知りたい対象の一部&#8221;から&#8221;知りたい対象のすべて&#8221;を予測することを&#8221;<span style="color: #ff0000;">推定</span>&#8220;と言います。</span></strong></li>
</ul>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="652" height="362" src="https://best-biostatistics.com/wp/wp-content/uploads/2013/05/スクリーンショット-2019-05-06-22.50.33.png" alt="" class="wp-image-1377" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2013/05/スクリーンショット-2019-05-06-22.50.33.png 652w, https://best-biostatistics.com/wp/wp-content/uploads/2013/05/スクリーンショット-2019-05-06-22.50.33-300x167.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2013/05/スクリーンショット-2019-05-06-22.50.33-375x208.png 375w" sizes="(max-width: 652px) 100vw, 652px" /></figure>
</div>


<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>詳しくは、<a href="https://best-biostatistics.com/biostat/boshuudan.html">母集団と標本の関係とは</a>でも説明しています！</p>



<p>&#8220;標本分散&#8221;と&#8221;不偏分散&#8221;が使われるのは、母集団から抽出した標本の性質に由来します。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">不偏分散がn-1で割る分散</h3>



<p>母集団と標本の関係には</p>



<p><span style="color: #ff0000;"><strong>&#8220;母集団の性質と、母集団から抽出した標本の性質は一緒ではない&#8221;</strong></span>という性質があります。</p>



<p>母集団の、平均、分散、標準偏差と、</p>



<p>標本の、平均、分散、標準偏差は、</p>



<p>一致するとは限りません（偶然一致することはあります）。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>そのため、<strong><span style="color: #ff0000;">統計学では母集団と標本の統計の値は区別して考えられています</span></strong>。</p>



<p><span style="color: #333333;">統計学では母集団と標本の統計の値は区別して考えるため、</span></p>



<p>母集団の分散を<strong><span style="font-size: 20px;">母分散</span></strong>、</p>



<p><span class="marker">標本の分散を<strong><span style="font-size: 20px;">標本分散</span></strong>と呼びます。</span></p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>標本分散は、式ではこのように書きます。</p>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="1243" height="81" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/分散_式.png" alt="" class="wp-image-1819" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/分散_式.png 1243w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/分散_式-300x20.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/分散_式-768x50.png 768w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/分散_式-1024x67.png 1024w" sizes="(max-width: 1243px) 100vw, 1243px" /></figure>
</div>


<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>多くの調査や研究は、<span style="color: #333333;">母集団の性質を明らかにするが目的</span>で行われています。</p>



<p>しかし、<strong><span class="marker">母集団を調査することは、コストや技術的に不可能なことが多いです。</span></strong></p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>そこで、<strong><span style="color: #ff0000;">標本から母集団を推定する</span></strong>必要が生まれます。</p>



<p><span style="color: #333333;"><span class="marker">標本から母集団の分散を推定する</span><span class="marker">ために、<strong><span style="font-size: 20px;">不偏分散</span></strong>が用いられます。</span></span></p>



<p>不偏分散は、式ではこのように書きます。</p>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="1329" height="81" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/不偏分散_式.png" alt="" class="wp-image-1887" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/不偏分散_式.png 1329w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/不偏分散_式-300x18.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/不偏分散_式-768x47.png 768w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/不偏分散_式-1024x62.png 1024w" sizes="(max-width: 1329px) 100vw, 1329px" /></figure>
</div>


<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p><strong><span class="marker">(観測データ-1)と、データ数から1を引くのが標本分散との違いです。</span></strong></p>



<p>これが俗にいうn-1の分散。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>ここまでの話をまとめると、</p>



<ul class="wp-block-list">
<li><strong>母集団の分散を母分散という</strong></li>



<li><strong>標本の分散を標本分散という</strong></li>



<li><strong>標本から母集団の分散を推定した分散を不偏分散という</strong></li>
</ul>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">不偏分散の名前の由来：分散の不偏推定量だから</h3>



<p>不偏分散という名前は、不偏分散分散の不偏推定量であることに由来します。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>標本から母集団の性質を推定するために、<span style="font-size: 20px;">不偏推定量</span>というものが用いられます。</p>



<p><strong><span class="marker">不偏とは、漢字の通り、&#8221;偏りのないもの&#8221;という意味です。</span></strong></p>



<p>統計学には、<strong>&#8220;平均的に過大にも過少にも推定していない&#8221;という意味</strong>です。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p><span style="color: #ff0000;"><strong>&#8220;母集団の性質と、母集団から抽出した標本の性質は一緒ではない&#8221;</strong></span>という性質により、</p>



<p>標本の性質は、母集団と比べたとき、偏りが生じてしまいます。</p>



<p>この偏りを補正することで、母集団の性質を推定したものを不偏推定量といます。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">どうして、不偏分散はn-1で割るのか？</h2>



<p>不偏分散で、n-1で割るのは&#8221;偏り&#8221;を補正するためです。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p><span style="color: #333333;">先ほど、&#8221;母集団の性質と、母集団から抽出した標本の性質は一緒ではない&#8221;と説明しました。</span></p>



<p>これは、標本の性質は、母集団の性質と比べてからみて&#8221;偏り&#8221;といえます。</p>



<p>不偏分散で、n-1で割るのはこのかたよりを補正するためです。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>具体的には、<span style="color: #ff0000;"><strong>標本分散は母分散よりも小さくなる</strong><span style="color: #333333;">という性質に由来します。</span></span></p>



<p>これを防ぐために、n-1で割ります。</p>



<p>1を引くと分母が小さくなるので、分散は少し大きくなります。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">不偏分散から不偏標準偏差へ：注意してほしいこと</h3>



<p>不偏〇〇というのは、母集団の性質の不偏推定量と上で説明しました。</p>



<p>そのため、不偏標準偏差を母集団の標準偏差（母標準偏差）として定義します。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>しかし、多くの文献やネットの情報では、</p>



<p><span style="color: #ff0000;"><strong>&#8220;不偏分散の平方根&#8221;を、不偏標準偏差として定義していますが、</strong></span></p>



<p><span style="color: #ff0000;"><strong>これは誤用なので気をつけてください。</strong></span></p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>正しい不偏標準偏差は、<span style="color: #ff0000;"><strong>&#8220;不偏分散の平方根を補正した値&#8221;</strong><span style="color: #333333;">です。</span></span></p>



<p><span style="color: #ff0000;"><strong>&#8220;不偏分散の平方根&#8221;</strong><span style="color: #333333;">は<strong>&#8220;不偏分散の平方根&#8221;や&#8221;不偏分散平方根&#8221;</strong>として定義されています。</span></span></p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>しかし、Excelなどでは、<span style="color: #ff0000;"><span style="color: #333333;"><strong>&#8220;不偏分散平方根&#8221;</strong>の計算が用いられており、</span></span>名称以外はそこまで意識する必要はありません。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">不偏分散と標本分散はどちらを使うべき？</h2>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="640" height="344" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/04f591349452e915fbed103cd5b59d97_s-e1570759635360.jpg" alt="" class="wp-image-1907" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/04f591349452e915fbed103cd5b59d97_s-e1570759635360.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/04f591349452e915fbed103cd5b59d97_s-e1570759635360-300x161.jpg 300w" sizes="(max-width: 640px) 100vw, 640px" /></figure>
</div>


<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<ul class="wp-block-list">
<li><strong>データの分散が知りたいとき：分散（標本分散　or 母分散）</strong></li>



<li><strong>データから母集団の性質を推定したいとき：不偏分散</strong></li>
</ul>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>母集団の推定が目的のときは、不偏分散を用います。</p>



<p><strong><span class="marker">クラスのテストの結果など、母集団のデータが揃っている場合は、分散を用います。</span></strong></p>



<p>標準偏差のときは</p>



<ul class="wp-block-list">
<li><strong>データの標準偏差が知りたいとき：標準偏差（標本標準偏差　or 母標準偏差）</strong></li>



<li><strong>データから母集団の性質を推定したいとき：不偏標準偏差　or 不偏分散平方根</strong></li>
</ul>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>標準偏差と分散の関係については、こちらの記事をご覧ください！</p>



<p>＞＞<a href="https://best-biostatistics.com/summary/sd-variance.html" target="_blank" rel="noopener noreferrer">標準偏差と分散の関係は？</a></p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">不偏分散を求めるのにエクセルでの関数は？</h2>



<p>最後に、エクセルで分散または、不偏分散または不偏標準偏差を用いる時に使う関数について紹介します。</p>



<p><strong>分散と不偏分散</strong></p>



<figure class="wp-block-table"><table class="has-fixed-layout"><tbody><tr><td>分散（標本分散　or 母分散）</td><td>VAR.P</td></tr><tr><td>不偏分散</td><td>VAR または　VAR.S</td></tr></tbody></table></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p><strong>標準偏差と不偏標準偏差または不偏分散平方根</strong></p>



<figure class="wp-block-table"><table class="has-fixed-layout"><tbody><tr><td>標準偏差（標本標準偏差　or 母標準偏差）</td><td><a href="https://best-biostatistics.com/excel/sd_excel.html" data-type="post" data-id="483">STDEV.P</a></td></tr><tr><td>不偏標準偏差</td><td>該当なし</td></tr><tr><td>不偏分散の平方根</td><td>STDEV または　<a href="https://best-biostatistics.com/excel/sd_excel.html" data-type="post" data-id="483">STDEV.S</a></td></tr></tbody></table></figure>



<div style="height:19px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">まとめ</h2>



<ul class="wp-block-list">
<li><strong>母集団の分散を母分散という</strong></li>



<li><strong>標本の分散を標本分散という</strong></li>



<li><strong>標本から母集団の分散を推定した分散を不偏分散という</strong></li>



<li><strong>不偏分散で、n-1で割るのは&#8221;偏り&#8221;を補正するため</strong></li>
</ul>



<div style="height:19px" aria-hidden="true" class="wp-block-spacer"></div>



<p>＞＞<a href="https://best-biostatistics.com/summary/sum-stat.html" target="_blank" rel="noopener noreferrer">要約統計量とは？何を出力すればいいの？</a></p>



<p>＞＞<a href="https://best-biostatistics.com/summary/95ci.html" target="_blank" rel="noopener noreferrer">95%信頼区間とは何？1.96の意味とは？</a></p>



<p>＞＞<a href="https://best-biostatistics.com/biostat/boshuudan.html" target="_blank" rel="noopener noreferrer">母集団と標本の違いとは？</a></p>



<p>＞＞<a href="https://best-biostatistics.com/summary/sd-variance.html" target="_blank" rel="noopener noreferrer">標準偏差と分散の関係は？</a></p>
]]></content:encoded>
					
					<wfw:commentRss>https://best-biostatistics.com/summary/fuhen-bunsan-n1.html/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>標準偏差と分散の関係や違いとは？データの単位と同じ次元はどっち？</title>
		<link>https://best-biostatistics.com/summary/sd-variance.html</link>
					<comments>https://best-biostatistics.com/summary/sd-variance.html#comments</comments>
		
		<dc:creator><![CDATA[beat1115]]></dc:creator>
		<pubDate>Wed, 30 Jul 2025 21:00:15 +0000</pubDate>
				<category><![CDATA[データを解析しよう]]></category>
		<category><![CDATA[Summary]]></category>
		<category><![CDATA[標準偏差]]></category>
		<guid isPermaLink="false">https://best-biostatistics.com/?p=1840</guid>

					<description><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2021/12/統計のYoutubeアイキャッチ-21-1024x576.jpg" class="webfeedsFeaturedVisual" /></p>データのバラツキを表すパラメーターである&#8221;標準偏差&#8221;。 しかし標準偏差と同様に、統計では&#8221;分散&#8221;というもう一つのデータのバラツキを表すパラメーターが出てきます。 バラツキを [&#8230;]]]></description>
										<content:encoded><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2021/12/統計のYoutubeアイキャッチ-21-1024x576.jpg" class="webfeedsFeaturedVisual" /></p>
<p>データのバラツキを表すパラメーターである&#8221;標準偏差&#8221;。</p>



<p>しかし標準偏差と同様に、統計では&#8221;分散&#8221;というもう一つのデータのバラツキを表すパラメーターが出てきます。</p>



<p>バラツキを表すパラメータとして、分散と標準偏差は何が違うのでしょうか？</p>



<p>この記事では、分散と標準偏差の関係と分散と標準偏差の求め方について説明します。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">分散と標準偏差の関係とは？</h2>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="640" height="323" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/7f418be16ff229275d0670150ea529e0_s-e1577088780405.jpg" alt="" class="wp-image-2528" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/7f418be16ff229275d0670150ea529e0_s-e1577088780405.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/7f418be16ff229275d0670150ea529e0_s-e1577088780405-300x151.jpg 300w" sizes="(max-width: 640px) 100vw, 640px" /></figure>
</div>


<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p><strong><span class="marker">標準偏差と分散はどちらもデータのバラツキを表すパラメーター（指標）です</span></strong>。</p>



<p>標準偏差と分散の関係は、次のような関係があります。</p>



<p class="has-text-align-center"><span style="color: #ff0000;"><strong>(標準偏差)<sup>2</sup>=分散</strong></span></p>



<p>そのため、標準偏差と分散の性質は非常によく似ています。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">標準偏差とは?</h3>



<p>&#8220;標準偏差&#8221;は一言で言うならば、データのバラツキを表すパラメーターです。</p>



<p>そのため、標準偏差には次のような特徴があります。</p>



<ul class="wp-block-list">
<li><strong>標準偏差が小さい　→ 平均に近いデータが多い　→データのバラツキが小さい</strong></li>



<li><strong>標準偏差が大きい　→ 平均から離れたデータが多い　→データのバラツキが大きい</strong></li>
</ul>



<p>詳しくは、<a href="https://best-biostatistics.com/summary/normal_dist.html">正規分布とは？簡単にわかりやすく標準偏差との関係やエクセルでのグラフ化を解説</a>の記事で紹介しています。</p>



<p>次に、分散について説明していきます。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">分散とは?</h3>



<p>分散も、標準偏差と同様にデータのバラツキを表すパラメータです。</p>



<p>そのため、分散にも標準偏差と同様に次のような特徴があります。</p>



<ul class="wp-block-list">
<li><strong>分散が小さい　→ 平均に近いデータが多い　→データのバラツキが小さい</strong></li>



<li><strong>分散が大きい　→ 平均から離れたデータが多い　→データのバラツキが大きい</strong></li>
</ul>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">分散と標準偏差の関係</h3>



<p>分散と標準偏差との関係を再度確認してみましょう。</p>



<p>分散と標準偏差には、次のような関係がありましたね。</p>



<p class="has-text-align-center"><strong>(標準偏差)<sup>2</sup>=分散</strong></p>



<p><strong><span class="marker">標準偏差ですが、分散から求めるしか計算方法がありません</span></strong>。</p>



<p>そのため、<strong><span class="marker">標準偏差を求めるには、先に分散を求める必要があります。</span></strong></p>



<p>次に分散と標準偏差の計算方法を見ていきます。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">分散と標準偏差の求め方</h2>



<p>分散と標準偏差は次のように求めることができます。</p>



<ul class="wp-block-list">
<li><strong>分散：&#8221;各データと平均の差の2乗&#8221;の平均</strong></li>



<li><strong><span style="font-size: 1em; letter-spacing: 0.05em;">標準偏差：分散の平方根（ルート）</span></strong></li>
</ul>



<p>詳しく見ていきましょう。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">分散の求め方</h3>



<p>分散は&#8221;各データと平均の差の2乗&#8221;の平均として求めることができます。</p>



<p>これを数式で表すと、次の式になります</p>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="1243" height="81" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/分散_式-2.png" alt="" class="wp-image-1872" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/分散_式-2.png 1243w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/分散_式-2-300x20.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/分散_式-2-768x50.png 768w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/分散_式-2-1024x67.png 1024w" sizes="(max-width: 1243px) 100vw, 1243px" /></figure>
</div>


<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>具体的な計算方法は下のように行います。</p>



<ol class="wp-block-list">
<li><strong>平均を計算する。</strong></li>



<li><strong>各観測データから平均を引く。</strong></li>



<li><strong>&#8220;各観測データから平均を引いた値&#8221;を2乗する。</strong></li>



<li><strong>&#8220;各観測データから平均を引いた値を2乗した値&#8221;をすべて足し合わせる。</strong></li>



<li><strong>最後に観測データの数で割る。</strong></li>
</ol>



<p>結構手順が多く、計算がめんどくさいですね。</p>



<p>どうして、このような計算方法をとるのでしょうか。</p>



<p>次に、説明していきます。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">分散の考え方</h3>



<p>分散の計算が少しややこしいのは、</p>



<ol class="wp-block-list">
<li><strong>データのバラツキを正確に表すため</strong></li>



<li><strong>実は、数学的に計算を楽にするため</strong></li>
</ol>



<p>という理由があるからです。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>このことを、分散の考え方から説明していきます。</p>



<p>データのバラツキをどう評価したら良いかを考えてみます。</p>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="572" height="679" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/Fig1.png" alt="" class="wp-image-1873" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/Fig1.png 572w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/Fig1-253x300.png 253w" sizes="(max-width: 572px) 100vw, 572px" /></figure>
</div>


<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>このようなデータがあるとします。</p>



<p>このグラフでオレンジは平均で表しています。</p>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="572" height="679" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/Fig2-1.png" alt="" class="wp-image-1880" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/Fig2-1.png 572w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/Fig2-1-253x300.png 253w" sizes="(max-width: 572px) 100vw, 572px" /></figure>
</div>


<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>このとき、バラツキに対応するのは、データと平均の差（→）の部分です。</p>



<p><span class="marker">ちなみにデータと平均の差（→）のことを<strong>偏差</strong>と言います。</span></p>



<p>バラツキの評価するには、データと平均の差（→）を合計すればできます。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>このデータと平均の差（→）をどのように合計したら良いのでしょうか。</p>



<p>一番簡単な方法は、</p>



<ul class="wp-block-list">
<li><span style="color: #ff0000;"><strong>バラツキ（→）を全て足し合わせる</strong></span></li>
</ul>



<p>ことです。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="906" height="679" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/Fig3-2.png" alt="" class="wp-image-1877" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/Fig3-2.png 906w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/Fig3-2-300x225.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/Fig3-2-768x576.png 768w" sizes="(max-width: 906px) 100vw, 906px" /></figure>
</div>


<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>しかし、この方法には問題があります。</p>



<p>それは、<strong><span class="marker">データと平均の差には正の数と負の数の両方があります。</span></strong></p>



<p>そのため、<strong><span class="marker">ただ足し合わせるだけだと、正の数と負の数が互いに打ち消し合ってしまうため、バラツキは本来の値よりも小さくなってします。</span></strong></p>



<p>極端な場合では、正方向の差と負方向の差が等しいとき、バラツキが0になってしまうこともあります。</p>



<p>バラツキがあって、計算しているのに、バラルキが0になってしまうのはおかしいですよね。</p>



<p>次の方法は、</p>



<ul class="wp-block-list">
<li><strong>バラツキ（→）の&#8221;絶対値&#8221;を全て足し合わせる</strong></li>
</ul>



<p>ことです。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="1079" height="679" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/Fig4.png" alt="" class="wp-image-1878" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/Fig4.png 1079w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/Fig4-300x189.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/Fig4-768x483.png 768w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/Fig4-1024x644.png 1024w" sizes="(max-width: 1079px) 100vw, 1079px" /></figure>
</div>


<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>この方法は、さっきのすべてを足し合わせるよりも、データのバラツキを正確に表すことができています。</p>



<p>しかし、絶対値の計算は正の数と負の数を場合分けして考える必要があります。</p>



<p>そのため、<strong><span class="marker">数学的に面倒であるというデメリットがあります</span></strong>。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>そのため、分散ではデータのバラルキの評価に</p>



<ul class="wp-block-list">
<li><strong>バラツキ（→）の2乗を全て足し合わせる</strong></li>
</ul>



<p>という方法が用いられています。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">標準偏差の求め方</h3>



<p>標準偏差の求め方は簡単です。</p>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="337" height="72" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/標準偏差_式-2.png" alt="" class="wp-image-1881" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/標準偏差_式-2.png 337w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/標準偏差_式-2-300x64.png 300w" sizes="(max-width: 337px) 100vw, 337px" /></figure>
</div>


<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>分散の平方根をとるだけです。</p>



<p>平方根をとる理由は、分散を計算するときに、データと平均の差を2乗したので、単位も実際のデータの2乗になっています。</p>



<p>例えば、<strong><span style="text-decoration: underline;">平均値の単位はmなのに、分散の単位はm<sup>2</sup>になっています</span></strong>。</p>



<p>これを元に戻す必要がありますよね。</p>



<p>そのため、分散の平方根を取って単位を平均値に合わせたのが標準偏差です。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">標準偏差の名前</h3>



<p>標準偏差という名前は、データと平均の差を<strong>偏差</strong>ということに由来します。</p>



<p>データと平均の差の2乗は、つまり、偏差の2乗です。</p>



<p>偏差の2乗の平均が、分散です。</p>



<p>ここから、平方根により2乗を外したもののが、&#8221;標準&#8221;偏差です。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">分散と標準偏差の違い：平均値と同じ次元なのはどっち？</h2>



<p>ここまで分散と標準偏差の計算方法についてみてきました。</p>



<ul class="wp-block-list">
<li><strong>分散：&#8221;各データと平均の差（偏差）の2乗&#8221;の平均</strong></li>



<li><strong><span style="font-size: 1em; letter-spacing: 0.05em;">標準偏差：分散の平方根（ルート）</span></strong></li>
</ul>



<p>ここから違いを説明していきます。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>分散は、各データと平均の差（偏差）の2乗です。</p>



<p>そのため、<strong><span class="marker">分散は実際のデータとは次元が違います。</span></strong></p>



<p>例えば、テストの点のデータの分散は必ず、(点)<sup>2</sup>の次元を持ちます。</p>



<p>これでは、平均やデータと直接比較することができません。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>一方で、標準偏差は実際のデータと同じ次元を持ちます。</p>



<p>例えば、テストの点のデータの標準偏差は必ず、点とデータと次元を持ちます。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>よって、<strong><span class="marker">標準偏差は実際のデータと同じ次元を持つため、バラツキを評価するときは、分散より標準偏差の方が使いやすいです。</span></strong></p>



<p>これが、標準偏差の方がよく用いられる理由です。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<div class="swell-block-capbox cap_box"><div class="cap_box_ttl"><span>ポイント</span></div><div class="cap_box_content">
<ul class="wp-block-list">
<li>分散はその計算式の関係上、実際のデータの2乗の単位を持つ</li>



<li>標準偏差は、実際のデータと同じ単位を持つ</li>



<li>そのため、標準偏差の方が使いやすい</li>
</ul>
</div></div>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>実際に、<a href="https://best-biostatistics.com/review/table1_pvalue.html" data-type="post" data-id="5820">被験者背景の集計（いわゆるTable1）</a>では、分散ではなく標準偏差が使われます。</p>



<h2 class="wp-block-heading">まとめ</h2>



<ul class="wp-block-list">
<li>分散と標準偏差はどちらもデータのバラツキを表すパラメータです。</li>



<li>分散の求め方：&#8221;各データと平均の差（偏差）の2乗&#8221;の平均</li>



<li><span style="font-size: 1em; letter-spacing: 0.05em;">標準偏差の求め方：分散の平方根（ルート）</span></li>



<li><span style="font-size: 1em; letter-spacing: 0.05em;">標準偏差の方が、実際のデータと同じ次元を持つため使いやすい</span></li>
</ul>



<p>＞＞<a href="https://best-biostatistics.com/summary/normal_dist.html" target="_blank" rel="noopener noreferrer">正規分布とは？</a></p>



<p>＞＞<a href="https://best-biostatistics.com/summary/standard-norm.html" target="_blank" rel="noopener noreferrer">標準正規分布表の見方を徹底解説！</a></p>



<p>＞＞<a href="https://best-biostatistics.com/summary/sum-stat.html" target="_blank" rel="noopener noreferrer">要約統計量とは？何を出力すればいいの？</a></p>



<p>＞＞<a href="https://best-biostatistics.com/summary/95ci.html" target="_blank" rel="noopener noreferrer">95%信頼区間とは何？1.96の意味とは？</a></p>



<p>＞＞<a href="https://best-biostatistics.com/summary/hist.html" target="_blank" rel="noopener noreferrer">ヒストグラムとは？</a></p>



<p>＞＞<a href="https://best-biostatistics.com/excel/sd_excel.html">エクセルで標準偏差はどの関数を使えばいい？</a></p>
]]></content:encoded>
					
					<wfw:commentRss>https://best-biostatistics.com/summary/sd-variance.html/feed</wfw:commentRss>
			<slash:comments>5</slash:comments>
		
		
			</item>
		<item>
		<title>相関係数とは？p値や有意差の解釈などを散布図を使ってわかりやすく！</title>
		<link>https://best-biostatistics.com/correlation_regression/correlation.html</link>
					<comments>https://best-biostatistics.com/correlation_regression/correlation.html#comments</comments>
		
		<dc:creator><![CDATA[beat1115]]></dc:creator>
		<pubDate>Mon, 07 Apr 2025 00:00:44 +0000</pubDate>
				<category><![CDATA[相関と回帰分析]]></category>
		<category><![CDATA[Summary]]></category>
		<category><![CDATA[平均]]></category>
		<category><![CDATA[標準偏差]]></category>
		<category><![CDATA[統計]]></category>
		<category><![CDATA[要約]]></category>
		<guid isPermaLink="false">http://best-biostatistics.com/wp/2018/08/27/correlation/</guid>

					<description><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2018/08/スクリーンショット-2018-10-12-07.35.56.png" class="webfeedsFeaturedVisual" /></p>複数の変数があったときに、まず思い出すのが相関と回帰分析ですよね。
じゃあ相関と回帰分析の解釈の仕方、どうすればよいでしょうか？
]]></description>
										<content:encoded><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2018/08/スクリーンショット-2018-10-12-07.35.56.png" class="webfeedsFeaturedVisual" /></p>
<p>この記事では、相関係数に関して散布図を使ってわかりやすく解説しています。</p>



<p>相関分析でのp値の意味や有意差に関する解釈もお伝えしています。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p><a href="https://best-biostatistics.com/correlation_regression/regression.html" target="_blank" rel="noopener noreferrer">複数の変数（データ）がある場合の解析手法として、回帰分析を紹介しました</a>。</p>



<p>そして回帰分析と同様、複数の変数がある場合の解析手法として、記事では相関を紹介します。</p>



<p>まずは、相関係数に関する基礎知識について。</p>



<p>そして、相関と回帰分析の違いについて解説。</p>



<p>最後に、相関係数を解釈するときのp値や有意差に関する注意点を解説します。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">相関係数とは？散布図を見ながら基礎的な知識をわかりやすく</h2>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="640" height="350" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/f3ff2b38f21bcd8da977db80ed2a0e7e_s-e1577089044626.jpg" alt="相関係数とは？散布図を見ながら基礎的な知識をわかりやすく" class="wp-image-2531" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/f3ff2b38f21bcd8da977db80ed2a0e7e_s-e1577089044626.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/f3ff2b38f21bcd8da977db80ed2a0e7e_s-e1577089044626-300x164.jpg 300w" sizes="(max-width: 640px) 100vw, 640px" /></figure>
</div>


<p>2つの変数間の相関を知るために用いる指標は、相関係数という値です。</p>



<p>相関係数は、以下のような４つの特徴を持っています。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<ol class="wp-block-list">
<li><strong><span style="font-size: 16px;">単位がない</span></strong></li>



<li><strong><span style="font-size: 16px;">-1から1までの実数である</span></strong></li>



<li><strong><span style="font-size: 16px;">1に近いときは、2つの確率変数には正の相関があるといい、-1に近ければ負の相関があるという。0に近いときには相関が弱い</span></strong></li>



<li><strong><span style="font-size: 16px;">直線関係の強さを表している。</span></strong></li>
</ol>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>相関係数の３つ目の特徴である「<strong><span style="font-size: 16px;">1に近いときは、2つの確率変数には正の相関があるといい、-1に近ければ負の相関があるという。0に近いときには相関が弱い</span></strong>」を図で示すと、以下のようになります。</p>



<figure class="wp-block-image"><img decoding="async" width="935" height="393" src="https://best-biostatistics.com/wp/wp-content/uploads/2018/08/相関.png" alt="相関係数とは？散布図を見ながら基礎的な知識をわかりやすく2" class="wp-image-153" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2018/08/相関.png 935w, https://best-biostatistics.com/wp/wp-content/uploads/2018/08/相関-300x126.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2018/08/相関-768x323.png 768w" sizes="(max-width: 935px) 100vw, 935px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>また、相関係数の4つ目の特徴である「<strong><span style="font-size: 16px;">直線関係の強さを表している</span></strong>」を図で説明すると、以下のようになります。</p>



<figure class="wp-block-image"><img decoding="async" width="619" height="464" src="https://best-biostatistics.com/wp/wp-content/uploads/2018/08/二次.png" alt="相関係数とは？散布図を見ながら基礎的な知識をわかりやすく3" class="wp-image-154" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2018/08/二次.png 619w, https://best-biostatistics.com/wp/wp-content/uploads/2018/08/二次-300x225.png 300w" sizes="(max-width: 619px) 100vw, 619px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>相関係数はあくまで「直線関係」を示しています。</p>



<p>そのため、二次関数的な関係があったとしても、相関係数は0に近くなります。</p>



<p>逆に言えば、<strong><span class="marker">相関係数が0に近い値であっても直線関係以外の関係を見いだせることがあるため、散布図を作成するなどして目視的に確認する事が重要</span></strong>です。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">相関係数の性質：正の相関と負の相関の例</h3>



<p>では、身近にある正の相関と負の相関の例を考えてみましょう。</p>



<p>一般的に、身長が高くなると体重が重くなります。</p>



<p>ということは、<strong><span class="marker">「身長」と「体重」の間には正の相関</span></strong>があります。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>一方で、運動している習慣がある人は、生活習慣病の原因の一つである血圧が低い傾向にあります。</p>



<p>そのため例えば、<strong><span class="marker">「1週間の間に運動している時間」と「血圧」の間には負の相関</span></strong>があるということができます。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">相関係数のp値や有意差はどんな意味があるか？</h2>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="640" height="345" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/987eca87017b5f2fa265f89558d4724a_s-e1577496841202.jpg" alt="相関係数のp値や有意差はどんな意味があるか？" class="wp-image-2530" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/987eca87017b5f2fa265f89558d4724a_s-e1577496841202.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/987eca87017b5f2fa265f89558d4724a_s-e1577496841202-300x162.jpg 300w" sizes="(max-width: 640px) 100vw, 640px" /></figure>
</div>


<p>相関係数の分析でたまにこのような質問をいただく事があります。</p>



<p><strong>「相関係数に関する検定で有意でなければ「相関が高い」とはいえないのでしょうか？」</strong></p>



<p>あなたはどう思いますか？</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>なんとなく、正当なことを言っているように思えます。</p>



<p>それに、世間的には「相関係数の検定のp値が小さい方が相関が高い、すなわち関連が強いことを意味している」という誤解された解釈が広く認識されている気もします。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>ですが、ちゃんと把握してもらう必要があるのは、次のことです。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p><span class="marker" style="font-size: 24px;"><strong>「相関係数が大きいことと、相関係数の検定が有意であることは、切り離して考える」</strong></span></p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>なぜか。</p>



<p>基本に立ち返って考えてみましょう。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">相関係数の帰無仮説と対立仮説は？p値が0.05を下回って有意差がある時何が言える？</h3>



<p>検定をするからには、<a href="https://best-biostatistics.com/hypo_test/hypo.html" target="_blank" rel="noopener noreferrer">帰無仮説と対立仮説</a>があるはずです。</p>



<p>相関係数の検定に関する<a href="https://best-biostatistics.com/hypo_test/hypo.html" target="_blank" rel="noopener noreferrer">帰無仮説と対立仮説</a>は何であるか、分かりますか？</p>



<p>答えは、以下の通りです。</p>



<div class="swell-block-capbox cap_box is-style-onborder_ttl2"><div class="cap_box_ttl"><span>相関係数の検定の帰無仮説と対立仮説</span></div><div class="cap_box_content">
<p><strong>帰無仮説：相関係数＝０</strong></p>



<p><strong>対立仮説：相関係数≠０</strong></p>
</div></div>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>つまり、<span class="marker">相関係数のp値が0.05を下回った時に言えることは、「<strong><span class="ylw">相関係数が０ではなさそうだ</span></strong>」</span>ということだけです。</p>



<p>そのため、<span style="color: #ff0000;"><strong>相関係数の検定に有意差があった時、「相関がないわけではない」という程度の意味しかなく、「相関が高い」ということは言えませ</strong></span>ん。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">相関係数のp値の意味と解釈は？</h3>



<p><strong>相関係数が0.1であっても、p＜0.05の場合があります。</strong></p>



<p><strong>一方で、相関係数が0.8であっても、p＞0.05の場合もあります。</strong></p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>この時、前者が「相関が高い」後者が「相関が低い」と言えるでしょうか？</p>



<p>言えないですよね。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>なぜかというと、<span style="color: #ff0000;"><strong>p値は相関係数の大小だけでなく、データの数に依存するから</strong></span>です。</p>



<p>このp値がデータ数に依存する、という性質はT検定などとも一緒です。</p>



<p>T検定では、２群の差の大きさだけでなく、データの数にも依存してp値が変わります。</p>



<p>そのような背景があるため、<strong><span class="marker">相関係数が高いことと相関係数の検定が有意であることは、切り離して考える必要があります</span></strong>。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">相関分析と回帰分析はどう違う？</h2>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="640" height="427" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/11/a1da5ef0ce44877f9b66d512f4762577_s.jpg" alt="相関分析と回帰はどう違う？" class="wp-image-2487" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/11/a1da5ef0ce44877f9b66d512f4762577_s.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/11/a1da5ef0ce44877f9b66d512f4762577_s-300x200.jpg 300w" sizes="(max-width: 640px) 100vw, 640px" /></figure>
</div>


<p>相関係数の特徴はわかりました。</p>



<p>ですが、ここで１つ疑問が。</p>



<p><span class="ylw"><span class="marker">２つの変数の比例関係を見る点では、相関も回帰分析も変わらないように感じます</span></span>。</p>



<p>相関と<a href="https://best-biostatistics.com/correlation_regression/regression.html" target="_blank" rel="noopener noreferrer">回帰分析</a>はどう違うでしょうか？</p>



<p>あなたは答えられますか？</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>実は、かなりの違いがあります。</p>



<p><strong><span class="ylw">相関は、２つの変数がどれくらい散らばっているか</span>を表している解析</strong>になります。</p>



<p>一方で<strong><span class="ylw"><span class="marker">回帰分析は、一方の変数から他方の変数を予測するために最も都合の良い直線</span>を引いています</span></strong>。</p>



<p>つまり、<span style="color: #ff0000;"><strong>相関ではxとyが、どっちがどっちでもいい</strong></span>のです。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>ピアソンの積率相関係数の数式を眺めてみます。</p>



<figure class="wp-block-image"><img decoding="async" width="827" height="243" src="https://best-biostatistics.com/wp/wp-content/uploads/2018/08/式.png" alt="ピアソンの相関係数" class="wp-image-155" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2018/08/式.png 827w, https://best-biostatistics.com/wp/wp-content/uploads/2018/08/式-300x88.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2018/08/式-768x226.png 768w" sizes="(max-width: 827px) 100vw, 827px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>詳しいことは把握しなくても大丈夫です。</p>



<p>わかっていただきたいことはただ一つ。</p>



<p>この数式で、<span style="color: #ff0000; font-size: 20px;"><strong><span class="ylw">xとyを入れ替えたとしても、相関係数（r）の値は全く変わらない</span></strong></span>ということです。</p>



<p>一方で回帰分析は、一方の変数（x）から他方の変数（y）を予測（説明）するために最も都合の良い直線を引いている、ということでした。</p>



<p>つまり、<span style="color: #ff0000;"><strong><span style="font-size: 20px;">回帰分析では</span></strong><span style="font-size: 20px;"><strong><span class="ylw"><strong><span style="font-size: 20px;">ど</span></strong>ちらがxでどちらがyか、ということがとても重要</span>になってくる</strong></span></span>のです。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">相関係数に関する解釈の注意点</h2>



<p>-1〜1の間しか取りうる数字がなく、しかもp値まで算出できるので、何かと便利に感じる相関係数。</p>



<p>しかし、相関係数にも解釈上の注意点があります。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">相関係数の解釈注意点1：データ数が十分かどうか</h3>



<p>統計全般に言える事ですが、データ数が十分でない場合には、相関係数の信頼性が低くなります。</p>



<p>例えばデータ数が5で、相関係数が0.7といった結果が出たとしても、その信頼性は高くありません。</p>



<p>ではどれぐらいのデータ数だったら十分なのか？という疑問もあるかと思いますが、それは一概には言えませんので、個々の判断になります。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">相関係数の解釈注意点2：相関関係は因果関係を示すものではない</h3>



<p>注意点の2つ目は、<span style="color: #ff0000;"><strong>”相関関係は因果関係を示すものではない”</strong></span>という事です。</p>



<p>例えば、先ほどの負の相関の例で挙げた<strong><span class="marker">「1週間の間に運動している時間」と「血圧」の間には負の相関</span></strong>がある、ということを考えてみます。</p>



<p>一見すると、運動すれば血圧が下がる、というのは因果関係がありそうに思えます。</p>



<p>しかし逆を考えてみましょう。</p>



<p><span class="marker">血圧が正常である健康な人ほど、運動する余力があるので運動する時間が長い、という関係になっているかもしれません</span>よね。</p>



<p>そのため、あくまで相関関係は”何かしらの関係がある”ということしか示しておらず、”因果関係を示している”という事ではないので、注意してください。</p>



<p>因果関係を示しているかどうかを考察するには、データの取り方を工夫しなければなりません。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">相関係数に関するまとめ</h2>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="640" height="344" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/11/53e0d72ad9bae4b1e39c3b1c6bf377dd_s-e1573554634921.jpg" alt="相関係数に関するまとめ" class="wp-image-2320" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/11/53e0d72ad9bae4b1e39c3b1c6bf377dd_s-e1573554634921.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/11/53e0d72ad9bae4b1e39c3b1c6bf377dd_s-e1573554634921-300x161.jpg 300w" sizes="(max-width: 640px) 100vw, 640px" /></figure>
</div>


<p>複数の変数を解析する手法の一つが相関。</p>



<p>相関係数は、以下の４つの性質がある。</p>



<div class="nmlbox">
<ol>
<li>単位がない</li>
<li>-1から1までの実数である</li>
<li>1に近いときは、2つの確率変数には正の相関があるといい、-1に近ければ負の相関があるという。0に近いときには相関が弱い</li>
<li>直線関係の強さを表している。</li>
</ol>
</div>



<p>相関係数のp値と、相関の大きさは切り離して考える。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>動画でも相関係数の解説をしているので、記事を合わせてご確認くださいませ。</p>



<p class="has-text-align-center"><iframe width="560" height="315" src="https://www.youtube.com/embed/3yE-pYuO9I8" frameborder="0" allowfullscreen="allowfullscreen" data-mce-fragment="1"></iframe></p>
]]></content:encoded>
					
					<wfw:commentRss>https://best-biostatistics.com/correlation_regression/correlation.html/feed</wfw:commentRss>
			<slash:comments>8</slash:comments>
		
		
			</item>
		<item>
		<title>平均値と中央値の違いとは？同じ時や差が大きい場合には何を意味する？</title>
		<link>https://best-biostatistics.com/summary/diff-mean-median.html</link>
					<comments>https://best-biostatistics.com/summary/diff-mean-median.html#comments</comments>
		
		<dc:creator><![CDATA[beat1115]]></dc:creator>
		<pubDate>Tue, 14 Jan 2025 05:00:56 +0000</pubDate>
				<category><![CDATA[データを解析しよう]]></category>
		<category><![CDATA[Summary]]></category>
		<category><![CDATA[平均]]></category>
		<category><![CDATA[標準偏差]]></category>
		<category><![CDATA[統計]]></category>
		<category><![CDATA[要約]]></category>
		<guid isPermaLink="false">http://best-biostatistics.com/wp/2016/02/07/diff-mean-median/</guid>

					<description><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2016/02/screenshot-2019-06-09-13.25.07.png" class="webfeedsFeaturedVisual" /></p>統計学の重要な役割の一つに、データを要約するということがあります。統計と言えば平均値を出すだけ？いえいえ、それだけでは大切なことを見落としますよ。
]]></description>
										<content:encoded><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2016/02/screenshot-2019-06-09-13.25.07.png" class="webfeedsFeaturedVisual" /></p>
<p><strong>「データを解析してください」と言われたら、真っ先にイメージするのは「平均値を計算してみる」</strong>ということではないでしょうか？</p>



<p>それぐらい、<span style="color: #ff0000;"><strong>統計＝平均値</strong></span>、というイメージが皆さんの頭の中に存在しているように思えます。</p>



<p>それはある意味正解で、ある意味不正解です。</p>



<p>平均値は、統計解析をする上で重要な代表値であることは間違いありません。</p>



<p>ですが、平均値だけでは統計を知っている、とは言えませんね。</p>







<p>この記事では、統計でとても重要な平均値に関して簡単にわかりやすく解説します。</p>



<p>この記事を読めば、このようなことがわかるようになります。</p>







<ul class="wp-block-list">
<li><strong>平均値の公式は？わかりやすく言葉で解説</strong></li>



<li><strong>平均値と同じぐらい統計では重要な中央値について</strong></li>



<li><strong>平均値と中央値が違った場合にどうする？</strong></li>



<li><strong>平均値と中央値をエクセルで計算する方法</strong></li>
</ul>







<p>それでは早速いってみましょう！</p>







<h2 class="wp-block-heading">平均値とは？意味や特徴などどんな場面で有効な指標なの？</h2>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="640" height="323" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/7f418be16ff229275d0670150ea529e0_s-e1577088780405.jpg" alt="平均値とは？意味や特徴などどんな場面で有効な指標なの？" class="wp-image-2528" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/7f418be16ff229275d0670150ea529e0_s-e1577088780405.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/7f418be16ff229275d0670150ea529e0_s-e1577088780405-300x151.jpg 300w" sizes="(max-width: 640px) 100vw, 640px" /></figure>
</div>






<p>「データを要約する」といった場合に、ほとんどの人は「平均値を出力する」ことから始めると思います。</p>



<p>それはそれで間違いないことです。</p>



<p>平均値を出す、ということは、立派な統計解析です。</p>







<p>しかし、一つだけ難点があります。</p>



<p>それは<strong>「平均値<span style="color: #ff0000;">”だけ”</span>を計算するのでは不十分」</strong>ということ。</p>



<p>なぜなら、<strong><span style="color: #ff0000;">平均値がその効力を発揮する場面というのは、</span><span style="color: #ff0a0a;"><strong><span style="color: #ff0000;">「</span></strong>データの分布が左右対称」である場合</span></strong>です。</p>



<p>左右対称のデータ分布で、一番有名なのが<span style="color: #ff0000;"><strong>正規分布</strong></span>です。</p>



<p>例えば、身長のデータは正規分布に従うことが知られています。</p>



<p><strong><span class="marker">正規分布のような左右対称の分布の場合、平均値はデータの真ん中に近く</span></strong>になります。</p>







<p>下記のグラフが<a href="https://best-biostatistics.com/summary/normal_dist.html">正規分布</a>です。</p>



<p>この場合、<span style="color: #ff0000;"><strong>平均値は山の頂点に近い値</strong></span>になります。</p>







<figure class="wp-block-image"><img decoding="async" width="567" height="285" src="https://best-biostatistics.com/wp/wp-content/uploads/2018/09/screenshot-2019-05-27-17.00.56.png" alt="平均値とは？意味や特徴などどんな場面で有効な指標なの？" class="wp-image-1439" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2018/09/screenshot-2019-05-27-17.00.56.png 567w, https://best-biostatistics.com/wp/wp-content/uploads/2018/09/screenshot-2019-05-27-17.00.56-300x151.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2018/09/screenshot-2019-05-27-17.00.56-375x188.png 375w" sizes="(max-width: 567px) 100vw, 567px" /></figure>











<p>重要なので、もう一度書いておきますね。</p>


<div class="swell-block-capbox cap_box is-style-small_ttl" data-colset="col1">
				<div class="cap_box_ttl"><span>平均値が有効な場面</span></div>
				<div class="cap_box_content"> <span style="font-size: 20px;"><strong>データが正規分布などの左右対称な分布の時</strong></span></div>
			</div>



<p>ぜひこの特徴は覚えておいてください！</p>







<h3 class="wp-block-heading">平均値の公式を簡単にわかりやすく！</h3>



<p>ここで統計のサイトっぽく、平均値の公式を載せておきます。</p>



<figure class="wp-block-image"><img decoding="async" width="168" height="70" src="https://best-biostatistics.com/wp/wp-content/uploads/2016/02/average.png" alt="" class="wp-image-1498"/></figure>







<p>余談ですが、やはり統計に苦手意識を持つ原因の一つが「数式記号」だと思います。</p>



<p>数式記号の意味するところが分からなくなり、調べるだけで一苦労。</p>



<p>統計の勉強をしているのか、数式記号の勉強をしているのか分からなくなって嫌になってしまいます。</p>



<p>実際に私がそんな一人でした。</p>



<p>なので、平均値を数式記号を使わずに、表現しますね。</p>







<figure class="wp-block-image"><img decoding="async" width="420" height="81" src="https://best-biostatistics.com/wp/wp-content/uploads/2016/02/average2.png" alt="" class="wp-image-1499" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2016/02/average2.png 420w, https://best-biostatistics.com/wp/wp-content/uploads/2016/02/average2-300x58.png 300w" sizes="(max-width: 420px) 100vw, 420px" /></figure>











<h3 class="wp-block-heading">平均値は一つだけじゃない。それぞれの特徴とは</h3>



<p>平均値といえば<strong>算術平均をイメージする方が大半</strong>だと思います。</p>



<p>この記事でも、平均値＝算術平均として記事を書いています。</p>



<p>しかし、実は平均値にも様々な種類があるのです。</p>







<ul class="wp-block-list">
<li><strong>算術平均：上記で記載した平均値です。</strong></li>



<li><strong>幾何平均：全てのデータの値を掛け合わせて、データ数の累乗根を求めた値です。</strong></li>



<li><strong>調和平均：逆数の算術平均の逆数です。</strong></li>
</ul>







<p>この中で、医薬品開発によく使われる平均値は、<strong><span style="color: #ff0a0a;">算術平均と幾何平均</span></strong>です。</p>



<p>調和平均は見たことがありません。</p>



<p><strong>幾何平均は、分布が右裾を引いている場合に有効</strong>です。</p>



<p><strong><span class="marker">右に裾を引いている分布のことを<a href="https://best-biostatistics.com/summary/log-transformed.html">対数正規分布</a></span></strong>と呼びます。</p>



<p><strong>対数正規分布の特徴は、データを対数変換することで正規分布に近づくということ</strong>。</p>



<p>そして、<strong><span style="color: #ff0a0a;">幾何平均とは、対数変換後のデータにおける算術平均と同じ</span></strong>意味です。</p>







<h2 class="wp-block-heading">平均値が相応しくない場合には中央値を使う！違いとは？</h2>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="640" height="360" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/636e5fe909b22214677bab9f4adf2cd1_s-e1572243991138.jpg" alt="平均値が相応しくない場合には中央値を使う！違いとは？" class="wp-image-2132" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/636e5fe909b22214677bab9f4adf2cd1_s-e1572243991138.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/636e5fe909b22214677bab9f4adf2cd1_s-e1572243991138-300x169.jpg 300w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/636e5fe909b22214677bab9f4adf2cd1_s-e1572243991138-320x180.jpg 320w" sizes="(max-width: 640px) 100vw, 640px" /></figure>
</div>






<p>平均値は、統計解析で重要な指標であることを学びました。</p>



<p>では逆に、平均値が代表値として相応しくない場面はどのような場合でしょうか？</p>



<p>それは”平均値がふさわしい場面”の反対なので<strong><span style="color: #ff0a0a;">「データの分布が左右対称でない場合」</span></strong>です。</p>



<p>例えば、臨床検査値（ASTやALTなど）は左右対称の分布ではないことが知られています。</p>



<p>臨床検査値は、少数のデータが非常に大きいデータになることがあり、右裾を引いた分布になっています。</p>



<p>先ほど出てきた対数正規分布ですね。</p>



<p>下記が対数正規分布です。</p>







<figure class="wp-block-image"><img decoding="async" width="555" height="267" src="https://best-biostatistics.com/wp/wp-content/uploads/2016/02/log-normal-fig1.png" alt="" class="wp-image-1500" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2016/02/log-normal-fig1.png 555w, https://best-biostatistics.com/wp/wp-content/uploads/2016/02/log-normal-fig1-300x144.png 300w" sizes="(max-width: 555px) 100vw, 555px" /></figure>











<p>対数正規分布の場合には、少数の大きなデータに引っ張られて平均値は大きくなります。</p>



<p>そのため、平均値は分布の山より右側に寄ることになります。</p>



<p>このように<a href="https://best-biostatistics.com/summary/median.html" target="_blank" rel="noopener noreferrer">左右対称の分布ではない場合には、中央値が代表値としてふさわしい</a>です。</p>







<h3 class="wp-block-heading">平均値と中央値の違いは？それぞれの特徴</h3>



<p>具体例を用いて、平均値と中央値の特徴をまとめてみたいと思います。</p>



<blockquote class="wp-block-quote is-layout-flow wp-block-quote-is-layout-flow">
<p><strong><span style="font-size: 16px;">5人の小学生がいて、あるテストの点数が 30 点、40 点、50 点、60 点、70 点だったとき、平均値はどうなりますか？</span></strong></p>
</blockquote>



<p>この問題。</p>



<p>簡単に解けますよね。</p>



<p><strong><span class="marker">（30＋40＋50＋60＋70）÷5＝50 点</span></strong>、となります。</p>







<p>では、中央値はどうでしょうか。</p>



<p><strong><span class="marker">中央値は真ん中（3 つ目）の値である 50 点</span></strong>となります。</p>







<p><span style="color: #ff0000;"><strong>このケースでは平均値と中央値が同じ</strong></span>になりました。</p>







<p>では、次の場合はどうでしょう。</p>



<blockquote class="wp-block-quote is-layout-flow wp-block-quote-is-layout-flow">
<p><strong><span style="font-size: 16px;">5人の小学生がいて、あるテストの点数が 30 点、35点、40点、40 点、90 点だったとき、平均値はどうなりますか？</span></strong></p>
</blockquote>



<p>平均値は<strong><span class="marker">（30＋35＋40＋40＋90）÷5＝47 点</span></strong>となり、<span style="color: #ff0000;"><strong>90 点以外の４人は平均値以下</strong></span>です。</p>



<p><strong><span class="marker">中央値は、真ん中の値ですので 40 点</span></strong>となります。</p>







<p>このように、<strong><span style="color: #ff0a0a;">平均値の場合は他の値と比べて極端に高い（もしくは低い）値があることによって、影響を受けてしまいます</span></strong>。</p>



<p><span style="color: #ff0000;"><strong>中央値の場合は、真ん中の値ですので、そのような影響は受けません</strong></span>。</p>







<h3 class="wp-block-heading">平均値と中央値の差が大きいなら左右対称ではない</h3>



<p><a href="https://best-biostatistics.com/summary/median.html" target="_blank" rel="noopener noreferrer">詳しい中央値の求め方はこちらの記事で記載しています</a>。</p>



<p>そこからわかることは、当たり前ですが、中央値はどのようなデータであってもその真ん中を示すということ。</p>



<p>そして、上記の例の通り、極端な値に全く影響を受けません。</p>







<p>一方の平均値は、左右対称のデータであればデータの真ん中付近になりますが極端な値があった場合にはその値に引っ張られた値になります。</p>







<p>つまり、以下のようなことを知ることができます。</p>



<ul class="wp-block-list">
<li><strong>左右対称の分布の場合、最頻値＝中央値＝平均値となります。</strong></li>



<li><strong>右に裾を引く分布の場合、最頻値＜中央値＜平均値となります。</strong></li>



<li><strong>左に裾を引く分布の場合、最頻値＞中央値＞平均値となります。</strong></li>
</ul>



<p>この性質を知っていると、平均値と中央値を見ると以下のようなことが分かります。</p>






<div class="swell-block-capbox cap_box is-style-small_ttl" data-colset="col1">
				<div class="cap_box_ttl"><span>平均値と中央値からわかること</span></div>
				<div class="cap_box_content"> </p>
<p><span style="font-size: 20px;"><strong>平均値と中央値が同じような値を示している場合には、そのデータが左右対称の分布になっている。</strong></span></p>
<p><span style="font-size: 20px;"><strong>平均値と中央値が異なる値を示している場合には、そのデータが左右対称の分布になっていない。</strong></span></p>
<p></div>
			</div>







<p>かなり重要な性質なので、これも覚えておきましょう！</p>







<h3 class="wp-block-heading">要約統計量を出力するときには、平均値と中央値をセットで出力する</h3>



<p>平均値と中央値にはかなり違いがあることがわかりました。</p>



<p>そのため、実際にデータを要約する際には、<strong><span class="marker">中央値と平均値をセットで出力することが有益</span></strong>です。</p>







<h2 class="wp-block-heading">平均値と中央値が異なる場合どうすればいい？</h2>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="640" height="350" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/f3ff2b38f21bcd8da977db80ed2a0e7e_s-e1577089044626.jpg" alt="平均値と中央値が違う場合には、どうすればいい？" class="wp-image-2531" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/f3ff2b38f21bcd8da977db80ed2a0e7e_s-e1577089044626.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/f3ff2b38f21bcd8da977db80ed2a0e7e_s-e1577089044626-300x164.jpg 300w" sizes="(max-width: 640px) 100vw, 640px" /></figure>
</div>






<p>平均値と中央値が異なる場合、データの分布が左右対称ではないことがわかりました。</p>



<p>では実際には、平均値と中央値が異なる場合にどういった処理をする必要があるのでしょうか？</p>



<p>これは一概には言えませんが、多くの場合、<strong><span style="color: #ff0a0a;">変数変換</span></strong>をすることを検討する可能性があります。</p>



<p>変数変換をすることで、データの分布が左右対称に近づくことがあるからです。</p>



<p>例えば先ほど例に挙げた、臨床検査値のような右裾を引いたデータは「<a href="https://best-biostatistics.com/summary/log-transformed.html">対数正規分布</a>」と呼ばれます。</p>



<p>なぜ対数正規分布と呼ばれるかというと、データを対数（Log）変換すると、正規分布に従うという性質があるからです。</p>



<p>正規分布に従えば、データの扱いがかなり楽になります。</p>



<p>平均値を算出することがOKになりますし、<a href="https://best-biostatistics.com/stat-test/t-test.html" target="_blank" rel="noopener noreferrer">T検定のようなパラメトリックな検定を実施することも可能</a>になります。</p>







<h3 class="wp-block-heading">中央値の方が扱いやすい気がするけど…</h3>



<p>ここまでしっかり解説を読んでいただいている方は、恐らくこのように思うのではないでしょうか。</p>



<blockquote class="wp-block-quote is-layout-flow wp-block-quote-is-layout-flow">
<p><span style="font-size: 16px;"><strong>データ解析をする際には、常に中央値を出せばよいのでは…</strong></span></p>
</blockquote>



<p>私も一時期、そのように思っていました。</p>



<p>確かに、中央値はどのようなデータでも同じように解釈が可能であるため、かなり便利な指標です。</p>



<p>しかしそれでも平均値を出すことが有益であることがあるのです。</p>



<p>それは、統計学的検定の話と絡みます。</p>



<p>要するに、<strong><span style="color: #ff0a0a;"><a href="https://best-biostatistics.com/hypo_test/para.html">パラメトリックな検定</a>の一つであるT検定では、平均値をベースにして検定を実施していますし、多くの解析で正規分布が前提としているため</span></strong>です。</p>



<p>このような理由から、平均値を要約統計量として出力することは大変意味のあることなのです。</p>







<h2 class="wp-block-heading">エクセルで平均値と中央値を算出する</h2>



<p>平均値と中央値がわかったところで、エクセルではどんな関数を使えばいいのか？という話です。</p>



<p>まずは結論から。</p>







<ul class="wp-block-list">
<li><span style="font-size: 20px;"><strong>エクセルで平均値を算出する関数は「=average()」です。</strong></span></li>



<li><span style="font-size: 20px;"><strong>エクセルで中央値を算出する関数は「=median()」です。</strong></span></li>
</ul>







<p>実際に、先ほどの<strong><span style="font-size: 16px;">5人の小学生がいて、あるテストの点数が 30 点、35点、40点、40 点、90 点だったとき</span></strong><span style="font-size: 16px;">の平均値と中央値をエクセルで算出してみます。</span></p>







<p>平均値はこのように「=average(A2:A6)」とすれば47が出てきます。</p>



<figure class="wp-block-image"><img decoding="async" width="333" height="207" src="https://best-biostatistics.com/wp/wp-content/uploads/2016/02/screenshot-2019-06-09-13.15.02.png" alt="" class="wp-image-1501" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2016/02/screenshot-2019-06-09-13.15.02.png 333w, https://best-biostatistics.com/wp/wp-content/uploads/2016/02/screenshot-2019-06-09-13.15.02-300x186.png 300w" sizes="(max-width: 333px) 100vw, 333px" /></figure>











<p>中央値はこのように「=median(A2:A6)」とすれば40が出てきます。</p>



<figure class="wp-block-image"><img decoding="async" width="396" height="214" src="https://best-biostatistics.com/wp/wp-content/uploads/2016/02/screenshot-2019-06-09-13.15.14.png" alt="" class="wp-image-1502" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2016/02/screenshot-2019-06-09-13.15.14.png 396w, https://best-biostatistics.com/wp/wp-content/uploads/2016/02/screenshot-2019-06-09-13.15.14-300x162.png 300w" sizes="(max-width: 396px) 100vw, 396px" /></figure>











<h2 class="wp-block-heading">平均値の特徴を知れば数値の解釈に気をつけなければならない場面がわかる</h2>



<p>平均値はかなり有名で、統計を知らなくても平均値だけは知っている方も多いと思います。</p>



<p>しかし、前述の通り平均値は左右対称の分布の場合に有効であり、それ以外では誤用しているということになります。</p>



<p>誤用の例として、平均結婚年齢というものをみてみましょう。</p>







<h3 class="wp-block-heading">平均という言葉に騙されてはいけない！</h3>



<p>平均結婚年齢というものがあります。</p>



<p>文字通り、結婚する年齢の平均値のことですね。</p>



<p>2016年現在での女性の平均結婚年齢は、おおよそ30歳です。</p>



<p>私の周りでは、このような会話を聞くことがあります。</p>



<p>「ちょうど平均結婚年齢になったけど、まだ大丈夫！」</p>



<p>これを聞いたとき、みなさんはどう思いますか？</p>







<h3 class="wp-block-heading">結婚できる年齢の分布を考えてみる</h3>



<p>平均値と中央値を学んだ皆さんの中には、「あれ？」と気づく方もいらっしゃるのではないでしょうか。</p>



<p>そう、<span style="color: #ff0a0a;">結婚年齢の中央値はもっと若いところにある</span>のです。</p>



<p>女性が結婚出来る下限は16歳です。</p>



<p>ですが上限はなく、40代でも50代でも結婚できます。</p>



<p>するとどうなるでしょうか？</p>



<p>年収の分布と同じように、右側に外れ値が出てくる分布になっていないでしょうか？</p>



<p>つまり、平均結婚年齢は、40代や50代に引っ張られている可能性があるのです！！</p>







<h2 class="wp-block-heading">平均値と中央値の違いに関するまとめ</h2>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="640" height="334" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/ec17114ba3d7d829dcd97f397b8c1421_s-e1577088691586.jpg" alt="平均値と中央値の違いに関するまとめ" class="wp-image-2527" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/ec17114ba3d7d829dcd97f397b8c1421_s-e1577088691586.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/ec17114ba3d7d829dcd97f397b8c1421_s-e1577088691586-300x157.jpg 300w" sizes="(max-width: 640px) 100vw, 640px" /></figure>
</div>






<ul class="wp-block-list">
<li>要約統計量を出力する際には、平均値と中央値を両方ともに出力することが望ましい。</li>



<li>平均値と中央値を確認することで、そのデータが左右対称の分布であるかが分かる。</li>



<li>平均値と中央値が異なる場合には、変数変換（例えば対数変換など）を検討する必要がある。</li>
</ul>







<p>そして、平均値の算出がふさわしい正規分布かどうかを視覚的に判断するのに<a href="https://best-biostatistics.com/summary/hist.html">ヒストグラムというグラフ化がとても重要ですので、合わせてご確認ください。</a></p>



<p>また、中央値に対応するグラフに<a href="https://best-biostatistics.com/toukei-kentei/box-plot.html">箱ひげ図というものがありますので、そちらも合わせてご確認ください。</a></p>



<div style="height:59px" aria-hidden="true" class="wp-block-spacer"></div>



<p>統計に関するご質問があれば、メルマガにご登録の上ご質問くださいませ！</p>



<p>＞＞<a href="https://best-biostatistics.com/lp2/seo/">メルマガ登録はこちら（無料プレゼントあります。）</a></p>
]]></content:encoded>
					
					<wfw:commentRss>https://best-biostatistics.com/summary/diff-mean-median.html/feed</wfw:commentRss>
			<slash:comments>4</slash:comments>
		
		
			</item>
		<item>
		<title>標準誤差とは？標準偏差との違いをわかりやすく！計算式やエラーバーでの使い分けは？</title>
		<link>https://best-biostatistics.com/summary/sd-se-chigai.html</link>
					<comments>https://best-biostatistics.com/summary/sd-se-chigai.html#comments</comments>
		
		<dc:creator><![CDATA[beat1115]]></dc:creator>
		<pubDate>Thu, 08 Aug 2024 09:00:49 +0000</pubDate>
				<category><![CDATA[データを解析しよう]]></category>
		<category><![CDATA[Summary]]></category>
		<category><![CDATA[標準偏差]]></category>
		<guid isPermaLink="false">https://best-biostatistics.com/?p=1842</guid>

					<description><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/screenshot-2019-10-16-14.30.49.png" class="webfeedsFeaturedVisual" /></p>統計学は、バラツキ（誤差）を扱うことに、ユニークな点があります。 データにバラツキがなければ、統計を使う必要なんてありません。 それぐらい、統計ではバラツキが重要。 しかしバラツキといっても、似たような用語の指標として「 [&#8230;]]]></description>
										<content:encoded><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/screenshot-2019-10-16-14.30.49.png" class="webfeedsFeaturedVisual" /></p>
<p>統計学は、バラツキ（誤差）を扱うことに、ユニークな点があります。</p>



<p>データにバラツキがなければ、統計を使う必要なんてありません。</p>



<p>それぐらい、統計ではバラツキが重要。</p>



<p>しかしバラツキといっても、似たような用語の指標として<strong><span class="marker">「標準偏差」と「標準誤差」の二種類があります</span></strong>。</p>



<p><strong><span class="marker">標準偏差と標準誤差は何が違うのでしょうか</span></strong>。</p>



<p>標準偏差と標準誤差のどちらをつければいいのでしょうか。</p>



<p>標準偏差と標準誤差は似ているようで実は全く異なる概念です。</p>



<p>この記事では、標準偏差と標準誤差の違いを明確にし、どのような時に標準偏差を使うべきで、どのような時に標準誤差を使うべきかを明らかにしていきます。</p>



<h2 class="wp-block-heading">標準偏差（SD）と標準誤差（SE）の違いは？エラーバーでの使い分けは？</h2>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="640" height="345" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/987eca87017b5f2fa265f89558d4724a_s-e1577496841202.jpg" alt="標準偏差（SD）と標準誤差（SE）の違いは？エラーバーでの使い分けは？" class="wp-image-2530" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/987eca87017b5f2fa265f89558d4724a_s-e1577496841202.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/987eca87017b5f2fa265f89558d4724a_s-e1577496841202-300x162.jpg 300w" sizes="(max-width: 640px) 100vw, 640px" /></figure>
</div>


<p>結論から言えば、標準偏差と標準誤差は下記のような違いがあります。</p>



<ul class="wp-block-list">
<li><strong>標準偏差は、<span class="marker">データのバラツキを表すパラメーター</span>です。</strong></li>



<li><strong>標準誤差は、<span class="marker">推定量のバラツキ（=精度、信頼性）</span>を表します。</strong></li>
</ul>



<p>標準偏差はSD：Standard deviation、標準誤差はSE：Standard Error</p>



<p>と英語で書かれることもあります。</p>



<p>では、標準偏差と標準誤差にはどのような違いがあるのでしょうか。</p>



<p>例えば実験データから棒グラフを作成するとき、下記のようなエラーバーをつけますよね。</p>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="1091" height="452" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/graph.png" alt="標準偏差（SD）と標準誤差（SE）の違いは？エラーバーでの使い分けは？" class="wp-image-1916" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/graph.png 1091w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/graph-300x124.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/graph-768x318.png 768w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/graph-1024x424.png 1024w" sizes="(max-width: 1091px) 100vw, 1091px" /></figure>
</div>


<p><br style="clear: both;">この時、標準偏差にすべき？</p>



<p>それとも標準誤差にすべき？</p>



<p>というのが疑問になると思います。</p>



<h3 class="wp-block-heading">標準偏差とは？わかりやすく言うとどんなこと？</h3>



<p>&#8220;標準偏差&#8221;は一言で言うならば、<span class="marker"><strong>データのバラツキを表すパラメーター</strong></span>です。</p>



<p>もうちょっと具体的にすると、<span class="marker"><strong>データが平均値からどれくらい散らばっているかを示す指標</strong></span>。</p>



<p>そのため、標準偏差には次のような特徴があります。</p>



<ul class="wp-block-list">
<li><strong>標準偏差が小さい　→ 平均に近いデータが多い　→データのバラツキが小さい</strong></li>



<li><strong>標準偏差が大きい　→ 平均から離れたデータが多い　→データのバラツキが大きい</strong></li>
</ul>



<p>詳しくは、<a href="https://best-biostatistics.com/summary/normal_dist.html">正規分布とは？簡単にわかりやすく標準偏差との関係やエクセルでのグラフ化を解説</a>の記事で紹介しています。</p>



<h3 class="wp-block-heading">標準誤差とは？わかりやすく言うとどんなこと？</h3>



<p><span style="color: #333333;">標準誤差は</span><strong><span style="color: #ff0000;">&#8220;推定量の標準偏差&#8221;</span></strong>です。</p>



<p>つまり、標準誤差は<span class="marker"><strong>推定量のバラツキ（=精度）を表します</strong></span>。</p>



<p>母集団と標本の関係には、</p>



<p><span style="color: #ff0000;"><strong>&#8220;母集団の性質と、母集団から抽出した標本の性質は一緒ではない&#8221;</strong></span>という性質があります。</p>



<p>そのため、<strong><span class="marker">標本から母集団の性質を推定する必要があるのです</span></strong>。</p>



<figure class="wp-block-image"><img decoding="async" width="652" height="362" src="https://best-biostatistics.com/wp/wp-content/uploads/2013/05/スクリーンショット-2019-05-06-22.50.33.png" alt="標準誤差とは？わかりやすく言うとどんなこと？" class="wp-image-1377" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2013/05/スクリーンショット-2019-05-06-22.50.33.png 652w, https://best-biostatistics.com/wp/wp-content/uploads/2013/05/スクリーンショット-2019-05-06-22.50.33-300x167.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2013/05/スクリーンショット-2019-05-06-22.50.33-375x208.png 375w" sizes="(max-width: 652px) 100vw, 652px" /></figure>



<p>そして、標本から母集団の性質を推定した統計量のことを、推定量と言います。</p>



<p>母集団と標本の関係はこちらにも記していますので参照してみてください。</p>



<p>&gt;&gt;&gt;<a href="https://best-biostatistics.com/summary/fuhen-bunsan-n1.html">不偏分散とは？簡単にわかりやすくn-1で割る理由とエクセルの関数を解説！</a></p>



<p>推定量は、あくまで標本からの推定した統計量でしかありません。</p>



<p>そのため、実際の母集団の統計量とは多少の誤差を含みます。</p>



<p>この推定量と母集団の統計量の誤差を、推定量の標準偏差として表すものを<span style="color: #ff0000;"><strong>標準誤差</strong></span>と言います。</p>



<p>つまり、<span style="color: #ff0000;"><strong>標準誤差</strong><span style="color: #333333;">は推定量のバラツキ（=精度）を表しています。</span></span></p>



<ul class="wp-block-list">
<li><strong>標準誤差が小さいことは、推定量の精度が良いことを意味します。</strong></li>



<li><strong>標準誤差が大きいことは、推定量の精度が悪いことを意味します。</strong></li>
</ul>



<h3 class="wp-block-heading">標本平均の誤差範囲としての標準誤差</h3>



<p>標準誤差は、<span style="color: #333333;">推定量の標準偏差を表しますが、</span>一般的に標準誤差は標本平均の誤差範囲を表します。</p>



<p>冒頭で述べた、グラフで使うエラーバーとしての標準誤差も標本平均の誤差範囲を意味します！</p>



<p>標準誤差は次の式で表すことができます。</p>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="525" height="124" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/標準誤差_式.png" alt="標本平均の誤差範囲としての標準誤差" class="wp-image-1915" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/標準誤差_式.png 525w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/標準誤差_式-300x71.png 300w" sizes="(max-width: 525px) 100vw, 525px" /></figure>
</div>


<p>ここで、サンプルサイズは標本のデータの数を表しています。</p>



<p>このような式になるのは、<strong><span style="color: #ff0000;">&#8220;母集団の分布にかかわらず、母集団から抽出された標本の数が十分に多い場合、標本平均の分布は正規分布に従う&#8221;</span></strong>といった性質が存在するからです。</p>



<p>&gt;&gt;&gt;<a href="https://best-biostatistics.com/summary/normal_dist.html">正規分布とは？簡単にわかりやすく標準偏差との関係やエクセルでのグラフ化を解説</a></p>



<p>この性質で出現する正規分布での標準偏差は、<strong><span class="marker">&#8220;標準偏差/√サンプルサイズ&#8221;</span></strong>になります。</p>



<p>だから平均<span style="color: #333333;">の標準偏差は上の式で表します。</span></p>



<p>標準誤差も、&#8221;標本平均<span style="color: #333333;">の標準偏差&#8221;ですので、</span>標準偏差としての性質を持ちます。</p>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="810" height="529" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/標準偏差.png" alt="標本平均の誤差範囲としての標準誤差" class="wp-image-1822" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/標準偏差.png 810w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/標準偏差-300x196.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/標準偏差-768x502.png 768w" sizes="(max-width: 810px) 100vw, 810px" /></figure>
</div>


<p>これはつまり、</p>



<ul class="wp-block-list">
<li><strong>標本平均±標準誤差の範囲中に約68パーセントの確率で母平均が含まれる。</strong></li>



<li><strong>標本平均±2×標準誤差の範囲中に約95パーセントの確率で母平均が含まれる。</strong></li>



<li><strong>標本平均±3×標準誤差の範囲中に約99.7パーセントの確率で母平均が含まれる。</strong></li>
</ul>



<p>という性質があるということです。</p>



<p>そのため、標準偏差を求めると、母平均が存在する区間の推定ができます。</p>



<p>標準偏差の性質については、</p>



<p>&gt;&gt;&gt;<a href="https://best-biostatistics.com/summary/normal_dist.html">正規分布とは？簡単にわかりやすく標準偏差との関係やエクセルでのグラフ化を解説</a></p>



<p>で解説しています。</p>



<p>また、<a href="https://best-biostatistics.com/summary/95ci.html" target="_blank" rel="noopener noreferrer">95%信頼区間も、標準誤差の上記の性質を使って理解することができます。</a></p>



<h2 class="wp-block-heading">標準偏差と標準誤差の使い分けは？</h2>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="640" height="350" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/f3ff2b38f21bcd8da977db80ed2a0e7e_s-e1577089044626.jpg" alt="標準偏差と標準誤差の使い分けは？" class="wp-image-2531" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/f3ff2b38f21bcd8da977db80ed2a0e7e_s-e1577089044626.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/f3ff2b38f21bcd8da977db80ed2a0e7e_s-e1577089044626-300x164.jpg 300w" sizes="(max-width: 640px) 100vw, 640px" /></figure>
</div>


<p>標準偏差はデータの散らばり具合を、標準誤差はサンプル平均の信頼性を示します。</p>



<p>そのため、<span class="marker"><strong>標準偏差はデータそのものの特性を、標準誤差はサンプルを通して母集団についての情報を得るための指標</strong></span>です。</p>



<ul class="wp-block-list">
<li><strong>データのバラツキが知りたいとき：標準偏差</strong></li>



<li><strong>母集団の性質を知りたいときは：　標準誤差</strong></li>
</ul>



<p>特に、母平均を推定したいときに、標準誤差を用います。</p>



<p>目的が異なりますので、ぜひ上記のことは強烈に意識していただければと思います！</p>



<h3 class="wp-block-heading">標準偏差を使うとき</h3>



<p>標準偏差がわかれば、その範囲にどれくらいの観測データが含まれているかが分かります。</p>



<p>そのため、</p>



<ul class="wp-block-list">
<li><strong><span style="font-size: 1em; letter-spacing: 0.05em;">データのバラツキを示したいとき</span></strong></li>



<li><strong><span style="font-size: 1em; letter-spacing: 0.05em;">データのバラツキを比べたいとき</span></strong></li>
</ul>



<p><span style="font-size: 1em; letter-spacing: 0.05em;">標準偏差を使うべきです。</span></p>



<p>例えば<strong><span class="marker">医学論文で言えば、被験者背景データ（Table1）は標準偏差で示すべき</span></strong>です。</p>



<p>そうすることで、どのような特徴を持った集団が、この論文の対象なのかを読者は知ることができるからです。</p>



<h3 class="wp-block-heading">標準誤差を使うとき</h3>



<div class="page" title="Page 4">
<div class="layoutArea">
<div class="column">
<p>標準誤差は、標本平均の誤差範囲でした。</p>
<p>つまり、標本誤差は、母平均を推定するときに用います。</p>
<ul>
<li><strong>母平均を推定をしたいとき</strong></li>
<li><strong>母平均比べたいとき</strong></li>
</ul>
<p>は標準誤差を使うべきです。</p>
<p><strong><span class="marker">医学論文では、プライマリーエンドポイントの結果の記載は標準誤差がいい</span></strong>ですね。</p>
<p><a href="https://best-biostatistics.com/summary/95ci.html" target="_blank" rel="noopener noreferrer">標準誤差を拡張して95%信頼区間を示すことでもOK</a>です。</p>
<p>結果はやはり母集団の推定結果が知りたいため、標準誤差が適切です。</p>

<h3>標準誤差の利用法：サンプルサイズの決定</h3>
</div>
</div>
</div>



<p>アンケートなどを行うとき、</p>



<p><span style="color: #ff0000;"><strong>どのサイズのサンプルサイズが必要か</strong></span>を考えるときも</p>



<p>標準誤差を利用します。</p>



<p>ここでは一例として、内閣支持率の世論調査を考えてみたとします。</p>



<p>2019年時点で日本国内に有権者数は約1億人います。（総務省統計による）</p>



<p>何人くらいからアンケートをとると、どれくらいの精度で支持率が確認できるでしょうか。</p>



<p>ここではアンケートの結果、内閣支持率は50%だったと過程します。</p>



<p>（注意：ここでは二項分布を用いています。）</p>



<p>二項分布の標準誤差は</p>



<p class="has-text-align-center">標準誤差=√確率×(1−確率)/サンプル数</p>



<p>で表します。</p>



<p><strong>100人に聞いてみたとき</strong></p>



<p class="has-text-align-center">標準誤差=√0.5×(1−0.5)/100=0.05=5%</p>



<p>つまり、45~55%の間に<strong>約68パーセントの確率</strong>で有権者全員の支持率母平均が含まれます。</p>



<p><strong>1000人に聞いてみたとき</strong></p>



<p class="has-text-align-center">標準誤差=√0.5×(1−0.5)/1000=0.0158=約1.6%</p>



<p>つまり、48.4~51.6%の間に<strong>約68パーセントの確率</strong>で有権者全員の支持率母平均が含まれます。</p>



<p><strong>10000人に聞いてみたとき</strong></p>



<p class="has-text-align-center">標準誤差=√0.5×(1−0.5)/1000=0.005=約0.5%</p>



<p>つまり、49.5~50.5%の間に<strong>約68パーセントの確率</strong>で有権者全員の支持率母平均が含まれます。</p>



<p>このように、標準誤差を使えば、目的の精度に合わせて、サンプルサイズを決定することができます。</p>



<p>サンプルサイズに関して、より詳細に知りたい方はこちらをご覧ください。</p>



<p>＞＞<a href="https://best-biostatistics.com/hypo_test/num-subject.html" target="_blank" rel="noopener noreferrer">サンプルサイズの決め方は？</a></p>



<h2 class="wp-block-heading">Rで標準偏差と標準誤差を算出してみる！標準誤差の求め方も紹介！</h2>



<p>実際に、サンプルデータを用いて標準偏差と標準誤差を出力してみます。</p>



<p>Rをダウンロードした際に含まれている「CO2」というデータを使います。標準誤差（Standard Error, SE）は下記の式で表されます。</p>



<p>$$SE = \frac{SD}{\sqrt{n}}$$</p>



<p>SDは標準偏差、nはサンプルサイズです。こちらの式を用いてプログラムを作成します。</p>



<pre class="wp-block-code has-white-color has-black-background-color has-text-color has-background has-link-color wp-elements-b0308d4670dd627784ade37afab9f32e"><code>#1度だけ実施する。過去にインストールしたことがあれば実行しなくてOK
install.packages("dplyr")


# dplyr パッケージを読み込む
library(dplyr)

# CO2データセットを使って、uptakeの要約統計量を計算
summary_stats &lt;- CO2 %>%
  summarise(
    n = n(),
    mean = mean(uptake, na.rm = TRUE),
    sd = sd(uptake, na.rm = TRUE),
    median = median(uptake, na.rm = TRUE),
    min = min(uptake, na.rm = TRUE),
    max = max(uptake, na.rm = TRUE)
  )

# 計算結果の表示
print(summary_stats)</code></pre>



<p>上記を実施すると、下記のような結果になりました。</p>



<figure class="wp-block-table"><table class="has-fixed-layout"><tbody><tr><td class="has-text-align-center" data-align="center">n</td><td class="has-text-align-center" data-align="center">84</td></tr><tr><td class="has-text-align-center" data-align="center">Mean</td><td class="has-text-align-center" data-align="center">27.2</td></tr><tr><td class="has-text-align-center" data-align="center">SD</td><td class="has-text-align-center" data-align="center">10.8</td></tr><tr><td class="has-text-align-center" data-align="center">SE</td><td class="has-text-align-center" data-align="center">1.18</td></tr></tbody></table></figure>



<h2 class="wp-block-heading">標準偏差と標準誤差の違いに関してまとめ</h2>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="640" height="334" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/ec17114ba3d7d829dcd97f397b8c1421_s-e1577088691586.jpg" alt="標準偏差と標準誤差の違いに関してまとめ" class="wp-image-2527" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/ec17114ba3d7d829dcd97f397b8c1421_s-e1577088691586.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/ec17114ba3d7d829dcd97f397b8c1421_s-e1577088691586-300x157.jpg 300w" sizes="(max-width: 640px) 100vw, 640px" /></figure>
</div>


<ul class="wp-block-list">
<li><strong>標準偏差は、データのバラツキを表すパラメーター</strong></li>



<li><strong>標準誤差は、推定量のバラツキ（=精度）を表す</strong></li>



<li><strong>データのバラツキが知りたいときは、標準偏差を用いる</strong></li>



<li><strong>母集団の性質を知りたいときは、標準誤差を用いる</strong></li>



<li><strong>標準誤差を使えば、目的の精度となるサンプルサイズを決定できる</strong></li>
</ul>
]]></content:encoded>
					
					<wfw:commentRss>https://best-biostatistics.com/summary/sd-se-chigai.html/feed</wfw:commentRss>
			<slash:comments>3</slash:comments>
		
		
			</item>
		<item>
		<title>外れ値とはどんな定義で求め方は？統計的検定で除外するのがいいの？</title>
		<link>https://best-biostatistics.com/summary/outlier.html</link>
					<comments>https://best-biostatistics.com/summary/outlier.html#comments</comments>
		
		<dc:creator><![CDATA[beat1115]]></dc:creator>
		<pubDate>Mon, 01 Apr 2024 09:21:28 +0000</pubDate>
				<category><![CDATA[データを解析しよう]]></category>
		<category><![CDATA[Summary]]></category>
		<category><![CDATA[平均]]></category>
		<category><![CDATA[標準偏差]]></category>
		<category><![CDATA[統計]]></category>
		<category><![CDATA[要約]]></category>
		<guid isPermaLink="false">http://best-biostatistics.com/wp/2016/02/07/outlier/</guid>

					<description><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2016/02/スクリーンショット-2018-10-21-07.59.00.png" class="webfeedsFeaturedVisual" /></p>統計学の重要な役割の一つに、データを要約するということがあります。統計と言えば平均値を出すだけ？いえいえ、それだけでは大切なことを見落としますよ。
]]></description>
										<content:encoded><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2016/02/スクリーンショット-2018-10-21-07.59.00.png" class="webfeedsFeaturedVisual" /></p>
<p>データを要約する時に、意外と頭を悩まされるのが外れ値です。</p>



<p>外れ値の定義や求め方は、実は難しい。</p>



<p>直感的には見た目で「<strong>このデータ、他のデータからすごく離れたところにあるな</strong>」と思うようなデータは外れ値になるのだと思います。</p>



<p>ただ、<strong>外れ値と外れ値ではない値の明確な違いがないのが現実</strong>です。</p>



<p>例えば、<span class="marker">平均値から3SDより離れたところにあるデータは外れ値とする</span>、などといった定義を作ることは可能です。</p>



<p>ですが、それも他の第3者から見れば、「なんで外れ値はこんな定義なの？」ってなります。</p>



<p>外れ値を統計的検定で除外する、という方法もありますが、検定だとデータ数が多くなれば必ず外れ値が出てきますし・・・。</p>



<p>ということで、このページでは外れ値に関して深く考えてみます。</p>







<h2 class="wp-block-heading">外れ値とは？その定義や求め方</h2>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="640" height="345" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/987eca87017b5f2fa265f89558d4724a_s-e1577496841202.jpg" alt="外れ値とは？その定義や求め方" class="wp-image-2530" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/987eca87017b5f2fa265f89558d4724a_s-e1577496841202.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/987eca87017b5f2fa265f89558d4724a_s-e1577496841202-300x162.jpg 300w" sizes="(max-width: 640px) 100vw, 640px" /></figure>
</div>






<p>外れ値は、各研究領域によって定義が異なってきます。</p>



<p>そのため、この記事では「医薬統計」に限定して話を進めますね。</p>







<p>医薬研究において「外れ値」として扱うべき定義は2つあります。</p>



<ol class="wp-block-list">
<li><strong style="font-size: 1em; letter-spacing: 0.05em;">医学的に取り得ない値</strong></li>



<li><strong>溶血したデータ</strong></li>
</ol>







<p><span class="marker">これ以外は、基本的に外れ値としては見なされません</span>。</p>



<p>溶血データは「外れ値」というよりは「信頼に足らない値」というイメージかもしれませんが、大きな括りとして外れ値としておきます。</p>







<h3 class="wp-block-heading">外れ値とはどんなとき？例を挙げて考える</h3>



<p>例えば、白血球数がマイナスになっている場合。</p>



<p>数なので、本来であれば絶対０より大きい値をとりますよね。</p>



<p>であれば、<strong><span class="marker">白血球数がマイナスというのは医学的に明らかに取り得ない値</span></strong>なので、外れ値として扱い解析から除外するべきです。</p>







<p>また、測定の際に<strong>溶血してしまったデータ</strong>も、それが本当のデータかどうかが分からないデータです。</p>



<p>そのため、外れ値として扱い解析から除外することを検討する必要があります。</p>



<p>つまり臨床試験で外れ値を検討する場合は、これがポイントになりますね。</p>



<div class="concept-box1">
<p><strong>医薬研究で外れ値を検討する場合、統計的に離れている値かどうか？という視点はほとんど意味がなく、医学的に信頼できるかどうか？といった観点が重要。</strong></p>
</div>







<h2 class="wp-block-heading">外れ値を統計的検定で除外する？スミルノフ・グラブス検定は使えるの？</h2>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="800" height="474" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/11/43456c92f2f7a865f6c6fe3001cb59d8_l-scaled-e1573632101681.jpg" alt="外れ値を統計的検定で除外する？" class="wp-image-2322" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/11/43456c92f2f7a865f6c6fe3001cb59d8_l-scaled-e1573632101681.jpg 800w, https://best-biostatistics.com/wp/wp-content/uploads/2019/11/43456c92f2f7a865f6c6fe3001cb59d8_l-scaled-e1573632101681-300x178.jpg 300w, https://best-biostatistics.com/wp/wp-content/uploads/2019/11/43456c92f2f7a865f6c6fe3001cb59d8_l-scaled-e1573632101681-768x455.jpg 768w" sizes="(max-width: 800px) 100vw, 800px" /></figure>
</div>






<p>世の中には、その値が外れ値かどうかを統計学的に検定する方法もあります。</p>



<p>「スミルノフ・グラブス検定」というのがその検定の一つです。</p>







<p>外れ値の定義が難しいのであれば、統計学的検定で判定してもらおう。</p>



<p>その方が客観的じゃないか？</p>



<p>と思うのも、ある意味では納得できます。</p>







<p>しかし、統計学的検定には一つだけ難点があるのです。</p>



<p>検定なので、有意差があるかどうかは、<strong>”あること”</strong>に左右されるからです。</p>







<p>そう、<strong>”データの数”</strong>、ですね。</p>







<p>ということは、<span class="marker">同じ値であっても、データ数が少ない時には外れ値と見なされないけど、データ数が多い時には外れ値と見なされてしまう</span>、ということです。</p>



<p>これではあまり意味がないですよね。</p>







<p>そのため結論から言うと、医薬研究において<strong><span style="color: #ff0a0a;">外れ値かどうかに対して統計学的な検定を行うのはナンセンス</span></strong>です。</p>



<p>臨床試験では、<strong>得られたデータをすべて使うことが基本</strong>になり、前述の通り「臨床的に取り得ない値」である場合のみ除外します。</p>







<h3 class="wp-block-heading">エクセルで外れ値の統計的検定であるスミルノフ・グラブス検定は実施できる？</h3>



<p>ちょっとだけ横道に逸れますが、エクセルで「スミルノフ・グラブス検定」をできるかどうか。</p>



<p>調べてみましたが、おそらくデフォルトのままでは難しそうです。</p>







<p>エクセル以外の統計ソフトであれば、スミルノフ・グラブス検定が入っていることが多いです。</p>



<p>R環境が裏で動いている、<a href="https://best-biostatistics.com/category/ezr">EZRという統計ソフト</a>でも簡単にスミルノフ・グラブス検定はできるみたいですね。</p>







<h2 class="wp-block-heading">外れ値ではないけど、不自然なデータがある場合の解析方法</h2>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/11/360a02bd0837b63d85de056782ab5701_s.jpg" alt="外れ値ではないけど、不自然なデータがある場合の解析方法" class="wp-image-2486"/></figure>
</div>






<p>医薬研究において、<strong><span class="marker">外れ値とは医学的な観点でありえない値</span></strong>ということでした。</p>



<p>それ以外の値は、どれだけかけ離れた値であろうと外れ値ではなく、解析には用いることが必要です。</p>







<p>ですが、実データを解析していると、そうはいっても・・・というデータが出てきます。</p>



<p>どういうデータかというと、<strong><span class="marker">医学的には取り得るけど、もろもろを考えるとすごく不自然なデータ</span></strong>、というものです。</p>







<p>こういった場合には、何かしら対策を取りたいですよね。</p>



<p>ではどういった解析をすればよいのでしょうか？</p>







<p>それは、<span style="color: #ff0000;"><strong>外れ値を含めた場合と含めたかった場合で、どのような結論の違いが出てくるかを述べる</strong></span>、ということです。</p>







<p>これはICH E9（臨床試験のための統計的原則）にも記載されていて、以下のような記載です。</p>



<blockquote class="wp-block-quote is-layout-flow wp-block-quote-is-layout-flow">
<p><strong>実際の値を用いた解析のほかに、外れ値の影響を除くか小さくする別の解析を少なくとも一つ行うべきであり、それらの結果の間の差異を議論すべきである。</strong></p>
</blockquote>







<p>外れ値と思われるデータを含めた場合と除外した場合の解析の2つの間で差異がない場合には、その解析結果は頑健であると言えます。</p>



<p>つまり、<a href="https://best-biostatistics.com/review/sensitivity-analysis.html">感度解析を実施する</a>ということ。</p>



<p>たとえ違いがあったとしても、それが薬剤の影響ではないということを、いろんな視点（生物学的なRationaleなど）から論述することが出来れば、問題ありません。</p>



<p>大切なのは、”なぜそのような値が出てきたのか”を考察することにあります。</p>







<h2 class="wp-block-heading">外れ値とは？まとめ</h2>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="640" height="334" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/ec17114ba3d7d829dcd97f397b8c1421_s-e1577088691586.jpg" alt="外れ値とは？まとめ" class="wp-image-2527" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/ec17114ba3d7d829dcd97f397b8c1421_s-e1577088691586.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/ec17114ba3d7d829dcd97f397b8c1421_s-e1577088691586-300x157.jpg 300w" sizes="(max-width: 640px) 100vw, 640px" /></figure>
</div>






<ul class="wp-block-list">
<li><span style="font-size: 16px;">外れ値は、統計学的に議論することではなく、医学的な知見が重要になる。</span></li>



<li>医薬研究において、外れ値を統計学的な検定で判定することは、ナンセンスである。</li>



<li><span style="font-size: 16px;">不自然なデータがあった場合には、その値を含めた場合と含めなかった場合の、2つの解析結果の際を議論する必要がある。</span></li>
</ul>







<p>動画でも解説していますので、併せてご覧くださいませ！</p>



<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="外れ値とはどんな定義？統計的検定で判定する？" width="500" height="281" src="https://www.youtube.com/embed/4X-3R2L9wUo?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>
]]></content:encoded>
					
					<wfw:commentRss>https://best-biostatistics.com/summary/outlier.html/feed</wfw:commentRss>
			<slash:comments>1</slash:comments>
		
		
			</item>
		<item>
		<title>回帰分析とは？p値や回帰係数の意味も例題で簡単にわかりやすく！</title>
		<link>https://best-biostatistics.com/correlation_regression/regression.html</link>
					<comments>https://best-biostatistics.com/correlation_regression/regression.html#comments</comments>
		
		<dc:creator><![CDATA[beat1115]]></dc:creator>
		<pubDate>Thu, 25 Jan 2024 01:48:06 +0000</pubDate>
				<category><![CDATA[相関と回帰分析]]></category>
		<category><![CDATA[Summary]]></category>
		<category><![CDATA[平均]]></category>
		<category><![CDATA[標準偏差]]></category>
		<category><![CDATA[統計]]></category>
		<category><![CDATA[要約]]></category>
		<guid isPermaLink="false">http://best-biostatistics.com/wp/2018/08/27/regression/</guid>

					<description><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2018/08/スクリーンショット-2018-10-12-07.25.14.png" class="webfeedsFeaturedVisual" /></p>複数の変数があったときに、まず思い出すのが相関と回帰分析ですよね。
じゃあ相関と回帰分析の解釈の仕方、どうすればよいでしょうか？
]]></description>
										<content:encoded><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2018/08/スクリーンショット-2018-10-12-07.25.14.png" class="webfeedsFeaturedVisual" /></p><p>「回帰分析」という解析手法を知っていますか？</p>
<p>「回帰分析」という名前を聞くと何となく「難しそう」と思ってしまいますが、実は簡単なんです！</p>
<p>回帰分析がどれぐらい簡単かというと、<strong>中学校で学んだ「y=ax+b」が分かれば、理解できます</strong>！</p>
<p>ということで、この記事では回帰分析について例題を用いながらわかりやすく簡単に解説します！</p>
<p>具体的には</p>
<ul>
<li><strong>回帰分析とは何をやっているの？</strong></li>
<li><strong>回帰分析で出てくる回帰係数とは？</strong></li>
<li><strong>回帰係数のP値や有意の意味とは？</strong></li>
</ul>
<p>といったことをお伝えしますね。</p>
<p>&nbsp;</p>
<h2>回帰分析は２種類以上のデータがあった時にやる解析</h2>
<p><img decoding="async" class="aligncenter wp-image-2531 size-full" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/f3ff2b38f21bcd8da977db80ed2a0e7e_s-e1577089044626.jpg" alt="回帰分析は２種類以上のデータがあった時にやる解析" width="640" height="350" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/f3ff2b38f21bcd8da977db80ed2a0e7e_s-e1577089044626.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/f3ff2b38f21bcd8da977db80ed2a0e7e_s-e1577089044626-300x164.jpg 300w" sizes="(max-width: 640px) 100vw, 640px" /></p>
<p>２種類以上のデータがあった時。</p>
<p>あなたはどんな解析をしますか？</p>
<p>例えば、体重と身長のデータがあった時。</p>
<p>&nbsp;</p>
<p>どんな解析をしたとしても、特に正解や不正解があるわけではありません。</p>
<p>私がやるとしたら、こんな解析をしてみます。</p>
<p>&nbsp;</p>
<div class="boldBox">
<p><strong>各データで<a href="https://best-biostatistics.com/summary/sum-stat.html">要約統計量を計算</a>してみる</strong><br />
<strong>　　　↓</strong><br />
<strong>各データで<a href="https://best-biostatistics.com/summary/hist.html" target="_blank" rel="noopener noreferrer">ヒストグラム</a>や<a href="https://best-biostatistics.com/toukei-kentei/box-plot.html" target="_blank" rel="noopener noreferrer">箱ひげ図</a>を作り、可視化してみる</strong><br />
<strong>　　　↓</strong><br />
<strong>X軸に身長、Y軸に体重を示した、散布図を書いてみる。</strong><br />
<strong>　　　↓</strong><br />
<strong>回帰分析や、<a href="https://best-biostatistics.com/correlation_regression/correlation.html" target="_blank" rel="noopener noreferrer">相関を算出</a>してみる</strong></p>
</div>
<p>&nbsp;</p>
<p>最初にやっぱりそれぞれのデータがどうなっているか確認しますね。</p>
<p>そして、より複雑な解析に移動していく。</p>
<p>このページでは、私の中で最後に実施する、回帰分析の話をします。</p>
<p>&nbsp;</p>
<h2>回帰分析とは何をやっているか例を用いてわかりやすく</h2>
<p>回帰分析ってよく聞くけど、何をやっているのかわからない。。</p>
<p>あなたもそんな1人かもしれません。</p>
<p>中学校で必ず学ぶこの方程式。</p>
<p>&nbsp;</p>
<div class="border2Box">
<blockquote><p><span style="font-size: 14pt;"><strong>Y=ax+b</strong></span></p></blockquote>
</div>
<p>懐かしいなーと思う方が多いと思います。</p>
<p>中学校では、こんな問題が出ますよね。</p>
<blockquote><p><span style="text-decoration: underline;"><strong>「(2,8),(4,14)の２点を通る直線y=ax+bのaとbを求めよ」</strong></span></p></blockquote>
<p>この時に、<strong>連立方程式を解いて、a=3, b=2という答えを導き出しました</strong>。</p>
<p>&nbsp;</p>
<p>回帰分析でやっていることは、これと同じです。</p>
<p>まずは、回帰分析の式を見てみます。</p>
<p>式は、以下の通りです。</p>
<div class="border2Box">
<blockquote><p><span style="font-size: 14pt; color: #ff0000;"><strong>Y=ax+b+<em><u>誤差</u></em></strong></span></p></blockquote>
</div>
<p>中学校で習った方程式と一緒じゃないですか？</p>
<p><strong>唯一違うのが、最後に「誤差」がある点</strong>。</p>
<p>&nbsp;</p>
<h3>回帰分析の最後の誤差は何者？</h3>
<p>回帰分析で特徴的な最後の誤差。</p>
<p>これがあることで、一気に難しくなった感じがしますよね。</p>
<p>でも、何のことはないです。</p>
<p>&nbsp;</p>
<p>統計の基礎を思い出してください。</p>
<p><span style="color: #ff0000;"><strong><span class="ylw">データはばらつきます</span></strong></span>。</p>
<p><strong><span style="color: #ff0000;">このばらつきを、最後の誤差で表現しているにすぎません</span></strong>。</p>
<p>&nbsp;</p>
<h3>回帰分析の誤差を例を用いて概要を理解してみる</h3>
<p>例えば、身長が170センチの男性。</p>
<p>この男性の体重を知りたいとします。</p>
<p>でも、<strong>同じ170センチだったとしても、体重は50kgの人がいたり、100kgの人がいたりしますよね</strong>。</p>
<p>つまり、以下のような方程式を作った場合。</p>
<p><strong>Y（体重）=ax（身長）+b+誤差</strong></p>
<p><span style="color: #ff0000;"><strong>Xに170を入れたとしても、Yが50だったり100だったりします</strong></span>。</p>
<p>&nbsp;</p>
<p>つまり、<strong><span class="ylw">aとbが決まったとしても、170センチの身長の人が全員同じ体重になりません</span></strong>よね。</p>
<p>統計用語で言えば、バラつきがあるということ。</p>
<p>その<strong>バラつきを、最後の「誤差」で表現している</strong>のです。</p>
<p>全てのデータが一直線上に乗るようなデータであれば誤差は０なので、中学校で習った方程式と一緒になります。</p>
<p>でも、<strong>現実世界のデータでそのような一直線になる関係は絶対にありえないのです</strong>。</p>
<p>そのため、最後に「誤差」があるのです。</p>
<p>&nbsp;</p>
<h2>回帰分析では回帰係数のaとbをどうやって決めるか？</h2>
<p><img decoding="async" class="aligncenter wp-image-2530 size-full" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/987eca87017b5f2fa265f89558d4724a_s-e1577496841202.jpg" alt="回帰分析では回帰係数のaとbをどうやって決めるか？" width="640" height="345" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/987eca87017b5f2fa265f89558d4724a_s-e1577496841202.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/987eca87017b5f2fa265f89558d4724a_s-e1577496841202-300x162.jpg 300w" sizes="(max-width: 640px) 100vw, 640px" /></p>
<p>全てのデータが完全に直線上に乗るのであれば、aとbはすぐに決まりました。</p>
<p>でも、<span class="ylw">バラついたデータでは、aとbは簡単には決められない</span>のです。</p>
<p>なぜなら、データに対して様々な直線を引く選択肢が出てくるからです。</p>
<p><img decoding="async" class="alignnone wp-image-843 size-full" src="https://best-biostatistics.com/wp/wp-content/uploads/2018/08/kaiki.png" alt="回帰分析では回帰係数のaとbをどうやって決めるか？2" width="439" height="448" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2018/08/kaiki.png 439w, https://best-biostatistics.com/wp/wp-content/uploads/2018/08/kaiki-294x300.png 294w, https://best-biostatistics.com/wp/wp-content/uploads/2018/08/kaiki-375x383.png 375w" sizes="(max-width: 439px) 100vw, 439px" /></p>
<p>この<strong>無数の選択肢がありそうな直線の中から、「良い」直線を選ぶ方法が必要になります</strong>。</p>
<p>あなたならどういった直線が「良い」直線と思うでしょうか？</p>
<p>統計の世界では、<strong>「良い」直線を決めるための方法の１つに<span class="ylw">最小二乗法</span>という方法を採用しています</strong>。</p>
<p>もしかしたら、聞いたことがあるかもしれませんね。</p>
<p>最小二乗法は何をやっているのかというと、以下の３つです。</p>
<p>&nbsp;</p>
<div class="nmlbox">
<div class="boldBox">
<ol>
<li><strong><span style="font-size: 16px;">直線とデータの差を二乗する。</span></strong></li>
<li><strong><span style="font-size: 16px;">データの数だけ１番目を足し合わせる</span></strong></li>
<li><strong><span style="font-size: 16px;">２番目が一番小さくなるaとbを選ぶ。</span></strong></li>
</ol>
</div>
</div>
<p>&nbsp;</p>
<p>専門用語を使って、この1-3を表現すると以下のようになります。</p>
<p>&nbsp;</p>
<div class="nmlbox">
<div class="boldBox">
<ol>
<li><strong><span style="font-size: 16px;">偏差を二乗する。</span></strong></li>
<li><strong><span style="font-size: 16px;">偏差平方和を算出する</span></strong></li>
<li><strong><span style="font-size: 16px;">偏差平方和が一番小さくなるaとbを選ぶ。</span></strong></li>
</ol>
</div>
</div>
<p>&nbsp;</p>
<p>最も小さい偏差平方（二乗）和を求めるので、最小二乗法と言います。</p>
<p>&nbsp;</p>
<h2>回帰分析に関して用語の整理</h2>
<p>今後の説明がスムーズになるように、回帰分析で出てくる用語を整理しておきます。</p>
<p>&nbsp;</p>
<div class="concept-box6">
<p><span style="font-size: 24px;"><strong>Y=ax+b+誤差</strong></span></p>
<p>Y：応答変数（目的変数）</p>
<p>x：説明変数</p>
<p>a：係数</p>
<p>b：切片</p>
<p>誤差：誤差項（<a href="https://best-biostatistics.com/correlation_regression/zansa.html">残差</a>）</p>
</div>
<p>&nbsp;</p>
<p>これだけ覚えておけば、他の教科書を見てもスムーズに理解できると思います。</p>
<p>特に、<a href="https://best-biostatistics.com/correlation_regression/variables.html">目的変数と説明変数</a>は混同している方が多かったりしますので、ぜひ正確に覚えておきましょう。</p>
<p>&nbsp;</p>
<h3>単回帰分析と重回帰分析の違いは？</h3>
<p>ちなみに、<span class="ylw">説明変数が一つの場合に「単回帰分析」</span>と言います。</p>
<p><span class="ylw">説明変数が２つ以上の場合に「重回帰分析」</span>と言います。</p>
<p><strong><span class="marker">Y（体重）＝a*x（身長）+b+誤差</span></strong></p>
<p>は単回帰分析。</p>
<p><strong><span class="marker">Y（体重）＝a*x1（身長）+c*x2（年齢）+b+誤差</span></strong></p>
<p>は重回帰分析です。</p>
<p>&nbsp;</p>
<h2>回帰分析の解析結果の例からp値や有意の意味を理解する</h2>
<p>理論的なことはこれだけなのですが、実際の解析結果の例を見ながら、さらに理解していきましょう。</p>
<p>回帰分析ではp値が出てきますが、その意味は？というのも解説します。</p>
<p>&nbsp;</p>
<p>例えば、<a href="https://best-biostatistics.com/toukei-kentei/201806.html" target="_blank" rel="noopener noreferrer">統計検定２級の２０１８年６月の問題から</a>。</p>
<p><img decoding="async" class="alignnone wp-image-1336 size-full" src="https://best-biostatistics.com/wp/wp-content/uploads/2018/08/スクリーンショット-2019-04-16-11.59.24.png" alt="回帰分析の解析結果の例からp値の意味を理解する" width="780" height="384" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2018/08/スクリーンショット-2019-04-16-11.59.24.png 780w, https://best-biostatistics.com/wp/wp-content/uploads/2018/08/スクリーンショット-2019-04-16-11.59.24-300x148.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2018/08/スクリーンショット-2019-04-16-11.59.24-768x378.png 768w, https://best-biostatistics.com/wp/wp-content/uploads/2018/08/スクリーンショット-2019-04-16-11.59.24-375x185.png 375w" sizes="(max-width: 780px) 100vw, 780px" /></p>
<p>このような出力結果があった時の、結果の解釈を理解してみましょう。</p>
<p>&nbsp;</p>
<h3>回帰分析では回帰式を思い浮かべる</h3>
<p>このような出力結果が出てきた時に、真っ先に以下のような回帰式を思い浮かべてください。</p>
<p>&nbsp;</p>
<p><img decoding="async" class="alignnone wp-image-976 size-full" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/02/14-1.png" alt="回帰分析では回帰式を思い浮かべる" width="885" height="55" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/02/14-1.png 885w, https://best-biostatistics.com/wp/wp-content/uploads/2019/02/14-1-300x19.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2019/02/14-1-768x48.png 768w, https://best-biostatistics.com/wp/wp-content/uploads/2019/02/14-1-375x23.png 375w" sizes="(max-width: 885px) 100vw, 885px" /></p>
<p>&nbsp;</p>
<p>回帰式の定義をもう一度復習しておきます。</p>
<blockquote><p><span style="font-size: 14pt; color: #ff0000;"><strong>Y=ax+b+<em><u>誤差</u></em></strong></span></p></blockquote>
<p>これに、当てはめただけなので、そんなに難しいことはないはずです。</p>
<p>&nbsp;</p>
<h3>回帰分析のp値や有意の解釈は？帰無仮説を確認する！</h3>
<p>この出力結果に<a href="https://best-biostatistics.com/hypo_test/p-value.html">p値が出ていますよね。</a>（Pr &gt; (|t|)の部分）</p>
<p>悩ましいのが、この解釈かなと思います。</p>
<p>&nbsp;</p>
<p>p値が出てきた時、当然、何かの<a href="https://best-biostatistics.com/hypo_test/test.html">統計学的な検定</a>をしているはずです。</p>
<p>検定が出てきたら気にすべきこと。</p>
<p>ありましたよね。</p>
<p>そうです、<a href="https://best-biostatistics.com/hypo_test/hypo.html" target="_blank" rel="noopener noreferrer">帰無仮説と対立仮説を確認する</a>ことです。</p>
<p>回帰分析での帰無仮説と対立仮説もあるんです。</p>
<p>&nbsp;</p>
<blockquote><p><span style="font-size: 18pt; color: #ff0000;"><strong>帰無仮説：回帰係数＝０</strong></span></p>
<p><span style="font-size: 18pt; color: #ff0000;"><strong>対立仮説：回帰係数≠０</strong></span></p></blockquote>
<p>&nbsp;</p>
<p>これが帰無仮説と対立仮説です。</p>
<p>で、p値が0.05を下回ったら有意差がある。</p>
<p>つまり、解釈としてはこうなります。</p>
<p>&nbsp;</p>
<blockquote><p><span style="font-size: 14pt; color: #ff0000;"><strong>回帰係数のp値が0.05を下回った場合、有意差がある。</strong></span></p>
<p><span style="font-size: 14pt; color: #ff0000;"><strong>つまり、その回帰係数が０であるという帰無仮説を棄却する。</strong></span></p></blockquote>
<p>&nbsp;</p>
<p>これがp値が0.05を下回った場合の解釈です。</p>
<p>&nbsp;</p>
<h3>回帰係数が０である、ってどういうこと？</h3>
<p>p値が0.05を下回れば、回帰係数が０ではない、ということが言えました。</p>
<p>重要なのが、その意味です。</p>
<p><strong>意味を解釈するには、まずは回帰係数が０である、ということを理解する必要があります</strong>。</p>
<p>回帰係数が０って、どう意味かわかりますか？</p>
<p>&nbsp;</p>
<p><strong>回帰係数が０の場合、その変数（Xの値）がどのような値を取ろうとも、Yには全く影響を与えません</strong>よね。</p>
<p>例えば、<span style="color: #ff0000;"><strong>「体重=０×身長＋５０＋誤差」</strong></span>という式があった時。</p>
<p>変数である「身長」の回帰係数が０です。</p>
<p>この時、身長が１５０センチだろうが、２００センチだろうが、体重は変わりません。</p>
<p>だって、回帰係数が０だから。</p>
<p><strong>体重（Y）に対して、身長（X）が全く影響を与えない</strong>。</p>
<p>&nbsp;</p>
<p>ここが重要なのです。</p>
<p>長々と書いてしまったので、簡潔にまとめます。</p>
<p>&nbsp;</p>
<blockquote><p><span style="font-size: 14pt; color: #ff0000;"><strong>回帰係数が<span style="text-decoration: underline;">０の場合</span>、その変数（X）は応答変数（Y）に影響の<span style="text-decoration: underline;">与えない因子</span>である。</strong></span></p>
<p><span style="font-size: 14pt; color: #ff0000;"><strong>逆に、回帰係数が<span style="text-decoration: underline;">０ではない時</span>には、その変数（X）は応答変数（Y）に影響の<span style="text-decoration: underline;">与える因子</span>である。</strong></span></p></blockquote>
<p>&nbsp;</p>
<p>この解釈を、ぜひ理解してください。</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<h2>回帰分析から、共分散分析へ</h2>
<p>回帰分析を学ぶことで、XとYの関係を知ることができます。</p>
<p>また、p値の解釈ができると、その結果の見方がかなり変わります。</p>
<p>ぜひ、なんども読んで理解してみてくださいね。</p>
<p>&nbsp;</p>
<p>そして、回帰分析を理解することは、<a href="https://best-biostatistics.com/correlation_regression/ancova.html" target="_blank" rel="noopener noreferrer">共分散分析を理解すること</a>につながります。</p>
<p>医薬統計をやっていると、共分散分析は絶対に避けては通れないので、ぜひその意味でも回帰分析をちゃんと理解しましょう。</p>
<p>また、ロジスティック回帰やCox比例ハザードモデルなんかも、この回帰分析の知識の上に成り立っています。</p>
<p>&nbsp;</p>
<h2>回帰分析に関してまとめ</h2>
<p><img decoding="async" class="aligncenter wp-image-2527 size-full" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/ec17114ba3d7d829dcd97f397b8c1421_s-e1577088691586.jpg" alt="回帰分析に関してまとめ" width="640" height="334" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/ec17114ba3d7d829dcd97f397b8c1421_s-e1577088691586.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/ec17114ba3d7d829dcd97f397b8c1421_s-e1577088691586-300x157.jpg 300w" sizes="(max-width: 640px) 100vw, 640px" /></p>
<p>回帰分析とは、中学校で学んだ「<strong>Y=ax+b</strong>」という式と同じ。</p>
<p>上記の式に誤差を含んだもの。</p>
<p>aとbを求めるために、最小二乗法という方法を用いている。</p>
<p>回帰分析を学ぶことで、共分散分析を理解することができる。</p>
]]></content:encoded>
					
					<wfw:commentRss>https://best-biostatistics.com/correlation_regression/regression.html/feed</wfw:commentRss>
			<slash:comments>5</slash:comments>
		
		
			</item>
	</channel>
</rss>
