<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>相関と回帰分析 &#8211; いちばんやさしい、医療統計</title>
	<atom:link href="https://best-biostatistics.com/category/correlation_regression/feed" rel="self" type="application/rss+xml" />
	<link>https://best-biostatistics.com</link>
	<description>数式にとらわれない、イメージとしての統計！</description>
	<lastBuildDate>Mon, 19 Jan 2026 22:19:53 +0000</lastBuildDate>
	<language>ja</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://best-biostatistics.com/wp/wp-content/uploads/2024/04/cropped-Data-Seed-Inc.-logo-I-32x32.png</url>
	<title>相関と回帰分析 &#8211; いちばんやさしい、医療統計</title>
	<link>https://best-biostatistics.com</link>
	<width>32</width>
	<height>32</height>
</image> 
<atom:link rel="hub" href="https://pubsubhubbub.appspot.com"/>
<atom:link rel="hub" href="https://pubsubhubbub.superfeedr.com"/>
<atom:link rel="hub" href="https://websubhub.com/hub"/>
<atom:link rel="self" href="https://best-biostatistics.com/category/correlation_regression/feed"/>
	<item>
		<title>【わかりやすく解説】平均因果効果とは？ATEとATTの違いや正しい推定方法</title>
		<link>https://best-biostatistics.com/correlation_regression/att-ate.html</link>
					<comments>https://best-biostatistics.com/correlation_regression/att-ate.html#respond</comments>
		
		<dc:creator><![CDATA[beat1115]]></dc:creator>
		<pubDate>Mon, 19 Jan 2026 22:19:51 +0000</pubDate>
				<category><![CDATA[相関と回帰分析]]></category>
		<guid isPermaLink="false">https://best-biostatistics.com/?p=8732</guid>

					<description><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2026/01/統計のYoutubeアイキャッチ-1-1024x576.png" class="webfeedsFeaturedVisual" /></p>「ある治療を行った結果、どれくらいの効果があったのか？」 臨床研究でこの問いに答える際、単純な平均値の比較だけでは正しい答えにたどり着けないことがよくあります。そこで重要になる指標が「平均因果効果」です。 しかし、この平 [&#8230;]]]></description>
										<content:encoded><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2026/01/統計のYoutubeアイキャッチ-1-1024x576.png" class="webfeedsFeaturedVisual" /></p>
<p>「ある治療を行った結果、どれくらいの効果があったのか？」</p>



<p>臨床研究でこの問いに答える際、単純な平均値の比較だけでは正しい答えにたどり着けないことがよくあります。そこで重要になる指標が「平均因果効果」です。</p>



<p>しかし、この平均因果効果には<strong>「ATE（全集団）」と「ATT（介入群）」</strong>という2つの異なる種類があり、どちらを見るべきか迷う方も多いのではないでしょうか。</p>



<p>この記事では、因果推論の基礎から、ATEとATTの決定的な違い、そしてそれらを正しく推定するための「傾向スコア分析（IPW法・マッチング）」について、専門的な知識をわかりやすく噛み砕いて解説します。</p>



<hr class="wp-block-separator has-alpha-channel-opacity"/>



<h2 class="wp-block-heading">平均因果効果とは？因果推論の基礎知識</h2>



<p>平均因果効果（Average Treatment Effect）を理解するためには、まず「なぜ普通に比較してはいけないのか」という前提を知る必要があります。</p>



<h3 class="wp-block-heading">原因と結果の差を見る「反事実」モデル</h3>



<p>「効果」とは何でしょうか？ 統計学の権威であるルービンの因果モデルでは、以下のように定義されます。</p>



<blockquote class="wp-block-quote is-layout-flow wp-block-quote-is-layout-flow">
<p><strong>効果 ＝ （ある人が介入を受けた結果） − （その人がもし介入を受けなかった場合の結果）</strong></p>
</blockquote>



<p>しかし現実世界では、<strong>一人の人間が同時に「介入を受けた状態（事実）」と「受けなかった状態（反事実）」の両方を体験することは不可能</strong>です。これを「因果推論の根本問題」と呼びます。</p>



<p><strong><span style="text-decoration: underline;">個人の効果を観測することは不可能であるため、集団単位で平均をとって推測しようというのが「平均因果効果」の考え方</span></strong>です。</p>



<h3 class="wp-block-heading">なぜ単純な比較ではダメなのか？「交絡因子」とバイアス</h3>



<p>例えば、「高血圧の人ほど年収が高い」というデータがあったとします。これを見て「高血圧になれば年収が上がる」と考えるのは間違いです。</p>



<p>実際には、以下のような背景（交絡因子）が隠れています。</p>



<ul class="wp-block-list has-swl-gray-background-color has-background">
<li><strong>年齢が高い</strong> → 血圧が高くなりやすい</li>



<li><strong>年齢が高い</strong> → 年収が高くなりやすい</li>
</ul>



<p>このように、<a href="https://best-biostatistics.com/design/kouraku2.html">結果（年収）と原因（高血圧）の両方に影響を与える第三の要因を「交絡因子（こうらくいんし）」と呼びます</a>。</p>



<p>観察データ（単に集めただけのデータ）にはこの交絡バイアスが含まれているため、単純なグループ比較では純粋な「効果」が見えなくなってしまうのです。</p>



<hr class="wp-block-separator has-alpha-channel-opacity"/>



<h2 class="wp-block-heading">【重要】ATE（全集団）とATT（介入群）の違いと使い分け</h2>



<p>交絡因子を取り除き、純粋な効果を測る指標として、主に以下の2つが使われます。この2つの使い分けが、分析設計の要（かなめ）となります。</p>



<h3 class="wp-block-heading">ATE（Average Treatment Effect）：集団全体に施策を行ったら？</h3>



<p><strong>ATE（全集団の平均因果効果）は、対象となる集団全員</strong>が、もしその施策を受けたら（または受けなかったら）、平均的にどれくらいの効果差が出るかを示す指標です。</p>



<ul class="wp-block-list has-swl-gray-background-color has-background">
<li><strong>定義：</strong> 集団全体における「介入あり」と「介入なし」の平均的な差。</li>



<li><strong>向いているケース：</strong>
<ul class="wp-block-list">
<li>社会全体への政策導入（例：国民全員に新しいワクチンを打つべきか？）</li>



<li>全顧客へのキャンペーン（例：全ユーザーにクーポンを配布したら売上はどうなるか？）</li>
</ul>
</li>
</ul>



<p>「もし全員に適用したらどうなるか？」という<strong>未来の全体最適</strong>を考える際に用いられます。</p>



<h3 class="wp-block-heading">ATT（Average Treatment Effect on the Treated）：実際に受けた人の効果は？</h3>



<p>ATT（介入群の平均因果効果）は、実際に施策を受けた人たち（介入群）にとって、その施策がどれくらい効果的だったかを示す指標です。</p>



<ul class="wp-block-list has-swl-gray-background-color has-background">
<li><strong>定義：</strong> 実際に介入を選択した人たちにおける、「介入あり」と「もし介入を受けていなかったら」の平均的な差。</li>



<li><strong>向いているケース：</strong>
<ul class="wp-block-list">
<li>希望者参加型のプログラム（例：禁煙プログラムに参加した人は、参加しなかった場合に比べて禁煙成功率が上がったか？）</li>



<li>既存の利用者評価（例：有料プランに加入したユーザーは、加入しなかった場合より利用頻度が高いか？）</li>
</ul>
</li>
</ul>



<p>「実際に選んだ人にとって意味があったのか？」という<strong>事後評価やプログラムの効果検証</strong>によく用いられます。</p>



<h3 class="wp-block-heading">図解でイメージするATEとATTでのターゲット層の違い</h3>



<p>この図は、ATEとATTが統計学的に「どの部分の差」を見ようとしているのかを表しています。ここで最も重要なのは、<strong>黄色いマーカーで「実際には得られない」と書かれている部分（反事実）</strong>の存在です。</p>



<figure class="wp-block-image size-large"><img decoding="async" width="1024" height="565" src="https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.02.27-1024x565.png" alt="" class="wp-image-8733" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.02.27-1024x565.png 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.02.27-300x166.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.02.27-768x424.png 768w, https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.02.27-1536x848.png 1536w, https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.02.27-2048x1131.png 2048w" sizes="(max-width: 1024px) 100vw, 1024px" /></figure>



<p>現実世界では、ある人が「介入を受けた結果」と「受けなかった結果」を同時に観測することはできません。そのため、以下の図のように比較のアプローチが異なります。</p>



<ul class="wp-block-list has-swl-gray-background-color has-background">
<li><strong>ATT（緑の矢印）</strong>：上段の「暴露群（z=1）」だけに注目します。「実際に介入を受けた人」が、もし受けなかったらどうなっていたか（右上の黄色い部分）を推定し、その差を比較します。</li>



<li><strong>ATE（オレンジの矢印）</strong>：上下段を含めた「集団全体」に注目します。暴露群・非暴露群それぞれの「あり得たかもしれない結果（黄色い部分すべて）」を推定し、全体としての平均的な差を比較します。</li>
</ul>



<p>つまり、<strong>「欠損しているデータ（黄色）を、どの範囲まで埋めて比較するか」</strong>の違いが、そのままATEとATTの違いになっているのです。</p>



<figure class="wp-block-table"><table class="has-fixed-layout"><thead><tr><td><strong>指標</strong></td><td><strong>対象（ターゲット）</strong></td><td><strong>問いかけのイメージ</strong></td><td><strong>推定手法の例</strong></td></tr></thead><tbody><tr><td><strong>ATE</strong></td><td><strong>全員</strong> (介入群 + 非介入群)</td><td>「もし<strong>全員</strong>にやらせたら、平均でどうなる？」</td><td><strong>IPW法</strong> (逆確率重みづけ)</td></tr><tr><td><strong>ATT</strong></td><td><strong>介入群のみ</strong></td><td>「<strong>やった人</strong>にとって、どれだけ得だった？」</td><td><strong>マッチング法</strong></td></tr></tbody></table></figure>



<hr class="wp-block-separator has-alpha-channel-opacity"/>



<h2 class="wp-block-heading">平均因果効果を正しく推定する手法「傾向スコア分析」</h2>



<p>観察データから交絡バイアスを取り除き、ランダム化比較試験（RCT）のような状態を擬似的に作り出す手法が<a href="https://best-biostatistics.com/summary/propensity-score.html">「傾向スコア（Propensity Score）」を用いた分析</a>です。</p>



<h3 class="wp-block-heading">多変量解析と傾向スコア分析の違い</h3>



<p>多くの研究で使われる<a href="https://best-biostatistics.com/correlation_regression/tahenryou.html">「多変量解析（重回帰分析など）」も交絡因子の調整に使われますが、目的が少し異なります</a>。</p>



<ul class="wp-block-list has-swl-gray-background-color has-background">
<li><strong>多変量解析：</strong>
<ul class="wp-block-list">
<li>主に「予測」や「要因の探索」に使われる。</li>



<li>「結果Yに対して、要因X1, X2&#8230;がどう効いているか」というモデルを作る。</li>
</ul>
</li>



<li><strong>傾向スコア分析：</strong>
<ul class="wp-block-list">
<li>純粋に「介入の効果（因果関係）」を知りたい場合に特化している。</li>



<li>群に対して、交絡因子をモデル化している。交絡因子をまとめて「傾向スコア（ある人が介入を受ける確率）」という1つの指標に変換し、群間の背景情報のバランスを整える。</li>
</ul>
</li>
</ul>



<p>「とにかくバイアスを取り除いて、フェアな比較をしたい」という場合には、傾向スコア分析が適しています。</p>



<h3 class="wp-block-heading">ATEを推定する「IPW法（逆確率重みづけ）」</h3>



<p>ATE（全集団の効果）を知りたい場合によく使われるのがIPW法（Inverse Probability Weighting）です。</p>



<p>これは、傾向スコア（介入を受ける確率）の逆数を重みとしてデータに掛ける方法です。</p>



<p>IPW法がどのようにして「公平な比較」を可能にしているのか、データの動きを3つのステップで見てみましょう。</p>



<h4 class="wp-block-heading">Step1：調整前のデータ（バイアスがある状態）</h4>



<p>まず、これが現実のデータ分布です。</p>



<ul class="wp-block-list">
<li><strong>上段（X=1 介入群）：</strong> 傾向スコアが高い（右側にある）人が多い。</li>



<li><strong>下段（X=0 対照群）：</strong> 傾向スコアが低い（左側にある）人が多い。</li>
</ul>



<p>このように、傾向スコア（なりやすさ）に偏りがあるため、そのまま比較するとバイアスがかかってしまいます。上下でドットの位置がずれているのが分かります。</p>



<figure class="wp-block-image size-large"><img decoding="async" width="1024" height="502" src="https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.07.01-1024x502.png" alt="" class="wp-image-8734" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.07.01-1024x502.png 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.07.01-300x147.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.07.01-768x377.png 768w, https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.07.01-1536x754.png 1536w, https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.07.01.png 1806w" sizes="(max-width: 1024px) 100vw, 1024px" /></figure>



<h4 class="wp-block-heading"><strong>Step 2：目指すゴール（擬似的な集団の作成）</strong></h4>



<p>ATE（全集団の平均因果効果）を知るためには、<strong>「全員が介入を受けた世界」と「全員が受けなかった世界」を比較</strong>する必要があります。</p>



<p>そこでIPW法では、データが足りない部分（薄いグレーの背景部分）を「数学的に補う」という操作を行います。これにより、あたかも全員のデータが揃っているかのような「擬似個体群」を作り出します。</p>



<figure class="wp-block-image size-large"><img decoding="async" width="1024" height="462" src="https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.07.16-1024x462.png" alt="" class="wp-image-8735" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.07.16-1024x462.png 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.07.16-300x135.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.07.16-768x346.png 768w, https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.07.16-1536x693.png 1536w, https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.07.16-2048x924.png 2048w" sizes="(max-width: 1024px) 100vw, 1024px" /></figure>



<h4 class="wp-block-heading"><strong>Step 3：具体的な計算方法（重みの付与）</strong></h4>



<p>では、具体的にどうやって「補う」のでしょうか？ ここで「逆確率による重みづけ」が登場します。</p>



<ul class="wp-block-list has-swl-gray-background-color has-background">
<li>レアな人ほど、重みを大きくする：例えば、X=1（介入群）の中に、傾向スコアが0.3と低い（本来なら介入を受けにくい）人がいたとします。この人は「レアな存在」です。そこで、確率の逆数（1/0.3）を計算し、この1人のデータを「3.33人分」に膨らませて扱います。</li>



<li>よくいる人は、重みを小さくする：逆に、傾向スコアが0.85と高い（介入を受けて当然の）人は、逆数（1/0.85）となり、重みはあまり増えません。</li>
</ul>



<figure class="wp-block-image size-large"><img decoding="async" width="1024" height="471" src="https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.07.07-1024x471.png" alt="" class="wp-image-8736" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.07.07-1024x471.png 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.07.07-300x138.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.07.07-768x354.png 768w, https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.07.07-1536x707.png 1536w, https://best-biostatistics.com/wp/wp-content/uploads/2026/01/ScreenShot-2026-01-20-7.07.07-2048x943.png 2048w" sizes="(max-width: 1024px) 100vw, 1024px" /></figure>



<p>このように「起こりにくいこと（逆確率）ほど重視する」ことで、擬似的に全体のバランスを整え、公平な平均因果効果（ATE）を算出可能にするのです。</p>



<ul class="wp-block-list has-swl-gray-background-color has-background">
<li>介入を受けにくいのに受けた人（レアな人）の重みを大きくする。</li>



<li>介入を受けやすいのに受けた人（よくいる人）の重みを調整する。</li>
</ul>



<p>これにより、擬似的に「介入群」と「対照群」の人数や背景因子のバランスが取れた全集団（擬似個体群）を作り出し、全体での効果を推定します。</p>



<p>＞＞<a href="https://best-biostatistics.com/toukei-er/entry/inverse-probability-of-treatment-weighting-linear-regression-in-ezr/">EZRで逆確率重み付け（IPTW）を行う手順はこちら</a></p>



<h3 class="wp-block-heading">ATTを推定する「マッチング法」</h3>



<p>ATT（介入群の効果）を知りたい場合によく使われるのがマッチング法（傾向スコアマッチング）です。</p>



<p>これは、介入群の一人ひとりに対し、傾向スコア（背景情報）が非常によく似た「介入を受けなかった人」を探してきてペアを作る方法です。</p>



<ul class="wp-block-list has-swl-gray-background-color has-background">
<li><strong>ペアにする条件：</strong> 性別、年齢、年収などの背景がそっくりな人同士。</li>



<li><strong>比較：</strong> 似たもの同士のペアで結果を比較する。</li>
</ul>



<p>ペアにならなかった（似た相手がいなかった）データは捨てられるため、集団全体（ATE）の評価には向きませんが、介入群とそっくりな人を比較対象にするため、介入群における純粋な効果（ATT）を高精度に推定できます。</p>



<hr class="wp-block-separator has-alpha-channel-opacity"/>



<h2 class="wp-block-heading">まとめ：研究目的に合わせて適切な平均因果効果を選ぼう</h2>



<p>「平均因果効果」を分析する際は、ご自身の目的がどこにあるかを明確にすることがスタート地点です。</p>



<ul class="wp-block-list has-swl-gray-background-color has-background">
<li><strong>政策や全体戦略を決めたいなら → ATE（全集団の平均因果効果）</strong>
<ul class="wp-block-list">
<li>手法：IPW法など</li>
</ul>
</li>



<li><strong>特定の施策の効果検証をしたいなら → ATT（介入群の平均因果効果）</strong>
<ul class="wp-block-list">
<li>手法：マッチング法など</li>
</ul>
</li>
</ul>



<p>適切な指標と手法を選ぶことで、バイアスに惑わされない、真のデータ活用が可能になります。</p>
]]></content:encoded>
					
					<wfw:commentRss>https://best-biostatistics.com/correlation_regression/att-ate.html/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>DAG（有向非巡回グラフ）と因果推論：医療統計における交絡調整とバイアス回避の完全ガイド</title>
		<link>https://best-biostatistics.com/correlation_regression/dag.html</link>
					<comments>https://best-biostatistics.com/correlation_regression/dag.html#respond</comments>
		
		<dc:creator><![CDATA[beat1115]]></dc:creator>
		<pubDate>Mon, 05 Jan 2026 05:51:55 +0000</pubDate>
				<category><![CDATA[相関と回帰分析]]></category>
		<guid isPermaLink="false">https://best-biostatistics.com/?p=8718</guid>

					<description><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2026/01/統計のYoutubeアイキャッチ-1024x576.png" class="webfeedsFeaturedVisual" /></p>臨床研究や疫学調査において、最も困難かつ重要な課題は「因果関係の証明」です。 「薬Aを投与した群の方が生存率が高かった」というデータがあったとしても、それが本当に薬の効果なのか、あるいは対象患者の年齢や重症度が異なってい [&#8230;]]]></description>
										<content:encoded><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2026/01/統計のYoutubeアイキャッチ-1024x576.png" class="webfeedsFeaturedVisual" /></p>
<p>臨床研究や疫学調査において、最も困難かつ重要な課題は「因果関係の証明」です。</p>



<p>「薬Aを投与した群の方が生存率が高かった」というデータがあったとしても、それが本当に薬の効果なのか、あるいは対象患者の年齢や重症度が異なっていただけなのか（<a href="https://best-biostatistics.com/design/kouraku2.html" data-type="post" data-id="78">交絡</a>）を見極める必要があります。</p>



<p>従来、こうした背景因子の調整には、「測定した変数をすべて多変量解析モデル（<a href="https://best-biostatistics.com/correlation_regression/logistic.html" data-type="post" data-id="5410">ロジスティック回帰</a>や<a href="https://best-biostatistics.com/surviv/cox.html" data-type="post" data-id="5433">Cox比例ハザードモデル</a>など）に投入する」というアプローチが取られがちでした。しかし、近年の因果推論の枠組みにおいて、この方法は<strong><a href="https://best-biostatistics.com/design/bias.html" data-type="post" data-id="74">偏り（バイアス）</a>を生む危険性</strong>が指摘されています。</p>



<p>そこで不可欠となるツールが、DAG（Directed Acyclic Graph：有向非巡回グラフ）です。</p>



<p>この記事では、医療統計におけるDAGの理論的背景から、交絡因子・中間因子・合流点の見分け方、そして具体的な共変量の調整手順までを、徹底解説します。</p>



<hr class="wp-block-separator has-alpha-channel-opacity"/>



<h2 class="wp-block-heading">医療統計におけるDAGの役割とは？</h2>



<figure class="wp-block-image size-large"><img decoding="async" width="1024" height="505" src="https://best-biostatistics.com/wp/wp-content/uploads/2026/01/Fig-S1-e1767591970718-1024x505.jpg" alt="" class="wp-image-8719" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2026/01/Fig-S1-e1767591970718-1024x505.jpg 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2026/01/Fig-S1-e1767591970718-300x148.jpg 300w, https://best-biostatistics.com/wp/wp-content/uploads/2026/01/Fig-S1-e1767591970718-768x379.jpg 768w, https://best-biostatistics.com/wp/wp-content/uploads/2026/01/Fig-S1-e1767591970718-1536x757.jpg 1536w, https://best-biostatistics.com/wp/wp-content/uploads/2026/01/Fig-S1-e1767591970718-2048x1010.jpg 2048w" sizes="(max-width: 1024px) 100vw, 1024px" /></figure>



<p>DAGは、単なる「変数間の関係図」ではありません。</p>



<p>それは、研究者が持っている「因果関係に関する仮説（ドメイン知識）」を数学的に記述する言語であり、解析モデルを設計するための設計図です。</p>



<h3 class="wp-block-heading">観察研究における「因果の壁」</h3>



<p>ランダム化比較試験（RCT）であれば、対象者の背景因子はランダムに割り付けられるため、交絡因子の影響を最小限に抑えることができます。しかし、倫理的・費用的な制約からRCTが実施できないケースは多く、観察研究（コホート研究や症例対照研究）に頼らざるを得ない場面が多々あります。</p>



<p>観察研究で因果効果を推定するためには、「<a href="https://best-biostatistics.com/design/hikaku.html" data-type="post" data-id="71">比較可能性（Exchangeability）</a>」を担保するために適切な統計学的調整が必要です。ここで、「何を調整すべきか」を誤ると、真実とは逆の結果が導き出されてしまうことさえあります。</p>



<p>DAGは、この「調整の選択」を論理的に行うための羅針盤となります。</p>



<h3 class="wp-block-heading">DAGを構成する基本要素</h3>



<p>DAGは、以下の要素で構成されます。</p>



<ul class="wp-block-list has-swl-gray-background-color has-background">
<li><strong>ノード（Nodes/Vertices）：</strong> 変数。曝露（<em>X</em>）、アウトカム（<em>Y</em>）、その他の共変量（<em>Z, C, M</em>など）。</li>



<li><strong>エッジ（Edges）：</strong> 変数を結ぶ矢印。<em>X  → Y</em>は、「<em>X</em>が変化すれば <em>Y</em>も変化する可能性がある」という因果の流れを示します。</li>



<li><strong>パス（Path）：</strong> 変数をつなぐ経路。矢印の向きに関わらず、隣り合う変数を辿るルートのことです。</li>
</ul>



<p>「非巡回（Acyclic）」という名前の通り、矢印を辿って元の場所に戻るループ構造は許されません。これは「原因は結果よりも時間的に先行する」という因果の原則に基づいています。</p>



<hr class="wp-block-separator has-alpha-channel-opacity"/>



<h2 class="wp-block-heading">3つの基本構造：交絡・媒介・合流点</h2>



<p>DAGを理解する上で最も重要なのは、3つの変数が織りなす「3つの基本パターン」を識別することです。これらを区別せずに解析モデルに投入することは、重大なバイアスにつながります。</p>



<h3 class="wp-block-heading">交絡因子（Confounder）：共通の原因</h3>



<p>最も一般的で、調整が必要なパターンです。</p>



<p>変数 <em>Z</em>が、曝露 <em>X</em>とアウトカム<em> Y</em>の両方の原因になっている状態を指します。これを「フォーク（分岐）構造」とも呼びます。</p>



<ul class="wp-block-list has-swl-gray-background-color has-background">
<li><strong>構造：</strong> <em>X ← Z → Y</em></li>



<li><strong>例：</strong>
<ul class="wp-block-list">
<li><em>X</em>：運動習慣</li>



<li><em>Y</em>：心筋梗塞のリスク</li>



<li><em>Z</em>：年齢（高齢だと運動しにくく、かつ心筋梗塞リスクも高い）</li>
</ul>
</li>
</ul>



<p>この場合、<em>X</em>と <em>Y</em>の間には因果関係がなくても、<em>Z</em>を通じて相関関係が生じます（見かけ上の関連）。</p>



<p>【対応】：Zを調整する必要があります。調整することで<em>X ← Z → Y</em>というバックドア（裏口）パスが遮断され、純粋な<em> X → Y</em>の効果を推定できます。</p>



<h3 class="wp-block-heading">中間因子（Mediator）：因果の通り道</h3>



<p>変数 <em>M</em>が、<em>X</em>から <em>Y</em>への因果の連鎖の途中にある状態です。これを「チェーン（連鎖）構造」と呼びます。</p>



<ul class="wp-block-list has-swl-gray-background-color has-background">
<li><strong>構造：</strong> <em>X → M → Y</em></li>



<li><strong>例：</strong>
<ul class="wp-block-list">
<li><em>X</em>：減塩指導</li>



<li><em>M</em>：血圧の低下</li>



<li><em>Y</em>：脳卒中の発症の有無</li>
</ul>
</li>
</ul>



<p>研究の目的が「減塩指導（<em>X</em>）そのものの総合的な効果」を知ることである場合、<em>M</em>を調整してはいけません。なぜなら、<em>M</em>を一定に固定（調整）してしまうと、血圧低下による脳卒中予防効果という「治療のメインルート」を遮断してしまうからです。</p>



<p>【対応】：トータルな効果を見たい場合、調整してはいけません。</p>



<h3 class="wp-block-heading">合流点（Collider）：共通の結果</h3>



<p>最も直感に反し、かつ誤りやすいパターンです。</p>



<p>変数 Cが、Xと Yの両方から影響を受けている（結果である）状態です。</p>



<ul class="wp-block-list has-swl-gray-background-color has-background">
<li><strong>構造：</strong> <em>X → C ← Y</em></li>



<li><strong>例：</strong>
<ul class="wp-block-list">
<li><em>X</em>：インフルエンザ感染</li>



<li><em>Y</em>：骨折</li>



<li><em>C</em>：入院（インフルエンザでも入院するし、骨折でも入院する）</li>
</ul>
</li>
</ul>



<p>通常、インフルエンザと骨折には因果関係はありません。しかし、ここで「入院患者（<em>C</em>）」だけにデータを限定して解析（層別化・調整）するとどうなるでしょうか？</p>



<p>「入院しているが、インフルエンザではない」患者は、高い確率で「骨折している」ことになります。つまり、本来無関係なはずの <em>X</em>と <em>Y</em>の間に、人工的な負の相関が生まれてしまうのです。</p>



<p>【対応】：合流点は絶対に調整してはいけません。これを調整することで生じる歪みを「合流点バイアス（Collider bias）」あるいは「選択バイアス」と呼びます。</p>



<hr class="wp-block-separator has-alpha-channel-opacity"/>



<h2 class="wp-block-heading">「バックドア基準」による共変量の選択手順</h2>



<p>では、実際の複雑なDAGにおいて、どの変数を調整すべきかをどう判断すればよいのでしょうか。そのための明確なルールが、Pearlらが提唱した「バックドア基準（Back-door Criterion）」です。</p>



<h3 class="wp-block-heading">3-1. バックドア・パスとは</h3>



<p><em>X</em>から<em> Y</em>への因果効果を推定したいとき、<em>X</em>から出ていく矢印（<em>X → ・・・ → Y</em>）は「因果パス」であり、これは知りたい効果そのものです。</p>



<p>一方、<em>X</em>に入ってくる矢印から始まるパス（<em>X ← ・・・ → Y</em>）は、因果関係ではない相関を生み出す邪魔な経路です。これを「バックドア・パス」と呼びます。</p>



<h3 class="wp-block-heading">3-2. 共変量選択のアルゴリズム</h3>



<p>正しい因果効果を得るためには、以下の条件を満たす共変量のセット <em>Z</em>を見つけ出し、調整する必要があります。</p>



<ol start="1" class="wp-block-list has-swl-gray-background-color has-background">
<li>因果の道を邪魔しない：<em>Z</em>の中に、<em>X</em>から<em> Y</em>への因果パス上にある変数（中間因子）が含まれていてはならない。</li>



<li>裏口を塞ぐ：<em>Z</em>で調整することで、<em>X</em>と<em>Y</em>を結ぶすべてのバックドア・パスが「ブロック（遮断）」されること。</li>
</ol>



<p>【パスがブロックされる条件】</p>



<p>あるパスは、以下のいずれかの場合に「ブロック」されているとみなされます。</p>



<ul class="wp-block-list has-swl-gray-background-color has-background">
<li>パス上の「交絡因子（<em>A ← Z → B</em>）」または「中間因子（<em>A → M → B</em>）」が<strong>調整されている</strong>場合。</li>



<li>パス上の「合流点（<em>A → C ← B</em>）」が<strong>調整されていない</strong>場合。（※合流点は、何もしなければ最初から道を塞いでいますが、調整すると道が開通してしまう性質があります）</li>
</ul>



<hr class="wp-block-separator has-alpha-channel-opacity"/>



<h2 class="wp-block-heading">ケーススタディ：実際の臨床研究シナリオ</h2>



<p>具体的なシナリオを用いて、DAGを使った変数選択のプロセスをシミュレーションしてみましょう。</p>



<p>【研究テーマ】</p>



<p>新規糖尿病薬（<em>X</em>）の使用が、腎機能障害の進行（<em>Y</em>）を抑制するかどうかを、電子カルテデータを用いて検証したい。</p>



<p><strong>【検討すべき変数】</strong></p>



<ol start="1" class="wp-block-list has-swl-gray-background-color has-background">
<li><strong>年齢（Age）：</strong> 高齢者は糖尿病薬が処方されやすく（適応による）、かつ腎機能も低下しやすい。
<ul class="wp-block-list">
<li>構造：<em>X ← Age → Y</em></li>



<li>判定：<strong>交絡因子</strong>。バックドアを開いているため、<strong>調整が必要</strong>。</li>
</ul>
</li>



<li><strong>HbA1c値（血糖コントロール）：</strong> 薬（X）によってHbA1cが改善し、その結果として腎機能（Y）が守られる。
<ul class="wp-block-list">
<li>構造：<em>X → HbA1c → Y</em></li>



<li>判定：<strong>中間因子</strong>。これを調整すると薬の効果が見えなくなるため、<strong>調整してはいけません</strong>。</li>
</ul>
</li>



<li><strong>社会経済的地位（SES）：</strong> 裕福な人は新薬（<em>X</em>）にアクセスしやすく、かつ栄養状態が良いため腎機能（<em>Y</em>）も保たれやすい。
<ul class="wp-block-list">
<li>構造：<em>X ← SES → Y</em></li>



<li>判定：<strong>交絡因子</strong>。<strong>調整が必要</strong>。</li>
</ul>
</li>



<li><strong>過去の腎機能値（Baseline Kidney Function）：</strong> 過去に腎機能が悪いと、腎保護作用のある新薬（<em>X</em>）が処方されやすく、当然現在の腎機能（<em>Y</em>）にも影響する。
<ul class="wp-block-list">
<li>構造：<em>X ← Baseline → Y</em></li>



<li>判定：<strong>交絡因子</strong>。<strong>調整が必要</strong>。</li>
</ul>
</li>



<li><strong>調査期間中の入院（Hospitalization）：</strong> 薬の副作用で入院することもあり（<em>X → H</em>）、腎機能悪化でも入院する（<em>Y → H</em>）。入院患者だけのデータセットで解析しようとしている。
<ul class="wp-block-list">
<li>構造：<em>X → Hospitalization ← Y</em></li>



<li>判定：<strong>合流点</strong>。入院患者に限定（調整）するとバイアスが生じるため、可能な限り<strong>調整・限定すべきではない</strong>（あるいは解析時に感度分析が必要）。</li>
</ul>
</li>
</ol>



<p>【結論：モデルに投入すべき変数】</p>



<p>年齢、SES、過去の腎機能値。</p>



<p>（HbA1cと入院の有無はモデルから除外する）</p>



<p>このように、DAGを描くことで「HbA1cは重要だから入れておこう」という安易な判断が、実は過剰調整であったことに気づくことができます。</p>



<hr class="wp-block-separator has-alpha-channel-opacity"/>



<h2 class="wp-block-heading">5. DAG作成の注意点と限界</h2>



<p>DAGは強力なツールですが、魔法の杖ではありません。運用上の注意点も理解しておく必要があります。</p>



<h3 class="wp-block-heading">5-1. ドメイン知識への依存</h3>



<p>DAGはデータから自動的に生成されるものではありません（因果探索という分野もありますが、基本的には人間が描くものです）。</p>



<p>つまり、「矢印をどう引くか」は、研究者の医学的・生物学的な知識に完全に依存します。未知の交絡因子を見落としていたり、矢印の向きが逆だったりすれば、DAGに基づいた調整も誤ったものになります。</p>



<p>そのため、DAGの作成は統計家だけでなく、臨床医や基礎研究者を含めたチームでのディスカッションが不可欠です。</p>



<h3 class="wp-block-heading">5-2. 未測定交絡因子の存在</h3>



<p>DAGを描いた結果、「この<em> U</em>という変数を調整しなければならない」と分かったとします。しかし、そのデータがカルテに残っていなければ、統計的な調整は不可能です。</p>



<p>DAGは「調整できないバイアスが残っていること」を自覚させてくれるツールでもあります。この場合、論文のLimitation（限界）セクションに「未測定の交絡因子<em>U</em>の影響により、結果が過大評価されている可能性がある」と正直に記述することが誠実な態度です。</p>



<hr class="wp-block-separator has-alpha-channel-opacity"/>



<h2 class="wp-block-heading">6. まとめ：統計モデルの前に、まずDAGを描こう</h2>



<p>医療統計におけるDAG（有向非巡回グラフ）の活用について解説しました。</p>



<ul class="wp-block-list">
<li><strong>因果の地図：</strong> DAGは、変数間の因果関係を可視化し、バイアスの構造を明らかにするための設計図である。</li>



<li><strong>3つの基本形：</strong>
<ul class="wp-block-list">
<li><strong>交絡因子（フォーク）：</strong> 共通の原因。<strong>調整する。</strong></li>



<li><strong>中間因子（チェーン）：</strong> 因果の経路。<strong>調整しない</strong>（トータル効果を見たい場合）。</li>



<li><strong>合流点（コライダー）：</strong> 共通の結果。<strong>調整しない</strong>（バイアスを生むため）。</li>
</ul>
</li>



<li><strong>バックドア基準：</strong> どの変数を調整すべきかを論理的に決定するルール。</li>
</ul>



<p>「多変量解析を行えば、すべての背景因子が調整される」という考えは、現代の因果推論においては過去のものとなりつつあります。</p>



<p>p値を計算するプログラムを回す前に、まずは紙とペン、あるいは「<a href="https://www.dagitty.net/">DAGitty</a>」のようなツールを使ってDAGを描いてみてください。そうすることで、あなたの研究結果はより堅牢で、科学的に信頼性の高いものになるはずです。</p>




]]></content:encoded>
					
					<wfw:commentRss>https://best-biostatistics.com/correlation_regression/dag.html/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>級内相関係数とは？ICCの意味と計算式をわかりやすく解説！</title>
		<link>https://best-biostatistics.com/correlation_regression/icc.html</link>
					<comments>https://best-biostatistics.com/correlation_regression/icc.html#comments</comments>
		
		<dc:creator><![CDATA[beat1115]]></dc:creator>
		<pubDate>Wed, 23 Jul 2025 03:00:32 +0000</pubDate>
				<category><![CDATA[相関と回帰分析]]></category>
		<guid isPermaLink="false">https://best-biostatistics.com/?p=4906</guid>

					<description><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2021/07/1627305298479-e1753241484102-1024x591.png" class="webfeedsFeaturedVisual" /></p>級内相関係数(ICC:intraclass correlation coefficients)は、研究で何か計測を行う時にしばしば登場する指標です。 論文でも「ICC(1,1)が〜〜で」というような記載をしばしば見かけま [&#8230;]]]></description>
										<content:encoded><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2021/07/1627305298479-e1753241484102-1024x591.png" class="webfeedsFeaturedVisual" /></p>
<p>級内相関係数(ICC:intraclass correlation coefficients)は、研究で何か計測を行う時にしばしば登場する指標です。</p>



<p>論文でも「ICC(1,1)が〜〜で」というような記載をしばしば見かけます。</p>



<p>でも級内相関係数って一体何なのか、気になっている方も多いのではないでしょうか？</p>



<p><a href="https://best-biostatistics.com/correlation_regression/correlation.html">相関係数</a>は知っているけど、級内相関係数ってなんだろう。。</p>



<p>本記事ではそんな方のため、級内相関係数の意味や計算方法をなるべくわかりやすく解説していきます。</p>



<p>数学が苦手な方でも大丈夫なのようにわかりやすくしてあるので、安心して下さいね！</p>



<h2 class="wp-block-heading">級内相関係数とは？ICCをわかりやすく解説！</h2>



<figure class="wp-block-image"><img decoding="async" width="1280" height="704" src="https://best-biostatistics.com/wp/wp-content/uploads/2020/08/なぜ_1597646367.jpg" alt="" class="wp-image-4074" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2020/08/なぜ_1597646367.jpg 1280w, https://best-biostatistics.com/wp/wp-content/uploads/2020/08/なぜ_1597646367-300x165.jpg 300w, https://best-biostatistics.com/wp/wp-content/uploads/2020/08/なぜ_1597646367-1024x563.jpg 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2020/08/なぜ_1597646367-768x422.jpg 768w" sizes="(max-width: 1280px) 100vw, 1280px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>まずは級内相関係数の概要を把握していきましょう！</p>



<h3 class="wp-block-heading">級内相関係数とは？</h3>



<p><strong><span class="marker">級内相関係数(ICC)とは、連続量である検査の信頼性を確かめる指標です</span>。</strong></p>



<p>信頼性といっても以下の2つの意味があります。</p>



<p><span class="marker2"><strong>検者内信頼性：同じ人が何回検査をしても同じ値が出る</strong></span><br><span class="marker2"><strong>検者間信頼性：誰が検査をしても同じ値が出る</strong></span></p>



<p>検者内信頼性が低い検査は毎回検査するたびに違う値が出てしまいますし、検者間信頼性が低い検査は、検査者によって違う値が出てしまいます。</p>



<p>どちらが低くても困りますよね。</p>



<p>信頼性が高い検査とは、&#8221;誰が検査を何回とっても、常に同じ値が出る検査&#8221;のことです。</p>



<p>級内相関係数はその検査の信頼性が高いかどうか確かめる指標、というわけです。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>ちなみに、<a href="https://best-biostatistics.com/ezr/kappa.html">カテゴリカル変数の検査の一致度合いはカッパ係数</a>が用いられます。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">級内相関係数の種類</h3>



<p>級内相関係数はICC(1,1)というように2種類の数字を使って表現します。</p>



<p>この2つの数字は一体何なのでしょうか？</p>



<p><strong>1つ目の数字は&#8221;何の信頼性か&#8221;を示しています。</strong></p>



<p>1から3まで3種類あり、以下の意味をもっています。</p>



<p><span class="marker2"><strong>ICC(1,~)：検者内信頼性</strong></span><br><span class="marker2"><strong>ICC(2,~)：検者間信頼性</strong></span><br><span class="marker2"><strong>ICC(3,~)：相対一致検者間信頼性</strong></span></p>



<p>主に使うのはICC(1,~)とICC(2,~)で、最初に説明した検者内信頼性と検者間信頼性を示します。</p>



<p>ICC(3,~)はほとんど使われませんが、ICC(2,~)との違いを簡単な例を使って説明しますね。</p>



<p>興味のない方は読み飛ばしても構いません。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>例えば身長を測る係の人が3人いるとしましょう。</p>



<p>そのうち1人はバーを力強く押し付けてくるため実際の身長より1cm低く測定してきます。</p>



<p>ですので同じ人を測定しても、その人だけは常に1cm低い検査結果になります。</p>



<p>このようなケースだと、ICC(2,~)だと信頼性が低くなりますが、ICC(3,~)だと信頼性は下がりません。</p>



<p>ただこのようなケースはほとんどありませんので、ICC(3,~)が使われることはほとんどありません。</p>



<p>まずは<span class="marker"><strong>ICC(1,~)なら検者内、ICC(2,~)なら検者間の信頼性の指標だと覚えておきましょう。</strong></span></p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>次に2つ目の数字の意味を解説します。</p>



<p><span class="marker2"><strong>2つ目の数字は&#8221;同じ検者が同じ人に同じ計測を何回したか&#8221;を示します。</strong></span></p>



<p>例えば1人の検者が1人の被験者に3回ずつ測定を行い、その平均値を使って級内相関係数を求めた場合、ICC(1,3)となります。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">級内相関係数の解釈</h3>



<p><strong>ICCは0~1の値をとり、基本的に0.7以上であれば信頼性があると判定します。</strong></p>



<p>ただ0.7という基準に理論的根拠はないため、あくまで目安として捉えるようにしましょう。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">級内相関係数の求め方をエクセルで解説！</h2>



<p>級内相関係数はエクセルでも計算できますので、その具体例を解説します！</p>



<h3 class="wp-block-heading">級内相関係数の計算式</h3>



<p>ICC(1,1)の計算式は以下のようになります。</p>



<figure class="wp-block-image"><img decoding="async" width="311" height="43" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/07/Screenshot-2021-07-26-16.24.06.png" alt="" class="wp-image-4908" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2021/07/Screenshot-2021-07-26-16.24.06.png 311w, https://best-biostatistics.com/wp/wp-content/uploads/2021/07/Screenshot-2021-07-26-16.24.06-300x41.png 300w" sizes="(max-width: 311px) 100vw, 311px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<ul class="wp-block-list">
<li>BMS=サンプル間の変動</li>



<li>WMS=&#8221;測定ごとの変動&#8221;＋&#8221;誤差&#8221;</li>



<li>k=測定回数</li>
</ul>



<p>このままだとよく分かりませんね(^^;)</p>



<p>この計算式を解説すると数学の授業になってしまうので、ひとまず「こんな計算式なのね」と認識していただければ十分です。</p>



<p>後は実際にエクセルで級内相関係数を求めながら理解していきましょう！</p>



<h3 class="wp-block-heading">級内相関係数をエクセルで計算するためのデータの準備</h3>



<p>具体例を使って級内相関係数を計算してみましょう。</p>



<p>ある検者が10人の被験者の身長を2回ずつ測定したとしましょう。</p>



<p>この時の測定の検者内信頼性を級内相関係数を使って確認します。</p>



<p>データはこのようにまとめました。</p>



<figure class="wp-block-image"><img decoding="async" width="367" height="387" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/07/スクリーンショット-28.png" alt="" class="wp-image-4910" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2021/07/スクリーンショット-28.png 367w, https://best-biostatistics.com/wp/wp-content/uploads/2021/07/スクリーンショット-28-284x300.png 284w" sizes="(max-width: 367px) 100vw, 367px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>2回の測定のばらつき(変動)が少なければ少ないほどこの場合、級内相関係数は高くなるはずです。</p>



<h3 class="wp-block-heading">BMS,WMSを計算</h3>



<p>厄介なBMSとWMSの計算ですが、実は簡単に計算する方法があります。</p>



<p>まずはエクセルのデータ分析機能を使って、&#8221;繰り返しのない二元配置分散分析&#8221;という分析をしてみましょう。</p>



<p>エクセルのデータタブを開くとデータ分析という項目があります。（ない方はアドインで追加しましょう）</p>



<figure class="wp-block-image"><img decoding="async" width="1830" height="601" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/07/スクリーンショット-29.png" alt="" class="wp-image-4911" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2021/07/スクリーンショット-29.png 1830w, https://best-biostatistics.com/wp/wp-content/uploads/2021/07/スクリーンショット-29-300x99.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2021/07/スクリーンショット-29-1024x336.png 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2021/07/スクリーンショット-29-768x252.png 768w, https://best-biostatistics.com/wp/wp-content/uploads/2021/07/スクリーンショット-29-1536x504.png 1536w" sizes="(max-width: 1830px) 100vw, 1830px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p><strong>この&#8221;データ分析&#8221;をクリックして&#8221;繰り返しのない二元配置分散分析&#8221;を選択、先ほどの表をデータ範囲に指定しましょう。</strong></p>



<p>実行すると以下の表が出力されます。</p>



<figure class="wp-block-image"><img decoding="async" width="690" height="786" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/07/スクリーンショット-30.png" alt="" class="wp-image-4912" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2021/07/スクリーンショット-30.png 690w, https://best-biostatistics.com/wp/wp-content/uploads/2021/07/スクリーンショット-30-263x300.png 263w" sizes="(max-width: 690px) 100vw, 690px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>下の&#8221;分散分析表&#8221;を使えばBMSとWMSを簡単に算出できます。</p>



<p><strong>BMS=&#8221;行&#8221;の分散</strong><br><strong>WMS=(&#8220;列&#8221;の変動 + &#8220;誤差&#8221;の変動) / (&#8220;列&#8221;の自由度 + &#8220;誤差&#8221;の自由度)</strong><br><strong>k=2(今回は2回測定しているため）</strong></p>



<p>エクセルの数式は以下のようになります。</p>



<figure class="wp-block-image"><img decoding="async" width="829" height="415" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/07/Screenshot-2021-07-26-21.41.29.png" alt="" class="wp-image-4914" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2021/07/Screenshot-2021-07-26-21.41.29.png 829w, https://best-biostatistics.com/wp/wp-content/uploads/2021/07/Screenshot-2021-07-26-21.41.29-300x150.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2021/07/Screenshot-2021-07-26-21.41.29-768x384.png 768w" sizes="(max-width: 829px) 100vw, 829px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">級内相関係数を算出</h3>



<p>BMS,WMS,kが算出できたので、後は最初に説明した数式を組み込むだけです。</p>



<figure class="wp-block-image"><img decoding="async" width="311" height="43" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/07/Screenshot-2021-07-26-16.24.06.png" alt="" class="wp-image-4908" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2021/07/Screenshot-2021-07-26-16.24.06.png 311w, https://best-biostatistics.com/wp/wp-content/uploads/2021/07/Screenshot-2021-07-26-16.24.06-300x41.png 300w" sizes="(max-width: 311px) 100vw, 311px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>実際にエクセルに入力すると以下のようになります。</p>



<figure class="wp-block-image"><img decoding="async" width="893" height="415" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/07/Screenshot-2021-07-26-21.48.33.png" alt="" class="wp-image-4917" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2021/07/Screenshot-2021-07-26-21.48.33.png 893w, https://best-biostatistics.com/wp/wp-content/uploads/2021/07/Screenshot-2021-07-26-21.48.33-300x139.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2021/07/Screenshot-2021-07-26-21.48.33-768x357.png 768w" sizes="(max-width: 893px) 100vw, 893px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>最後にEnterキーで級内相関係数を算出できます。</p>



<figure class="wp-block-image"><img decoding="async" width="813" height="412" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/07/Screenshot-2021-07-26-21.49.10.png" alt="" class="wp-image-4915" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2021/07/Screenshot-2021-07-26-21.49.10.png 813w, https://best-biostatistics.com/wp/wp-content/uploads/2021/07/Screenshot-2021-07-26-21.49.10-300x152.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2021/07/Screenshot-2021-07-26-21.49.10-768x389.png 768w" sizes="(max-width: 813px) 100vw, 813px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>ICC(1,1)=0.97ですので、検者内信頼性は高いと言えそうです。</p>



<p>ちなみに測定ごとのデータの変動を反映するWMSの値を大きくすると結果はこのように変わります。</p>



<figure class="wp-block-image"><img decoding="async" width="893" height="133" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/07/Screenshot-2021-07-26-21.48.47.png" alt="" class="wp-image-4916" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2021/07/Screenshot-2021-07-26-21.48.47.png 893w, https://best-biostatistics.com/wp/wp-content/uploads/2021/07/Screenshot-2021-07-26-21.48.47-300x45.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2021/07/Screenshot-2021-07-26-21.48.47-768x114.png 768w" sizes="(max-width: 893px) 100vw, 893px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>このように測定ごとのデータの変動(ばらつき)が大きいほどICCも下がります。</p>



<p>いかがでしょうか？</p>



<p>計算式で見ると難しいですが、エクセルの計算自体はそこまで難しいわけではありません。</p>



<p>エクセルでICCを算出する際は、是非参考にしてくださいね。</p>



<h2 class="wp-block-heading">まとめ</h2>



<figure class="wp-block-image"><img decoding="async" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/05/interface-3614766_1280.png" alt="" class="wp-image-4544"/></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>最後におさらいをしましょう。</p>



<div class="simple-box7">
<ul>
<li><strong>級内相関係数とは検査の信頼性を示す指標</strong></li>
<li><strong>ICC(1,~)は検者内信頼性、ICC(2,~)は検者間信頼性を示す</strong></li>
<li><strong>ICC(~,n)は同じ被験者にn回測定を繰り返し、その平均値を使って算出する</strong></li>
<li><strong>ICCは0~1の値をとり、基本的に0.7以上であれば信頼性があると判定する</strong></li>
</ul>
</div>



<p>級内相関係数はエビデンスの乏しい検査方法を採用する時に必ず必要になってきます。</p>



<p>級内相関係数を計算していないためにリジェクトされるケースもよくあります。</p>



<p>そのため少し難しいところもありますが、この記事の内容を是非覚えておいて下さいね！</p>



<p>最後までお読みいただきありがとうございました。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>＞＞<a href="https://best-biostatistics.com/ezr/ezr-icc.html">EZRで級内相関係数（ICC）を算出する方法</a></p>
]]></content:encoded>
					
					<wfw:commentRss>https://best-biostatistics.com/correlation_regression/icc.html/feed</wfw:commentRss>
			<slash:comments>1</slash:comments>
		
		
			</item>
		<item>
		<title>最小二乗平均（LSMean）とは？共分散分析で有意差がある場合とない場合のパターン</title>
		<link>https://best-biostatistics.com/correlation_regression/lsmean.html</link>
					<comments>https://best-biostatistics.com/correlation_regression/lsmean.html#comments</comments>
		
		<dc:creator><![CDATA[beat1115]]></dc:creator>
		<pubDate>Tue, 01 Jul 2025 22:00:04 +0000</pubDate>
				<category><![CDATA[相関と回帰分析]]></category>
		<guid isPermaLink="false">https://best-biostatistics.com/?p=5791</guid>

					<description><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/統計のYoutubeアイキャッチ-7-1024x576.jpg" class="webfeedsFeaturedVisual" /></p>この記事では「最小二乗平均（LSMean）とは？共分散分析で有意差がある場合とない場合のパターン」としてお伝えします。 論文を読んでいると最小二乗平均（LSMean）という単語が出てくる場合がありますよね。 最小二乗平均 [&#8230;]]]></description>
										<content:encoded><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/統計のYoutubeアイキャッチ-7-1024x576.jpg" class="webfeedsFeaturedVisual" /></p>
<p>この記事では「最小二乗平均（LSMean）とは？共分散分析で有意差がある場合とない場合のパターン」としてお伝えします。</p>



<p>論文を読んでいると最小二乗平均（LSMean）という単語が出てくる場合がありますよね。</p>



<p>最小二乗平均を知らない場合、普通の平均値と何が違うの？と疑問に思うかなと思います。</p>



<p>そのためこの記事では</p>



<ul class="wp-block-list">
<li><strong>最小二乗平均値と普通の平均値（算術平均値）と何が違うのか？</strong></li>



<li><strong>最小二乗平均値を用いた解析である共分散分析の例</strong></li>



<li><strong>共分散分析で有意差がある場合とない場合のパターンについて解釈</strong></li>
</ul>



<p>を具体的にお伝えします！</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">最小二乗平均とは？算術平均と何が違う？</h2>



<figure class="wp-block-image"><img decoding="async" width="2560" height="1087" src="https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_407319626-scaled.jpeg" alt="" class="wp-image-5785" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_407319626-scaled.jpeg 2560w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_407319626-300x127.jpeg 300w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_407319626-1024x435.jpeg 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_407319626-768x326.jpeg 768w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_407319626-1536x652.jpeg 1536w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_407319626-2048x869.jpeg 2048w" sizes="(max-width: 2560px) 100vw, 2560px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>まずは最小二乗平均と算術平均との違いを整理していきましょう！</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">算術平均値とは？</h3>



<p>算術平均値とは、皆さんが日ごろから使っている”平均値”と同じ意味となります（それほど多くはないと思いますが”相加平均値”という用語が使われることもあるようです）。</p>



<p>例えばある3つの値1、2、3があるとしましょう。</p>



<p>その算術平均値は、(1+2+3)/3と計算して、2となります。</p>



<p>算術平均値のよくある使い方としては、ある集団での代表的な値を示すために用いられます。具体的には、ある学校に所属する学生の身長などが挙げられますね。</p>



<p>いわゆる<a href="https://best-biostatistics.com/biostat/data.html">量的データ（連続量）</a>に対する<a href="https://best-biostatistics.com/summary/sum-stat.html">「要約統計量」</a>を算出する際には算術平均値が用いられます。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">最小二乗平均値とは？</h3>



<p>では、最小二乗平均値とはなんでしょうか。</p>



<p>英語ではLS Mean (Least Square Mean)と表記され、個人的な印象では”最小二乗平均値”よりも”LS Mean”や”LSM”の用語を用いることの方が多いです。</p>



<p>さて、ここで<a href="https://best-biostatistics.com/correlation_regression/regression.html">回帰分析</a>を既に勉強した方であれば、”最小二乗”という用語にピンときたかもしれません。</p>



<p>簡単に説明しますと、<a href="https://best-biostatistics.com/correlation_regression/saiyuu-saishou.html">最小二乗平均値とは最小二乗法により求められた（今回の説明では）直線上の”ある点”</a>となります。</p>



<p>これでは分かりづらいと思いますので、具体的な例やイメージ図を用いながら説明していきましょう。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>例えば以下のようなデータがあったとして、これからYの最小二乗平均値を求めたいと思います。</p>



<figure class="wp-block-table"><table class="has-fixed-layout"><tbody><tr><td>X</td><td>Y</td></tr><tr><td>1</td><td>10</td></tr><tr><td>1</td><td>40</td></tr><tr><td>2</td><td>20</td></tr><tr><td>2</td><td>50</td></tr></tbody></table></figure>



<p>まずデータを散布図にしてみると、下記の図のようになります。</p>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="556" height="330" src="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu.png" alt="" class="wp-image-5794" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu.png 556w, https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu-300x178.png 300w" sizes="(max-width: 556px) 100vw, 556px" /></figure>
</div>


<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>青い点が各データを示しています。</p>



<p>次に最小二乗法による直線（赤線）を求める方法ですが、非常に簡単に説明しますと上記の図の②（あるデータから直線までの距離）の合計値（今回の場合は4つ）が最小となるような直線（①）を探していくこととなります（具体的な計算方法は、ここでは省略させていただきます）。</p>



<p>先ほど<span class="marker"><strong>最小二乗平均値とは、「最小二乗法により求められた直線上の”ある点”」</strong></span>と説明しました。</p>



<p>直線上の点は、直線上で文字通り無数に存在します。</p>



<p>ではどの点が最小二乗平均値なのでしょうか。</p>



<p>それは、<span style="color: #ff0000;"><strong>”Xの平均値のときのYの値”が最小二乗平均値</strong></span>となります。</p>



<p>ですので上記の例では、<span style="color: #ff0000;"><strong>Xの平均値（1+1+2+2）/4、つまりXが1.5のときのYの値30（図の③）が最小二乗平均値</strong></span>となります。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">算術平均値と最小二乗平均値の同じところと違うところ</h3>



<p>算術平均値と最小二乗平均値のそれぞれがわかったところで、算術平均値と最小二乗平均値同じところと違うところについて説明していきます。</p>



<p>先ほど最小二乗平均値の説明の箇所で”最小二乗法”という用語が出てきました。</p>



<p>普段私たちは意識していないかもしれませんが、<span style="text-decoration: underline;"><strong>算術平均値も最小二乗法を用いて算出することができます</strong></span>。</p>



<p>例えば以下の通り、Yだけのデータがあったとします。</p>



<figure class="wp-block-table"><table class="has-fixed-layout"><tbody><tr><td>Y</td></tr><tr><td>10</td></tr><tr><td>40</td></tr><tr><td>20</td></tr><tr><td>50</td></tr></tbody></table></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>この時算出する算術平均値とは、言い換えれば「最小二乗法により求められた”ある点”（以下の図の青色の×）」となります。</p>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="434" height="244" src="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu2-1.png" alt="" class="wp-image-5797" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu2-1.png 434w, https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu2-1-300x169.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu2-1-320x180.png 320w" sizes="(max-width: 434px) 100vw, 434px" /></figure>
</div>


<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>最小二乗平均値との違いは、「直線上の”ある点”」の”直線上”という文言の有無でしかありません。</p>



<p>では、「直線上のある点」と只の「ある点」との違いとは何でしょうか？</p>



<p>中学生の時、直線を1次関数でY=aX + bのように表現できると習ったかと思います（YとXは変数（変化する値）、aとｂは決まった値）。</p>



<p>”ある点”を定数と読み替えるとY=bと表現することができ、この式は、1次関数Y=aX + bのaが0（つまり傾きが0）であった場合と考えることが出来ます。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>以上をまとめますと、<strong>算術平均値と最小二乗平均値の同じところは、共に最小二乗法により求めることができるということ</strong>です。</p>



<p>そして<span class="marker"><strong>最小二乗法を用いる際に直線（Y = aX + b）を用いるか、それとも定数（Y = b）を用いるかが両者の違い</strong></span>となります。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>







<h2 class="wp-block-heading">最小二乗平均値が用いられる解析手法の例</h2>



<figure class="wp-block-image"><img decoding="async" width="2560" height="1184" src="https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_136231126-scaled-e1649649906579.jpeg" alt="" class="wp-image-5671" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_136231126-scaled-e1649649906579.jpeg 2560w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_136231126-scaled-e1649649906579-300x139.jpeg 300w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_136231126-scaled-e1649649906579-1024x474.jpeg 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_136231126-scaled-e1649649906579-768x355.jpeg 768w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_136231126-scaled-e1649649906579-1536x710.jpeg 1536w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_136231126-scaled-e1649649906579-2048x947.jpeg 2048w" sizes="(max-width: 2560px) 100vw, 2560px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p><a href="https://best-biostatistics.com/correlation_regression/ancova.html">最小二乗平均値が用いられる解析手法として、共分散分析（ANCOVA：Analysis of Co-Variance）</a>があります。</p>



<p>さて、共分散分析を簡単に説明すると、回帰分析と分散分析を併せた分析方法です。</p>



<p><a href="https://best-biostatistics.com/design/kouraku2.html">交絡因子</a>を調整した2グループのアウトカム（ある値）の違いを解析したい場合に良く用いられます。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>例えば以下の通りのデータがあったとして、A剤グループとB剤グループとの間でYの値に違いがあるか知りたいとします。</p>



<figure class="wp-block-table"><table class="has-fixed-layout"><tbody><tr><td rowspan="2">X</td><td colspan="2">Y</td><td rowspan="2">Yの<br>平均値</td></tr><tr><td>A剤グループ</td><td>B剤グループ</td></tr><tr><td>1</td><td>1</td><td rowspan="4">&nbsp;</td><td rowspan="4">2.75</td></tr><tr><td>2</td><td>3</td></tr><tr><td>3</td><td>2</td></tr><tr><td>4</td><td>5</td></tr><tr><td>5</td><td rowspan="4">&nbsp;</td><td>5</td><td rowspan="4">6.50</td></tr><tr><td>6</td><td>7</td></tr><tr><td>7</td><td>6</td></tr><tr><td>8</td><td>8</td></tr></tbody></table></figure>



<p>Yの算術平均値は通りそれぞれのグループで2.75と6.50であり、グループ間でY値に違いがありそうです。</p>



<p>次にデータを散布図にしてみました。</p>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="500" height="352" src="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu3.png" alt="" class="wp-image-5798" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu3.png 500w, https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu3-300x211.png 300w" sizes="(max-width: 500px) 100vw, 500px" /></figure>
</div>


<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>そうすると、<span style="text-decoration: underline;"><strong>Y値に違いがありそうであるのと同時に、Xの値もグループ間で違いがありそうです</strong></span>。</p>



<p>こうなると、<span class="marker"><strong>Y値の違いが、薬剤の違いなのか、X値の違いなのか区別できません</strong></span>。</p>



<p>何とかして”もしXの値がグループ間で同じであった場合の”A剤とB剤グループ間のY値の違いを調べることはできないだろうか？</p>



<p>そのような場合、共分散分析が使えます。</p>



<p>まずグループごとに最小二乗法を用いて直線を求めます。</p>



<p>次に、繰り返し出てくる「直線上の”ある点”」を求めるのですが、共分散分析の場合はちょっと異なり、”便宜的に”A剤とB剤全体の平均値（今回の例では4.5）におけるYの値となります。</p>



<p>つまり、A剤とB剤でぞれぞれ下記の図の水色と緑色の×印の箇所となります。</p>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="504" height="392" src="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu4.png" alt="" class="wp-image-5799" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu4.png 504w, https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu4-300x233.png 300w" sizes="(max-width: 504px) 100vw, 504px" /></figure>
</div>


<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>最後に×印の差（赤線）を調べます。</p>



<p>すると<span class="marker"><strong>Yの算術平均値の差（図の緑線）よりも、最小二乗平均値の差（図の赤線）の方が小さくなり、A剤とB剤グループとでのY値の違いは大きくないように思えます</strong></span>。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">共分散分析を用いるための前提条件・注意点</h3>



<p>共分散分析は、グループぞれぞれの最小二乗平均値を求めてその差を解析する方法ということがわかったかなと思います。</p>



<p>この方法を言い換えると、<span class="marker"><strong>グループ間でＹ値以外の値の分布（今回の例ではＸ）に違いがある時、その違いを調整してＹ値を比較することができる非常に強力な解析方法</strong></span>です。</p>



<p>ですがこの方法を用いる場合には、<span style="color: #ff0000;"><strong>それぞれのグループで決定した直線が平行であることが大前提の解析方法</strong></span>となります。</p>



<p>例えば以下の図では、A剤グループとB剤グループそれぞれの直線は明らかに平行ではありません。</p>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="492" height="358" src="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu5.png" alt="" class="wp-image-5800" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu5.png 492w, https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu5-300x218.png 300w" sizes="(max-width: 492px) 100vw, 492px" /></figure>
</div>






<p>X値が高い箇所では、A剤グループの方でY値が高い（図の赤線）のですが、X値が低い箇所ではB剤グループの方でY値が高く（図の緑線）なっています。</p>



<p>この様な場合、Xと群との間に<a href="https://best-biostatistics.com/design/interaction.html">交互作用</a>があると言い、共分散分析を使用する前提に反していることになります。</p>



<p>ただし、実データで直線が並行になることは稀であり、少なからず傾きが違うはずです。</p>



<p>なのでどこまでの傾きならOKなのか、という程度問題にはなります。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">最小二乗平均を用いた共分散分析での有意差がある場合とない場合の解釈について</h2>



<figure class="wp-block-image"><img decoding="async" width="2560" height="1280" src="https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_275022520-scaled.jpeg" alt="" class="wp-image-5711" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_275022520-scaled.jpeg 2560w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_275022520-300x150.jpeg 300w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_275022520-1024x512.jpeg 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_275022520-768x384.jpeg 768w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_275022520-1536x768.jpeg 1536w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_275022520-2048x1024.jpeg 2048w" sizes="(max-width: 2560px) 100vw, 2560px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>共分散分析を用いた解析結果の解釈について説明していきます。</p>



<p>共分散分析での結果と算術平均値を用いた場合での結果を組み合わせると4パターンを取りうることが予想できます（下表のa、b、c、d）。</p>



<figure class="wp-block-table"><table class="has-fixed-layout"><tbody><tr><td colspan="2" rowspan="2">&nbsp;</td><td colspan="2">算術平均値の差</td></tr><tr><td>なし</td><td>あり</td></tr><tr><td rowspan="2">共分散分析
<p>（最小二乗平均値の差）</p>
</td><td>なし</td><td>a</td><td>b</td></tr><tr><td>あり</td><td>c</td><td>d</td></tr></tbody></table></figure>



<p>これからそれぞれのパターンごとの解釈の仕方について説明していきます。</p>



<p>まずパターンaの一例としては以下のような図が挙げられます。</p>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="432" height="328" src="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu6.png" alt="" class="wp-image-5801" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu6.png 432w, https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu6-300x228.png 300w" sizes="(max-width: 432px) 100vw, 432px" /></figure>
</div>


<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>このような場合は、薬剤グループ間でＹ値の違いは見つからなかったとの結論で問題ないと考えられます。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>次にパターンbの場合は以下の通りで、グループ間のＹ値の差は薬剤の違いが起因しているのではなく、X値の違いであるという解釈が妥当となります。</p>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="408" height="306" src="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu7.png" alt="" class="wp-image-5802" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu7.png 408w, https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu7-300x225.png 300w" sizes="(max-width: 408px) 100vw, 408px" /></figure>
</div>


<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>パターンcの場合は、X値の違いにより薬剤の違いが消えてしまっていると解釈できます。</p>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="460" height="344" src="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu8.png" alt="" class="wp-image-5803" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu8.png 460w, https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu8-300x224.png 300w" sizes="(max-width: 460px) 100vw, 460px" /></figure>
</div>


<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>最後にパターンdの場合は、X値の違いを取り除いたとしても、グループ間で差は認められるという解釈が成り立ちます。</p>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="428" height="324" src="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu9.png" alt="" class="wp-image-5804" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu9.png 428w, https://best-biostatistics.com/wp/wp-content/uploads/2022/05/sanpuzu9-300x227.png 300w" sizes="(max-width: 428px) 100vw, 428px" /></figure>
</div>


<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">まとめ</h2>



<figure class="wp-block-image"><img decoding="async" width="2560" height="1292" src="https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_151521954-scaled-e1649650315422.jpeg" alt="" class="wp-image-5672" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_151521954-scaled-e1649650315422.jpeg 2560w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_151521954-scaled-e1649650315422-300x151.jpeg 300w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_151521954-scaled-e1649650315422-1024x517.jpeg 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_151521954-scaled-e1649650315422-768x388.jpeg 768w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_151521954-scaled-e1649650315422-1536x775.jpeg 1536w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_151521954-scaled-e1649650315422-2048x1034.jpeg 2048w" sizes="(max-width: 2560px) 100vw, 2560px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>いかがでしたか？</p>



<p>この記事では「最小二乗平均（LSMean）とは？共分散分析で有意差がある場合とない場合のパターン」としてお伝えしました。</p>



<ul class="wp-block-list">
<li><strong>最小二乗平均値と普通の平均値（算術平均値）と何が違うのか？</strong></li>



<li><strong>最小二乗平均値を用いた解析である共分散分析の例</strong></li>



<li><strong>共分散分析で有意差がある場合とない場合のパターンについて解釈</strong></li>
</ul>



<p>が理解できたのなら幸いです！</p>
]]></content:encoded>
					
					<wfw:commentRss>https://best-biostatistics.com/correlation_regression/lsmean.html/feed</wfw:commentRss>
			<slash:comments>1</slash:comments>
		
		
			</item>
		<item>
		<title>ステップワイズ法とは？意味や強制投入法との違いなどをわかりやすく解説！</title>
		<link>https://best-biostatistics.com/correlation_regression/stepwise.html</link>
					<comments>https://best-biostatistics.com/correlation_regression/stepwise.html#comments</comments>
		
		<dc:creator><![CDATA[beat1115]]></dc:creator>
		<pubDate>Mon, 30 Jun 2025 21:00:59 +0000</pubDate>
				<category><![CDATA[相関と回帰分析]]></category>
		<guid isPermaLink="false">https://best-biostatistics.com/?p=4647</guid>

					<description><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2021/05/1622444224209-e1750801284241-1024x580.jpg" class="webfeedsFeaturedVisual" /></p>重回帰分析やロジスティック回帰分析などの多変量解析での説明変数を選ぶ際に、よく&#8221;ステップワイズ法&#8221;という方法が使われています。 しかし などといった疑問を持っている方も多いはずです。 最近は「ステ [&#8230;]]]></description>
										<content:encoded><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2021/05/1622444224209-e1750801284241-1024x580.jpg" class="webfeedsFeaturedVisual" /></p>
<p>重回帰分析やロジスティック回帰分析などの<a href="https://best-biostatistics.com/correlation_regression/multi-setumeihennsuu.html">多変量解析での説明変数を選ぶ</a>際に、よく&#8221;ステップワイズ法&#8221;という方法が使われています。</p>



<p>しかし</p>



<ul class="wp-block-list">
<li><strong>「ステップワイズ法ってどんな方法？」</strong></li>



<li><strong>「ステップワイズ法って良いの？」</strong></li>
</ul>



<p>などといった疑問を持っている方も多いはずです。</p>



<p>最近は「ステップワイズ法は使わないほうがいい」という批判もみられるようになってきました。</p>



<p>実際のところはどうなのでしょうか？</p>



<p><strong>本記事ではステップワイズ法とはどういう方法なのか、どんなメリットがあるのか、なぜ批判されるのか、解説していきたいと思います。</strong></p>



<p>初心者の方でも大丈夫なように、なるべく分かりやすく解説していきますね！</p>



<h2 class="wp-block-heading">ステップワイズ法（変数増減法）とはどんな方法？強制投入法との違いは？</h2>



<figure class="wp-block-image"><img decoding="async" width="1280" height="464" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/05/hand-1218086_1280-e1621575517709.png" alt="" class="wp-image-4566" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2021/05/hand-1218086_1280-e1621575517709.png 1280w, https://best-biostatistics.com/wp/wp-content/uploads/2021/05/hand-1218086_1280-e1621575517709-300x109.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2021/05/hand-1218086_1280-e1621575517709-1024x371.png 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2021/05/hand-1218086_1280-e1621575517709-768x278.png 768w" sizes="(max-width: 1280px) 100vw, 1280px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">ステップワイズ法（変数増減法）とは？</h3>



<p><strong>ステップワイズ法とは投入した説明変数の中で、<span style="color: #ff0000;">目的変数と関係する変数を&#8221;自動で&#8221;選んでくれる方法</span>です。</strong></p>



<p>ちなみに変数を選ばずに全部の変数を使って解析する方法は、&#8221;強制投入法&#8221;または&#8221;総当り法&#8221;なんて呼ばれます。</p>



<p>どのように変数を選んでいくのか、具体例を使って説明していきますね。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h4 class="wp-block-heading">ステップワイズ法を例で考える</h4>



<p>たとえば患者の入院期間（入院から退院するまでの日数）に関連する要因を知りたいとしましょう。</p>



<p>この時考えられる要因(説明変数)はたくさんありますが、ここでは&#8221;年齢&#8221;と病気の&#8221;重症度&#8221;、&#8221;治療内容&#8221;の3つに限定します。</p>



<p>いずれも入院期間に影響しそうですが、実際に影響するかどうかは解析してみないと分かりません。</p>



<p>ステップワイズ法（変数増減法）の場合、まずは変数が何もないモデル(これをヌルモデルといいます)を作成します。</p>



<p>もちろんまだ変数がないので、何の予測もできない状態です。</p>



<p>次に&#8221;年齢&#8221;、&#8221;重症度&#8221;、&#8221;治療内容&#8221;の3つの変数の中から1つの変数を選択してモデルを作ります。</p>



<p>ここでどの変数をモデルに入れるのかが問題となります。</p>



<p>そこで<a href="https://best-biostatistics.com/correlation_regression/aic.html">AICやBICといった指標</a>を使うことで、どの変数を選択したモデルが一番良いか判定します。</p>



<p>AICやBICの詳細は難しいので割愛しますが、ひとまずモデルの最適さを示す指標だと覚えておけばOKです。</p>



<p>さて、これで一つの変数を選択したモデルが出来たわけですが、さらに変数を追加した方がよりよいモデルができるかもしれませんよね。</p>



<p>そこで残った2つの変数から更に1つ変数を追加することを検討します。</p>



<p>このように入院期間と関係の強い変数を1つずつどんどん追加していくわけですが、いずれ変数を追加してもAICやBICが変化しなくなります。（関係の強い変数を追加している間はAICやBICは良くなっていきます)</p>



<p>そうなると変数の追加を終了し、今度は余計な変数が入っていないか確認するために、ひとつずつ変数を減らしてAICやBICが変化しないか検討します。</p>



<p>この時にもし入院期間(目的変数)に関係ない変数があれば削除されます。</p>



<p>そうして最終的に入院期間(目的変数)に関係のある変数だけが選択された状態で結果が出力されます。</p>



<p>以上が変数増減法の概要です。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>いかがでしたでしょうか？</p>



<p><strong><span style="text-decoration: underline;">要は<a href="https://best-biostatistics.com/correlation_regression/aic.html" data-type="post" data-id="5092">AIC</a>やBICが最適になるように変数を増やして減らしてを繰り返しているだけ</span></strong>ですね。</p>



<p>このように投入された変数のうち、目的変数に関係のある変数だけを選ぶ方法がステップワイズ変数増減法です。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">変数増減法と変数減増法の違い</h3>



<p><strong>ステップワイズ法というと、一般的に変数増減法を指します。</strong></p>



<p>しかしたまに変数減増法のことをステップワイズ法と呼んでいる場合があるため注意が必要です。</p>



<p>変数減増法は最初に全部の変数を投入したモデルを作り、そこから1つずつ変数を減らしていく方法のことです。</p>



<p>最初に変数のないモデルを作る変数増減法とは逆の方法ですね。</p>



<p><strong>どちらの方法を使うかで、最終的な結果が変わってきます。</strong></p>



<p>どちらの方法がよいかはケース・バイ・ケースなのですが、変数減増法は変数が多すぎる場合やデータ数が少なすぎる場合には使ってはいけません。</p>



<p>基本的には適用範囲が広い変数増減法を使うことをおすすめします。</p>



<h3 class="wp-block-heading">ステップワイズ法のメリット</h3>



<p><strong>ステップワイズ法のメリットは、変数を絞ることができる点です。</strong></p>



<p>変数を絞ることでどんなメリットがあるのでしょうか？</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>少ないデータ数で回帰分析をする場合、基本的に変数を多くすることはNGとされています。</p>



<p><a href="https://best-biostatistics.com/correlation_regression/tahenryou-sample-size.html">重回帰分析の場合はデータ数(n数)÷15までしか変数を入れてはいけないと言われています</a>。</p>



<p>もしn数が100なら変数は多くても7程度までしか入れることができません。（詳細は割愛しますが、変数をたくさん入れすぎると結果が乱れます）</p>



<p>でも「検討したい変数はたくさんあるんだけど、データ数が足りなくて困った！」という時ってありますよね。</p>



<p>そんな時にステップワイズ法が役立ちます。</p>



<p>先ほどご説明したように、ステップワイズ法は少ない変数から検討していくので、変数がたくさん入るすぎるリスクを減らせるというわけです。</p>



<p>このようにステップワイズ法は変数が多すぎる場合でも変数を絞って解析ができるため、論文などで非常によく使われています。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">ステップワイズ法と強制投入法との違いは？</h3>



<p>ステップワイズ法と同じ場面でよく見る用語として「強制投入法」があります。</p>



<p>ステップワイズ法とは投入した説明変数の中で、目的変数と関係する変数を&#8221;自動で&#8221;選んでくれる方法です。</p>



<p>例えば、10個の説明変数を選んだら、その中で統計ソフトがAICなどに基づいて5個や3個の説明変数を自動で選んでくれます。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>一方の<span class="marker"><strong>強制投入法は、投入した説明変数を全て使って回帰分析をする</strong></span>、ということです。</p>



<p>例えば10個の説明変数を選んだら、10個全てをモデルに含めて回帰分析をします。</p>



<p><span style="text-decoration: underline;"><strong>強制的に全てをモデルに含めるか、それとも統計ソフトに任せて自動で取捨選択をするかの違い</strong></span>ですね。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">ステップワイズ法に批判があるのはなぜ？</h2>



<figure class="wp-block-image"><img decoding="async" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/04/good-1123013_1920.jpg" alt="" class="wp-image-4499"/></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>自動で説明変数を選んでくれるため、一見便利そうなステップワイズ法。</p>



<p>でも便利な一方で、問題点も指摘されています。</p>



<h3 class="wp-block-heading">ステップワイズ法の問題点</h3>



<p>便利なステップワイズ法ですが、ステップワイズ法が批判されることもあります。</p>



<p><span class="marker"><strong>ステップワイズ法は&#8221;結果を見ながら変数を選択する&#8221;という点で問題があるから</strong></span>です。</p>



<p><span class="marker"><strong>本来使用する変数は、解析をする前にすべて決めておかなければなりません</strong></span>。</p>



<p>結果をみてからだと、本来関係ないのにたまたまいい結果が出た変数を過剰に優遇してしまうリスクがあるからです。</p>



<p>確かにたくさん変数があればあるほど、たまたま目的変数に影響するデータが出てきやすくなります。</p>



<p><strong>「結果を見てから入れる変数を決めたら意味ないじゃないか」</strong></p>



<p>というのがステップワイズ法を批判する人たちの言い分で、これは正しいです。</p>



<p>もしステップワイズ法を使わずに済むなら、確かに避けた方がいいです。</p>



<h3 class="wp-block-heading">ステップワイズ法を使わずに解析する方法</h3>



<p>ステップワイズ法を使わない方法は</p>



<ol class="wp-block-list">
<li><strong>先行研究から使う変数を絞る</strong></li>



<li><strong>似たような変数は合体または片方を削除する</strong></li>



<li><strong>n数を増やす(可能なら)</strong></li>
</ol>



<p>といった方法があります。</p>



<h4 class="wp-block-heading">①先行研究から使う変数を絞る</h4>



<p>研究であればまずは先行研究を使う方法を模索してみましょう。</p>



<p>似たような先行研究を探して、その研究で目的変数と有意に関連があった変数と新しく検証したい変数だけ使う、という方法ですね。</p>



<p>また、アウトカムとの臨床的な関係を踏まえて決めることも重要。</p>



<p>要するに、<span style="color: #ff0000;"><strong>解析に依存しない方法で事前に変数は決める</strong></span>、ということが重要な点です。</p>



<h4 class="wp-block-heading">②似たよう変数は合体または片方を削除する</h4>



<p>変数がたくさんある場合、たいていは似たような変数が紛れています。</p>



<p>例えば&#8221;身長&#8221;と&#8221;座高&#8221;のようなものです。</p>



<p>身長と座高の場合、合体（合計するか平均を取るか）すると解釈が難しいので、どちらかを削除することになります。</p>



<p>どちらを削除するかは明確な決まりはありません。</p>



<p>より有用だと思う方またはより検証したい方を残すといいと思います。</p>



<h4 class="wp-block-heading">n数を増やす</h4>



<p>難しい場合も多いと思いますが、可能ならn数を増やしてしまえばステップワイズ法を使う必要がなくなります。</p>



<p>n数が増やせないかも検討してみましょう。</p>



<h3 class="wp-block-heading">ステップワイズ法を使ってはいけないのか？</h3>



<p>変数を減らすことが難しい場合、ステップワイズ法を使ってはいけないのでしょうか？</p>



<p>厳格な人は「絶対使ってはいけない」と言うかもしれません。</p>



<p><strong>ただステップワイズ法の欠点を理解した上で使用するのであれば、問題ないのではないかと思います。</strong></p>



<p>確かに問題はありますが、解析できないよりかは遥かに良いですし、必ずしも間違って結果が出てくるわけではないからです。</p>



<p>あくまでも、&#8221;間違った結果が出てくる可能性がある&#8221;というだけの話です。</p>



<p>そのため論文では慎重に使ったほうがいいかもしれません。</p>



<h2 class="wp-block-heading">ステップワイズ法を重回帰分析やロジスティック回帰分析での実施例</h2>



<p>ステップワイズ法はエクセルでは実施できません。</p>



<p>SPSSやEZRなどの統計ソフトを利用しましょう。</p>



<p>特に<a href="https://www.jichi.ac.jp/saitama-sct/SaitamaHP.files/statmed.html">EZR</a>は無料で利用できる統計ソフトです。</p>



<p>論文でも使われているソフトで実績もあるので、安心して使えます。</p>



<p>EZRでステップワイズ法を選択する場合は、重回帰分析やロジスティック回帰分析を使用する際に、チェックボックスにチェックをいれるだけです。</p>







<figure class="wp-block-image"><img decoding="async" width="690" height="643" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/06/線形回帰_単回帰、重回帰_.jpg" alt="" class="wp-image-5902" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2021/06/線形回帰_単回帰、重回帰_.jpg 690w, https://best-biostatistics.com/wp/wp-content/uploads/2021/06/線形回帰_単回帰、重回帰_-300x280.jpg 300w" sizes="(max-width: 690px) 100vw, 690px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>架空のデータでステップワイズをやってみると、最初に投入した説明変数は</p>



<ol class="wp-block-list">
<li>Sex</li>



<li>コレステロール</li>



<li>最高血圧</li>



<li>身長</li>



<li>年齢</li>
</ol>



<p>の5つであることがわかります。</p>



<figure class="wp-block-image"><img decoding="async" width="670" height="482" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/06/Stepwise.jpg" alt="" class="wp-image-5903" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2021/06/Stepwise.jpg 670w, https://best-biostatistics.com/wp/wp-content/uploads/2021/06/Stepwise-300x216.jpg 300w" sizes="(max-width: 670px) 100vw, 670px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>そして最終的に得られたモデルの結果を見ると、以下の通り</p>



<ol class="wp-block-list">
<li>Sex</li>



<li>コレステロール</li>
</ol>



<p>の2つになったことがわかりました。</p>



<figure class="wp-block-image"><img decoding="async" width="582" height="361" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/06/stepwise2.jpg" alt="" class="wp-image-5904" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2021/06/stepwise2.jpg 582w, https://best-biostatistics.com/wp/wp-content/uploads/2021/06/stepwise2-300x186.jpg 300w" sizes="(max-width: 582px) 100vw, 582px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>AICとBICどちらを使うか選択できますが、初心者のうちはどちらでも大丈夫です。</p>



<p>SPSSでも同様に解析画面でステップワイズ法を選択する画面があります。</p>



<p>解析方法の詳細はEZRは<a href="https://best-biostatistics.com/ezr/logistic-reg.html">こちら</a>、SPSSは<a href="https://best-biostatistics.com/spss/spss-logistic.html">こちら</a>をご覧ください。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">まとめ</h2>



<figure class="wp-block-image"><img decoding="async" width="1280" height="847" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/05/town-sign-1148092_1280.jpg" alt="" class="wp-image-4545" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2021/05/town-sign-1148092_1280.jpg 1280w, https://best-biostatistics.com/wp/wp-content/uploads/2021/05/town-sign-1148092_1280-300x199.jpg 300w, https://best-biostatistics.com/wp/wp-content/uploads/2021/05/town-sign-1148092_1280-1024x678.jpg 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2021/05/town-sign-1148092_1280-768x508.jpg 768w" sizes="(max-width: 1280px) 100vw, 1280px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>最後におさらいをしましょう</p>



<div class="simple-box7">
<ul>
<li>ステップワイズ法は変数を絞って解析する方法</li>
<li>変数増減法は目的変数と最も関連する変数から1つずつ順番に加えていく方法</li>
<li>ステップワイズ法は結果を見て変数を絞る点で批判がある</li>
<li>ステップワイズ法を実施するためには専用の統計ソフトが必要</li>
</ul>
</div>



<p>いかがでしたでしょうか？</p>



<p>批判はありますが、ステップワイズ法は論文で非常によく使われおり実績のある解析方法です。</p>



<p>是非覚えておいてくださいね！</p>



<p>最後までお読み頂きありがとうございました。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>こちらの内容は動画でもお伝えしておりますので、併せてご確認くださいませ。</p>



<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="ステップワイズ法って何？簡単にわかる解説！" width="500" height="281" src="https://www.youtube.com/embed/hy1kytWf7uw?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>
]]></content:encoded>
					
					<wfw:commentRss>https://best-biostatistics.com/correlation_regression/stepwise.html/feed</wfw:commentRss>
			<slash:comments>1</slash:comments>
		
		
			</item>
		<item>
		<title>多変量解析の説明変数はどんな選び方が適切？重回帰分析やロジスティック回帰で説明変数は何個まで？</title>
		<link>https://best-biostatistics.com/correlation_regression/multi-setumeihennsuu.html</link>
					<comments>https://best-biostatistics.com/correlation_regression/multi-setumeihennsuu.html#comments</comments>
		
		<dc:creator><![CDATA[beat1115]]></dc:creator>
		<pubDate>Wed, 25 Jun 2025 23:00:25 +0000</pubDate>
				<category><![CDATA[相関と回帰分析]]></category>
		<guid isPermaLink="false">https://best-biostatistics.com/?p=4658</guid>

					<description><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2021/06/1622608400635-e1750895909973-1024x606.jpg" class="webfeedsFeaturedVisual" /></p>多変量解析（重回帰分析やロジスティック回帰分析、Cox比例ハザードモデルなど）は、回帰分析の中で説明変数を複数個入れた解析のこと。 一度にたくさんの変数を扱えるので非常に便利ですよね。 でも説明変数をどれくらい入れてもい [&#8230;]]]></description>
										<content:encoded><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2021/06/1622608400635-e1750895909973-1024x606.jpg" class="webfeedsFeaturedVisual" /></p>
<p>多変量解析（重回帰分析やロジスティック回帰分析、Cox比例ハザードモデルなど）は、<a href="https://best-biostatistics.com/correlation_regression/regression.html">回帰分析</a>の中で説明変数を複数個入れた解析のこと。</p>



<p>一度にたくさんの変数を扱えるので非常に便利ですよね。</p>



<p>でも説明変数をどれくらい入れてもいいのか、悩んだことがある人は多いのではないでしょうか。</p>



<ul class="wp-block-list">
<li><strong>「説明変数はいくつくらいが最適なのか？」</strong></li>



<li><strong>「説明変数はなぜ多いといけないのか？」</strong></li>



<li><strong>「解析に使う説明変数をどうやって選べばいいのか？」</strong></li>
</ul>



<p>本記事ではそんな疑問を持つ方に向けて、多変量解析の説明変数の選び方について解説していきます。</p>



<p>初心者の方でも大丈夫なように、なるべく分かりやすく解説していきますね！</p>



<h2 class="wp-block-heading">多変量解析（重回帰分析やロジスティック回帰分析、Cox比例ハザードモデルなど）での説明変数は何個が適切なの？多いとどうなる？</h2>



<figure class="wp-block-image"><img decoding="async" width="1280" height="995" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/04/クエスチョン_1619616127.png" alt="" class="wp-image-4521" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2021/04/クエスチョン_1619616127.png 1280w, https://best-biostatistics.com/wp/wp-content/uploads/2021/04/クエスチョン_1619616127-300x233.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2021/04/クエスチョン_1619616127-1024x796.png 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2021/04/クエスチョン_1619616127-768x597.png 768w" sizes="(max-width: 1280px) 100vw, 1280px" /></figure>



<p>多変量解析とは、説明変数を複数入れた解析のこと。</p>



<p>「説明変数を複数入れる」と一言で言っても、「じゃあ何個でも入れていいの？」というのは疑問になりますよね。。</p>



<p>どう言った考え方をして説明変数の個数を決めればいいのでしょうか？</p>



<h3 class="wp-block-heading">多変量解析（重回帰分析・ロジスティック回帰分析・Cox比例ハザードモデル）での説明変数の適切な数</h3>



<p>参考となる文献によると、説明変数の目安として以下の数を推奨しています。</p>



<div class="simple-box4">
<ul>
<li><strong>重回帰分析(目的変数が連続変数の場合：<a href="https://best-biostatistics.com/correlation_regression/ancova.html">共分散分析</a>)</strong><br />→n数を15で割った数まで</li>
<li><strong><a href="https://best-biostatistics.com/ezr/logistic-reg.html">ロジスティック回帰分析</a>(目的変数が2値のカテゴリカルデータの場合)</strong><br />→アウトカムのうち少ない方のn数を10で割った数まで</li>
<li><strong><a href="https://best-biostatistics.com/ezr/cox-reg.html">Cox比例ハザードモデル</a>（Cox回帰）</strong><br />→イベントありのn数を10で割った数まで</li>
</ul>
</div>



<p><span class="swl-fz u-fz-xs">参考文献：Frank E. Harrell Jr., Regression Modeling Strategy, Springer Verlag, 2001</span>、<span class="swl-fz u-fz-xs">Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR. (1996). A simulation study of the number of events per variable in logistic regression analysis. Journal of Clinical Epidemiology, 49(12), 1373-1379.</span></p>



<p>この目安は非常に分かりやすく、ひとまずこの基準に従っておけば問題ありません。</p>



<p>ここで、&#8221;目安&#8221;と表現したのには理由があります。</p>



<p>実は説明変数の数に絶対の答えはなく、統計家の中でもしばしば意見が分かれるからです。</p>



<p>ただ確実に言えることが一つあります。</p>



<p>それは<strong>&#8220;説明変数はなるべく少ない方が良い&#8221;</strong>ということです。</p>



<h3 class="wp-block-heading">多変量解析の説明変数の数が多いとどうなる？</h3>



<p>説明変数が多いと</p>



<ol class="wp-block-list">
<li><strong>解析の信頼性(再現性)が下がる</strong></li>



<li><strong>結果の解釈が難しくなる</strong></li>
</ol>



<p>といった問題があります。</p>



<p>一つずつ解説していきましょう。</p>



<h4 class="wp-block-heading">①解析の信頼性が下がる</h4>



<p><strong>データ数に対して説明変数の数が多すぎると、間違った解析結果が出る確率が高くなります。</strong></p>



<p>なぜそうなるのか、数式を使わずに説明したいので例を挙げてみましょう。</p>



<p>&#8220;小学生の脚の速さを決める要因を解析したい&#8221;としましょう。</p>



<p>50m走のタイムを目的変数として、説明変数には&#8221;年齢&#8221;と&#8221;性別&#8221;を使うことになりました。</p>



<p>しかしデータが5人分(男子2名,女子3名)しか集まりませんでした。</p>



<p>データ数5に対して説明変数を2つも入れるのは多すぎますが、なぜダメなのか考えていきましょう。</p>



<p>単変量解析(変数が1つだけ)であれば、50mタイムと年齢、性別を見比べていけば5人分あるのでなんとか傾向だけでも掴めるかもしれません。</p>



<p>ですが多変量解析となると、もっと解釈が難しくなります。</p>



<p>性別を男子に固定した状態で年齢が50mタイムに与える影響を見てみましょう。</p>



<p>こうなると男子は2名しかいませんので、結果が信頼性が低いのは直感的にも分かりますね。(たまたま年齢が上の子の脚が遅かった場合、年齢が高いほど脚が遅いという結果になってしまいます)</p>



<p><strong>このように説明変数の数が増えれば増えるほど、必要なデータ数が多くなります。</strong></p>



<p><strong>反対にデータ数が少ないのに説明変数が多いと、信頼性が低下してしまいます。</strong></p>



<p>もちろんこの例はかなりおおげさですが、通常の解析でも同じことが言えます。</p>



<h4 class="wp-block-heading">②解釈が難しくなる</h4>



<p><strong>解析の結果、有意な説明変数が多すぎると解釈が難しくなります。</strong></p>



<p>どういうことでしょうか？</p>



<p>こちらも例を使って説明していきますね。</p>



<p>研究者AとBが健康寿命を伸ばすために有効なことを解析して結果が出ました。</p>



<ul class="wp-block-list">
<li>研究者A「健康寿命を伸ばすのに有効なのは、バランスの良い食事と適度な運動である」</li>



<li>研究者B「健康寿命を伸ばすのに有効なのは、バランスの良い食事と適度な運動、十分な睡眠時間、ストレスのない生活、田舎暮らし、結婚していること、車を所有していることである」</li>
</ul>



<p>いかがでしょうか？</p>



<p>Bさんの結果は確かにそうなのかもしれないですが、分かりにくくないでしょうか？</p>



<p>もう少し絞ってくれた方が聞き手としても解釈しやすいと感じるはずです。(「で、結局一番大事なのはどれなの？」といった具合です)</p>



<p>このように説明変数が多すぎると解釈が難しくなるという問題もあります。</p>



<h2 class="wp-block-heading">多変量解析での説明変数の選び方（選択方法）は？</h2>



<figure class="wp-block-image"><img decoding="async" width="1280" height="672" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/05/choice-2692466_1280.jpg" alt="" class="wp-image-4525" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2021/05/choice-2692466_1280.jpg 1280w, https://best-biostatistics.com/wp/wp-content/uploads/2021/05/choice-2692466_1280-300x158.jpg 300w, https://best-biostatistics.com/wp/wp-content/uploads/2021/05/choice-2692466_1280-1024x538.jpg 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2021/05/choice-2692466_1280-768x403.jpg 768w" sizes="(max-width: 1280px) 100vw, 1280px" /></figure>



<p>では、多変量解析ではどのように説明変数を選ぶのが適切なのでしょうか？</p>



<h3 class="wp-block-heading">多変量解析での説明変数の間違った選び方</h3>



<p><strong>相関分析などの解析結果を見ながら説明変数を選ぶのは、実は間違った方法です。</strong></p>



<p>論文などでもよく見るやり方なので、真似してしまいがちですが、気をつけて下さい。</p>



<ul class="wp-block-list">
<li><strong>目的変数と<a href="https://best-biostatistics.com/correlation_regression/correlation.html">相関係数</a>が高い変数だけを使って解析をする</strong></li>



<li><strong>目的変数と有意差が得られた変数だけを使って解析をする</strong></li>



<li><strong><a href="https://best-biostatistics.com/correlation_regression/stepwise.html">ステップワイズ法</a>(AICやP値などの統計的な指標を使って変数を自動選択する方法)を使って解析する</strong></li>
</ul>



<p>上記の方法はいずれもよく見ますが、間違った方法です。</p>



<p>この方法で変数を選ぶと、<span style="color: #ff0000;"><strong>今回だけたまたま目的変数と関連した変数が有意なものとして抽出されやすくなってしまうから</strong></span>です。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>たとえば目的変数と全く関係ない変数が100あるとしましょう。</p>



<p>全く関係なくてもこれだけの数の変数があると、どれか1つはたまたま目的変数と有意に関連していることがよくあります。</p>



<p>この時解析結果だけを見て説明変数を選ぶと、たまたま関連した変数が最終的に有意な関連因子となってしまうわけです。</p>



<p>本来関連のないものを関連があるとしてしまうのは、避けるべき問題です。</p>



<p>ではどのように説明変数を選ぶのが正しいのでしょうか？</p>



<h3 class="wp-block-heading">多変量解析での説明変数の正しい選び方</h3>



<p><strong>説明変数は解析を行う前に適切な数まで絞らなければなりません。</strong></p>



<p>具体的には以下の方法で絞っていきます。</p>



<ol class="wp-block-list">
<li><strong>先行研究を参考に説明変数を絞る</strong></li>



<li><strong>似たような説明変数は合成するか片方を削除する</strong></li>
</ol>



<p>もう少し詳しく説明していきますね。</p>



<h4 class="wp-block-heading">①先行研究を参考に説明変数を絞る</h4>



<p>まずは先行研究を使う方法を模索してみましょう。</p>



<p>たいていの場合は、同じ目的変数(アウトカム)を使って似たような解析をした先行研究があるはずです。</p>



<p><strong>その研究で有意に関連していた変数は必ず使用し、有意でなかった変数は削ってしまいましょう。</strong></p>



<p>後はそこに今回新しく検証した変数や、臨床的に考えて絶対関連していそうな変数を加えたものだけに絞ってしまいます。</p>



<p>くれぐれも「データがあるから使う」ことがないようにしましょう。</p>



<p>ほとんどの場合は、この方法だけでもかなり変数を絞れるのではないかと思います。</p>



<h4 class="wp-block-heading">②似たよう変数は合体または片方を削除する</h4>



<p>似たような変数は一つにまとめてしまえば、変数の数を減らせます。</p>



<p>変数がたくさんある場合、たいていは似たような変数が紛れています。</p>



<p>例えば&#8221;身長&#8221;と&#8221;座高&#8221;のようなものです。</p>



<p>身長と座高の場合、合成（合計したり平均をとったり）すると解釈が難しいので、どちらかを削除することになります。</p>



<p>この時、どちらを削除するかは明確な決まりはありません。</p>



<p>より有用だと思う方、またはより検証したい方を残すといいと思います。</p>



<h2 class="wp-block-heading">まとめ</h2>



<figure class="wp-block-image"><img decoding="async" width="1280" height="630" src="https://best-biostatistics.com/wp/wp-content/uploads/2020/09/_1599793057-e1599793078970.jpg" alt="" class="wp-image-4277" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2020/09/_1599793057-e1599793078970.jpg 1280w, https://best-biostatistics.com/wp/wp-content/uploads/2020/09/_1599793057-e1599793078970-300x148.jpg 300w, https://best-biostatistics.com/wp/wp-content/uploads/2020/09/_1599793057-e1599793078970-1024x504.jpg 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2020/09/_1599793057-e1599793078970-768x378.jpg 768w" sizes="(max-width: 1280px) 100vw, 1280px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>最後におさらいをしましょう。</p>



<div class="simple-box7">
<ul>
<li><strong>重回帰分析の説明変数は&#8221;n数÷15&#8243;まで</strong></li>
<li><strong>ロジスティック回帰分析の説明変数は&#8221;少ない方のn数÷10&#8243;まで</strong></li>
<li><strong>Cox比例ハザード分析の説明変数は&#8221;イベント有のn数÷10&#8243;まで</strong></li>
<li><strong>説明変数が多すぎると結果の信頼性が下がり、解釈も難しくなる</strong></li>
<li><strong>結果を見て説明変数を選ぶのは間違った方法</strong></li>
<li><strong>解析をする前に先行研究から説明変数を絞るのが正しい方法</strong></li>
</ul>
</div>



<p>いかがでしたでしょうか。</p>



<p>これらを知った上で論文をみてみると、説明変数の数や選び方を間違っている研究が多いことに気づくはずです。</p>



<p>今後は正しい解析をした研究が増えてくることを祈っています。</p>



<p>間違った結果を発表しないように気をつけたいですね。</p>



<p>最後までお読み頂きありがとうございました。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>今回の内容は動画でも解説していますので、併せてご確認くださいませ。</p>



<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="多変量解析での説明変数の選び方（選択方法）はどうすればいい？" width="500" height="281" src="https://www.youtube.com/embed/ueya52V3oH8?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>
]]></content:encoded>
					
					<wfw:commentRss>https://best-biostatistics.com/correlation_regression/multi-setumeihennsuu.html/feed</wfw:commentRss>
			<slash:comments>1</slash:comments>
		
		
			</item>
		<item>
		<title>多変量解析でのサンプルサイズの決め方求め方は？サンプル数（n数）が少ないのは致命的</title>
		<link>https://best-biostatistics.com/correlation_regression/tahenryou-sample-size.html</link>
					<comments>https://best-biostatistics.com/correlation_regression/tahenryou-sample-size.html#respond</comments>
		
		<dc:creator><![CDATA[beat1115]]></dc:creator>
		<pubDate>Sat, 14 Jun 2025 07:00:26 +0000</pubDate>
				<category><![CDATA[相関と回帰分析]]></category>
		<guid isPermaLink="false">https://best-biostatistics.com/?p=5879</guid>

					<description><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2022/06/統計のYoutubeアイキャッチ-13-1024x576.jpg" class="webfeedsFeaturedVisual" /></p>この記事では「多変量解析でのサンプルサイズの決め方求め方は？サンプル数少ないのは致命的」ということでお伝えします。 ということが疑問になることも多いかなと思います。 そのため本記事では「群間比較を目的とする多変量解析」と [&#8230;]]]></description>
										<content:encoded><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2022/06/統計のYoutubeアイキャッチ-13-1024x576.jpg" class="webfeedsFeaturedVisual" /></p>
<p>この記事では「多変量解析でのサンプルサイズの決め方求め方は？サンプル数少ないのは致命的」ということでお伝えします。</p>



<ul class="wp-block-list">
<li><strong>多変量解析をやっている論文でもサンプルサイズ計算はT検定でやっているけど、それっていいの？</strong></li>



<li><strong>予測モデル構築のためにはサンプルサイズはどれぐらい必要？</strong></li>
</ul>



<p>ということが疑問になることも多いかなと思います。</p>



<p>そのため本記事では「群間比較を目的とする多変量解析」と「予測モデルを構築するための多変量解析」に分けてサンプルサイズの決め方をお伝えします！</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">多変量解析が使われる研究目的</h2>



<figure class="wp-block-image"><img decoding="async" width="2560" height="1146" src="https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_128416864-scaled.jpeg" alt="" class="wp-image-5764" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_128416864-scaled.jpeg 2560w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_128416864-300x134.jpeg 300w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_128416864-1024x459.jpeg 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_128416864-768x344.jpeg 768w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_128416864-1536x688.jpeg 1536w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_128416864-2048x917.jpeg 2048w" sizes="(max-width: 2560px) 100vw, 2560px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p><a href="https://best-biostatistics.com/correlation_regression/tahenryou.html">多変量解析は、医学研究で多くの目的で使われます。</a></p>



<p>それらを整理すると、医学研究では主にこの4つの研究目的で使われるかなと思います。</p>


<div class="jin-iconbox green-iconbox"><div class="jin-iconbox-icons"><i class="jic jin-ifont-check-circle jin-icons"></i></div><div class="jin-iconbox-main green--border"></p>
<ol>
<li>アウトカムの原因（要因）の同定に関する観察研究</li>
<li>介入研究（ランダム化・非ランダム化）</li>
<li>診断に関する研究</li>
<li>予後に関する研究</li>
</ol>
<p></div></div>



<p>多変量解析の<a href="https://best-biostatistics.com/hypo_test/num-subject.html" data-type="post" data-id="47">サンプルサイズ計算</a>だけを考えた場合、「介入研究での群間比較」と「それ以外」で意味合いが異なります。</p>



<p>群間比較が目的であれば、いわゆる<a href="https://best-biostatistics.com/hypo_test/num-subject.html" data-type="post" data-id="47">T検定ベースなどのサンプルサイズ</a>が必要。</p>



<p>それ以外の目的であれば、「<a href="https://best-biostatistics.com/correlation_regression/multi-setumeihennsuu.html" data-type="post" data-id="4658">多変量解析のモデルにどれほどの数の説明変数を入れることができるか</a>」という意味合いが強い、ということ。</p>



<p>そのためこの記事では「群間比較」と「それ以外の3つの目的」の2つに分けてサンプルサイズの決め方について考えます。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">多変量解析を群間比較の目的で使う場合のサンプルサイズの求め方</h2>



<figure class="wp-block-image"><img decoding="async" width="2560" height="1020" src="https://best-biostatistics.com/wp/wp-content/uploads/2022/06/AdobeStock_390261421-scaled.jpeg" alt="" class="wp-image-5874" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2022/06/AdobeStock_390261421-scaled.jpeg 2560w, https://best-biostatistics.com/wp/wp-content/uploads/2022/06/AdobeStock_390261421-300x120.jpeg 300w, https://best-biostatistics.com/wp/wp-content/uploads/2022/06/AdobeStock_390261421-1024x408.jpeg 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2022/06/AdobeStock_390261421-768x306.jpeg 768w, https://best-biostatistics.com/wp/wp-content/uploads/2022/06/AdobeStock_390261421-1536x612.jpeg 1536w, https://best-biostatistics.com/wp/wp-content/uploads/2022/06/AdobeStock_390261421-2048x816.jpeg 2048w" sizes="(max-width: 2560px) 100vw, 2560px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>まずは、多変量解析を群間比較の目的で使う場合のサンプルサイズ計算についてお伝えします。</p>



<p>多変量解析を群間比較の目的で使う場合とは、例えば、新薬開発での<a href="https://best-biostatistics.com/design/randomization.html">RCT</a>などの場合が容易に想定できますよね。</p>



<p>この場合、<span class="marker"><strong>多変量解析を使う目的は「アウトカムに対して介入の有無がどう違いをもたらすか？」が分かれば良い</strong></span>のです。</p>



<p>他の説明変数は交絡調整のために含めるもので、モデル自体がどうか、という議論はなしでOK。</p>



<figure class="wp-block-image"><img decoding="async" width="842" height="189" src="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/ScreenShot-2022-05-11-10.38.49.png" alt="" class="wp-image-5812" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/ScreenShot-2022-05-11-10.38.49.png 842w, https://best-biostatistics.com/wp/wp-content/uploads/2022/05/ScreenShot-2022-05-11-10.38.49-300x67.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2022/05/ScreenShot-2022-05-11-10.38.49-768x172.png 768w" sizes="(max-width: 842px) 100vw, 842px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>そのためあくまで<span class="marker"><strong>目的は「群間比較」する部分に対してサンプルサイズ計算ができればOK</strong></span>なんです。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">群間比較のための多変量解析ではT検定ベースやカイ二乗検定ベースでのサンプルサイズ計算で良い</h3>



<p>この目的の場合に、実際にはどうやってサンプルサイズを計算するか？</p>



<p>ですが、結論としては以下の通り。</p>


<div class="jin-iconbox green-iconbox"><div class="jin-iconbox-icons"><i class="jic jin-ifont-check-circle jin-icons"></i></div><div class="jin-iconbox-main green--border">通常の「T検定ベース」や「カイ二乗検定ベース」で計算してOK</div></div>



<p>例えば、<a href="https://best-biostatistics.com/ezr/ezr-samplenum.html">EZRでサンプルサイズ計算</a>をするように、統計解析ソフトでポチポチと計算することができます。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>しかしそこで疑問が生まれますよね。</p>


<div class="jin-iconbox red-iconbox"><div class="jin-iconbox-icons"><i class="jic jin-ifont-question jin-icons"></i></div><div class="jin-iconbox-main red--border">実際には多変量解析（共分散分析やロジスティック回帰分析）をするから多変量解析を用いてサンプルサイズ計算をしなきゃいけないのでは？</div></div>



<p>という疑問です。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>その疑問に関していえば、厳密に多変量解析でできるのであればそれでやってもいいです。</p>



<p>しかし多変量解析でサンプルサイズ計算を実施するには統計ソフトで簡単に計算できず、シミュレーションで実施するしかありません。</p>



<p>かなりハードル高いです。</p>



<p>それに、群間比較のサンプルサイズ計算はそれほど厳密さが要求されないんです。</p>



<p>どういうことかと言うと、群間比較のサンプルサイズ計算で必要な<a href="https://best-biostatistics.com/hypo_test/power.html">検出力に関して、80%や90%という値</a>がそもそも厳密な値ではないですよね。</p>



<p>検出力の設定は、研究者の匙加減で決まります。</p>



<p>また、想定する平均やSDも、先行研究やプレのデータから「今回もこのぐらいは期待できるかな」という、厳密な値ではないはず。</p>



<p>そのため、<span class="marker"><strong>厳密ではない値を用いて、厳密に多変量解析をしても、あまり意味はない、というのが「群間比較のサンプルサイズ計算はそれほど厳密さが要求されない」という理由</strong></span>です。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>それよりも、計算されたサンプルサイズをちゃんと確保する努力をすることがとても重要になります。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">多変量解析をモデル作成（予測モデルなど）で使う場合のサンプルサイズの決め方</h2>



<figure class="wp-block-image"><img decoding="async" width="2560" height="1087" src="https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_407319626-scaled.jpeg" alt="" class="wp-image-5785" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_407319626-scaled.jpeg 2560w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_407319626-300x127.jpeg 300w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_407319626-1024x435.jpeg 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_407319626-768x326.jpeg 768w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_407319626-1536x652.jpeg 1536w, https://best-biostatistics.com/wp/wp-content/uploads/2022/04/AdobeStock_407319626-2048x869.jpeg 2048w" sizes="(max-width: 2560px) 100vw, 2560px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>では次に、多変量解析をモデル作成（予測モデルなど）で使う場合のサンプルサイズの決め方についてです。</p>



<p>この時の目的は<span class="marker"><strong>「予測モデル」を作ることなので、モデルに含まれる説明変数の数も重要</strong></span>。</p>



<figure class="wp-block-image"><img decoding="async" width="834" height="210" src="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/ScreenShot-2022-05-11-10.42.29.png" alt="" class="wp-image-5813" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2022/05/ScreenShot-2022-05-11-10.42.29.png 834w, https://best-biostatistics.com/wp/wp-content/uploads/2022/05/ScreenShot-2022-05-11-10.42.29-300x76.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2022/05/ScreenShot-2022-05-11-10.42.29-768x193.png 768w" sizes="(max-width: 834px) 100vw, 834px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>じゃあ説明変数を入れれるだけ入れればいいのか？と言われれば、そうではありません。</p>



<p>なぜなら、説明変数をモデルに入れ過ぎてしまうとモデルの結果が不安定になってしまうから。</p>



<p>なので、サンプル数の小さな研究ではモデルに加えられる説明変数の数は限られるんです。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>ではどのぐらいのサンプルサイズが必要か？と言われれば、絶対的な正解はありません。</p>



<p>ですが一応の目安はあって、新谷先生や神田先生が目安を示してくれています。</p>



<p><span style="text-decoration: underline;"><strong>下記の数値は、サンプルサイズに対する説明変数の数なので、サンプルサイズは逆算すればOK</strong></span>です。</p>


<div class="swell-block-capbox cap_box is-style-onborder_ttl2">
				<div class="cap_box_ttl"><i class="jic jin-ifont-post"></i><span>多変量解析での説明変数の数の上限目安</span></div>
				<div class="cap_box_content"> </p>
<ul>
<li><strong>共分散分析だったら全データの1/15程度まで</strong></li>
<li><strong>ロジスティック回帰ならイベント有無の少ない方の1/10程度まで</strong></li>
<li><strong>Cox回帰ならイベントの数の1/10程度まで</strong></li>
</ul>
<p></div>
			</div>



<p>繰り返しになりますが、あくまで目安であり、正解はないし、説明変数の数は少なければ少ないほどいいです。</p>



<p>そのため一つ言えることは、統計学はデータ数が命であるということ。</p>



<p>少ないサンプルサイズで「あれもやろう」「これもやろう」は無理なんです。</p>



<p>統計は魔法ではないので、ぜひサンプル数の確保は重要な点として認識しておきましょう。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">まとめ</h2>



<figure class="wp-block-image"><img decoding="async" width="2560" height="1745" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/11/AdobeStock_352132012-scaled.jpeg" alt="" class="wp-image-5260" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2021/11/AdobeStock_352132012-scaled.jpeg 2560w, https://best-biostatistics.com/wp/wp-content/uploads/2021/11/AdobeStock_352132012-300x205.jpeg 300w, https://best-biostatistics.com/wp/wp-content/uploads/2021/11/AdobeStock_352132012-1024x698.jpeg 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2021/11/AdobeStock_352132012-768x524.jpeg 768w, https://best-biostatistics.com/wp/wp-content/uploads/2021/11/AdobeStock_352132012-1536x1047.jpeg 1536w, https://best-biostatistics.com/wp/wp-content/uploads/2021/11/AdobeStock_352132012-2048x1396.jpeg 2048w" sizes="(max-width: 2560px) 100vw, 2560px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>いかがでしたか？</p>



<p>この記事では「多変量解析でのサンプルサイズの決め方求め方は？サンプル数少ないのは致命的」ということでお伝えしました。</p>



<ul class="wp-block-list">
<li><strong>多変量解析をやっている論文でもサンプルサイズ計算はT検定でやっているけど、それっていいの？</strong></li>



<li><strong>予測モデル構築のためにはサンプルサイズはどれぐらい必要？</strong></li>
</ul>



<p>ということに対して理解が深まったのなら幸いです！</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>こちらの内容は動画でも解説していますので、あわせてご確認くださいませ。</p>



<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-4-3 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="多変量解析でのサンプルサイズ計算はどうすればいいの？" width="500" height="375" src="https://www.youtube.com/embed/iAbKo8wH2I8?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>
]]></content:encoded>
					
					<wfw:commentRss>https://best-biostatistics.com/correlation_regression/tahenryou-sample-size.html/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>負の二項回帰モデルとは？ポアソン回帰との関連やオフセット項の解説も</title>
		<link>https://best-biostatistics.com/correlation_regression/negative-binomial.html</link>
					<comments>https://best-biostatistics.com/correlation_regression/negative-binomial.html#respond</comments>
		
		<dc:creator><![CDATA[beat1115]]></dc:creator>
		<pubDate>Mon, 09 Jun 2025 22:00:18 +0000</pubDate>
				<category><![CDATA[相関と回帰分析]]></category>
		<guid isPermaLink="false">https://best-biostatistics.com/?p=5639</guid>

					<description><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2022/04/統計のYoutubeアイキャッチ-27-1024x576.jpg" class="webfeedsFeaturedVisual" /></p>この記事では「負の二項回帰モデルとは？ポアソン回帰との関連やオフセット項の解説も」ということでお伝えします。 論文を読むと、たまに負の二項回帰モデル（Negative Binomial Regression Model） [&#8230;]]]></description>
										<content:encoded><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2022/04/統計のYoutubeアイキャッチ-27-1024x576.jpg" class="webfeedsFeaturedVisual" /></p>
<p>この記事では「負の二項回帰モデルとは？ポアソン回帰との関連やオフセット項の解説も」ということでお伝えします。</p>



<p>論文を読むと、たまに負の二項回帰モデル（Negative Binomial Regression Model）なるものが出てくることがあります。</p>



<p>あまりみない解析なので、「どんな解析手法？」と思いますよね。</p>



<p>そのためこの記事では</p>



<ul class="wp-block-list">
<li><strong>負の二項回帰モデルとはどんな解析手法？</strong></li>



<li><strong>ポアソン回帰と負の二項回帰の関係は？</strong></li>



<li><strong>オフセット項とはどんな役割を果たしているの？</strong></li>
</ul>



<p>ということをわかりやすく解説します！</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">負の二項回帰モデル（Negative Binomial Regression Model）とは？</h2>



<figure class="wp-block-image"><img decoding="async" width="2560" height="1321" src="https://best-biostatistics.com/wp/wp-content/uploads/2022/01/AdobeStock_225346108-scaled.jpeg" alt="" class="wp-image-5541" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2022/01/AdobeStock_225346108-scaled.jpeg 2560w, https://best-biostatistics.com/wp/wp-content/uploads/2022/01/AdobeStock_225346108-300x155.jpeg 300w, https://best-biostatistics.com/wp/wp-content/uploads/2022/01/AdobeStock_225346108-1024x528.jpeg 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2022/01/AdobeStock_225346108-768x396.jpeg 768w, https://best-biostatistics.com/wp/wp-content/uploads/2022/01/AdobeStock_225346108-1536x793.jpeg 1536w, https://best-biostatistics.com/wp/wp-content/uploads/2022/01/AdobeStock_225346108-2048x1057.jpeg 2048w" sizes="(max-width: 2560px) 100vw, 2560px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>負の二項回帰モデル（Negative Binomial Regression：NB回帰）は、カウントデータを解析する時に使う解析手法です。</p>



<p><a href="https://best-biostatistics.com/biostat/data.html">連続データやカテゴリカルデータ</a>などは比較的身近なデータですが、カウントデータはどんなデータでしょうか？</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">負の二項回帰で扱うカウントデータとは？</h3>



<p>カウントデータとは、イベントの有無だけではなく、<span style="text-decoration: underline;"><strong>イベントの回数に着目したデータ</strong></span>のこと。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>例えば、副作用の発現の有無、である場合には2値のカテゴリカルデータです。</p>



<p>ですが、<strong>副作用の発現回数、となるとカウントデータ</strong>になります。</p>



<p>副作用の発現回数は、1件、2件、3件、、、のようにカウントできますから。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>また、出血の回数もカウントデータですね。</p>



<p>「出血の有無」だけだとカテゴリカルデータですが、「出血の回数」はカウントデータになります。</p>



<p>＞＞<a href="https://best-biostatistics.com/summary/number_of.html" data-type="post" data-id="5779">例数と件数の違い</a></p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">ポアソン回帰：カウントデータの場合に使う最も有名な回帰分析</h3>



<p>カウントデータがどんなデータなのか理解できたところで、カウントデータに対する解析手法を紹介します。</p>



<p>実は、カウントデータの解析で最も有名なのは負の二項回帰ではなく、ポアソン回帰です。</p>



<p><a href="https://best-biostatistics.com/summary/poisson.html">ポアソン分布を仮定して回帰分析をする解析手法ですね</a>。</p>



<p>ポアソン分布をちょっとだけ復習すると、以下の2つの特徴がある分布です。</p>



<ul class="wp-block-list">
<li><strong>ポアソン分布は、二項分布の試行回数nが十分に大きく、確率が非常に小さいとき、従う分布。</strong></li>



<li><strong>ポアソン分布では、平均値も分散もλとなる</strong></li>
</ul>



<p>特に「平均値も分散もλ」という特徴は重要で、この特徴が負の二項回帰モデルと最も差別化される特徴だからです。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">負の二項回帰とポアソン回帰との違いは？</h3>



<p>ポアソン回帰まで理解できたところで、負の二項回帰です。</p>



<p><span class="marker"><strong>負の二項回帰を一言で言えば、ポアソン分布よりも分散が大きいと考えられる時に使う回帰分析</strong></span>なのです。</p>



<p>そのため<span style="text-decoration: underline;"><strong>「ポアソン分布よりも分散が大きい時」という特徴以外は、ポアソン回帰と同じ状況で使える回帰分析なんだな、というイメージを持ってもらってOK</strong></span>です。</p>



<p>なので、ポアソン回帰と負の二項回帰は親戚みたいなものですね。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">負の二項回帰モデルに出てくるオフセット項をわかりやすく解説</h2>



<figure class="wp-block-image"><img decoding="async" width="2560" height="1364" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/11/AdobeStock_380779281-scaled.jpeg" alt="" class="wp-image-5345" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2021/11/AdobeStock_380779281-scaled.jpeg 2560w, https://best-biostatistics.com/wp/wp-content/uploads/2021/11/AdobeStock_380779281-300x160.jpeg 300w, https://best-biostatistics.com/wp/wp-content/uploads/2021/11/AdobeStock_380779281-1024x546.jpeg 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2021/11/AdobeStock_380779281-768x409.jpeg 768w, https://best-biostatistics.com/wp/wp-content/uploads/2021/11/AdobeStock_380779281-1536x818.jpeg 1536w, https://best-biostatistics.com/wp/wp-content/uploads/2021/11/AdobeStock_380779281-2048x1091.jpeg 2048w" sizes="(max-width: 2560px) 100vw, 2560px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>負の二項回帰がどんなデータに対して使われるかが整理できたところで、次に理解すべきは「オフセット項」に関してです。</p>



<p>ポアソン回帰でも負の二項回帰でも共通の話題として出てくる「オフセット項」。</p>



<p>少々わかりづらい概念かなと思うので、具体的に解説したいと思います。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">オフセット項を一言でいうと？</h3>



<p>オフセット項を一言でいえば<span class="marker"><strong>「回帰係数が1に固定された説明変数」</strong></span>ということ。</p>



<p>つまり、<span style="text-decoration: underline;">回帰係数の推定自体に全く興味はないんだけど、アウトカムに影響を与える変数なので説明変数として入れる</span>、ということです。</p>



<p>なぜこのような<a href="https://best-biostatistics.com/correlation_regression/variables.html">説明変数</a>が必要なのでしょうか？</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>例えば、「副作用の件数を比較したい」と思った場合、副作用の件数はあるものに左右されます。</p>



<p>それは「追跡できた日数」です。</p>



<p>A群とB群の比較で「A群の方が副作用の件数が少ない」という結論が出たとしても、結果的にA群の方が追跡日数が短かったら、その結論には疑問符がつきますよね。</p>



<p>そのため、カウントデータ（今回の場合、副作用の件数）に対して影響を与える影響要因（今回の場合、追跡日数）を考慮しなければならない、ということになります。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>では、この影響要因に対処するアイデアはどんなものがあるでしょうか？</p>



<p>2つ考えられます。</p>



<ol class="wp-block-list">
<li><strong>割り算したものをアウトカムにする</strong></li>



<li><strong>オフセットとして考慮する</strong></li>
</ol>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h4 class="wp-block-heading">1つ目のアイデア：割り算したものをアウトカムにする</h4>



<p>1つ目のアイデアは単純ですし、直感的にわかりやすいです。</p>



<p>アウトカムを「副作用の件数/追跡日数」にしてしまえば良い、という考え方ですね。</p>



<p>そうすれば追跡日数を考慮する、という点はクリアできます。</p>



<p>でも。。</p>



<p>この「副作用の件数/追跡日数」には大きな問題点があるのです。</p>



<p>その<span style="text-decoration: underline;"><strong>問題点とは「分母の値（追跡日数）が違うのに同じ値として考慮していいのか？」という問題</strong></span>。</p>



<p>つまり、<span class="marker"><strong>副作用の発生が0でも、1日追跡して0なのか、365日追跡して0なのか、同じ「0」でも情報は全く違う</strong></span>、ということ。</p>



<p>割り算で対処すると、どちらも「0」というアウトカムで解析することになってしまうので、それはいいの？ということになりかねません。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>そのため、割り算で出てきた問題点を解決するためにオフセット項という2つ目のアイデアが出てくるのです。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h4 class="wp-block-heading">2つ目のアイデア：オフセット項にする</h4>



<p>オフセット項にする場合の考え方のスタートは同じく、アウトカムを「副作用の件数/追跡日数」にしたい、です。</p>



<p>そして、説明変数がXだけのモデルを考えましょう。</p>



<p>つまり、「副作用の件数/追跡日数 = a*X + b」というモデルを考える、ということです。</p>



<p>aが回帰係数で、bが切片ですね。</p>



<p>その時、ポアソン回帰と負の二項回帰のリンク関数はLogです。</p>



<p>よって回帰分析の時には、「Log（副作用の件数/追跡日数）＝a*X + b」を考えることになります。</p>



<p>では「Log（副作用の件数/追跡日数）＝a*X + b」を式展開してみましょう。</p>



<ul class="wp-block-list">
<li><strong>Log（副作用の件数/追跡日数）＝a*X + b</strong></li>



<li><strong>Log（副作用の件数）-Log（追跡日数）＝a*X + b</strong></li>



<li><strong>Log（副作用の件数）＝a*X + b + Log（追跡日数）</strong></li>
</ul>



<p>となり、副作用の件数をアウトカムにした場合、Log（追跡日数）は回帰係数が1の説明変数として考慮すれば良い、ということになるのです。</p>



<p>この、<span class="marker"><strong>回帰係数が1の説明変数のことをオフセット項と呼んでいるのです</strong></span>。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">負の二項回帰の解析結果として得られるのは発生率比（IRR）</h2>



<p>負の二項回帰はカウントデータで扱う解析であること、そして、追跡期間を考慮するためにオフセット項が重要であることを学びました。</p>



<p>では、負の二項回帰で得られる解析結果は何でしょうか？</p>



<p>結論から言えば、発生率比（Incidence Rate Ratio：IRR）になります。</p>



<p>復習ですが、負の二項回帰は、来院回数や事故件数といった「回数」を分析する手法です。しかし、人によって観察期間（追跡期間）が違うと、単純に回数を比べられませんよね。</p>



<p>そこで、観察期間の違いを「オフセット項」として調整します。これにより、分析は単なる回数の比較から、<strong><span class="swl-marker mark_orange">「発生率（単位時間あたりの発生しやすさ）」の比較</span></strong>へと変わります。</p>



<p>この発生率をグループ間で比べた結果が「発生率比（Incidence Rate Ratio: IRR）」です。</p>



<p>例えばIRRが2なら、「あるグループは基準のグループより、2倍イベントが起こりやすい」と解釈できます。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>実際の研究では、年齢、性別、重症度など、結果に影響を与えうる様々な要因（共変量、<a href="https://best-biostatistics.com/design/kouraku2.html" data-type="post" data-id="78">交絡因子</a>）があります。</p>



<p>負の二項回帰のような統計モデルを使うと、これらの<strong>共変量の影響を調整したうえで、より精緻なIRRを推定できます</strong>。</p>



<p>モデルから得られる回帰係数（β）を指数変換（e<sup>β</sup>）することで、調整済みのIRRが算出されます。</p>



<p>このように、発生率比（IRR）は、観察期間が異なるデータのイベントの起こりやすさを公平に比較するための、非常に強力で重要な指標です。</p>



<h2 class="wp-block-heading">まとめ</h2>



<figure class="wp-block-image"><img decoding="async" width="2560" height="1164" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/11/AdobeStock_101008656-scaled-e1637541296894.jpeg" alt="" class="wp-image-5331" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2021/11/AdobeStock_101008656-scaled-e1637541296894.jpeg 2560w, https://best-biostatistics.com/wp/wp-content/uploads/2021/11/AdobeStock_101008656-scaled-e1637541296894-300x136.jpeg 300w, https://best-biostatistics.com/wp/wp-content/uploads/2021/11/AdobeStock_101008656-scaled-e1637541296894-1024x466.jpeg 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2021/11/AdobeStock_101008656-scaled-e1637541296894-768x349.jpeg 768w, https://best-biostatistics.com/wp/wp-content/uploads/2021/11/AdobeStock_101008656-scaled-e1637541296894-1536x698.jpeg 1536w, https://best-biostatistics.com/wp/wp-content/uploads/2021/11/AdobeStock_101008656-scaled-e1637541296894-2048x931.jpeg 2048w" sizes="(max-width: 2560px) 100vw, 2560px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>いかがでしたか？</p>



<p>この記事では「負の二項回帰モデルとは？ポアソン回帰との関連やオフセット項の解説も」ということでお伝えしました。</p>



<ul class="wp-block-list">
<li><strong>負の二項回帰モデルとはどんな解析手法？</strong></li>



<li><strong>ポアソン回帰と負の二項回帰の関係は？</strong></li>



<li><strong>オフセット項とはどんな役割を果たしているの？</strong></li>
</ul>



<p>ということが理解できたのなら幸いです！</p>




]]></content:encoded>
					
					<wfw:commentRss>https://best-biostatistics.com/correlation_regression/negative-binomial.html/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>多重共線性の問題点をわかりやすく！基準や目安はvifと相関係数のどちらを使う？</title>
		<link>https://best-biostatistics.com/correlation_regression/multi-co.html</link>
					<comments>https://best-biostatistics.com/correlation_regression/multi-co.html#comments</comments>
		
		<dc:creator><![CDATA[beat1115]]></dc:creator>
		<pubDate>Tue, 08 Apr 2025 06:00:15 +0000</pubDate>
				<category><![CDATA[相関と回帰分析]]></category>
		<guid isPermaLink="false">https://best-biostatistics.com/?p=4490</guid>

					<description><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2022/06/統計のYoutubeアイキャッチ-25-1024x576.jpg" class="webfeedsFeaturedVisual" /></p>データ分析をする際には、多重共線性というものを考慮しなければならないことがあります。 多重共線性を考慮しないと間違った分析結果が出てしまうという問題点があるからです。 しかし実際の現場では、多重共線性を考慮せずに間違った [&#8230;]]]></description>
										<content:encoded><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2022/06/統計のYoutubeアイキャッチ-25-1024x576.jpg" class="webfeedsFeaturedVisual" /></p>
<p>データ分析をする際には、多重共線性というものを考慮しなければならないことがあります。</p>



<p><span class="marker"><strong>多重共線性を考慮しないと間違った分析結果が出てしまうという問題点があるからです。</strong></span></p>



<p>しかし実際の現場では、多重共線性を考慮せずに間違った結果を出してしまっているケースが非常に多くみられます。</p>



<p>データ分析をするなら、多重共線性は必ず知っておいてほしい知識です。</p>



<p>でも、多重共線性とは一体何のことでしょうか？</p>



<p>VIFや相関係数といった共線性の基準についてご存知でしょうか？</p>



<p>この記事では多重共線性の問題点や、VIFと相関係数のどちらが基準として適切か、なるべくわかりやすく解説していきます。</p>



<p>多重共線性を学んで正しい分析ができるようになりましょう！</p>



<h2 class="wp-block-heading">多重共線性とは？</h2>



<figure class="wp-block-image"><img decoding="async" width="1280" height="720" src="https://best-biostatistics.com/wp/wp-content/uploads/2020/08/なぜ_1597646451.jpg" alt="" class="wp-image-4076" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2020/08/なぜ_1597646451.jpg 1280w, https://best-biostatistics.com/wp/wp-content/uploads/2020/08/なぜ_1597646451-300x169.jpg 300w, https://best-biostatistics.com/wp/wp-content/uploads/2020/08/なぜ_1597646451-1024x576.jpg 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2020/08/なぜ_1597646451-768x432.jpg 768w" sizes="(max-width: 1280px) 100vw, 1280px" /></figure>



<p>まずは多重共線性の正しい意味をみてみましょう。</p>



<blockquote class="wp-block-quote is-layout-flow wp-block-quote-is-layout-flow">
<p>重回帰分析において、いくつかの説明変数間で線形関係（一次従属）が認められる場合、共線性があるといい、共線性が複数認められる場合は多重共線性があると言う。</p>



<p class="has-text-align-right">※統計WEBより引用</p>
</blockquote>



<p>「<a href="https://best-biostatistics.com/correlation_regression/variables.html">説明変数</a>？線形関係？何のこっちゃ？」となりますよね。</p>



<p>安心してください！</p>



<p>かなり噛み砕いて説明していきますね！</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p><span class="marker"><strong>共線性とは、説明変数のある変数とある変数がお互いに強く<a href="https://best-biostatistics.com/correlation_regression/correlation.html" data-type="post" data-id="38">相関</a>しすぎている状態です。</strong></span></p>



<p>例えば&#8221;座高&#8221;と&#8221;身長&#8221;のような場合です。</p>



<p>座高が高ければ身長もたいてい高くなりますよね？</p>



<p>この場合、&#8221;座高&#8221;と&#8221;身長&#8221;に共線性を認めています。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>この<span class="marker"><strong>共線性が多変量解析で複数起きている状態を、多重共線性が生じている状態</strong></span>と表現します。</p>



<p>複数の変数を扱う解析の場合、共線性が単発で生じることはほとんどなく、たいてい多重共線性が生じてきます。</p>



<p>そのため多変量解析を行うときは、多重共線性を考慮した上で分析を行います。</p>



<p>多重共線性とは、「説明変数同士で強い相関があること」と覚えておきましょう。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">多重共線性の問題点は？</h2>



<figure class="wp-block-image"><img decoding="async" width="1280" height="374" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/04/caution-943376_1280-e1654237152526.png" alt="" class="wp-image-4495" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2021/04/caution-943376_1280-e1654237152526.png 1280w, https://best-biostatistics.com/wp/wp-content/uploads/2021/04/caution-943376_1280-e1654237152526-300x88.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2021/04/caution-943376_1280-e1654237152526-1024x299.png 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2021/04/caution-943376_1280-e1654237152526-768x224.png 768w" sizes="(max-width: 1280px) 100vw, 1280px" /></figure>



<p><span style="text-decoration: underline;"><strong>多重共線性の問題点は、目的変数と有意に影響を与える変数を見逃してしまうこと</strong></span>です。</p>



<p>統計用語を使うと<a href="https://best-biostatistics.com/hypo_test/error.html">βエラー（第二種の過誤）が起きやすくなる</a>ということです。</p>



<p>ここからはもう少し簡単にしていきましょう。</p>



<p>なぜそうなってしまうのか、例を使って説明していきますね。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">多重共線性の問題を例でわかりやすく！</h3>



<p>&#8220;脚の速さ&#8221;を決める因子を見つけるために、多変量解析をするとしましょう。</p>



<p>そして、説明変数の中に&#8221;身長&#8221;と&#8221;座高&#8221;が含まれているとします。</p>



<p>先ほどご説明した通り、&#8221;身長&#8221;と&#8221;座高&#8221;はお互いに<a href="https://best-biostatistics.com/correlation_regression/correlation.html">強く相関</a>しますので、共線性の問題を認めます。</p>



<p>&#8220;身長&#8221;は&#8221;脚の速さ&#8221;を決める因子に含まれそうな気がしますが、&#8221;座高&#8221;は&#8221;脚の速さ&#8221;に直接は関連しない因子ですよね。</p>



<p>ですが&#8221;身長&#8221;と相関する&#8221;座高&#8221;は&#8221;脚の速さ&#8221;と偽相関してしまいます。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>そのため分析の仮定で、どちらが&#8221;脚の速さ&#8221;を決める因子なのかわからなくなって計算式に不具合が出てきてしまいます。</p>



<p><strong>「&#8221;脚の速さ&#8221;と&#8221;身長&#8221;も&#8221;座高&#8221;もどっちも関係しそうだぞ？でも&#8221;身長&#8221;と&#8221;座高&#8221;も無関係じゃなさそうだ。よく分からないからどちらも誤差を大きくして結果を出しておこう！」</strong></p>



<p>という判断を（勝手に統計ソフトが）下してしまい、不当に大きな<a href="https://best-biostatistics.com/summary/sd-se-chigai.html" data-type="post" data-id="1842">標準誤差</a>が出力される結果になります。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>誤差が大きくなればなるほど、有意な関係は得られにくくなるため、誤差を異常に大きくされた&#8221;身長&#8221;と&#8221;座高&#8221;はどちらも&#8221;脚の速さ&#8221;に関係しないとされてしまうことに。</p>



<p><span style="color: #ff0000;"><strong>要するに多重共線性の問題点は、&#8221;共線性を認める説明変数の標準誤差が異常に大きくなってしまうため、有意な関係が得られなくなってしまう&#8221;ことです。</strong></span></p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>今の説明で納得できなかった人のために、もう少し突っ込んだ話をしましょう。</p>



<p>本来、重回帰分析や<a href="https://best-biostatistics.com/ezr/logistic-reg.html">ロジスティック回帰分析</a>のような多変量解析は、説明変数同士が相関しないことを仮定した上で行う分析。</p>



<p>ですので、そもそも多重共線性を認める場合は、多変量解析を使ってはダメで、正しい結果が出なくて当然なんです。</p>



<p>多変量解析を行う際は、必ず多重共線性の確認をするようにしましょう。</p>



<h2 class="wp-block-heading">多重共線性があるか判断する基準は？</h2>



<figure class="wp-block-image"><img decoding="async" width="1280" height="704" src="https://best-biostatistics.com/wp/wp-content/uploads/2020/08/なぜ_1597646367.jpg" alt="" class="wp-image-4074" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2020/08/なぜ_1597646367.jpg 1280w, https://best-biostatistics.com/wp/wp-content/uploads/2020/08/なぜ_1597646367-300x165.jpg 300w, https://best-biostatistics.com/wp/wp-content/uploads/2020/08/なぜ_1597646367-1024x563.jpg 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2020/08/なぜ_1597646367-768x422.jpg 768w" sizes="(max-width: 1280px) 100vw, 1280px" /></figure>



<p>ここまで読んでいただければ、多重共線性がいかに問題かご理解いただけたかと思います。</p>



<p>次の問題は、&#8221;多重共線性があるかないか、どう判断すればいいのか？&#8221;ですよね。</p>



<p><strong>結論から言えば、多重共線性の判断はVIF(分散拡大係数)をみるのが手っ取り早いです。</strong></p>



<p>VIFについての詳細は難しい話になるので省略しますが、多重共線性を判定するために算出するものだと覚えておいて問題ないです。</p>



<p>SPSSなどの統計ソフトであれば簡単に出せますのでご安心ください。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">VIFがいくつなら多重共線性の問題があるの？</h3>



<p>実は、<strong>多重共線性を判断するVIFの正確な基準値は決まっていません</strong>。</p>



<p>ただ<span style="color: #ff0000;"><strong>よく言われる基準は、&#8221;10&#8243;</strong></span>です。</p>



<p>VIFが10を超えると多重共線性を認めていると言えるわけです。</p>



<p>ただVIFが10というのは、かなり甘めの基準ではあります。</p>



<p>先ほどご説明した通り、本来<a href="https://best-biostatistics.com/correlation_regression/tahenryou.html" data-type="post" data-id="5810">多変量解析</a>は説明変数同士が全く相関していない状態であることを仮定しています。</p>



<p>そう考えると、<span class="marker"><strong>VIFが3を超えた時点ですでに結果は多少歪み始めている</strong></span>と考えていいでしょう。</p>



<p>VIFがいくつまで許容するかは統計家の中でも意見が分かれますが、個人的な意見としては最低でもVIFが5以下に収まるようにしておいた方が無難かと思います。</p>



<p>イメージとしては<strong><span class="swl-marker mark_orange">VIFが3で「ちょっとまずい」、5で「まあまあまずい」、10で「かなりまずい」</span></strong>でいいかなと。</p>



<p>多重共線性の基準はVIFが最も適しており、VIFが高ければ高いほど多重共線性を強く認めることだけは覚えておきましょう。</p>



<p>ちなみに多重共線性を認めた場合の対処法ですが、共線性の関係にある変数のどちらか（または複数）を削除してしまうことです。</p>



<p>どちらを残し、どちらを削除するかは臨床的な意義を考えて実施するのがいいですね。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">VIFか相関係数か？多重共線性の判定に適した基準は？</h2>



<figure class="wp-block-image"><img decoding="async" src="https://best-biostatistics.com/wp/wp-content/uploads/2021/04/good-1123013_1920.jpg" alt="" class="wp-image-4499"/></figure>



<p>ここまでの説明を聞いて、勘のいい方なら「VIFなんか使わずに<a href="https://best-biostatistics.com/correlation_regression/correlation.html" data-type="post" data-id="38">相関係数</a>じゃだめなのか？」と感じるかもしれません。</p>



<p><strong>結論から言いますと、多重共線性の判定に相関係数だけでは不十分。</strong></p>



<p>なぜなら<strong>相関係数は2変数間の関係だけしか見ていないからです</strong>。</p>



<p>実は、「2変数間ではそんなに相関しないけど、3変数間だとお互い相関しあっている」なんて場合があります。</p>



<p>多変量解析の分析なら、多変量の相関で考えるべきなので、2変数間の関係しかみれない相関係数だと、不十分なのです。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>それに対してVIFは全ての変数を使って計算していますので、多変数間の相関も考慮してくれます。</p>



<p>「相関係数で見たときは問題なかったけど、VIFで見ると問題だった」というケースはあります。</p>



<p>よほどの事情がなければ、多重共線性の判定にはVIFを使うほうが無難ですね。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>ただし多重共線性の問題は、相関係数がかなり高い値じゃないと生じないのも事実。</p>



<p>目安としては、0.7とかそれ以上の相関係数の場合に考えなければならないことです。</p>



<p>そして今までの経験上、医学系のデータで0.7以上の相関を持つ変数ってなかなかないんですよね。。</p>



<p>0.3ぐらいあれば「お、関連があるかも」と考え出すレベルなので。</p>



<p>なので、0.4以下の相関係数であればVIFを確認せずとも多重共線性の問題はないとして解析を進めていいのではと、個人的には思います。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">まとめ</h2>



<figure class="wp-block-image"><img decoding="async" width="1280" height="630" src="https://best-biostatistics.com/wp/wp-content/uploads/2020/09/_1599793057-e1599793078970.jpg" alt="" class="wp-image-4277" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2020/09/_1599793057-e1599793078970.jpg 1280w, https://best-biostatistics.com/wp/wp-content/uploads/2020/09/_1599793057-e1599793078970-300x148.jpg 300w, https://best-biostatistics.com/wp/wp-content/uploads/2020/09/_1599793057-e1599793078970-1024x504.jpg 1024w, https://best-biostatistics.com/wp/wp-content/uploads/2020/09/_1599793057-e1599793078970-768x378.jpg 768w" sizes="(max-width: 1280px) 100vw, 1280px" /></figure>



<p>最後におさらいをしましょう。</p>



<div class="simple-box4">
<ul>
<li>多重共線性とは説明変数同士に相関がみられること</li>
<li>多重共線性があると、間違った分析結果になる（βエラーの増加）</li>
<li>多重共線性の判定には相関係数ではなくVIFを用いる</li>
<li>VIFの基準は一般的には10だが、5以下が理想</li>
</ul>
</div>



<p>いかがでしょうか？</p>



<p>多重共線性は分析結果にかなり影響するため、<a href="https://best-biostatistics.com/correlation_regression/tahenryou.html">多変量解析</a>を行うなら必須の知識です。</p>



<p>ですが、多重共線性を知らずに多変量解析を使っている方も多くいます。</p>



<p>間違った解析をしないためにも、是非多重共線性について覚えていただければ幸いです。</p>
]]></content:encoded>
					
					<wfw:commentRss>https://best-biostatistics.com/correlation_regression/multi-co.html/feed</wfw:commentRss>
			<slash:comments>3</slash:comments>
		
		
			</item>
		<item>
		<title>相関係数とは？p値や有意差の解釈などを散布図を使ってわかりやすく！</title>
		<link>https://best-biostatistics.com/correlation_regression/correlation.html</link>
					<comments>https://best-biostatistics.com/correlation_regression/correlation.html#comments</comments>
		
		<dc:creator><![CDATA[beat1115]]></dc:creator>
		<pubDate>Mon, 07 Apr 2025 00:00:44 +0000</pubDate>
				<category><![CDATA[相関と回帰分析]]></category>
		<category><![CDATA[Summary]]></category>
		<category><![CDATA[平均]]></category>
		<category><![CDATA[標準偏差]]></category>
		<category><![CDATA[統計]]></category>
		<category><![CDATA[要約]]></category>
		<guid isPermaLink="false">http://best-biostatistics.com/wp/2018/08/27/correlation/</guid>

					<description><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2018/08/スクリーンショット-2018-10-12-07.35.56.png" class="webfeedsFeaturedVisual" /></p>複数の変数があったときに、まず思い出すのが相関と回帰分析ですよね。
じゃあ相関と回帰分析の解釈の仕方、どうすればよいでしょうか？
]]></description>
										<content:encoded><![CDATA[<p><img src="https://best-biostatistics.com/wp/wp-content/uploads/2018/08/スクリーンショット-2018-10-12-07.35.56.png" class="webfeedsFeaturedVisual" /></p>
<p>この記事では、相関係数に関して散布図を使ってわかりやすく解説しています。</p>



<p>相関分析でのp値の意味や有意差に関する解釈もお伝えしています。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p><a href="https://best-biostatistics.com/correlation_regression/regression.html" target="_blank" rel="noopener noreferrer">複数の変数（データ）がある場合の解析手法として、回帰分析を紹介しました</a>。</p>



<p>そして回帰分析と同様、複数の変数がある場合の解析手法として、記事では相関を紹介します。</p>



<p>まずは、相関係数に関する基礎知識について。</p>



<p>そして、相関と回帰分析の違いについて解説。</p>



<p>最後に、相関係数を解釈するときのp値や有意差に関する注意点を解説します。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">相関係数とは？散布図を見ながら基礎的な知識をわかりやすく</h2>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="640" height="350" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/f3ff2b38f21bcd8da977db80ed2a0e7e_s-e1577089044626.jpg" alt="相関係数とは？散布図を見ながら基礎的な知識をわかりやすく" class="wp-image-2531" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/f3ff2b38f21bcd8da977db80ed2a0e7e_s-e1577089044626.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/f3ff2b38f21bcd8da977db80ed2a0e7e_s-e1577089044626-300x164.jpg 300w" sizes="(max-width: 640px) 100vw, 640px" /></figure>
</div>


<p>2つの変数間の相関を知るために用いる指標は、相関係数という値です。</p>



<p>相関係数は、以下のような４つの特徴を持っています。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<ol class="wp-block-list">
<li><strong><span style="font-size: 16px;">単位がない</span></strong></li>



<li><strong><span style="font-size: 16px;">-1から1までの実数である</span></strong></li>



<li><strong><span style="font-size: 16px;">1に近いときは、2つの確率変数には正の相関があるといい、-1に近ければ負の相関があるという。0に近いときには相関が弱い</span></strong></li>



<li><strong><span style="font-size: 16px;">直線関係の強さを表している。</span></strong></li>
</ol>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>相関係数の３つ目の特徴である「<strong><span style="font-size: 16px;">1に近いときは、2つの確率変数には正の相関があるといい、-1に近ければ負の相関があるという。0に近いときには相関が弱い</span></strong>」を図で示すと、以下のようになります。</p>



<figure class="wp-block-image"><img decoding="async" width="935" height="393" src="https://best-biostatistics.com/wp/wp-content/uploads/2018/08/相関.png" alt="相関係数とは？散布図を見ながら基礎的な知識をわかりやすく2" class="wp-image-153" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2018/08/相関.png 935w, https://best-biostatistics.com/wp/wp-content/uploads/2018/08/相関-300x126.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2018/08/相関-768x323.png 768w" sizes="(max-width: 935px) 100vw, 935px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>また、相関係数の4つ目の特徴である「<strong><span style="font-size: 16px;">直線関係の強さを表している</span></strong>」を図で説明すると、以下のようになります。</p>



<figure class="wp-block-image"><img decoding="async" width="619" height="464" src="https://best-biostatistics.com/wp/wp-content/uploads/2018/08/二次.png" alt="相関係数とは？散布図を見ながら基礎的な知識をわかりやすく3" class="wp-image-154" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2018/08/二次.png 619w, https://best-biostatistics.com/wp/wp-content/uploads/2018/08/二次-300x225.png 300w" sizes="(max-width: 619px) 100vw, 619px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>相関係数はあくまで「直線関係」を示しています。</p>



<p>そのため、二次関数的な関係があったとしても、相関係数は0に近くなります。</p>



<p>逆に言えば、<strong><span class="marker">相関係数が0に近い値であっても直線関係以外の関係を見いだせることがあるため、散布図を作成するなどして目視的に確認する事が重要</span></strong>です。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">相関係数の性質：正の相関と負の相関の例</h3>



<p>では、身近にある正の相関と負の相関の例を考えてみましょう。</p>



<p>一般的に、身長が高くなると体重が重くなります。</p>



<p>ということは、<strong><span class="marker">「身長」と「体重」の間には正の相関</span></strong>があります。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>一方で、運動している習慣がある人は、生活習慣病の原因の一つである血圧が低い傾向にあります。</p>



<p>そのため例えば、<strong><span class="marker">「1週間の間に運動している時間」と「血圧」の間には負の相関</span></strong>があるということができます。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">相関係数のp値や有意差はどんな意味があるか？</h2>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="640" height="345" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/987eca87017b5f2fa265f89558d4724a_s-e1577496841202.jpg" alt="相関係数のp値や有意差はどんな意味があるか？" class="wp-image-2530" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/10/987eca87017b5f2fa265f89558d4724a_s-e1577496841202.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/10/987eca87017b5f2fa265f89558d4724a_s-e1577496841202-300x162.jpg 300w" sizes="(max-width: 640px) 100vw, 640px" /></figure>
</div>


<p>相関係数の分析でたまにこのような質問をいただく事があります。</p>



<p><strong>「相関係数に関する検定で有意でなければ「相関が高い」とはいえないのでしょうか？」</strong></p>



<p>あなたはどう思いますか？</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>なんとなく、正当なことを言っているように思えます。</p>



<p>それに、世間的には「相関係数の検定のp値が小さい方が相関が高い、すなわち関連が強いことを意味している」という誤解された解釈が広く認識されている気もします。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>ですが、ちゃんと把握してもらう必要があるのは、次のことです。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p><span class="marker" style="font-size: 24px;"><strong>「相関係数が大きいことと、相関係数の検定が有意であることは、切り離して考える」</strong></span></p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>なぜか。</p>



<p>基本に立ち返って考えてみましょう。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">相関係数の帰無仮説と対立仮説は？p値が0.05を下回って有意差がある時何が言える？</h3>



<p>検定をするからには、<a href="https://best-biostatistics.com/hypo_test/hypo.html" target="_blank" rel="noopener noreferrer">帰無仮説と対立仮説</a>があるはずです。</p>



<p>相関係数の検定に関する<a href="https://best-biostatistics.com/hypo_test/hypo.html" target="_blank" rel="noopener noreferrer">帰無仮説と対立仮説</a>は何であるか、分かりますか？</p>



<p>答えは、以下の通りです。</p>



<div class="swell-block-capbox cap_box is-style-onborder_ttl2"><div class="cap_box_ttl"><span>相関係数の検定の帰無仮説と対立仮説</span></div><div class="cap_box_content">
<p><strong>帰無仮説：相関係数＝０</strong></p>



<p><strong>対立仮説：相関係数≠０</strong></p>
</div></div>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>つまり、<span class="marker">相関係数のp値が0.05を下回った時に言えることは、「<strong><span class="ylw">相関係数が０ではなさそうだ</span></strong>」</span>ということだけです。</p>



<p>そのため、<span style="color: #ff0000;"><strong>相関係数の検定に有意差があった時、「相関がないわけではない」という程度の意味しかなく、「相関が高い」ということは言えませ</strong></span>ん。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">相関係数のp値の意味と解釈は？</h3>



<p><strong>相関係数が0.1であっても、p＜0.05の場合があります。</strong></p>



<p><strong>一方で、相関係数が0.8であっても、p＞0.05の場合もあります。</strong></p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>この時、前者が「相関が高い」後者が「相関が低い」と言えるでしょうか？</p>



<p>言えないですよね。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>なぜかというと、<span style="color: #ff0000;"><strong>p値は相関係数の大小だけでなく、データの数に依存するから</strong></span>です。</p>



<p>このp値がデータ数に依存する、という性質はT検定などとも一緒です。</p>



<p>T検定では、２群の差の大きさだけでなく、データの数にも依存してp値が変わります。</p>



<p>そのような背景があるため、<strong><span class="marker">相関係数が高いことと相関係数の検定が有意であることは、切り離して考える必要があります</span></strong>。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">相関分析と回帰分析はどう違う？</h2>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="640" height="427" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/11/a1da5ef0ce44877f9b66d512f4762577_s.jpg" alt="相関分析と回帰はどう違う？" class="wp-image-2487" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/11/a1da5ef0ce44877f9b66d512f4762577_s.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/11/a1da5ef0ce44877f9b66d512f4762577_s-300x200.jpg 300w" sizes="(max-width: 640px) 100vw, 640px" /></figure>
</div>


<p>相関係数の特徴はわかりました。</p>



<p>ですが、ここで１つ疑問が。</p>



<p><span class="ylw"><span class="marker">２つの変数の比例関係を見る点では、相関も回帰分析も変わらないように感じます</span></span>。</p>



<p>相関と<a href="https://best-biostatistics.com/correlation_regression/regression.html" target="_blank" rel="noopener noreferrer">回帰分析</a>はどう違うでしょうか？</p>



<p>あなたは答えられますか？</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>実は、かなりの違いがあります。</p>



<p><strong><span class="ylw">相関は、２つの変数がどれくらい散らばっているか</span>を表している解析</strong>になります。</p>



<p>一方で<strong><span class="ylw"><span class="marker">回帰分析は、一方の変数から他方の変数を予測するために最も都合の良い直線</span>を引いています</span></strong>。</p>



<p>つまり、<span style="color: #ff0000;"><strong>相関ではxとyが、どっちがどっちでもいい</strong></span>のです。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>ピアソンの積率相関係数の数式を眺めてみます。</p>



<figure class="wp-block-image"><img decoding="async" width="827" height="243" src="https://best-biostatistics.com/wp/wp-content/uploads/2018/08/式.png" alt="ピアソンの相関係数" class="wp-image-155" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2018/08/式.png 827w, https://best-biostatistics.com/wp/wp-content/uploads/2018/08/式-300x88.png 300w, https://best-biostatistics.com/wp/wp-content/uploads/2018/08/式-768x226.png 768w" sizes="(max-width: 827px) 100vw, 827px" /></figure>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>詳しいことは把握しなくても大丈夫です。</p>



<p>わかっていただきたいことはただ一つ。</p>



<p>この数式で、<span style="color: #ff0000; font-size: 20px;"><strong><span class="ylw">xとyを入れ替えたとしても、相関係数（r）の値は全く変わらない</span></strong></span>ということです。</p>



<p>一方で回帰分析は、一方の変数（x）から他方の変数（y）を予測（説明）するために最も都合の良い直線を引いている、ということでした。</p>



<p>つまり、<span style="color: #ff0000;"><strong><span style="font-size: 20px;">回帰分析では</span></strong><span style="font-size: 20px;"><strong><span class="ylw"><strong><span style="font-size: 20px;">ど</span></strong>ちらがxでどちらがyか、ということがとても重要</span>になってくる</strong></span></span>のです。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">相関係数に関する解釈の注意点</h2>



<p>-1〜1の間しか取りうる数字がなく、しかもp値まで算出できるので、何かと便利に感じる相関係数。</p>



<p>しかし、相関係数にも解釈上の注意点があります。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">相関係数の解釈注意点1：データ数が十分かどうか</h3>



<p>統計全般に言える事ですが、データ数が十分でない場合には、相関係数の信頼性が低くなります。</p>



<p>例えばデータ数が5で、相関係数が0.7といった結果が出たとしても、その信頼性は高くありません。</p>



<p>ではどれぐらいのデータ数だったら十分なのか？という疑問もあるかと思いますが、それは一概には言えませんので、個々の判断になります。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h3 class="wp-block-heading">相関係数の解釈注意点2：相関関係は因果関係を示すものではない</h3>



<p>注意点の2つ目は、<span style="color: #ff0000;"><strong>”相関関係は因果関係を示すものではない”</strong></span>という事です。</p>



<p>例えば、先ほどの負の相関の例で挙げた<strong><span class="marker">「1週間の間に運動している時間」と「血圧」の間には負の相関</span></strong>がある、ということを考えてみます。</p>



<p>一見すると、運動すれば血圧が下がる、というのは因果関係がありそうに思えます。</p>



<p>しかし逆を考えてみましょう。</p>



<p><span class="marker">血圧が正常である健康な人ほど、運動する余力があるので運動する時間が長い、という関係になっているかもしれません</span>よね。</p>



<p>そのため、あくまで相関関係は”何かしらの関係がある”ということしか示しておらず、”因果関係を示している”という事ではないので、注意してください。</p>



<p>因果関係を示しているかどうかを考察するには、データの取り方を工夫しなければなりません。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<h2 class="wp-block-heading">相関係数に関するまとめ</h2>


<div class="wp-block-image">
<figure class="aligncenter"><img decoding="async" width="640" height="344" src="https://best-biostatistics.com/wp/wp-content/uploads/2019/11/53e0d72ad9bae4b1e39c3b1c6bf377dd_s-e1573554634921.jpg" alt="相関係数に関するまとめ" class="wp-image-2320" srcset="https://best-biostatistics.com/wp/wp-content/uploads/2019/11/53e0d72ad9bae4b1e39c3b1c6bf377dd_s-e1573554634921.jpg 640w, https://best-biostatistics.com/wp/wp-content/uploads/2019/11/53e0d72ad9bae4b1e39c3b1c6bf377dd_s-e1573554634921-300x161.jpg 300w" sizes="(max-width: 640px) 100vw, 640px" /></figure>
</div>


<p>複数の変数を解析する手法の一つが相関。</p>



<p>相関係数は、以下の４つの性質がある。</p>



<div class="nmlbox">
<ol>
<li>単位がない</li>
<li>-1から1までの実数である</li>
<li>1に近いときは、2つの確率変数には正の相関があるといい、-1に近ければ負の相関があるという。0に近いときには相関が弱い</li>
<li>直線関係の強さを表している。</li>
</ol>
</div>



<p>相関係数のp値と、相関の大きさは切り離して考える。</p>



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<p>動画でも相関係数の解説をしているので、記事を合わせてご確認くださいませ。</p>



<p class="has-text-align-center"><iframe width="560" height="315" src="https://www.youtube.com/embed/3yE-pYuO9I8" frameborder="0" allowfullscreen="allowfullscreen" data-mce-fragment="1"></iframe></p>
]]></content:encoded>
					
					<wfw:commentRss>https://best-biostatistics.com/correlation_regression/correlation.html/feed</wfw:commentRss>
			<slash:comments>8</slash:comments>
		
		
			</item>
	</channel>
</rss>
