いちばんやさしい、医療統計|数式にとらわれない、イメージとしての統計! https://best-biostatistics.com 数式にとらわれない、イメージとしての統計! Thu, 28 Mar 2024 09:55:00 +0000 ja hourly 1 https://wordpress.org/?v=6.4.3 https://best-biostatistics.com/wp/wp-content/uploads/2018/10/cropped-3c32e5f486a6597436b49ea0465a97a1_s-32x32.jpg いちばんやさしい、医療統計|数式にとらわれない、イメージとしての統計! https://best-biostatistics.com 32 32 ROC曲線とは?わかりやすくカットオフ値の決め方やAUCの意味まで解説! https://best-biostatistics.com/contingency/roc-curve.html https://best-biostatistics.com/contingency/roc-curve.html#comments Thu, 28 Mar 2024 05:02:17 +0000 https://best-biostatistics.com/?p=3217 ROC曲線は、分類モデルの性能を評価するための方法の一つです。

医療統計の中では「検査の陽性/陰性」と「疾患の有無」といった、検査の性能を評価する際によく用いられる方法。

コロナウイルスが流行した際に、PCR検査でも話題になりました。

PCR検査を行なうと下の表のように偽陰性や偽陽性が出る、というのは耳にされた方が多いのではないでしょうか。

疾患あり 疾患なし
検査 : 陽性 真陽性 偽陽性
検査 : 陰性 偽陰性 真陰性

これから解説するROC曲線というものを使うと、検査の有効性を分析することができるのでしっかり覚えておきましょう。

本記事では、ROC曲線とは何か、そしてその読み解き方について、初心者でも理解できるようにわかりやすく解説します。

分類モデルの評価においてROC曲線がなぜ重要なのか、その基礎知識から応用例、さらにはROC曲線の限界と注意点についても触れていきます。

 

ROC曲線とはわかりやすくいうとどんな曲線?感度と特異度を考慮した曲線

まず用語の定義から始めます。

  • 真陽性:実際に疾患がある人が陽性と判断されること
  • 偽陽性:実際には疾患がない人が陽性と判断されること
  • 偽陰性:実際に疾患がある人が陰性と判断されること
  • 真陰性:実際には疾患がない人が陰性と判断されること
疾患あり 疾患なし
検査 : 陽性 真陽性(A) 偽陽性(B)
検査 : 陰性 偽陰性(C) 真陰性(D)

上の表の記号を使って真陽性率を算式であらわすと、真陽性率=A/(A+C)となり、これを感度と呼びます。

また、真陰性率=D/(B+D)となりこれを特異度と呼びます。

このとき、1-特異度=B/B+D)となり、これを偽陽性率と呼びます。

 

つまり真陽性率(True Positive Rate:TPR)は、実際に疾患ありに属する人数のうち、正しく疾患ありと予測された人数の割合のことです

偽陽性率(False Positive Rate:FPR) は、実際には疾患なしに属する人数のうち、誤って疾患ありと予測されたサンプルの割合のことです

1から特異性を引いた値に等しく、検査が疾患なしをどれだけ誤って疾患ありと判断するかを示します。

上のグラフのように横軸(0から1まで)に1-特異度、縦軸(0から1まで)に感度をプロットし、カットオフ値(検査の基準値)を連続的に変化させた際に描かれる曲線(上のグラフでは青い色の線)のことをROC曲線と呼びます

ROC曲線とは、感度(真陽性率)と1-特異度(偽陽性率)の関連を表す曲線

 

PCR検査でROC曲線を考える:具体的な書き方は?

カットオフ値を下げれば下げるほど感度 (=陽性率) は高くなる、という性質があります。

PCR検査の例でいえば「唾液中のウイルス遺伝子量20フェムトグラム/デシリットル以上」がであれば検査陽性になりますが、、1フェムトグラムとは1グラムの1000兆分の1のことなのでほとんどないに等しいということを意味します。

ほとんどの人がこの基準を満たしますから、感度は限りなく1に近づきます。

その一方で、特異度は極めて小さく、0に近いはず。

すなわち、1-特異度は1に近い数値になります。したがって、このカットオフ値はROC曲線でいえば右上の部分にプロットされます。

ではここから、カットオフ値を徐々に上に上げていきましょう。

 

例えば以下のような図だと、疾患ありの8人の中で、陽性になる人は7人ですから、感度は7/8=87.5%になります。

一方で疾患なしの7人のうち、4人が検査陰性になるので、特異度は4/7=57%になります。

つまり、カットオフ値を上げれば上げるほど感度 (=陽性率) は低くなるのですが、特異度は上がっていく。

そしてカットオフ値を1番上まで持っていくと、感度は0になり、特異度は100%になります。

これは「感度と特異度はトレードオフの関係がある」ということです。

 

このようにして、カットオフ値を変化させていけば、左下から徐々に右上に向かう、以下のような形状の曲線になるのです。

ROC曲線は、このように一辺の⻑さが1の正⽅形の中に定義される曲線です。

ROC曲線は、でたらめな検査であれば45度の直線になり、有効な検査であれば45度の線から左上に離れた曲線になります。

ROC曲線が45度の線から左上に離れれば離れるほど検査は有効性が高いということになるのです。

ROC曲線から計算するAUCの意味は?


次にAUC(Area Under the Curve)という概念について説明します。

AUCとは、ROC曲線の下側の⾯積のこと。

ROC曲線とは偽陽性率と真陽性率が基準値に対してどのように変化するかを示す曲線なので、ROC曲線を用いて算出されるAUCはある検査がどれくらい有用性があるのかの指標となるのです。

AUCとは、ROC曲線の下側の⾯積

 

なぜROC曲線を用いて算出されるAUCが検査の有用性の指標となるのか?

AUCはROC 曲線の下の面積ですので、ROC 曲線の性質から、でたらめな検査のときにAUCが0.50になり、完璧な検査のときにAUCは1になることが理解できるかと。

このように、疾患ありと疾患なしを識別できる程度が ROC 曲線下の面積に反映されるため、AUCにより検査の総合的な評価を行うことが可能となります。

AUCは、検査の総合的な性能を1つのスコアにカットオフ値によらない形で実現した指標と言えるでしょう。

ROC曲線からカットオフ値の決め方は?

ROC曲線からカットオフ値の決め方について主に2つを理解しよう

では、ROC曲線からカットオフ値を決めるにはどうしたらいいか。

ROC曲線からカットオフ値を決める方法はいくつかありますが、ここでは①グラフの左上、座標でいうと(0,1)からの距離を最小にする方法と、②Youden’s indexというものを用いた方法の2とおりの方法をご紹介します。

ROC曲線からカットオフ値の決め方1:左上の隅の点からの距離が最小となる方法

この方法は、後述するYouden’s indexと違ってスマートな名前がありません。

とりあえず、「左上の隅の点からの距離が最小となる方法」としておきます。

感度と1-特異度という2つの変数からなるROC曲線は、これまで説明したとおり、45度の線から左上に離れれば離れるほど検査としての有効性が上がることが理解できるのでは。

したがって、左上の隅(0,1)との距離が最小となる点をカットオフ値にするという方法が、まず一つの方法としてあり得るのです。

これはスマートな名前がなくて覚えにくいですが、内容は結構シンプルですよね。

ROC曲線からカットオフ値の決め方2:②Youden’s index

次にYouden’s indexというものについて説明します。

これは感度も特異度も高いほうがいいと考えて、(感度+特異度)が最大になる点を最適点と定義する方法です。

具体的には、最も検査の有効性が低いROC曲線、すなわちAUC = 0.5となる45度の線から最も離れたポイントをカットオフ値にすればいいということ。

45度の線から縦軸方向の距離を計算すると(感度+特異度-1)となりますが、これが最大値となるポイントをカットオフ値にしてしまえばいい。

これは、①の方法の逆の考え方になっています。この(感度+特異度-1)が最大値となる点をYouden indexと言います。

これはちゃんと名前が付いていて覚えやすい。

まとめ

ROC曲線は、検査や診断薬の性能最適な境界値を推定する方法のひとつです。

ROC曲線は感度と特異度しか考慮しませんが、複数の検査項目のROC曲線をひとつのグラフ上に描くことができるため、複数の検査項目について診断指標としての性能を比較することができます。

ROC曲線は、検査や診断薬の性能最適な境界値を推定する方法のひとつですが、実は万能な方法ではありません。

そんな神のような完璧な方法があるわけないですよね。

ですが、直観的に理解しやすく扱いやすい手法と言えます。

どんな方法にも短所と長所がありますので、それぞれの研究目的に合った方法を選択する必要があるのです。

ROC曲線を用いた分析手法を皮切りにさまざまな分析手法を勉強していきましょう。

 

>>JMPでROC曲線を作成する方法!

>>EZRでROC曲線とAUCを算出する方法

]]>
https://best-biostatistics.com/contingency/roc-curve.html/feed 1
カイ二乗検定とは?わかりやすく例を用いて分割表からp値の計算式も簡単に解説! https://best-biostatistics.com/contingency/chi-square.html https://best-biostatistics.com/contingency/chi-square.html#comments Wed, 27 Mar 2024 03:11:49 +0000 http://best-biostatistics.com/wp/2018/02/16/chi-square/ 分割表の解析で出てくる検定は2つです。

それは、「カイ二乗検定」「フィッシャーの直接確率検定」です。

層別解析であるCMH検定もありますが、CMH検定は一旦置いておきます。。)

 

この記事では、そのうちのカイ二乗検定についてわかりやすく解説していきます!

「カイ二乗検定とは何?」から始まり、分割表からp値の計算式まで解説します!

計算式についても、「カイ二乗検定が何をやっているか?」がわかれば、簡単に理解できるようになります。

 

ぜひこの記事で「カイ二乗検定」についてマスターしましょう!

>>フィッシャーの直接確率検定についてはこちらで解説しています。

 

カイ二乗検定とはどんな検定?t検定との違いは?

カイ二乗検定とはどんな検定?t検定との違いは?

カイ二乗検定は、統計学的検定の中でも最も有名な検定と言っていいですね。

カイ二乗検定とt検定は、どの統計の本をみても必ず掲載されています。

 

ではカイ二乗検定とt検定は何が違うの?

と言われた時に、あなたは答えられますか?

一言でいうと、このような違いがあります。

 

カイ二乗検定は、カテゴリカルデータを対象とした検定手法

t検定は、連続データを対象とした検定手法

 

この違いが一番大きい違いです。

そのため、連続データに対してカイ二乗検定を実施することはできませんし、カテゴリカルデータ(質的データ)に対してt検定を実施することもできません。

 

カイ二乗検定とは、独立性の検定ともいわれている

カイ二乗検定は、独立性の検定ともいわれています。

(独立って言われても意味わからない・・・)

と思いますよね。

私も初めは全く分かりませんでした。

 

でも理解すると、文字通りのまんまだなー、と思えるでしょう。

独立を辞書で引くと、このような意味です。

 

  1. 他のものから離れて別になっていること。「母屋から独立した離れ」
  2. 他からの束縛や支配を受けないで、自分の意志で行動すること。「独立の精神」「独立した一個の人間」
  3. 自分の力で生計を営むこと。また、自分で事業を営むこと。「親から独立して一家を構える」「独立して自分の店をもつ」

 

つまり「独立」を言い換えると、「何かに依存していない」「何かに関連していない」ということです。

 

じゃあ、今回のカイ二乗検定の場合、何に関連していない状態か。

答えは、「2つの変数間で関連していない」ということ。

言い換えると「2つの変数が独立している」ということ。

「2つの変数」とは、行方向(横方向)の変数と、列方向(縦方向)の変数の二つ、ということです。

 

カイ二乗検定を例を用いてわかりやすく解説!

カイ二乗検定を例を用いてわかりやすく解説!

では実際に、例を挙げてカイ二乗検定でやっていることを簡単にわかりやすく説明します。

例えば、こんな分割表があったとします。

 

表1:薬剤群とコントロール群で治った人の数

治った 治らなかった 合計
薬剤群 13 7 20
コントロール群 5 15 20
合計 18 22 40

 


薬剤群とコントロール群では1:1(20人:20人)に分けられた。

その結果、疾患が治った人と治らなかった人は、新薬群で13人と7人、コントロール群で5人と15人だった。

こんな結果の分割表ですね。

 

このとき、この2×2の分割表は4つのカテゴリを持つことになります。

4つとは、以下の通りです。

 

  1. 薬剤群で治った人のカテゴリ
  2. 薬剤群で治らなかった人のカテゴリ
  3. コントロール群で治った人のカテゴリ
  4. コントロール群で治らなかった人のカテゴリ

 

カイ二乗検定の例題:まずは期待度数の表を作る

この時、ある表を作ってみます。

一番右の列と一番下の列の数値から、4カテゴリで関連がなかった時の「期待度数」を算出した表です。

期待度数の算出は以下の通り。

 

例えば薬剤群で治った人のカテゴリに関する期待度数。

これは、全40人のうち、20人が薬剤群です。

そして、全40人のうち、薬剤群かコントロール群かに関わらず、治ったのは全部で18人。

だから、40×20/40×18/40=9人が、関連がなかったと仮定した時の、薬剤群で治った人の人数になります。

同様にしてほかのカテゴリの期待度数を計算すると、以下の分割表ができます。

 

表2:表1を基にした期待度数

治った 治らなかった 合計
薬剤群 9 11 20
コントロール群 9 11 20
合計 18 22 40

 


この表2が「2つの変数が独立だった時の分割表」になります。

つまり、カイ二乗検定がやっていることはこのように言い換えられます。

 

カイ二乗検定とは、表1(観測されたデータでの分割表)と表2(独立である状態を想定した分割表)で、どれだけ違いがあるかを数値的に判断する

 

ちなみにこのデータはP値が0.05を下回るので、独立ではない。

つまり、薬剤群かコントロール群かによって、治るか治らないかが違ってくる。

こんな結論になります。

 

 

カイ二乗検定の例題:カイ二乗値の計算式は?

ここから、カイ二乗値の計算式を解説します。

もし、カイ二乗検定の概要だけで知れればいい、ということであれば、ここから先は確認しなくてもOKです。

 

カイ二乗値は、各カテゴリで、以下の計算式で求めた値を全て足し合わせたものです。

 

カイ二乗検定の例題:カイ二乗値の計算式は?

 

つまり、先ほどのデータで表1と表2の差を計算していることになります。

この計算式をもとに各カテゴリで計算すると、以下のような表を作ることができます。

 

治った 治らなかった
薬剤群 1.78 1.45
コントロール群 1.78 1.45

 

そしてカイ二乗値は、これら4つの値を全て足したもの。

 

1.78+1.78+1.45+145=6.46

 

この6.46が、カイ二乗値になります。

 

 

イェーツの連続性補正のカイ二乗値というものもある

実はカイ二乗値には、上記で示したものの他に「イェーツの連続性補正」をしたカイ二乗値というのもあります。

イェーツさんによれば、カイ二乗値とカイ二乗分布に小さなズレがあり、そのズレの影響で本来より有意差が出やすい結果になってしまうのではないかというわけです。

有意差が出やすいということは、本来有意差がないのに有意差があるという間違った結果が出るリスク(第一種の過誤、αエラー)が大きくなるということ。

αエラーが大きくなっちゃダメですよね。。

なので、それを補正するのがイェーツの連続性補正。

イェーツの連続性補正については、こちらの記事をご参照くださいませ!

 

カイ二乗検定でP値を算出するには、自由度を求めてカイ二乗分布表と見比べる

カイ二乗値が算出できれば、あとはカイ二乗分布表と見比べるだけです。

見比べる際には「自由度」の知識が必要になりますので、自由度についても学んでおきましょう

自由度に関して結論だけ記載しておくと、m*nの分割表での自由度は(m-1)*(n-1)と計算されます。

つまり、2*2分割表であれば、(2-1)*(2-1)=1と計算できるのです。

 

前述の通り、このデータをもとに出力されるP値は、0.05を下回ります。

そのため結論は“独立ではない”、つまり、薬剤群かコトロール群かによって、治るか治らないかが違ってくる、というような結論になります。

 

カイ二乗検定を統計解析ソフトで実践したり動画で学ぶ

カイ二乗検定をEZRで実践する方法を、別記事で解説しています

EZRとは無料の統計ソフトであるRを、SPSSやJMPなどのようにマウス操作だけで解析を行うことができるソフトです。

EZRもRと同様に完全に無料であるため、統計解析を実施する誰もが実践できるソフトになっています。

2019年5月の時点で英文論文での引用回数が2400回を超えているとのことで、論文投稿するための解析ソフトとしても申し分ありません。

これを機に、EZRで統計解析を実施してみてはいかがでしょうか?

 

>>EZRでカイ二乗検定を実践する

 

また、SPSSやJMPでのカイ二乗検定の解析の仕方を解説していますので、是非ご覧ください。

 

>>SPSSでカイ二乗検定を実践する

>>JMPでカイ二乗検定を実践する

 

カイ二乗検定に関してまとめ

  • χ二乗検定は、独立性の検定ともいわれている。
  • χ二乗検定では、以下のことをやっている。
  • 結果の分割表から、期待度数を算出した分割表を作成する。
  • この2つの分割表がどれだけ違うかを、数値的に示す。

 

 

そして、Youtubeでもカイ二乗検定を解説しています。

この記事を見ながら動画視聴をするとかなり理解が促進しますので、是非ご利用ください。

 

]]>
https://best-biostatistics.com/contingency/chi-square.html/feed 7
条件付き確率をサイコロやベン図でわかりやすく!公式や記号の読み方は? https://best-biostatistics.com/toukei-kentei/conditional_prob.html https://best-biostatistics.com/toukei-kentei/conditional_prob.html#respond Sun, 24 Mar 2024 04:57:21 +0000 https://best-biostatistics.com/?p=1052 この記事では条件付き確率について学んでいきます。

条件付き確率は、統計検定2級でも頻出するのでぜひ理解しましょう。

この記事を見れば、これらのことがわかります。

 

  • 条件付き確率とは?その公式は?
  • ベン図で見る、条件付き確率
  • 条件付き確率を、サイコロのわかりやすい例で理解
  • ベイズの定理との関係

 

では早速学んでいきましょう!

ちなみに、2018年11月に実施された統計検定2級の問題でも、条件付き確率が出てきています

 

条件付き確率とは?公式や記号の読み方を確認する

条件付き確率とは?定義と読み方を確認する

そもそも、どんな問題が与えられたときに「条件付き確率を求めればいいんだな!」となるでしょうか。

条件付き確率を考える前に、普通の確率計算について考えてみましょう。

通常の確率計算ではこのような問題文が与えられたときに求めれば良いですよね。

 

Aが起こる確率を計算せよ

 

これが間違いなく、普通に確率を求める問題です。

では条件付き確率を求めなければいけない問題はどのような問題でしょうか。

 

Bが起こったときに(起こった条件のもとで)、Aが起こる確率を計算せよ

 

これが、条件付き確率を計算しなければならないときの問題です。

つまり「〜が起こったときに」とか「〜が起こった条件のもとで」という言葉があったら、条件付き確率を計算すればいいんだな、ということです。

 

条件付き確率の定義(公式)

それが分かったところで、条件付き確率の定義(公式)です。

全部理解する必要はないので、こんな数式なんだー、ぐらいに思ってもらえれば今のところは大丈夫です。

 

 

ここで、P(A)やP(B)というのは、「Aが起こる確率」や「Bが起こる確率」のことです。

P(A|B)というのが、「Bが起こった条件のときのAの確率」のことです。

この条件付き確率の数式の書き方は暗記するしかありません。

 

条件付き確率の読み方

ちなみに、このP(A|B)の読み方に関しても、疑問に思われれる方が多いです。

読み方に正解はないのですが、日本語だったら「Bが起こったときにAが起こる条件付き確率」と読めばいいかと思います。

英語では、「Probability of A given B」ですかね。

英語の方がシンプルですね。

直訳すると「Bが与えられた時のAの確率」。

まさに、条件付き確率です。

 

そして分子にあるこの数式。

 

 

これは「AかつBが起こる確率」のことです。

つまり、AとBが同時に起こる確率、ということです。

 

これらを踏まえて。

条件付き確率を日本語で書くと以下のとおりになります。

 

 

これが、条件付き確率の定義です。

 

条件付き確率はベン図で見るとわかりやすい

条件付き確率はベン図で見るとわかりやすい

定義だけだとよくわからない気がするので、図を使ってイメージで覚えましょう。

確率を図式化するのに有効なのが、ベン図です

 

条件付き確率はベン図で見るとわかりやすい

 

この図を見ると分かりやすいですね。

つまり条件付き確率というのは、緑色の面積(Bの確率)のうち斜線で引いた部分の面積(AとBが同時に起こる確率)がどれくらいあるかということを、求めるものです。

 

では、以下のようなベン図だったらどうなるでしょうか?

 

条件付き確率はベン図で見るとわかりやすい

 

重なっている部分がないですよね。

この時は、AかつBが0になります。

よって、条件付き確率も0になります。

 

条件付き確率をサイコロの例で学ぶ

条件付き確率をサイコロの例で学ぶ

それでは、例題を解きながら条件付き確率を深く理解しましょう。

 

Q. サイコロを振って奇数の目が出た時、それが3以下である確率を求めよ。

 

数式で書くとP(3以下|奇数)ですね。

では、どういう式で求めることができるでしょうか。

条件付き確率の定義は以下の通りでした。

 

 

ということは、今回の問題ではこのように数式を書くことができますよね。

 

 

P(奇数)=1/2であり、P(3以下かつ奇数)=2/6=1/3です。

よって、P(3以下|奇数)=2/3となります。

ベン図で書くと、以下の通り。

 

条件付き確率をサイコロの例で学ぶ

 

今回の問題の全事象Uは、「サイコロを1回振る」ってことですよね。

そして、Aが3以下の目が出る。

Bが奇数の目が出る。

で、AでもBでもないのが4と6です。

 

ベン図で書くと、かなりわかりやすいですね。

 

 

条件付き確率とベイズの定理の関係

条件付き確率は、ベイズの定理とかなり密接な関係があります。

ここから先は少し発展した内容になりますので、条件付き確率は完璧!でありベイズの定理も知っておきたい!という方のみご覧くださいね。

 

まず、ベイズの定理はこのような式です。

 

 

この式が何を意味しているのかというと、このような感じです。

 

ある事象 A が起こったという条件のもとでの事象 B の確率 P(B|A)をつかって、ある事象 B が起こったという条件のもとでの事象 A の確率 P(A|B)を求めよう。

 

これが、ベイズの定理がやっていること。

ちなみに、なぜこのような式になるか。

 

 

なので、これで得られた式を条件付き確率に代入すると、ベイズの定理が導かれる。

ベイズの定理がどんなところで使われているのか?については、また別の記事で。

 

 

条件付き確率に関するまとめ

条件付き確率に関するまとめ
  • 条件付き確率とは「〜が起こった時に、〜が起こる確率」のこと。
  • ベン図を使ってイメージで覚えると、覚えやすい。
  • ベイズの定理との関係があるため、ベイズの定理を理解する第一歩は条件付き確率を理解すること。
]]>
https://best-biostatistics.com/toukei-kentei/conditional_prob.html/feed 0
ログランク検定と一般化ウィルコクソン検定とは?p値やカプランマイヤー曲線の解釈 https://best-biostatistics.com/surviv/logrank.html https://best-biostatistics.com/surviv/logrank.html#respond Wed, 20 Mar 2024 19:26:48 +0000 https://best-biostatistics.com/?p=1128 生存時間解析で出てくる代表的な2種類のノンパラメトリック検定が、ログランク検定(Log-rank test)と一般化ウィルコクソン検定(Generalized Wilcoxon test)です。

この記事では、その2つの検定について解説します。

 

この記事を読めば、以下のことがわかるように!

  • ログランク検定の帰無仮説・対立仮説
  • ログランク検定でやっていることの概要
  • 一般化ウィルコクソン検定の概要
  • ログランク検定と一般化ウィルコクソン検定との違い
  • ログランク検定と一般化ウィルコクソン検定の、それぞれ得意とする場面

 

それではいってみましょう!

 

ログランク検定はどんなデータを対象とした検定か?カプランマイヤーとセットで解析する

ログランク検定はどんなデータを対象とした検定か?カプランマイヤーとセットで解析する

まずは、ログランク検定が対象とするデータです。

 

T検定は連続量を対象とした検定でしたよね。

カイ二乗検定はカテゴリカルデータを対象とした検定でした。

では、ログランク検定はどうでしょうか?

結論から言うと、ログランク検定は生存時間を対象とした検定です。

 

T検定 カイ二乗検定 ログランク検定
対象データ 連続量 カテゴリカルデータ 生存時間

 

ログランク検定は生存時間解析で用いる検定手法です。

生存時間解析で可視化する方法は、カプランマイヤー曲線でしたね。

 

カプランマイヤー曲線のP値はログランク検定のP値であることがほとんど

ログランク検定は、カプランマイヤー曲線とセットで出てくることが多いです。

カプランマイヤー曲線にp値が記載されていたら、それはほぼログランク検定のp値であると認識しておいてよいでしょう。

 

ログランク検定の帰無仮説と対立仮説は?

ログランク検定の帰無仮説と対立仮説は?

ログランク検定は統計的検定の1つであるため、当然ながら帰無仮説と対立仮説があります

まずはそれを理解しておきましょう。

 

ログランク検定の帰無仮説と対立仮説はこちらです。(2群の場合)

 

  • 帰無仮説:全ての時点で、2群の生存率は同じ
  • 対立仮説:ある任意の時点で、2群の生存率は異なる

 

つまり、2群の生存率が同じかどうかを検定しているということ。

ログランク検定のP値が、事前に決めておいた有意水準よりも小さければ、生存率が2群で異なるという結論を導くことができます。

この解釈の仕方は、他の検定でも同じですね。

 

ログランク検定はノンパラメトリック検定

ログランク検定はノンパラメトリック検定

ログランク検定は、ノンパラメトリック検定の1つです。

ということは、検定をする際にデータの分布を仮定しない検定だということですね。

 

一方、生存時間解析で良く出てくるCox比例ハザードモデルは、パラメトリックな方法です。

その名の通り、各時点のハザード比が一定であることを仮定しているためです。

 

 

ログランク検定でやっていること

では、実際にログランク検定でやっていることは何だろう?と思いませんか。

それを解説していきます。

ログランク検定でやっていることを一言で表すと、これです。

 

イベントが起こるごとに2×2分割表を作成する

 

・・・これだけじゃわからないですよね。

なので、実際に例を見ていきましょう。

 

 

例を見ながらログランク検定の概要を知る

例えば、以下のようなデータがあったとします。

今回の例では、死亡がイベントです。

 

生存または打ち切りの時間(ヶ月) 死亡(1)なのか打ち切り(0)なのかの違い
実薬群 5 0
実薬群 7 0
実薬群 8 1
実薬群 12 0
プラセボ群 2 0
プラセボ群 3 1
プラセボ群 4 1
プラセボ群 10 0

 

このデータで、イベント(死亡)は3回起こっていますよね。

  1. 実薬群の8ヶ月目
  2. プラセボ群の3ヶ月目
  3. プラセボ群の4ヶ月目

 

この3つです。

この3つの時点で2×2分割表を作成します。

つまり、以下のような分割表が作成できます。

 

3ヶ月時点の分割表

3ヶ月目 死亡数 生存数 合計
実薬群 0 4 4
プラセボ群 1 2 3
合計 1 6 7

 

4ヶ月時点の分割表

4ヶ月目 死亡数 生存数 合計
実薬群 0 4 4
プラセボ群 1 1 2
合計 1 5 6

 

8ヶ月時点の分割表

8ヶ月目 死亡数 生存数 合計
実薬群 1 1 2
プラセボ群 0 1 1
合計 1 2 3

 

ここで注意していただきたいのが、分割表にある合計の数値は「その時点で追跡できている数」になるということ。

データでは実薬群が4例、プラセボ群も4例の計8例です。

ですが、表中の3ヶ月時点でのデータを見れば分かる通り、プラセボ群の合計が3例で、トータルの例数は7例です。

 

「あれ?プラセボ群は4例でトータル8例じゃなかった?」

 

と思いますよね。

なぜプラセボ群の1例がいなくなったかというと、2ヶ月時点で打ち切り症例が1例いるから。

初めてイベントが起こる3ヶ月時点より早い時点(2ヶ月目)で、プラセボ群の1例は追跡不能になったため、イベント発生時の分割表からは除かれているんです。

 

以上が、ログランク検定でやっていることの概要です。

 

 

ログランク検定の検定統計量はカイ二乗統計量の発展

ログランク検定でやっていることは、イベントが発生した時点で2×2分割表を作成することだと理解しました。

であれば、検定統計量はどうなるでしょうか?

 

分割表を作成すると、算出できる統計量がありますよね。

そう、カイ二乗統計量です。

 

そのため、ログランク検定でやっていることをまとめると以下の通りになります。

 

イベントが起こるごとに2×2分割表を作成し、カイ二乗統計量を算出してP値を出力している

 

 

一般化ウィルコクソンについて。ログランク検定との違いは?

一般化ウィルコクソン検定は、ログランク検定と同じ、生存時間を扱う解析手法です。

では、ログランク検定と一般化ウィルコクソン検定では何が違うのでしょうか。

 

実は、ほとんど違いがありません

 

帰無仮説と対立仮説は、ログランク検定と同じで以下の通りです。(2群の場合)

  • 帰無仮説:全ての時点で、2群の生存率は同じ
  • 対立仮説:ある任意の時点で、2群の生存率は異なる

 

また、一般化ウィルコクソン検定もログランク検定も同様にノンパラメトリック検定です。

さらに、一般化ウィルコクソン検定でやっていることも「イベントが起こるごとに2×2分割表を作成し、カイ二乗統計量を算出してP値を出力している」ということなので、ログランク検定と同じですね。

 

唯一の違いがこれです。

 

ログランク検定と一般化ウィルコクソン検定では、カイ二乗統計量の計算の仕方が違う

 

 

一般化ウィルコクソン検定の考え方

一般化ウィルコクソン検定で重要となるたった1つの考え方があります。

それがこちら。

 

試験の最初は例数が多いため信頼性の高いデータになる。しかし、後ろになると例数が減るために信頼性の低いデータになる

 

例えば、100例生存していた中から20例死亡すると、「だいたい2割」と自信を持って言えそうですよね。

しかし、5例中1例死亡しても「だいたい2割」と本当に言えるのか?ということが疑問になります。

 

そのため例数の多く残っている、前の方の時点のデータを重要視するのです。

 

一方のログランク検定は、どの時点のデータでも平等に扱っています。

よって、ログランク検定と一般化ウィルコクソン検定の違いをまとめると以下の通りです。

 

ログランク検定ではどの時点のデータも平等に扱う。一方で一般化ウィルコクソン検定では、例数の多く残っている前の方の時点のデータを重要視して扱う

 

 

ログランク検定と一般化ウィルコクソン検定の使い分け

では次に知りたいことは、そのログランク検定と一般化ウィルコクソン検定の違いによって、どのような使い分けになるのか?ということです。

 

結論は以下の通り。

 

  • 「時間がたてばたつほど、群間差が開いてくる」タイプのデータに対しては、一般化ウィルコクソン検定よりもログランク検定の方が、有意差がつきやすくなる。
  • 一方、「結局ほぼ全員が死亡するのだけど、生存時間が延びる」タイプのデータでは、一般化ウィルコクソン検定の方が、差がつきやすくなる。

 

イメージとしては、以下の通りです。

 

ログランク検定と一般化ウィルコクソン検定の使い分け

このように、時間がたつほど曲線に差が出るのであれば、ログランク検定で有意差がつきやすいです。

 

ログランク検定と一般化ウィルコクソン検定の使い分け

このように、最初は差がつくけど最終的には同じになる場合、一般化ウィルコクソン検定で有意差がつきやすいです。

ただ、多くの論文を見ていると、一般化ウィルコクソン検定を実施している論文はほぼ皆無です。

そのため、ログランク検定を用いていれば問題ありません

 

ログランク検定をEZRで実践する

ログランク検定をEZRで実践する方法を、別記事で解説しています

EZRとは無料の統計ソフトであるRを、SPSSやJMPなどのようにマウス操作だけで解析を行うことができるソフトです。

EZRもRと同様に完全に無料であるため、統計解析を実施する誰もが実践できるソフトになっています。

2019年5月の時点で英文論文での引用回数が2400回を超えているとのことで、論文投稿するための解析ソフトとしても申し分ありません。

これを機に、EZRで統計解析を実施してみてはいかがでしょうか?

 

>>EZRでログランク検定を実践する

 

ログランク検定に関するまとめ

  • ログランク検定とは、生存時間を対象としたノンパラメトリック検定である。
  • ログランク検定でやっていることは、イベントが起こるごとに2×2分割表を作成し、カイ二乗統計量を算出してP値を出力する、ということ。
  • 一般化ウィルコクソン検定は、ログランク検定と同様に生存時間を解析する手法
  • ログランク検定では、どの時点のデータも平等に扱う。一方で一般化ウィルコクソン検定では、例数の多く残っている前の方の時点のデータを重要視して扱う
  • ログランク検定は時間がたてばたつほど、群間差が開いてくる」タイプのデータに対して有意差がつきやすくなり、一般化ウィルコクソン検定は「結局ほぼ全員が死亡するのだけど、生存時間が延びる」タイプのデータで有意差がつきやすくなる。
]]>
https://best-biostatistics.com/surviv/logrank.html/feed 0
ヒストグラムからわかることは?特徴や見方など読み取り方を例を用いてわかりやすく説明! https://best-biostatistics.com/summary/hist.html https://best-biostatistics.com/summary/hist.html#comments Tue, 19 Mar 2024 20:06:06 +0000 https://best-biostatistics.com/?p=463 ・ヒストグラムとは?

・ヒストグラムからわかることって何?

・ヒストグラムの特徴は?

・ヒストグラムの作り方がわからない・・・

 

私の元に、ヒストグラムの質問が寄せられることが多いです。

ヒストグラムは、データを正規分布かどうかを可視化するのにとても有用なグラフ。

この記事では、とても有用なヒストグラムをわかりやすく徹底解剖します!

ヒストグラムのエクセルでの作り方からその解釈方法まで、徹底解剖します!

 

ヒストグラムからわかること:データを可視化することで気付くことがある

ヒストグラムからわかること:データを可視化することで気付くことがある

私たちは、日常的に多少なりともデータを扱っています。

もしあなたが商売を営んでいるなら、売り上げや仕入れ値や経費のデータを。

もしあなたが学生なら、テストの成績データが進学や卒業に関係する重要なデータです。

もしあなたがサラリーマンであれば、毎年の健康診断のデータも、今後の健康を左右する大事なデータです。

 

しかし、データは生のまま(単純な数字の羅列)ではそこから何も見出せません

生のデータは単なる「事実」を示しています。

ただ、事実からだけでは何も生まれません。

そこで私たちは、生のデータを他のデータと比較したり、生のデータを加工したりして、何かしらの示唆を得ようとするのです。

 

下表は、50人分の大学生の男子の身長(cm)データです。

このデータを見ただけで、あなたは何かを引き出せますか?

 

169.1 164.4 171.7 176.6 176.3
178.8 160.0 169.4 175.8 165.3
167.2 162.4 161.6 165.8 166.8
160.3 167.8 168.6 171.1 168.7
168.9 168.7 176.9 170.1 169.6
168.0 180.0 174.7 181.9 167.4
178.5 162.8 173.1 174.8 179.7
170.1 168.0 173.7 168.7 174.1
163.6 166.4 163.2 168.8 170.3
170.6 169.0 181.0 162.1 167.0

 

結構難しいですよね。

データの数が10個以下ぐらいなら、なんとか生データを見て解釈可能かもしれません。

ですがデータがそれ以上になると。。

やっぱり何かしら加工してあげて、解釈する元になる代表値を出して解釈する必要がありますね。

 

ヒストグラムでわかること1:数字は同じではなくバラバラしている

50個のデータを見て解釈できることは難しそうでした。

ですが一つだけ言えることがあります。

 

それは、「身長は全員同じではなく、バラバラの数値である」ということです。

 

すーーーーっごく当たり前のことを言っています。

ですが、すーーーーーっごく大切なことです。

 

なぜなら、この「バラバラの数値をとっている」事実があるために「よし、統計を使ってみよう!」ということになるからです。

そして、バラバラの数値を取っていることを、専門用語で「分布する」と言います。

 

さて、もうちょっと50人のデータを見てみると、もう一つ言えることがありそうです。

それはバラバラだけど、ある数値の周辺でバラバラになっていそうだということです。

 

つまり、100センチ以下の身長の人は一人もいないし、200センチを超える人もいませんよね。

そして、なぜか160センチ〜180センチぐらいの間でバラバラしてそうです。

 

そう、バラバラな中にも上記のような「特徴」がありそうです。

この特徴を専門用語で「分布の特性」と言います。

 

ヒストグラムでわかること2:数字は闇雲にバラバラしているわけではない!

つまりデータは「何らかの特徴を持った上でバラバラしている」ということが言えます。

そして、その「特徴」が何なのかなー、というのを調べるために統計を使うのです。

つまり、「データとして並んでいるたくさんの数字を、何かの基準で整理整頓して、意味のある情報を取り出してあげる」ということをする。

そのために、2つの方法が考えられます。

 

  1. グラフ化してその特徴を捉える
  2. 1つの数字で特徴を代表させる(→この代表する数字を統計量と言います。)

 

今日のメイントピックである「ヒストグラム」は、1つ目の方法である「グラフ化してその特徴を捉える」という方法に最も合致した図式化方法なのです。

つまり、ヒストグラムからわかることは「データがどれぐらいばらついているのか、そしてその特徴とは何か?」ということがわかるのです。

 

ヒストグラムと同様に、箱ひげ図もデータを可視化する観点ではかなり有用なので、併せて理解していきましょう。

 

ヒストグラムの作り方!作り方がわかると特徴がわかるので読み取り方もわかる!

ヒストグラムの作り方!作り方がわかると読み取り方もわかる!

ヒストグラムはデータの特徴を捉えるのに最適な図式化方法であることを解説しました。

じゃあ、ヒストグラムを作ってみよう!

というのがここでのミッションです。

なぜなら、作り方がわかると、ヒストグラムの意味やどこまで特徴がわかるのか、といった読み取り方がわかるようになるからです。

 

つまり、何かしら身に付けたい場合には、それをアウトプットしてみることが大事です。

ヒストグラムを知りたければ、ヒストグラムをアウトプットしてみることが大事。

つまり、ヒストグラムを実際に作ってしまう、ということが大事になるのです。

 

ヒストグラムの特徴

答えから言うと、ヒストグラムはこういうものです。

さっきの、50人のデータをヒストグラムにしています。

 

ヒストグラムってこういうもの!

 

横軸が階級(データを小区間で区切ったもの)で、縦軸が度数(人数)です。

つまり、階級と度数の二つがあればヒストグラムはできるってことです!

では階級と度数の二つ用意すると決まったので、実際に作ってみましょう!

 

ヒストグラムをエクセルで作ってみる!たった3ステップで簡単に作成可能

生データからヒストグラムを作るまでには、3ステップでできます。

作成時間は2分です。

(実際に、さっきのヒストグラムを作るのに2分かかりました。)

エクセルに慣れている人なら1分かからないのでは?と思います。

 

Step1: データから一番大きい数値(最大値)と一番小さい値(最小値)を確認する 

  ↓

Step2: おおよそ範囲が最大値と最小値になるような範囲を決め、それを5~8の小区間に区切る(これを階級と呼びます)

  ↓

Step3: 各階級に入るデータの数をカウントする(これを度数と呼ぶ)

 

なにも難しいことはありません。

3回ぐらい作ったら、もう何も見なくても出来るようになるでしょう。

 

ヒストグラムの作り方1:データの最小値と最大値を確認する

ヒストグラムを作り方のステップ1は、データの最小値と最大値を確認することでした。

そのため、実際に作る時にもデータの最小値と最大値を確認しましょう。

 

先ほどの、50人の大学生の身長のデータがこのようにエクセルにあるとします。

すると、最小値は「=MIN(A1:E10)」で求めることができて、最大値は「=MAX(A1:E10)」で求めることができますね。

 

ヒストグラムの作り方2:おおよそ範囲が最大値と最小値になるような範囲を決め、それを5~8の小区間に区切る

次のステップは、おおよそ範囲が最大値と最小値になるような範囲を決め、それを5~8の小区間に区切るということでした

ステップ1で、最小値は160.0、最大値は181.9でしたね。

ということで、おおよその範囲を155〜185とします。

そして、小区間を5センチ刻みにしましょう。

 

エクセルでは、このように手入力で用意します。

 

ヒストグラムの作り方3:各階級に入るデータの数をカウント

ステップ2まで終われば、あとは数を数えるだけです。

エクセルでは、少々工夫が必要ですね。

エクセルでは=countif()という関数を駆使します。

この関数がやっていることを日本語に直すと、以下の通りです。

 

155センチより大きい人数を全て数え、そこから160センチより大きい人数を引く

 

これを、全ての階級値に対して実施します。

すると、各階級の人数を計算することができます。

 

あとは、棒グラフを適用するだけです。

エクセルの「挿入」→「2-D縦棒」を選択します。

すると、以下のヒストグラムが作成できます。

 

 

ヒストグラムから何がわかる?特徴を読み取ってみよう!

さて、あなたが丹精込めて作ったヒストグラム。

ここから何がわかるでしょうか?

もう一度ヒストグラムを再掲してみます。

 

ヒストグラムから何がわかる?特徴を読み取ってみよう!

 

実は二つの特徴が見えて来るのです。

 

ヒストグラムの特徴その1

身長は全ての階級に均一に(一様に)分布しているのではなく、ある場所に(具体的には170-175センチの間に)データが集中している

 

ヒストグラムの特徴その2

集中している場所を起点にして、そこから低い階級に向かっても高い階級に向かっても、同じように度数が減っていく。つまり、集中している場所を起点にして対称性がありそう。

 

今までをまとめると、ヒストグラムを作ることによって以下の3つの特徴がわかったのです。

 

  1. どんな数値も可能ではなさそう。
  2. ある身長の付近にデータが集中する。
  3. 集中した部分から、左右対象に度数が減っている。

 

このような特徴は、生データをみると全くわからなかった特徴。

つまり、統計を使うことによって、細部は犠牲にするが、データの特徴を浮き彫りにしてくれる便利なツール。

ヒストグラムは基本的にデータが正規分布に従うかどうかを確認する手段としても使っていいと思います。

2群間の比較をする時にもヒストグラム作成は有効なので、ぜひマスターしておきましょう!

 

ヒストグラムに関してまとめ

ヒストグラムに関してまとめ

生データを見ただけではわからない。

だが、統計を使うことで、データの特徴をつかむことができる。

ヒストグラムは3ステップで作成可能であり、データの特徴を視覚として捉えることができる。

男子大学生の身長を例にすると、以下の特徴が見える。

 

  1. どんな数値も可能ではなさそう。
  2. ある身長の付近にデータが集中する。
  3. 集中した部分から、左右対象に度数が減っている。

 

どうでしたか?

この記事があなたの疑問を解決したなら嬉しいです!

]]>
https://best-biostatistics.com/summary/hist.html/feed 8
qqプロットとは?正規分布をどのような見方で判定すればいいの? https://best-biostatistics.com/ezr/q-q-plot-ezr.html https://best-biostatistics.com/ezr/q-q-plot-ezr.html#comments Mon, 18 Mar 2024 07:09:32 +0000 https://best-biostatistics.com/?p=3170 qqプロットを聞いたことがありますか?

qqプロットは英語では、quantile-quantile plotといって、日本語に訳すなら分位-分位プロットと言います。

このqqプロットは二つの確率分布をプロットすることで比較する統計手法です。

色々な分布に適用できるのですが、実際には「得られているデータが正規分布に従っているかどうか」という観点の見方をするのに使われていますね。

今回はqqプロットについてわかりやすく説明していきます。

 

qqプロットとは?

qqプロットは英語のquantile-quantile plotの略称です。

quantileは日本語で「分位」という意味で、2つの確率分布を比較する手法です。

 

ここでの分位は、データがどの位置に分布しているかを相対的に見る数値のことで、データを昇順(小さい順)に並べて累積確率を求めることで決定します。

四分位数などが、箱ひげ図などでよく用いられます

 

分位については

>>>>中央値(メジアン)は奇数と偶数で求め方が違う?エクセル関数などもわかりやすく

>>>>箱ひげ図とは?見方やエクセル作り方まで解説!外れ値や平均値も確認できる

これらのリンクでも説明しています。

 

qqプロットはこのように、分位を点にとって散布図として描写します。

グラフの見方など、詳しくは次の節で見ていきます。

 

qqプロットで何がわかるの?正規性の判断に用いられるグラフ

qqプロットでは、2つの比較したい分布が似ているか否かがわかります

分かりやすく説明するために、実際に、いくつかの分布を比較してみてみます。

 

その前に要点を先に紹介すると、qqプロットでチェックするポイントは直線か直線ではないかです!

 

正規分布と正規分布のqqプロット

まずは二つの異なる正規分布を比較してみます。

正規分布についてはこちらで詳しく説明しています。

>>>>正規分布とは?簡単にわかりやすく標準偏差との関係もガウス分布に関して解説

ここでは、x軸に平均が0で標準偏差が1の標準正規分布と、

y軸に平均が50で標準偏差が10の偏差値の二つを10分位で(累積頻度10%ごと)比較しています。

どちらも同じ正規分布なので、比較したプロットは直線の関係となっています。

 

qqプロットでは、分位数を用いるメリットとしては、分位数によってデータの分布のみを注目することで、実際のデータの値のスケールを考慮せずに比較できるというメリットがあります。

実際に上のプロットでも直線の関係ですが、x軸とy軸の値の範囲は結構ちがいます。

 

次に、違う分布の例として正規分布と対数正規分布を比較してみます。

 

正規分布と対数正規分布のqqプロット

正規分布と対数正規分布を比較プロットするとこのようになります。

ここでは、x軸に平均が0で標準偏差が1の標準正規分布を、y軸には、平均が0で標準偏差が1の対数正規分布を10分位でプロットしています。

 

この二つは分布が異なるため、直線の関係にはなっていないですね。

qqプロットでは、二つの確率分布が異なるときはこのように直線ではない形になります。

 

この直線ではない具合を評価することで、データの値の分布についても調べるとができます。

 

最後に、二項分布と正規分布を用いて解説していきます。

 

正規分布と二項分布のqqプロット

正規分布と二項プロットを比較プロットするとこのようになります。

ここでは、x軸に平均が0で標準偏差が1の標準正規分布を、

y軸には、1/2であたりが出るコイン投げを1000回試行するときの二項分布を10分位でプロットしています。

二項分布についてはこちらで解説しています。

>>>>二項分布とは?わかりやすく正規分布との違いや近似できる問題も例を踏まえて

 

このqqプロットは直線の関係ですね。

二項分布と正規分布は異なる分布なのにどうして、直線の関係になるのでしょうか?

 

それは、二項分布は試行数nが大きくなると、近似的に正規分布になるというルールが存在するためです。

これは中心極限定理として知られている現象。

今回は1000回の試行を行っているため、正規分布に近似的に従うことになります。

このqqプロットでは、近似的に正規分布に従うという二項分布のルールを視覚化したことになります。

 

qqプロットはどういう時にときに使うの?見方はどうすればいい?

qqプロットは、あるデータの分布がある確率分布に従っているかを視覚的に調べるときに用います。

上の例でも見たように、

比較した二つの分布が同じ確率分布に従うとき、似ているときは、一直線に並びます。

比較した二つの分布が同じ確率分布に従わないときは、曲線になります。

 

これらの関係を実際のデータなどで調べることで、直感的に2つのデータの分布の形を調べることができます。

実際には「得られているデータが正規分布に従っているかどうか」という観点の見方をするのに使われていますね。

正規分布に従っているかどうかについて、正規性の検定を実施する方も多いかもしれませんが、検定はお勧めできません

ヒストグラムやQQプロットで視覚的に確認する方がいいですね。

 

qqプロットをEZRで作成する方法!

では実際にEZRでQQプロットを作成してみましょう。

EZRでT検定を実施した時のLDHというデータを使って実施してみます。

EZRにQQプロットを作成する基となるデータを読み込む

ではここから、EZRにデータを取り込みます。

まずは、サンプルデータを適切な場所に保存しておきましょう。

 

EZRを開き、「ファイル」→「データのインポート」→「ファイルまたはクリップボード, URLからテキストデータを読み込む」を選択します。

 

データセット名は「qqdata」にしましょう(実際はなんでもよい)。

そして「ローカルファイルシステム」と「カンマ」にチェックを入れてOKを押します。

データセットが「qqdata」になっていることを確認し、「表示」を押してデータが正しく表示されれば取り込み完了です。

EZRでQQプロットを作成!

データが取り込まれましたので、早速QQプロットを作成しましょう!

「グラフと表」から「QQプロット」を選択します。

すると、どの変数をどんな分布かどうかを確認するか設定ができるようになります。

今回は「LDH」のデータを「正規分布」かどうか確認するので、以下のようなっ設定にします。

そして「OK」を押すと、以下のようなQQプロットが作成されます。

これで完了です!

結構簡単にQQプロットが作成できました。

 

QQプロットに関するまとめ

qqプロットは英語のquantile-quantile plotの略称です。

quantileは日本語で「分位」という意味で、2つの確率分布を比較する手法。

 

比較した二つの分布が同じ確率分布に従うときor似ているときは=点が一直線に並びます。

比較した二つの分布が同じ確率分布に従わないときは=点が直線にならない。

 

qqプロットでチェックするポイントは直線か直線ではないかです!

]]>
https://best-biostatistics.com/ezr/q-q-plot-ezr.html/feed 1
標準偏差と標準誤差の違いをわかりやすく!計算式やエラーバーでの使い分けは? https://best-biostatistics.com/summary/sd-se-chigai.html https://best-biostatistics.com/summary/sd-se-chigai.html#comments Sun, 17 Mar 2024 05:33:41 +0000 https://best-biostatistics.com/?p=1842 統計学は、バラツキ(誤差)を扱うことに、ユニークな点があります。

データにバラツキがなければ、統計を使う必要なんてありません。

それぐらい、統計ではバラツキが重要。

 

しかし、バラツキといっても同じような指標として「標準偏差」と「標準誤差」の二種類があります

標準偏差と標準誤差は何が違うのでしょうか

標準偏差と標準誤差のどちらをつければいいのでしょうか。

標準偏差と標準誤差は似ているようで実は全く異なる概念です。

この記事では、標準偏差と標準誤差の違いを明確にし、どのような時に標準偏差を使うべきで、どのような時に標準誤差を使うべきかを明らかにしていきます。

 

 

標準偏差(SD)と標準誤差(SE)の違いは?エラーバーでの使い分けは?

標準偏差(SD)と標準誤差(SE)の違いは?エラーバーでの使い分けは?

結論から言えば、標準偏差と標準誤差は下記のような違いがあります。

  • 標準偏差は、データのバラツキを表すパラメーターです。
  • 標準誤差は、推定量のバラツキ(=精度、信頼性)を表します。

標準偏差はSD:Standard deviation、標準誤差はSE:Standard Error

と英語で書かれることもあります。

では、標準偏差と標準誤差にはどのような違いがあるのでしょうか。

 

例えば実験データから棒グラフを作成するとき、下記のようなエラーバーをつけますよね。

標準偏差(SD)と標準誤差(SE)の違いは?エラーバーでの使い分けは?
この時、標準偏差にすべき?

それとも標準誤差にすべき?

というのが疑問になると思います。

 

標準偏差とは?わかりやすく言うとどんなこと?

“標準偏差”は一言で言うならば、データのバラツキを表すパラメーターです。

もうちょっと具体的にすると、データが平均値からどれくらい散らばっているかを示す指標

そのため、標準偏差には次のような特徴があります。

  • 標準偏差が小さい → 平均に近いデータが多い →データのバラツキが小さい
  • 標準偏差が大きい → 平均から離れたデータが多い →データのバラツキが大きい

詳しくは、正規分布とは?簡単にわかりやすく標準偏差との関係やエクセルでのグラフ化を解説の記事で紹介しています。

 

標準誤差とは?わかりやすく言うとどんなこと?

標準誤差は“推定量の標準偏差”です。

つまり、標準誤差は推定量のバラツキ(=精度)を表します

 

母集団と標本の関係には、

“母集団の性質と、母集団から抽出した標本の性質は一緒ではない”という性質があります。

そのため、標本から母集団の性質を推定する必要があるのです

標準誤差とは?わかりやすく言うとどんなこと?

そして、標本から母集団の性質を推定した統計量のことを、推定量と言います。

母集団と標本の関係はこちらにも記していますので参照してみてください。

>>>不偏分散とは?簡単にわかりやすくn-1で割る理由とエクセルの関数を解説!

 

推定量は、あくまで標本からの推定した統計量でしかありません。

そのため、実際の母集団の統計量とは多少の誤差を含みます。

この推定量と母集団の統計量の誤差を、推定量の標準偏差として表すものを標準誤差と言います。

つまり、標準誤差は推定量のバラツキ(=精度)を表しています。

 

  • 標準誤差が小さいことは、推定量の精度が良いことを意味します。
  • 標準誤差が大きいことは、推定量の精度が悪いことを意味します。

 

標本平均の誤差範囲としての標準誤差

標準誤差は、推定量の標準偏差を表しますが、一般的に標準誤差は標本平均の誤差範囲を表します。

 

冒頭で述べた、グラフで使うエラーバーとしての標準誤差も標本平均の誤差範囲を意味します!

 

標準誤差は次の式で表すことができます。

標本平均の誤差範囲としての標準誤差

ここで、サンプルサイズは標本のデータの数を表しています。

このような式になるのは、“母集団の分布にかかわらず、母集団から抽出された標本の数が十分に多い場合、標本平均の分布は正規分布に従う”といった性質が存在するからです。

>>>正規分布とは?簡単にわかりやすく標準偏差との関係やエクセルでのグラフ化を解説

 

この性質で出現する正規分布での標準偏差は、“標準偏差/√サンプルサイズ”になります。

だから平均の標準偏差は上の式で表します。

 

標準誤差も、”標本平均の標準偏差”ですので、標準偏差としての性質を持ちます。

 

標本平均の誤差範囲としての標準誤差

これはつまり、

  • 標本平均±標準誤差の範囲中に約68パーセントの確率で母平均が含まれる。
  • 標本平均±2×標準誤差の範囲中に約95パーセントの確率で母平均が含まれる。
  • 標本平均±3×標準誤差の範囲中に約99.7パーセントの確率で母平均が含まれる。

という性質があるということです。

そのため、標準偏差を求めると、母平均が存在する区間の推定ができます。

標準偏差の性質については、

>>>正規分布とは?簡単にわかりやすく標準偏差との関係やエクセルでのグラフ化を解説

で解説しています。

 

また、95%信頼区間も、標準誤差の上記の性質を使って理解することができます。

 

標準偏差と標準誤差の使い分けは?

標準偏差と標準誤差の使い分けは?

標準偏差はデータの散らばり具合を、標準誤差はサンプル平均の信頼性を示します。

そのため、標準偏差はデータそのものの特性を、標準誤差はサンプルを通して母集団についての情報を得るための指標です。

  • データのバラツキが知りたいとき:標準偏差
  • 母集団の性質を知りたいときは: 標準誤差

特に、母平均を推定したいときに、標準誤差を用います。

目的が異なりますので、ぜひ上記のことは強烈に意識していただければと思います!

標準偏差を使うとき

標準偏差がわかれば、その範囲にどれくらいの観測データが含まれているかが分かります。

そのため、

  • データのバラツキを示したいとき
  • データのバラツキを比べたいとき

標準偏差を使うべきです。

例えば医学論文で言えば、被験者背景データ(Table1)は標準偏差で示すべきです。

そうすることで、どのような特徴を持った集団が、この論文の対象なのかを読者は知ることができるからです。

標準誤差を使うとき

標準誤差は、標本平均の誤差範囲でした。

つまり、標本誤差は、母平均を推定するときに用います。

  • 母平均を推定をしたいとき
  • 母平均比べたいとき

は標準誤差を使うべきです。

医学論文では、プライマリーエンドポイントの結果の記載は標準誤差がいいですね。

標準誤差を拡張して95%信頼区間を示すことでもOKです。

結果はやはり母集団の推定結果が知りたいため、標準誤差が適切です。

 

標準誤差の利用法:サンプルサイズの決定

アンケートなどを行うとき、

どのサイズのサンプルサイズが必要かを考えるときも

標準誤差を利用します。

 

ここでは一例として、内閣支持率の世論調査を考えてみたとします。

2019年時点で日本国内に有権者数は約1億人います。(総務省統計による)

何人くらいからアンケートをとると、どれくらいの精度で支持率が確認できるでしょうか。

ここではアンケートの結果、内閣支持率は50%だったと過程します。

 

(注意:ここでは二項分布を用いています。)

二項分布の標準誤差は

標準誤差=√確率×(1−確率)/サンプル数

で表します。

 

100人に聞いてみたとき

標準誤差=√0.5×(1−0.5)/100=0.05=5%

つまり、45~55%の間に約68パーセントの確率で有権者全員の支持率母平均が含まれます。

1000人に聞いてみたとき

標準誤差=√0.5×(1−0.5)/1000=0.0158=約1.6%

つまり、48.4~51.6%の間に約68パーセントの確率で有権者全員の支持率母平均が含まれます。

10000人に聞いてみたとき

標準誤差=√0.5×(1−0.5)/1000=0.005=約0.5%

つまり、49.5~50.5%の間に約68パーセントの確率で有権者全員の支持率母平均が含まれます。

このように、標準誤差を使えば、目的の精度に合わせて、サンプルサイズを決定することができます。

 

サンプルサイズに関して、より詳細に知りたい方はこちらをご覧ください。

>>サンプルサイズの決め方は?

 

標準偏差と標準誤差の違いに関してまとめ

標準偏差と標準誤差の違いに関してまとめ
  • 標準偏差は、データのバラツキを表すパラメーター
  • 標準誤差は、推定量のバラツキ(=精度)を表す
  • データのバラツキが知りたいときは、標準偏差を用いる
  • 母集団の性質を知りたいときは、標準誤差を用いる
  • 標準誤差を使えば、目的の精度となるサンプルサイズを決定できる
]]>
https://best-biostatistics.com/summary/sd-se-chigai.html/feed 3
正規分布をエクセルでグラフ化!ガウス分布の図を乱数を使って作成する https://best-biostatistics.com/excel/normal-distribute.html https://best-biostatistics.com/excel/normal-distribute.html#comments Sun, 17 Mar 2024 03:33:28 +0000 http://best-biostatistics.com/wp/2018/09/15/normal-distribute/ 正規分布は、統計を学ぶ上で絶対に把握しなければならない分布です。

正規分布とは、平均値と標準偏差が決まれば、1つに決まる分布。

 

このページでは、エクセルを使って正規分布のグラフを描いてみます。

実際に、乱数を使った正規分布の作り方は3ステップです!

このページを見れば、あなたも乱数を用いて、自由自在にエクセルで正規分布を作ることができるようになります!

 

正規分布(ガウス分布)とは?

正規分布(ガウス分布)とは?

正規分布はガウス分布とも呼ばれ、以下の式で与えられる分布です。

式は覚えなくて良いですよ!

正規分布(ガウス分布)の定義

この正規分布の式で注目して欲しいのが、μ(ミューと読みます)とσ(シグマと読みます)の2つの記号です。

これはそれぞれ、μ=平均、σ=標準偏差、を表しています。

で、なぜこの2つの記号に注目したか。

それは、μ=平均、σ=標準偏差の2つさえ決まれば、正規分布の形が決まるという性質を持つからです。

これは重要なので、絶対覚えてくださいね!

重要なので、もう一度書いておきます。

 

μ=平均、σ=標準偏差の2つさえ決まれば、正規分布の形が決まる

 

この正規分布は、統計の中でかなり重要な分布です。

というのも、95%信頼区間を正確に理解するためにも、正規分布の知識が必須だからです。

統計検定2級の問題も、正規分布の性質を知らなければ解くことができない問題が毎年出ていますね!

 

正規分布(ガウス分布)をエクセルでグラフを描く!

このページでは、このようなグラフを描くことをゴールにします。

正規分布(ガウス分布)をエクセルでグラフを描く!

たったの3ステップで出来てしまいます!

 

  1. 乱数を発生させる
  2. 乱数に応じた、正規分布の確率を算出する
  3. 上記を元に、グラフを描く

 

正規分布をエクセルで描く方法ステップ1:乱数を発生させる

まずは最初のステップです。

最初は乱数を使って、正規分布のデータを発生させます。

今回は、μ=平均=0、σ=標準偏差=1の正規分布を作成します。

 

以下の関数を用いて、乱数を発生させます。

=NORM.INV(RAND(),0,1)

RAND()の部分が、乱数を発生させている部分になります。

で、平均が0、標準偏差が1を入力しています。

「μ=平均、σ=標準偏差の2つさえ決まれば、正規分布の形が決まる」ため、エクセルでも平均と標準偏差の2つを指定する必要がありますね。

 

 

正規分布をエクセルで描く方法ステップ1:乱数を発生させる

 

上記の関数で1つのデータが発生します。

A1に=NORM.INV(RAND(),0,1)と入っていますね。

 

それを、今回は20個のデータを発生させます。

そのため、A1の関数をコピペして20個データを発生させましょう。

 

RAND()はセルによって常に値が変わります

そのため、何も考えずにコピペすることで異なる20個のデータが作成できます。

 

正規分布をエクセルで描く方法ステップ1:乱数を発生させる

これで、20個の乱数を用いたデータを作成できました。

ですが、ちょっとこれでは使いづらいです。

というのも、RAND()は、何か操作するたびに値が変わってしまうから。

 

例えば、他のセルに値を入れてエンターを押してみましょう。

そうすると、RAND()が入っている部分のデータが一斉に変わります。

すると、データの再現性が取れないので、少々使いづらいですね。

そのため、A列をコピーして別の列(ここではC列)に「値のペースト」をします。

そうすることで、何か操作するたびに値が変わるということがなくなります。

 

正規分布をエクセルで描く方法ステップ1:乱数を発生させる

 

で、データの完成形がこれです。

正規分布をエクセルで描く方法ステップ1:乱数を発生させる

 

正規分布をエクセルで描く方法ステップ2:乱数に応じた、正規分布の確率を算出する

次のステップです。

ステップ1で作成したデータに応じて、正規分布の確率を算出してあげます。

隣の列に、このような関数を入れます。

=NORM.DIST(C1,0,1,FALSE)
正規分布をエクセルで描く方法ステップ2:乱数に応じた、正規分布の確率を算出する

 

上記の関数で、C1と入力している部分は、「値のペーストをしたセル」を入れてくださいね。

で、最後の関数形式は、FALSEを入れます。

 

関数形式がTRUEだと、累積確率を出してしまうからです。

累積確率に関しては、また別のところで解説しますね。

 

とりあえずこのページでは、「FALSEにする」ということだけ覚えてください。

この関数を、また20個ほどコピペします。

すると、以下のようにD列にも20個のデータが作成されました。

正規分布をエクセルで描く方法ステップ2:乱数に応じた、正規分布の確率を算出する

 

正規分布をエクセルで描く方法ステップ3:グラフを描く

これでデータの準備はできました。

次は、今まで作成したデータを元にしてグラフを描くだけです。

 

ですが、グラフ化の前に、もう一つだけ作業を。

それは、X軸となるデータを小さい順に並べておく、ということです。

今回のX軸となるデータは、C列です。

なので、C列とD列の各20個のデータを選択肢、C列をキーにして小さい順に並べます。

 

正規分布をエクセルで描く方法ステップ3:グラフを描く

 

これでやっと、すべての準備が完了です。

「挿入」タブから、散布図(平滑線とマーカー)を選びます。

これは、隣の散布図(平滑線)を選んでも大丈夫です。

マーカーとは、データの点のことを示しているため、点があるかないかだけの違いなので。

お好みでどうぞ。

 

正規分布をエクセルで描く方法ステップ3:グラフを描く

 

そうすると、冒頭のグラフができました。

正規分布をエクセルで描く方法ステップ3:グラフを描く

全然難しくないですね!

 

ちなみに、これだとガタガタしたグラフです。

なんとなく、滑らかなグラフを描いてみたい、という思いもありますよね?

であれば、データを増やせばOKです。

 

この例では、20個のデータでグラフを書きました。

しかし、これを200個のデータで作成すると、以下のような、滑らかなグラフになります。

 

正規分布をエクセルで描く方法ステップ3:グラフを描く

 

かなり滑らかですよね!!

 

 

正規分布をエクセルで描く方法まとめ

正規分布をエクセルで描く方法まとめ

このページで、乱数を使って正規分布のグラフを描いてみることを実践しました。

正規分布は、統計を学ぶ上で、絶対に欠かすことのできない分布です。

ぜひ、一度自分でグラフを作ってみて、理解を深めることをお勧めしますよ!

たったの3ステップで簡単にできますので!

 

>>正規分布に必要な知識:歪度と尖度とは?

>>正規性の検定は必要なのか?

]]>
https://best-biostatistics.com/excel/normal-distribute.html/feed 2
標準正規分布表の見方や使い方!標準化とZ値の計算式や求め方はどうする? https://best-biostatistics.com/summary/standard-norm.html https://best-biostatistics.com/summary/standard-norm.html#respond Sat, 16 Mar 2024 01:34:11 +0000 https://best-biostatistics.com/?p=1838 統計本の教科書の巻末には、必ずついている標準正規分布表。

数字がびっしり書かれていてとても難しそうだし、見方もわからない。。

でも、実は、標準正規分布表はとっても便利です!

ここでは、標準正規分布と標準正規分布表の見方、そしてZ値との関係について、わかりやすく説明していきます。

 

標準正規分布と標準化によるZ値の求め方は?

標準正規分布と標準化によるZ値とは?

まずは標準正規分布について。

標準正規分布は、“ある範囲にどれくらいの観測データが含まれているか”を知るのにすごく便利です。

標準正規分布って何?

標準正規分布は、平均が0で、標準偏差が1の正規分布です。

標準正規分布って何?

正規分布とは?簡単にわかりやすく標準偏差との関係やエクセルでのグラフ化を解説

で紹介しましたが、正規分布の2つの大事な特徴は

  1. 正規分布の形は平均と標準偏差(データのバラツキ)で決まる。
  2. 標準偏差がわかれば、その範囲にどれくらいの観測データが含まれているかが分かる

ことです。

 

標準正規分布では、平均も、標準偏差もすでに決まっている(平均は0、標準偏差は1)ため、1つの形しありません

そのため、標準正規分布では2つ目の特徴”その範囲にどれくらいの観測データが含まれているかが分かる“にのみ注目することができます。

 

どのような形の正規分布でも、標準正規分布に変換することができます。

正規分布から標準正規分布に変換することを、”標準化”と呼びます

 

  • 標準正規分布とは、平均値が0で標準偏差が1の正規分布
  • どんな正規分布でも”標準化”をすることで、標準正規分布に変換することができる

 

正規分布のデータを標準化(Z値への変換)してみよう

それでは、早速、標準化のやり方を紹介していきます。

標準化は次の2ステップで行います。

 

  1. データ値xから平均を引く
  2. データ値xから平均を引いた値を、標準偏差で割る

式で書くと下の式になります。

正規分布のデータを標準化(Z値への変換)してみよう

標準化したデータはz値(zスコア)と呼ばれます。

この簡単な操作だけで、どんな正規分布も標準化することができます。

次に標準化正規分布とセットで用いる、標準化正規分布表について紹介します。

 

標準正規分布表の見方や使い方!Z値がマイナスな時は?

標準正規分布表の見方や使い方!Z値がマイナスな時は?

標準正規分布表を使うと、正規分布に従うデータで、“あるz値以上(以下)が生じる確率が何%か”が一瞬でわかります。

標準正規分布表って何?

標準正規分表は”ある値以上が生じる確率”をまとめた表です。

“あるz値以上が生じる確率”は標準化分布でいうと、下図の緑色の部分の面積に対応します。

標準正規分布表って何?

標準正規分布表には、様々なz値での確率(緑の面積)がまとめれています。

z値における、確率ではないので気をつけてください!!

 

標準化正規分布表の見方

標準正規分布表の見方は以下のようです。

  1.  一の位と小数点一桁目の数字を縦で探す。
  2. 小数点二桁目の数字を横で探す。
  3. 二つが交わるところの数値を読み取る。

 

標準正規分表には下のように数字がびっしり書かれています。

標準化正規分布表の見方

でも、見方は簡単です!!

例えば、z値が1.53を考えてみます。

はじめに、”一の位と小数点一桁目の数字を縦で探す”を行います。

z値が1.53では一の位と小数点一桁目は1.5です。

標準化正規分布表の見方

ありました。

次に、”小数点二桁目の数字を横で探す”を行います。

標準化正規分布表の見方

最後に、”二つが交わるところの数値を読み取る”と、確率は0.06301ということがわかります。

0.06301を%に直すと、約6.3% ですね。

 

標準正規分布表の使い方:実際に使って問題を解いてみよう

では、早速この標準正規分布を使って見るために、次のような問題を考えます。

「あなたが、あるテストを受験したとします。あなたは88点の成績を取りました。そのテストの統計結果は平均が50点、標準偏差が10点でした。あなたの得点は上位何%でしょうか?」

この問題は標準化正規分布を使えば簡単に解くことができます!

問題を解くはじめのステップは、データを標準化することです。

1つ目ステップ”データ値xから平均を引く”に従って計算します。

値x − 平均 = 88 – 50 = 38

次に、2つ目のステップ”データ値xから平均を引いた値を、標準偏差で割る”に従って計算します。

(値x − 平均) / 標準偏差 = 38 / 10 = 3.8

この3.8の数字が、あなたがとったテストの点の標準化されたz値です。

この値から、あなたの得点は上位何%でしょうか?を解くために

上の標準正規分表を見ます。

3.8と0なので、0.0007ですね。

つまり、あなたは上位0.07%に相当するということになります。

 

標準正規分布表の使い方:z値(zスコア)がマイナスのとき

z値がマイナスの値の時はプラスと読み替えて用います。

もう1問を考えてみましょう。同じテストですが、あなたの点数が平均点より低かった時で考えてみます。

「あなたが、あるテストを受験したとします。あなたは45点の成績を取りました。そのテストの統計結果は平均が50点、標準偏差が10点でした。あなたの得点は上位何%でしょうか?」

まずは、同様にデータを標準化します。

1つ目ステップ”データ値xから平均を引く”に従って計算します。

値x − 平均 = 45 – 50 = -5

数字がマイナスになってしまいました。次に、2つ目のステップ”データ値xから平均を引いた値を、標準偏差で割る”に従って計算します。

(値x − 平均) / 標準偏差 = -5 / 10 = -0.5

この-0.5の数字が、あなたがとったテストの点の標準化されたz値ですが、この表には載っていません。

どうすればいいのでしょうか。

ここで、正規分布は左右対称だという点を思い出してください。標準正規分布表の使い方:z値がマイナスのとき

そのため、-0.5は0.5とマイナスをプラスと読み替えます。

すると、標準正規分布表では、0.30584となります。

読み替えたため、下位から0.30584に存在することを意味します。

問題では上位何%かなので、換算するために、次のように計算します。

1 – 0.30584 = 0.69416

よって、答えは0.69416となり、上位約69%になります。

 

標準正規分布に関するまとめ

標準正規分布に関するまとめ
  • 標準正規分布は、“ある範囲にどれくらいの観測データが含まれているか”を知るのにすごく便利
  • どんな正規分布も標準化により標準正規分布に変換することができる
  • 標準正規分布表を使うと、”あるz値以上が生じる確率”が何%かが一瞬でわかりる
  • z値がマイナスのときはプラスと読み替る

 

>>要約統計量とは?何を出力すればいいの?

>>95%信頼区間とは何?1.96の意味とは?

>>ヒストグラムとは?

>>正規性の検定は必要なのか?

]]>
https://best-biostatistics.com/summary/standard-norm.html/feed 0
正規性の検定は本当に必要?ヒストグラムとQQプロットで十分な理由 https://best-biostatistics.com/summary/is-normality-testing-necessary.html https://best-biostatistics.com/summary/is-normality-testing-necessary.html#respond Fri, 15 Mar 2024 07:36:06 +0000 https://best-biostatistics.com/?p=6906 統計学における正規性の検定は、データが正規分布に従うかどうかを確認するための手段の一つです。

正規分布とは、平均値を中心に左右対称のベルカーブを描く分布で、多くの自然現象や社会現象がこの分布に従っています。

正規性の検定は、特にパラメトリック統計手法を適用する前に確認するための手段というイメージがあり、データが正規分布に従っているかを検定によって確認することで、分析の妥当性を保証しようとします。

しかし、この検定が常に必要か、という疑問があるのです。

検定はサンプルサイズの大小でP値に影響があるため、実際のデータ分析では、正規性の検定を行う代わりに、ヒストグラムやQQプロットなどの視覚的な方法でデータの分布を評価し、分析の適切性を判断するアプローチが推奨されることもあります。

この記事では、まず「正規性の検定」とは何かを解説し、その後、なぜ多くの場合、正規性の検定を行わずにヒストグラムやQQプロットによる評価が推奨されるのかについて、その理由と実際のデータ分析での適用例を交えて説明していきます。

 

「正規性の検定」とは何か?

正規性の検定は、統計学においてデータセットが正規分布(ガウス分布)に従っているかどうかを調べる手法。

正規分布は、自然界や人間の行動、測定誤差など、多岐にわたる現象において観察されることが多いため、多くの統計的手法や理論がこの分布を前提としています。

正規性の検定には何がある?

正規性の検定にはいくつかの方法があります。

  1. シャピロ・ウィルク検定
  2. コルモゴロフ・スミルノフ検定
  3. アンダーソン・ダーリング検定

などがあります。

これらの検定は、得られているデータセットが正規分布に従っているかどうかを統計的に評価し、結果としてp値を提供します。

p値がある閾値(通常は有意水準0.05)未満の場合、データセットが正規分布から逸脱していると判断されます。

 

正規性の検定の問題点

しかし、これらの正規性検定はサンプルサイズに影響されるため、完全に正規分布なのかどうかを判定しているかは疑わしいです。

また、実際のデータ分析の文脈では、データが完全に正規分布をしている必要はないことが多いです。

統計学の中心極限定理は、サンプルサイズが大きければ、推定値の分布は正規分布に近づくことを示しています。

そのため実際のデータ分析においては、サンプルサイズが十分に大きければ、多少の分布の歪みがあっても、多くの統計的手法が有効に機能することを意味しています。

サンプルサイズが小さいと検定結果が不安定である

正規性の検定をはじめとする統計学的検定は、特にサンプルサイズが小さい場合に不安定になります。

つまり、小さなデータセットでは、たとえわずかな偏りや外れ値が存在しても、検定結果が大きく影響を受ける可能性があるのです。

 

正規性の検定は不要?

ここまでの話を総合すると、正規性の検定は便利な側面がある一方で、必ずしもデータの分布を正確に表現するような検定ではないこともわかります。

私自身は、正規性の検定は不要だと思っている立場です。

理由は、検定である以上はサンプルサイズの影響があるため。

特にサンプルサイズが小さい場合に検定結果は不安定であり、結果的にデータを誤って正規もしくは非正規と判断することがあります

逆に、サンプルサイズが非常に大きい場合は、実際には無視できる小さなばらつきであっても、検定により正規分布ではないと判断されることがあります

サンプルサイズにより検定結果が左右されることを考えた場合に、正規性の検定は不要だと思うのです。

 

正規性の検定をしなければ、何で正規分布かを判断するの?

正規分布かどうかを判断するために私がお勧めするのは、正規性の検定を行う代わりに、ヒストグラムやQQプロットなどの視覚的ツールを使用してデータの分布を評価することです。

これらの方法は、データがどのように分布しているかを直感的に理解するのに役立ちます。

 

正規分布の判断に有用なヒストグラムとは?

ヒストグラムは、連続データを一定の区間に分け、各区間に含まれるデータ点の数を棒グラフで表したもの。

ヒストグラム(irisデータ)

データの分布形状を視覚的に捉えることができるため、正規性の評価に役立ちます。

データが正規分布に従っている場合、ヒストグラムはベル形の曲線を描きます。

歪みや尖度などの特性も視覚的に評価することができます

>>RStudioで箱ひげ図やヒストグラム・散布図を綺麗に出力する方法

 

正規分布の判断に有用なQQプロットとは?

QQ(Quantile-Quantile)プロットは、サンプルデータの分位数を理論上の分布(この場合は正規分布)の分位数と比較することで、二つの分布がどの程度似ているかを視覚的に評価するグラフです。

データが正規分布に従っている場合、QQプロット上の点は一直線に並びます。

直線からの逸脱は、データが正規分布から外れていることを示唆します。

QQプロットは、データセット内の外れ値や異常なデータポイントを識別するのにも役立ちます。

プロット上で大きく逸脱する点は、外れ値である可能性が高いです。

>>qqプロットとは?正規分布をどのような見方で判定すればいいの?

 

視覚的な方法で正規性が疑わしい場合はどうする?

データの正規性が疑わしい場合、正規性を仮定しないノンパラメトリック手法や、データの再サンプリングに基づくブートストラップ法などが、そのような状況で有効な選択肢となり得ます。

ノンパラメトリック手法の概要と適用例

ノンパラメトリック手法は、データの分布に関する厳密な仮定を必要としません。

これらの手法は、データの順位や中央値などの記述統計に基づいており、データの分布形状に左右されにくいため、正規分布でないデータに対しても適用可能です。

これらのノンパラメトリック手法は、データの正規性に関わらず、様々な状況でデータの比較や分析を行うための強力なツールとなります。

ブートストラップ法とその適用

ブートストラップ法は、元のデータセットからランダムにサンプルを繰り返し抽出し(再サンプリング)、そのサンプルを用いて統計量(例えば、平均、中央値、分散)の分布を推定する方法

この手法は、データの分布形状に依存せず、特にサンプルサイズが小さい場合や、理論的な分布が不明な場合に有効です。

ブートストラップ法は、信頼区間の推定や標準誤差の評価に特に有用であり、データが正規分布に従っていない場合や、複雑な統計モデルを評価する際にも利用されます。

ブートストラップにより、データの不確実性を定量化し、より信頼性の高い統計的推論を行うことが可能となります。

まとめ

正規性の検定は便利な一方で、サンプルサイズの影響で結果が左右されることから、使用をお勧めしません。

ヒストグラムやQQプロットなど、視覚的な情報をもとにして判断していきましょう。

この記事を通じて、正規性の検定に頼ることなく、データの特性を理解し、分析するための方法について理解を深めていただけたら幸いです!

]]>
https://best-biostatistics.com/summary/is-normality-testing-necessary.html/feed 0