qqプロットとは?正規分布をどのような見方で判定すればいいの?

QQプロット

qqプロットを聞いたことがありますか?

qqプロットは英語では、quantile-quantile plotといって、日本語に訳すなら分位-分位プロットと言います。

このqqプロットは二つの確率分布をプロットすることで比較する統計手法です。

色々な分布に適用できるのですが、実際には「得られているデータが正規分布に従っているかどうか」という観点の見方をするのに使われていますね。

今回はqqプロットについてわかりやすく説明していきます。

 

>>もう統計で悩むのは終わりにしませんか? 

↑期間・数量限定で無料プレゼント中!

目次

qqプロットとは?

qqプロットは英語のquantile-quantile plotの略称です。

quantileは日本語で「分位」という意味で、2つの確率分布を比較する手法です。

 

ここでの分位は、データがどの位置に分布しているかを相対的に見る数値のことで、データを昇順(小さい順)に並べて累積確率を求めることで決定します。

四分位数などが、箱ひげ図などでよく用いられます

 

分位については

>>>>中央値(メジアン)は奇数と偶数で求め方が違う?エクセル関数などもわかりやすく

>>>>箱ひげ図とは?見方やエクセル作り方まで解説!外れ値や平均値も確認できる

これらのリンクでも説明しています。

 

qqプロットはこのように、分位を点にとって散布図として描写します。

グラフの見方など、詳しくは次の節で見ていきます。

 

qqプロットで何がわかるの?正規性の判断に用いられるグラフ

qqプロットでは、2つの比較したい分布が似ているか否かがわかります

分かりやすく説明するために、実際に、いくつかの分布を比較してみてみます。

 

その前に要点を先に紹介すると、qqプロットでチェックするポイントは直線か直線ではないかです!

 

正規分布と正規分布のqqプロット

まずは二つの異なる正規分布を比較してみます。

正規分布についてはこちらで詳しく説明しています。

>>>>正規分布とは?簡単にわかりやすく標準偏差との関係もガウス分布に関して解説

ここでは、x軸に平均が0で標準偏差が1の標準正規分布と、

y軸に平均が50で標準偏差が10の偏差値の二つを10分位で(累積頻度10%ごと)比較しています。

どちらも同じ正規分布なので、比較したプロットは直線の関係となっています。

 

qqプロットでは、分位数を用いるメリットとしては、分位数によってデータの分布のみを注目することで、実際のデータの値のスケールを考慮せずに比較できるというメリットがあります。

実際に上のプロットでも直線の関係ですが、x軸とy軸の値の範囲は結構ちがいます。

 

次に、違う分布の例として正規分布と対数正規分布を比較してみます。

 

正規分布と対数正規分布のqqプロット

正規分布と対数正規分布を比較プロットするとこのようになります。

ここでは、x軸に平均が0で標準偏差が1の標準正規分布を、y軸には、平均が0で標準偏差が1の対数正規分布を10分位でプロットしています。

 

この二つは分布が異なるため、直線の関係にはなっていないですね。

qqプロットでは、二つの確率分布が異なるときはこのように直線ではない形になります。

 

この直線ではない具合を評価することで、データの値の分布についても調べるとができます。

 

最後に、二項分布と正規分布を用いて解説していきます。

 

正規分布と二項分布のqqプロット

正規分布と二項プロットを比較プロットするとこのようになります。

ここでは、x軸に平均が0で標準偏差が1の標準正規分布を、

y軸には、1/2であたりが出るコイン投げを1000回試行するときの二項分布を10分位でプロットしています。

二項分布についてはこちらで解説しています。

>>>>二項分布とは?わかりやすく正規分布との違いや近似できる問題も例を踏まえて

 

このqqプロットは直線の関係ですね。

二項分布と正規分布は異なる分布なのにどうして、直線の関係になるのでしょうか?

 

それは、二項分布は試行数nが大きくなると、近似的に正規分布になるというルールが存在するためです。

これは中心極限定理として知られている現象。

今回は1000回の試行を行っているため、正規分布に近似的に従うことになります。

このqqプロットでは、近似的に正規分布に従うという二項分布のルールを視覚化したことになります。

 

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

qqプロットはどういう時にときに使うの?見方はどうすればいい?

qqプロットは、あるデータの分布がある確率分布に従っているかを視覚的に調べるときに用います。

上の例でも見たように、

比較した二つの分布が同じ確率分布に従うとき、似ているときは、一直線に並びます。

比較した二つの分布が同じ確率分布に従わないときは、曲線になります。

 

これらの関係を実際のデータなどで調べることで、直感的に2つのデータの分布の形を調べることができます。

実際には「得られているデータが正規分布に従っているかどうか」という観点の見方をするのに使われていますね。

正規分布に従っているかどうかについて、正規性の検定を実施する方も多いかもしれませんが、検定はお勧めできません

ヒストグラムやQQプロットで視覚的に確認する方がいいですね。

 

qqプロットをEZRで作成する方法!

では実際にEZRでQQプロットを作成してみましょう。

EZRでT検定を実施した時のLDHというデータを使って実施してみます。

EZRにQQプロットを作成する基となるデータを読み込む

ではここから、EZRにデータを取り込みます。

まずは、サンプルデータを適切な場所に保存しておきましょう。

 

EZRを開き、「ファイル」→「データのインポート」→「ファイルまたはクリップボード, URLからテキストデータを読み込む」を選択します。

 

データセット名は「qqdata」にしましょう(実際はなんでもよい)。

そして「ローカルファイルシステム」と「カンマ」にチェックを入れてOKを押します。

データセットが「qqdata」になっていることを確認し、「表示」を押してデータが正しく表示されれば取り込み完了です。

EZRでQQプロットを作成!

データが取り込まれましたので、早速QQプロットを作成しましょう!

「グラフと表」から「QQプロット」を選択します。

すると、どの変数をどんな分布かどうかを確認するか設定ができるようになります。

今回は「LDH」のデータを「正規分布」かどうか確認するので、以下のようなっ設定にします。

そして「OK」を押すと、以下のようなQQプロットが作成されます。

これで完了です!

結構簡単にQQプロットが作成できました。

 

QQプロットに関するまとめ

qqプロットは英語のquantile-quantile plotの略称です。

quantileは日本語で「分位」という意味で、2つの確率分布を比較する手法。

 

比較した二つの分布が同じ確率分布に従うときor似ているときは=点が一直線に並びます。

比較した二つの分布が同じ確率分布に従わないときは=点が直線にならない。

 

qqプロットでチェックするポイントは直線か直線ではないかです!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

リサーチクエスチョン探し?データ分析?論文投稿?、、、で、もう悩まない!

第1章臨床研究ではなぜ統計が必要なのか?計画することの重要性
  • 推定ってどんなことをしているの?
  • 臨床研究を計画するってどういうこと?
  • どうにかして標本平均を母平均に近づけられないか?
第2章:研究目的をどれだけ明確にできるのかが重要
  • データさえあれば解析でどうにかなる、という考え方は間違い
  • 何を明らかにしたいのか? という研究目的が重要
  • 研究目的は4種類に分けられる
  • 統計専門家に相談する上でも研究目的とPICOを明確化しておく
第3章:p値で結果が左右される時代は終わりました
  • アメリカ統計協会(ASA)のp値に関する声明で指摘されていること
  • そうは言っても、本当に有意差がなくてもいいの…?
  • なぜ統計専門家はp値を重要視していないのか
  • 有意差がない時に「有意な傾向があった」といってもいい?
  • 統計を放置してしまうと非常にまずい
第4章:多くの人が統計を苦手にする理由
  • 残念ながら、セミナー受講だけで統計は使えません。
  • インプットだけで統計が使えない理由
  • どうやったら統計の判断力が鍛えられるか?
  • 統計は手段なので正解がないため、最適解を判断する力が必要
第5章:統計を使えるようになるために今日から何をすれば良いか?
  • 論文を読んで統計が使えるようになるための5ステップ
第6章:統計を学ぶために重要な環境
  • 統計の3つの力をバランスよく構築する環境

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

コメント

コメント一覧 (1件)

コメントする

目次