対数変換とは?対数正規分布や幾何平均についてもわかりやすく解説!

対数変換とは?対数正規分布や幾何平均についてもわかりやすく解説!

統計でよく用いる手法である、対数変換。

対数変換はどんな手法なのでしょうか?

また、統計で対数変換が必要になるのはなぜでしょうか?

この記事では、統計で用いる対数変換の手法や対数正規分布についてわかりやすく説明していきます。

 

>>もう統計で悩むのは終わりにしませんか? 

↑期間・数量限定で無料プレゼント中!

目次

対数変換とは?

対数変換とは、ズバリ「データに対して対数をとること」です!

対数は数学で習ったlogまたは、lnです。

 

例えば、

10、100、1000といった値を基底10の対数を取れば、それぞれ

log10=1、log100=2、log1000=3と、対数変換をすることができます。

 

ここまでは、数学で習う対数の計算ですね。

ではなぜ、統計学で対数変換が必要になるのでしょうか?

それは前提として、対数正規分布(右に裾を引く分布)の知識が重要になりますので、対数正規分布について解説します。

 

対数正規分布(右に裾を引く分布)とは?

統計学では正規分布が非常に重要であることは他の記事でも解説してきました。

>正規分布とは?簡単にわかりやすく標準偏差との関係もガウス分布に関して解説

>標準正規分布表の見方や使い方!標準化とZ値の計算式やマイナスの時は?

対数変換が統計学においても重要になるのは、対数変換すると正規分布になる、対数正規分布が存在するからです

 

こちらが、対数正規分布の例。(あまりきれいな対数正規分布ではないですが。。)

対数正規分布の例

対数正規分布は、左側から最頻値にかけて急激に上昇し、右に行くに連れてなだらかになるという特徴があります

右側の裾がなだらかなので、対数正規分布は「右に裾を引く分布」とも呼ばれています。

医学系のデータですと、生化学データや薬物動体データの多くが、対数正規分布に従うことが知られています。

 

対数正規分布を対数変換すると正規分布に近づく

なぜ対数変換に対して対数正規分布が重要かと言うと、対数正規分布を対数変換すると正規分布に近づく、という性質があるからです。

先程の対数正規分布のヒストグラムを対数変換すると、下記のようなヒストグラムになります。

実際のデータなので綺麗な正規分布とは言わないまでも、少なくとも対数変換前よりも正規分布に近づいていることがわかります。

そして正規分布に変換できると、あとはこれまで見てきた正規分布に用いることができる様々な手法(パラメトリックな手法)を用いることができるので、非常に便利です。

対数正規分布のデータを対数変換すると、正規分布に近づく。それによって、正規分布を仮定した解析手法(パラメトリックな手法)を適用することができる。

 

これが統計における対数変換が重要な理由です。

 

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

0の値の対数変換はどうするの?

定義上、値が0の場合は、対数をとることができません。

つまり、ゼロを含むデータでは対数変換を行うことはできません。

 

ではどうすれば良いのでしょうか?

 

それはデータの値全てに1を足すです。

すると0+1=1で対数をとることができるようになります。

 

ただ、足す数字が”1″である必要はありません。

実際、データの連続性を考慮したとき0.5を足すのが良いという議論もあります。

 

話をまとめると、0を含むデータを対数変換するときは、

一定の値をデータに足すことで、0をデータから無くすという操作を行います。

特に理由がなければ”データに1を足す”で問題ないです!

 

対数変換と幾何平均の関係

次に、対数変換と幾何平均の関係についてお伝えします。

一口に「平均」といっても、実は数種類の平均があることをご存知でしょうか??

  • 算術平均
  • 幾何平均
  • 調和平均

この3つが有名ですが、何の断りもなく「平均」とあれば、それはほとんどの場合、算術平均を示します。

算術平均は、あなたもご存知の通り「全てのデータを足す/データの数」で求めることができる平均値です。

 

では一方で、幾何平均とはなんでしょうか。

幾何平均は「全てのデータをかけて累乗根を取る」というのが幾何平均です。

 

じゃあなぜ対数変換と幾何平均が関わっているのか?というと、対数変換したデータに対して算術平均を計算すると、それは、「対数変換前の幾何平均を対数変換したもの」だからです。

 

例を見てみましょう。

AとBの2つのデータに対して、対数変換したlogA, logBがあったとします。

対数変換した後のlogAとlogBの算術平均は

(logA+logB)/2 = (logA*B)/2 = logA*B1/2

となって、まさに「対数変換前のデータAとBの幾何平均を対数変換したもの」になっていますよね。

 

逆に言えば、対数変換したデータの算術平均を指数変換すれば、幾何平均になります

さらに言えば、対数変換したデータの算術平均の2群の差は、指数変換すると幾何平均の比になります

幾何平均比

なので、対数変換時か平均は密接な関係があるのです。

 

対数変換して解析した際に論文や学会ではどう報告するのか?

対数変換は、対数正規分布(右に裾を引く分布)を正規分布に近づけるために用いられる方法だということがわかりました。

さらに、対数変換した後に算術平均を出すことは、元データに対して幾何平均を計算していることだということもわかりましたね。

なので、対数変換したデータを実際に論文や学会報告をするときには2通りの報告の仕方があることがわかります。

 

  1. 対数変換後のデータの算術平均の差を提示する方法
  2. 対数変換後のデータの算術平均に対して指数変換した後の、幾何平均比を提示する方法

 

どちらを示せばいいのか?ということに対して、「こっちが絶対にいい!」という答えはありません。

ですが、トップジャーナルであるNEJMでは、「どちらの結果も提示している」論文がありました。

なので、どちらの結果を提示してもいいと思いますし、編集者や査読者から指摘があったら、その指示に従えばいいですね。

 

まとめ

対数変換することの重要性はわかりましたでしょうか?

データに対して変換するほど、正規分布は統計学の中でかなり重要な分布であることもわかりましたね。

そして、対数変換と幾何平均の関係も学びました。

ぜひ対数変換・正規分布・幾何平均の関係をイメージできるように繰り返し学んでいきましょう!!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

リサーチクエスチョン探し?データ分析?論文投稿?、、、で、もう悩まない!

第1章臨床研究ではなぜ統計が必要なのか?計画することの重要性
  • 推定ってどんなことをしているの?
  • 臨床研究を計画するってどういうこと?
  • どうにかして標本平均を母平均に近づけられないか?
第2章:研究目的をどれだけ明確にできるのかが重要
  • データさえあれば解析でどうにかなる、という考え方は間違い
  • 何を明らかにしたいのか? という研究目的が重要
  • 研究目的は4種類に分けられる
  • 統計専門家に相談する上でも研究目的とPICOを明確化しておく
第3章:p値で結果が左右される時代は終わりました
  • アメリカ統計協会(ASA)のp値に関する声明で指摘されていること
  • そうは言っても、本当に有意差がなくてもいいの…?
  • なぜ統計専門家はp値を重要視していないのか
  • 有意差がない時に「有意な傾向があった」といってもいい?
  • 統計を放置してしまうと非常にまずい
第4章:多くの人が統計を苦手にする理由
  • 残念ながら、セミナー受講だけで統計は使えません。
  • インプットだけで統計が使えない理由
  • どうやったら統計の判断力が鍛えられるか?
  • 統計は手段なので正解がないため、最適解を判断する力が必要
第5章:統計を使えるようになるために今日から何をすれば良いか?
  • 論文を読んで統計が使えるようになるための5ステップ
第6章:統計を学ぶために重要な環境
  • 統計の3つの力をバランスよく構築する環境

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

コメント

コメントする

目次