MENU

【無料プレゼント付き】学会発表・論文投稿に必要な統計を最短で学ぶことができる無料メルマガ

R でランダムフォレストを行う方法 重要度の可視化の方法

R でランダムフォレストを実行する方法。

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

目次

ランダムフォレストとバギングの違い

ランダムフォレストとバギングの違いは、こちらの記事を参照。

R でランダムフォレストを実行するパッケージの準備

パッケージはrandomForestというそのままの名前のパッケージを使う。

最初に一回だけインストールする。

install.packages("randomForest")

使えるように呼び出しておく。

library(randomForest)

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

R のランダムフォレストで決定木を作る例

irisデータを使って、ランダムフォレストで決定木を作ってみる。

set.seed()でランダム変数のシードを設定しておき、再現性を持たせる。

Speciesをそれ以外の変数で予測する決定木を作成するスクリプトは以下の通り。

set.seed(71)
iris.rf <- randomForest(Species ~ ., data=iris)

結果は以下のように表示される。ランダムサンプリングを使って、決定木は500個作っている。エラー率は5.33%

Out Of Bag (OOB)とは、3分の1をテスト用に外しておいて学習して、テストデータの結果でConfusion matrixを作り検討していることを意味している。

> iris.rf
Call:
randomForest(formula = Species ~ ., data = iris)
Type of random forest: classification
Number of trees: 500
No. of variables tried at each split: 2
OOB estimate of  error rate: 5.33%
Confusion matrix:
setosa versicolor virginica class.error
setosa         50          0         0        0.00
versicolor      0         47         3        0.06
virginica       0          5        45        0.10

R でランダムフォレストを実行した結果 重要な変数を表示する

重要な変数は、ジニ不純度の減少量で見る。

グラフではMean Decrease Giniと表示される。

ジニ不純度が大きく下がる変数が、識別に役立つ重要な変数という意味。

不純度が下がって、純度が増すということは、より純粋なグループ、つまりよりよく分けることができる変数ということになる。

重要な変数プロットでは、Petal.WidthとPetal.Lengthが重要であることが示された。

varImpPlot(iris.rf)

まとめ

統計ソフトRでランダムフォレストを実行したい場合、randomForestパッケージを使う。

randomForest()で解析が実行できて、varImpPlot()で重要な変数が図示される。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

リサーチクエスチョン探し?データ分析?論文投稿?、、、で、もう悩まない!

第1章臨床研究ではなぜ統計が必要なのか?計画することの重要性
  • 推定ってどんなことをしているの?
  • 臨床研究を計画するってどういうこと?
  • どうにかして標本平均を母平均に近づけられないか?
第2章:研究目的をどれだけ明確にできるのかが重要
  • データさえあれば解析でどうにかなる、という考え方は間違い
  • 何を明らかにしたいのか? という研究目的が重要
  • 研究目的は4種類に分けられる
  • 統計専門家に相談する上でも研究目的とPICOを明確化しておく
第3章:p値で結果が左右される時代は終わりました
  • アメリカ統計協会(ASA)のp値に関する声明で指摘されていること
  • そうは言っても、本当に有意差がなくてもいいの…?
  • なぜ統計専門家はp値を重要視していないのか
  • 有意差がない時に「有意な傾向があった」といってもいい?
  • 統計を放置してしまうと非常にまずい
第4章:多くの人が統計を苦手にする理由
  • 残念ながら、セミナー受講だけで統計は使えません。
  • インプットだけで統計が使えない理由
  • どうやったら統計の判断力が鍛えられるか?
  • 統計は手段なので正解がないため、最適解を判断する力が必要
第5章:統計を使えるようになるために今日から何をすれば良いか?
  • 論文を読んで統計が使えるようになるための5ステップ
第6章:統計を学ぶために重要な環境
  • 統計の3つの力をバランスよく構築する環境

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

この記事を書いた人

統計 ER ブログ執筆者

元疫学研究者

コメント

コメントする

目次