基礎知識– category –
-
R のパッケージを source からインストールする方法
R はパッケージを追加すると新しい機能が追加できる。 その方法もとても簡単だ。 R のパッケージの追加方法として source からインストールする方法があるので、その解説。 R のパッケージを source からインストールする方法 R のパッケージは、Windows用... -
多変量解析の変数選択は統計的にどうやるのか
多変量モデルの変数選択について、悩まない人はいない。 どの変数を採用してどの変数を採用しないのか。 明確な基準はあるのか? 想定している多変量モデルは? 多変量モデルは、多変量解析のモデル(もしくは型)を指している。 独立変数に多数の変数を使... -
サポートベクターマシンとは?ごく簡単に解説
機械学習の分類手法の一つ、サポートベクターマシンとは何か? サポートベクターマシンの前に最大マージン分類器について サポートベクターマシンを説明する前に最大マージン分類器から話を始めねばならない。 最大マージン分類器、サポートベクター分類器... -
ランダムフォレストとバギングの違い
ランダムフォレストとバギングは、決定木をより汎用化するために考えられた手法。 違いは何か? 概念的な簡単な説明。 ランダムフォレストとバギングの総称 アンサンブル学習とは何か? ランダムフォレストとバギングはともにアンサンブル学習と呼ばれてい... -
決定木の過学習を防ぐ剪定(枝刈り)とは?
決定木には剪定(せんてい)という過程がある。 剪定とは何か? 簡単に紹介。 決定木の弱点 過学習 あるデータセットから、決定木を作ったとする。 決定木は、大きく茂らせれば茂らせるほど、きれいに分岐して、分類してくれる。 しかしながら、機械学習... -
機械学習の決定木分析に計算される Gini 不純度とは? わかりやすく解説
決定木の分岐(ノード)を作るときどのような計算をしているのか? Gini不純度を計算しているのだが、Gini不純度とは何か? 機械学習の決定木における Gini 不純度とは? Gini不純度とは、ある特徴でデータを2分割するときに、特徴の要素Aである確率とAで... -
機械学習による決定木分析 ごく簡単な解説
機械学習をする方法はさまざまある。 代表的な方法は決定木分析である。 そもそも決定木とは何か? 基本的なことをごく簡単に解説。 決定木とは何か? 決定木とは意思決定に使う、いくつもの枝分かれをする図のこと。 膨大なデータを使って、決定木のモデ... -
R で割合を計算する方法
R でカテゴリデータを集計して、割合を計算する方法。 R で割合を計算する方法 カテゴリデータの集計の方法 もっとも使うのがtable()。 表(table)形式で集計する関数だ。 例としてMASSパッケージのbirthwtデータフレームを使う。 lowは低体重出生(1)か、そ... -
R で skewness や kurtosis を計算する方法
R で skewness や kurtosis を計算する方法。 平均と標準偏差 統計ソフトRで、平均値は、mean()で算出する。 標準偏差は、sd()で計算する。 sdはstandard deviationの略。 平均値と標準偏差の値の関係で、データの分布を大まかに推測できる。 平均値が標準... -
R の attach の使い方
R の attach とはどんな関数か? データフレームとは? R の中で、データフレームとは、データの一つの塊を言っている。 それも、変数名がついて、何列かのデータのことだ。 エクセルで言えば、A、B、Cと列が並んでいるところに、 Aには、年齢 Bには、性別...