基礎知識– category –
-
基礎知識
決定木の過学習を防ぐ剪定(枝刈り)とは?
決定木には剪定(せんてい)という過程がある。 剪定とは何か? 簡単に紹介。 決定木の弱点 過学習 あるデータセットから、決定木を作ったとする。 決定木は、大きく茂らせれば茂らせるほど、きれいに分岐して、分類してくれる。 しかしながら、機械学習... -
基礎知識
機械学習の決定木分析に計算される Gini 不純度とは? わかりやすく解説
決定木の分岐(ノード)を作るときどのような計算をしているのか? Gini不純度を計算しているのだが、Gini不純度とは何か? 機械学習の決定木における Gini 不純度とは? Gini不純度とは、ある特徴でデータを2分割するときに、特徴の要素Aである確率とAで... -
基礎知識
機械学習による決定木分析 ごく簡単な解説
機械学習をする方法はさまざまある。 代表的な方法は決定木分析である。 そもそも決定木とは何か? 基本的なことをごく簡単に解説。 決定木とは何か? 決定木とは意思決定に使う、いくつもの枝分かれをする図のこと。 膨大なデータを使って、決定木のモデ... -
基礎知識
R で割合を計算する方法
R でカテゴリデータを集計して、割合を計算する方法。 R で割合を計算する方法 カテゴリデータの集計の方法 もっとも使うのがtable()。 表(table)形式で集計する関数だ。 例としてMASSパッケージのbirthwtデータフレームを使う。 lowは低体重出生(1)か、そ... -
基礎知識
R で skewness や kurtosis を計算する方法
R で skewness や kurtosis を計算する方法。 平均と標準偏差 統計ソフトRで、平均値は、mean()で算出する。 標準偏差は、sd()で計算する。 sdはstandard deviationの略。 平均値と標準偏差の値の関係で、データの分布を大まかに推測できる。 平均値が標準... -
基礎知識
R の attach の使い方
R の attach とはどんな関数か? データフレームとは? R の中で、データフレームとは、データの一つの塊を言っている。 それも、変数名がついて、何列かのデータのことだ。 エクセルで言えば、A、B、Cと列が並んでいるところに、 Aには、年齢 Bには、性別... -
基礎知識
R のライブラリとは
R でlibrary() ライブラリ はよく使う関数だ。 ライブラリとは? ライブラリの定義 ライブラリは、辞書の定義だと、 〔コンピュータ〕ライブラリー: プログラムやデータなどをひとまとまりに登録したファイル. 出典:Progressive English-Japanese Diction... -
基礎知識
R にパッケージをインストールする方法
Rは、最初からかなりいろいろなことができる無料統計ソフト。 もっとすごいのは、あとからパッケージをインストールして、さらにいろいろな解析ができるようになること。 R は追加パッケージをインストールする前からすごい! まず、新しいパッケージをイ... -
基礎知識
R の引用情報を参考文献リストに載せたいときの書き方
R の引用情報を参考文献リストに載せたい。 どのように記載すればよいか? R の引用情報の取得方法 コンソールで citation() と書いてエンター。 引用の際の情報が出てくる。 例: To cite R in publications use: R Core Team (2018). R: A language and ... -
基礎知識
サンプル数が大きく異なる群間比較はやってもいいのか?
まれな疾患の患者さんのデータと、その疾患を持たない患者さんデータを比較しようとすると、人数が大きく異なる。 まれな疾患はデータが集まりにくい。 人数が小さなグループと大きなグループを比較することは問題ないのか? サンプル数が大きく異なる群間...