-
機械学習
機械学習による決定木分析 ごく簡単な解説
機械学習をする方法はさまざまある。 代表的な方法は決定木分析である。 そもそも決定木とは何か? 基本的なことをごく簡単に解説。 決定木とは何か? 決定木とは意思決定に使う、いくつもの枝分かれをする図のこと。 膨大なデータを使って、決定木のモデ... -
サンプルサイズ計算
統計に必要なサンプル数が計算できるエクセルファイルのリンク集
標本の大きさの求め方。エクセルを使う方法。 サンプルサイズ計算をエクセルで行う方法。 なかなか探しても見つからないサンプルサイズ計算がここでは見つかる!! アンケート調査 アンケートは何人に取れば最適なのか? エクセルファイルで簡単に計算でき... -
機械学習
R で分類課題を機械学習モデルで実行する方法
機械学習で、よりよく推測できるモデルを選ぶ。 統計ソフトRのISLRパッケージのWeeklyデータで基礎的な機械学習を行ってみた。 Rで機械学習を行うためデータの準備 ISLRパッケージのWeeklyデータは、S&P500指数の週当たりのリターンのデータ。 9つの変... -
多重共線性
R で重回帰分析を行う具体例 ― ISLR パッケージ Auto データセットを使った重回帰分析
R の ISLR パッケージの Auto データセットを使った分析例。 データの準備 最初の一回だけ、ISLRパッケージをインストール。 install.packages("ISLR") ISLRパッケージを呼び出して、解析開始。 library(ISLR) ISLRパッケージのAutoデータセットを用いて解... -
臨床疫学指標
R で NNH Number Needed to Harm を計算する方法
有害必要数(Number Needed to Harm, NNH)は、1人の有害事象が起こる人が出現するのに、何かの影響を受けた人が何人必要かという数。 NNHを計算するにはどうやるか? 使えるシチュエーションは、 曝露Aを受ける人受けない人 処置Bを受ける人受けない人 介... -
疫学指標
R で罹患率比を求める方法
罹患率比の計算は、どうやるのか? R での計算の方法。 罹患・罹患率・罹患率比とは? 罹患(りかん)とは? 罹患とは病気にかかること。 病気にかかったことは、診断によってわかる場合と、発症によってわかる場合がある。 診断とは、外来の診察で下され... -
相関係数
相関と回帰の違いは何か?
相関と回帰はどう違うか? 両方とも2つのデータの関係性を見ているわけで、とても似ている。相関と回帰の違いについて、まとめてみる。 相関と回帰の根本的な違いは? 相関は、相関係数が中心で、 データXとデータYの お互いの関係性を見る。 相関分析には... -
変数選択
R でロジスティック回帰分析の変数選択の参考になる計算上ベストな変数セットを提案してくれる方法
Rを使って、 多重ロジスティック回帰分析でBICを使って、 簡単に変数選択ができる。 変数選択の関数の前に BIC とは BICは、 Bayesian Information Criterionの頭文字語。 統計モデルへのあてはまりを検討するときに、 変数が多すぎると評価が下がる規準に... -
変数選択
R で重回帰分析の変数選択に参考となる計算上ベストな変数セットを提案してくれる方法
R で重回帰分析を行った際の変数選択の方法の解説。 bestglmの準備とサンプルデータ R の bestglm() 関数は、AIC, BIC(デフォルト), BICqなどの Information Criterion 情報規準を使って ベストの変数の組み合わせを見つけてくれる。 bestglmパッケージのz... -
グラフ
R で箱ひげ図を書く方法
R で箱ひげ図を描くにはどうしたらいいか? R で箱ひげ図を書く関数 R で箱ひげ図を書く関数は、boxplot() 第 1 四分位から第 3 四分位までの箱を描き、その中にある中央値に線を引く。 第 1 四分位と第 3 四分位の差(四分位範囲)の 1.5 倍の線(ひげ)...