-
ユークリッド距離
R でユークリッド距離を二次元で表示してみた
二次元でユークリッド距離を図示してみた。 二次元のユークリッド距離を示すサンプルデータ 二次元でユークリッド距離を例示してみるためのサンプルデータは、R に組み込まれているUSArrestsというデータを使う。 USArrestsの1列目 Murderと2列目 Assault... -
ユークリッド距離
R でユークリッド距離を求める方法
ユークリッドは紀元前325年に生まれたギリシャの数学者。 著した著書は数学のなかでも特に幾何学の教科書として有名であった。 ユークリッドが考え出した「距離」とは? ユークリッド距離とは? ユークリッド距離は、幾何学で扱う事項である。 幾何学とは... -
クラスタリング
クラスター分析とは?
クラスター分析とは何か? そもそも、クラスターって何? クラスターとは? クラスターとは、グループとか塊(かたまり)の意味。 データをいくつかの塊に分けたものをクラスタと言う。 クラスター分析とは? 集めたデータをいくつかの塊に分けて、その特... -
一致度
R で 3 人以上の評価者のカッパ係数 フライスのカッパ係数を計算する方法
フライス(Fleiss)のカッパ係数(kappa)は、3人以上の評価者の評価が一致している度合いを測定する係数。 カッパ係数には 2 人の場合と 3 人以上の場合の 2 種類がある Cohen's kappa が二人の評価者の一致度を判断するのに対して、Fleiss' kappa は三人... -
一致度
R でカッパ係数を計算する方法
二人の評価者のカテゴリ評価の一致度を見るのがいわゆるカッパ係数だ。 カッパはギリシャ文字のkのカッパ(κ)のこと。 Jacob Cohen先生が発明したので、Cohen's Kappaと呼ばれる。 これを R で計算してみようと思う。 irr パッケージを使う方法 簡単な方... -
一致度
R でブランド アルトマン 分析を行う方法
ブランド アルトマン 分析は、二つの測定系の結果が一致しているかどうかを確認する方法。 ブランド アルトマン プロットに、回帰直線を合わせると不一致に傾向がないかどうか確認できる。 ブランドアルトマン分析の準備 ブランドアルトマンプロットは、2... -
信頼区間
R でウィルソンのスコア法よる信頼区間を計算する方法
点推定値が100%に近いとき、より適切に割合の信頼区間を計算する方法 Wilson's score method(ウィルソンのスコア法)の解説。 割合の信頼区間は近似を使っている 割合の信頼区間は以下の式で計算できる。 これは正規分布を近似的に使っている。 $$ \hat{p... -
グラフ
R でグラフを描いてグラフの一部を塗りつぶす方法
グラフを描いた後、一部を塗りつぶしたいときがある。 そんなときにどうしたらいいか? 標準正規分布の場合 確率分布の一部を塗りつぶしたい場合、以下のようにすれば可能。 # 前半 curve(dnorm(x), -4, 4, las=1, xlab="Z") arrows(0,0,0,dnorm(0),length... -
回帰分析・線形回帰・重回帰
R で行列計算を使って重回帰分析を行う方法
重回帰分析は行列計算をしているわけだが、実際どのような計算をしているのか、R を使って計算してみる。 サンプルデータの準備 使用するデータは ISLR パッケージの Carseats データ。 これはチャイルドシートの売り上げデータ。 パッケージのインストー... -
分散分析
R で一元配置分散分析を行う方法
Rで、一元配置分散分析を step by step で計算してみた。 lm() と Anova() を使えばあっという間だが、具体的な一つ一つの計算を自分で組み立ててみるとどうか? 教科書の例題に沿って確認した。 R で一元配置分散分析を実行するための例題データ サンプル... -
回帰分析・線形回帰・重回帰
R で回帰直線の差の検定を行う方法
二つのデータセットがあって、二つの回帰直線が描けたとき、そのあとどうすればいいか? そのあとは、傾きが同じと言えるか?さらには切片が同じと言えるか?と進んでいく。 二つの回帰直線の差を検定してみる。 回帰直線の差の検定のためのサンプルデータ... -
相関係数
R で相関係数のメタアナリシスを行う方法
相関係数を統合したい場合はどうやるか? R での方法。 個々の研究の相関係数と95%信頼区間の準備 使うデータは以下の通り。 r が相関係数。 n がサンプルサイズ。 r <- c(0.307,-0.01,0.300,0.119,0.194,0.248) n <- c(107,1524,154,6165,4138,1559... -
相関係数
R で相関係数検定の実行と信頼区間を計算する方法
R で相関係数の検定と推定は cor.test() でできるが、個々のデータが必要だ。 個々のデータを使わなくても、検定や推定はできないだろうか? 相関係数の検定 母相関係数 ρ(ロー) がゼロかどうかの検定。 スクリプトは以下の通り。 r がサンプルの相関係... -
メタアナリシス
R で平均値の差のメタ解析を行う方法
平均値の差のメタ解析のやり方を解説。 メタ解析のやり方解説のためのサンプルデータ メタ解析のやり方を解説するためのデータは以下の通り。 mが平均、sが標準偏差、nがサンプルサイズ。 n1 <- c(155,31,75,18,8,57,34,110,60) m1 <- c(55.0,27.0,6... -
テキストマイニング
R と MeCab でテキストマイニングを行う方法
Rでテキストマイニングするやり方。 MeCab と RMeCab を使う方法。 例として、ワードクラウドを描く方法を紹介。 テキストマイニングとは? テキストデータを名詞、動詞、形容詞など、濃い意味合いを持つ言葉と、助詞、助動詞、感嘆詞、疑問詞など意味合い... -
機械学習
R で主成分回帰と部分的最小二乗回帰を実行する方法
主成分回帰と部分的最小二乗回帰を R で実行する方法の解説 部分的最小二乗回帰とは 部分的最小二乗回帰の前に、主成分回帰を説明する。 主成分回帰(Principal Component Regression, PCR)は、主成分分析と回帰分析の融合。 主成分分析で情報の集約をし... -
主成分分析
R で主成分分析を行う方法
主成分分析は、たくさんの変数を、合成変数に集約する分析。 主役級の主成分から第一主成分、第二主成分、・・・と呼ばれる。 たくさんの変数を、いくつかの主成分でまとめると、情報がまとまって考えやすくなる。 Rで主成分分析を行う方法 princomp()を使... -
機械学習
R でリッジ回帰・ラッソ回帰・エラスティックネットを実行する方法
エラスティックネットを簡単に解説 R で実行する方法も解説 リッジ・ラッソ・エラスティックネットとは? 線形回帰モデルは、係数 β(パラメータ)を推定するときに最小二乗法を用いる。 通常の最小二乗法は、従属変数の実測値とモデルから計算された値と... -
機械学習
R で SVM の C パラメータについて具体例を示す
SVM(サポートベクターマシン)のコストパラメータ C について。 SVM の C とは? SVM(サポートベクターマシン)のコストパラメータ C とは何か? コストパラメータ C は誤分類を許容する指標。 C が小さいと誤分類を許容する。 大きいと誤分類を許容しな... -
機械学習
サポートベクターマシンとは?ごく簡単に解説
機械学習の分類手法の一つ、サポートベクターマシンとは何か? サポートベクターマシンの前に最大マージン分類器について サポートベクターマシンを説明する前に最大マージン分類器から話を始めねばならない。 最大マージン分類器、サポートベクター分類器... -
機械学習
R でランダムフォレストを最適化する方法
ランダムフォレストはチューニングして最適化する。 チューニングは決定木を最適化する方法。 ランダムフォレストの場合は、決定木の数と特徴量(説明変数)の数を最適化する。 ランダムフォレストのパッケージのインストールと準備 最初に一回だけパッケ... -
機械学習
R でランダムフォレストを行う方法 重要度の可視化の方法
R でランダムフォレストを実行する方法。 ランダムフォレストとバギングの違い ランダムフォレストとバギングの違いは、こちらの記事を参照。 R でランダムフォレストを実行するパッケージの準備 パッケージはrandomForestというそのままの名前のパッケー... -
機械学習
R でアンサンブル学習のバギングを行う方法
バギングというアンサンブル学習を R でやってみる。 ランダムフォレストとバギングの違い ランダムフォレストとバギングの違いは、以下の記事を参照。 バギングのための R パッケージの準備 adabagパッケージをインストールする。 install.packages("adab... -
機械学習
ランダムフォレストとバギングの違い
ランダムフォレストとバギングは、決定木をより汎用化するために考えられた手法。 違いは何か? 概念的な簡単な説明。 ランダムフォレストとバギングの総称 アンサンブル学習とは何か? ランダムフォレストとバギングはともにアンサンブル学習と呼ばれてい... -
機械学習
R partykit で決定木分析を実行する方法
決定木分析をRで行う方法を紹介。 難しいプログラムが組めなくてもすぐに使える。 決定木分析のRパッケージの準備 決定木分析のパッケージrpartときれいな決定木の描画パッケージpartykitをインストールする。 インストールは初めの一回だけでOK。 install... -
機械学習
決定木の過学習を防ぐ剪定(枝刈り)とは?
決定木には剪定(せんてい)という過程がある。 剪定とは何か? 簡単に紹介。 決定木の弱点 過学習 あるデータセットから、決定木を作ったとする。 決定木は、大きく茂らせれば茂らせるほど、きれいに分岐して、分類してくれる。 しかしながら、機械学習... -
機械学習
機械学習の決定木分析に計算される Gini 不純度とは? わかりやすく解説
決定木の分岐(ノード)を作るときどのような計算をしているのか? Gini不純度を計算しているのだが、Gini不純度とは何か? 機械学習の決定木における Gini 不純度とは? Gini不純度とは、ある特徴でデータを2分割するときに、特徴の要素Aである確率とAで... -
機械学習
機械学習による決定木分析 ごく簡単な解説
機械学習をする方法はさまざまある。 代表的な方法は決定木分析である。 そもそも決定木とは何か? 基本的なことをごく簡単に解説。 決定木とは何か? 決定木とは意思決定に使う、いくつもの枝分かれをする図のこと。 膨大なデータを使って、決定木のモデ... -
サンプルサイズ計算
統計に必要なサンプル数が計算できるエクセルファイルのリンク集
標本の大きさの求め方。エクセルを使う方法。 サンプルサイズ計算をエクセルで行う方法。 なかなか探しても見つからないサンプルサイズ計算がここでは見つかる!! アンケート調査 アンケートは何人に取れば最適なのか? エクセルファイルで簡単に計算でき... -
機械学習
R で分類課題を機械学習モデルで実行する方法
機械学習で、よりよく推測できるモデルを選ぶ。 統計ソフトRのISLRパッケージのWeeklyデータで基礎的な機械学習を行ってみた。 Rで機械学習を行うためデータの準備 ISLRパッケージのWeeklyデータは、S&P500指数の週当たりのリターンのデータ。 9つの変... -
多重共線性
R で重回帰分析を行う具体例 ― ISLR パッケージ Auto データセットを使った重回帰分析
R の ISLR パッケージの Auto データセットを使った分析例。 データの準備 最初の一回だけ、ISLRパッケージをインストール。 install.packages("ISLR") ISLRパッケージを呼び出して、解析開始。 library(ISLR) ISLRパッケージのAutoデータセットを用いて解... -
臨床疫学指標
R で NNH Number Needed to Harm を計算する方法
有害必要数(Number Needed to Harm, NNH)は、1人の有害事象が起こる人が出現するのに、何かの影響を受けた人が何人必要かという数。 NNHを計算するにはどうやるか? 使えるシチュエーションは、 曝露Aを受ける人受けない人 処置Bを受ける人受けない人 介... -
疫学指標
R で罹患率比を求める方法
罹患率比の計算は、どうやるのか? R での計算の方法。 罹患・罹患率・罹患率比とは? 罹患(りかん)とは? 罹患とは病気にかかること。 病気にかかったことは、診断によってわかる場合と、発症によってわかる場合がある。 診断とは、外来の診察で下され... -
相関係数
相関と回帰の違いは何か?
相関と回帰はどう違うか? 両方とも2つのデータの関係性を見ているわけで、とても似ている。相関と回帰の違いについて、まとめてみる。 相関と回帰の根本的な違いは? 相関は、相関係数が中心で、 データXとデータYの お互いの関係性を見る。 相関分析には... -
変数選択
R でロジスティック回帰分析の変数選択の参考になる計算上ベストな変数セットを提案してくれる方法
Rを使って、 多重ロジスティック回帰分析でBICを使って、 簡単に変数選択ができる。 変数選択の関数の前に BIC とは BICは、 Bayesian Information Criterionの頭文字語。 統計モデルへのあてはまりを検討するときに、 変数が多すぎると評価が下がる規準に... -
変数選択
R で重回帰分析の変数選択に参考となる計算上ベストな変数セットを提案してくれる方法
R で重回帰分析を行った際の変数選択の方法の解説。 bestglmの準備とサンプルデータ R の bestglm() 関数は、AIC, BIC(デフォルト), BICqなどの Information Criterion 情報規準を使って ベストの変数の組み合わせを見つけてくれる。 bestglmパッケージのz... -
グラフ
R で箱ひげ図を書く方法
R で箱ひげ図を描くにはどうしたらいいか? R で箱ひげ図を書く関数 R で箱ひげ図を書く関数は、boxplot() 第 1 四分位から第 3 四分位までの箱を描き、その中にある中央値に線を引く。 第 1 四分位と第 3 四分位の差(四分位範囲)の 1.5 倍の線(ひげ)... -
ログランク検定
R でログランク検定に必要なサンプルサイズを計算する方法
ログランク検定のサンプルサイズ計算を R で行う方法 ログランク検定はどうやるか? ログランク検定は、時間経過とともにイベントが起きていくデータの群間比較をする方法。 患者さんの死亡をイベントとしたデータ、病気が再発することをイベントとしたデ... -
級内相関係数
R で級内相関係数 ICC(2,1) を計算する方法と必要なサンプルサイズを計算する方法
級内相関係数 ICC Case2 の計算とサンプルサイズ計算を R でやってみた 級内相関係数 ICC(2,1) の計算例 級内相関係数 Intra-class Correlation Coefficient Case2 ICC Case2 は検者間信頼性の指標。 患者さんを数名の検査者(または評価者)で検査(また... -
級内相関係数
R で級内相関係数 ICC(1,1) に必要なサンプルサイズを計算する方法
ICC(1,1) の計算とサンプルサイズ計算を R で行う方法 級内相関係数 ICC(1,1) の計算 級内相関係数(ICC)は、信頼性指標に使える。 ICC Case1は、一人の検査をする人(検者、けんじゃ)の一貫性を確認する指標だ。 ICC(1,1)は、一人の検者がk回測定を行っ... -
トレンド検定
R でトレンド検定に必要なサンプルサイズを計算する方法
トレンド検定のサンプルサイズ計算。 トレンド検定とは トレンドとは、順序カテゴリの小さいほうから大きいほうに移るにつれて、カテゴリの平均値や割合が大きくなるとか小さくなるとか、傾向や相関があることを指す。 トレンドがなく同じというのが帰無仮... -
多重比較
R でダネット検定に必要なサンプル数を計算する方法
ダネット検定のサンプルサイズ計算を R で行う方法 ダネット検定サンプルサイズ計算スクリプトの前提 ダネット検定とは、コントロール群、統制群、非処理群などと呼ばれる比較対照グループと、複数用量の治療群、処理群を比較する検定である。 サンプルサ... -
多重比較
R で 共分散分析において 3 群以上のカテゴリの多重比較をする方法
三群以上の平均値を多重比較したい。 でも各群の背景因子がそろっていない。 背景因子を調整しながら三群以上の平均値を多重比較するにはどうすればいいか? R でのやり方を解説する。 共変量を調整して多重比較する方法 群ごとの背景因子は、群分け変数と... -
多重比較
R でノンパラメトリック検定の多重比較を実行する方法
ノンパラメトリックの多重比較をRで実施する方法。 ノンパラメトリックとは何か? ノンパラメトリックとはパラメトリックではないという意味。 パラメトリックとは、パラメーターを使うという意味だ。 パラメーターとは、日本語では母数(ぼすう)と言われ... -
多重比較
R でフィッシャーの正確確率検定・カイ二乗検定 で 3 群以上の比較を実行する方法
フィッシャーの正確確率検定、カイ二乗検定の3群以上の比較をRで実施する方法の解説。 カイ二乗検定の3群以上の比較 三群以上の割合の比較はどうやればいいのか? Bonferroni型のp値調整を使う方法がある。 Rで行う場合、pairwise.prop.test()という関数を... -
多重比較
R でボンフェローニを実行する方法
検証試験において、三群以上の平均値を比較したいときに、単純に二群比較を繰り返すと有意水準が甘くなる。 有意水準の調整によって簡単に処理する方法がボンフェローニ (Bonferroni)の方法とその進化版だ。 Rでボンフェローニ型のP値調整で多重比較を行... -
多重比較
R でチューキー検定を行う方法
Tukey HSD検定をRで行う方法の解説。 Tukey HSD検定をRで行う方法 aov()とTukeyHSD()という二つの関数を使う。 ダネット検定のときと同じように、例としてwarpbreaksというデータを使う。 ダネット検定は以下を参照。 機織りにおいて、tension(緊張、張り... -
多重比較
R でダネット検定を行う方法
ダネット検定は、比較対照群といくつかの実験群を多重比較する方法。 Rでダネット検定をするにはどうしたらよいか? Rでダネット検定をするには? まずmultcompパッケージをインストール。 インストールは一回だけでOK。 install.packages("multcomp") 次... -
サンプルサイズ計算
R でクロスオーバー試験に必要なサンプルサイズを計算する方法
クロスオーバー試験のサンプルサイズ計算を R で行う方法 クロスオーバー試験とは クロスオーバー試験とは、二群どちらにも二つの介入を受けてもらう試験。 従来の薬と新薬とか、方法Aと方法Bとか、二つの方法を順番を変えて受けてもらう。 利点は、小さい... -
非劣性検定
R で非劣性の生存時間解析に必要なサンプルサイズを計算する方法
非劣性試験のサンプルサイズ計算 生存時間データの場合 非劣性試験のサンプルサイズ計算 生存時間データの場合 例 1 各記号の意味は以下のとおり。 t:観察期間。 S1とS0:それぞれ治療群とコントロール群の生存率。 dF:Freedmanの方法による各群必要な死... -
非劣性検定
R と EZR で平均値の非劣性検定に必要なサンプルサイズを計算する方法
非劣性試験のエンドポイントが連続量で、各群の平均値を求める場合、サンプルサイズはどのように計算するか? RとEZRで行う方法。 非劣性試験における非劣性検定とは? 劣っていないことを積極的に証明する検定。 臨床的に意味のある差を設定して、それよ... -
非劣性検定
R と EZR で割合の非劣性検定に必要なサンプルサイズを計算する方法
非劣性検定は劣っていないことを証明する検定。 割合の非劣性検定のサンプルサイズ計算はどうやるか? 割合の非劣性検定のサンプルサイズ計算 各変数の意味は、以下のとおりとする。 pA:試験薬の有効率とする。 pB:標準薬の有効率とする。 pB.bar:帰無... -
サンプルサイズ計算
R と EZR で生存時間解析のサンプルサイズ計算を行う方法
生存時間解析のサンプルサイズ計算の方法 Cox の比例ハザードモデルを使う前提の計算 生存時間解析のサンプルサイズ計算 その 1 R でスクリプトを書いてみた。 S0がコントロール、S1が治療群、それぞれの生存率。 dが、両群合わせて合計の死亡者数。 sampl... -
グラフ
R でヒストグラムを書く方法
R でヒストグラムを書く方法 超簡単なので、実行必須 連続データは必ずヒストグラムを見てみるべき R のヒストグラムの作り方 R でヒストグラムを描くには、hist() を使う ヒストグラムというのは、いくつかのカテゴリに区切って、データの分布をグラフで... -
グラフ
R で複数のグラフを並べて書く方法
R でグラフを複数並べる方法の解説 R でグラフを複数並べる方法 layout() グラフを並べて描きたいと思うことは多い R の場合、layout() という関数を使う R でグラフを複数並べる方法 グラフを縦に2つ並べる layout(1:2) グラフを縦に 2 つ並べる場合は、l... -
相関係数
R で相関係数を計算する方法
例えば、身長が高いと体重が重いとか、年齢が高いと血圧も高いとか、関係している二つの事柄は多い。 これを相関関係という。 R で、散布図、相関係数計算、相関係数検定をやってみた。 相関係数を求める前に散布図を書く方法 散布図は、相関関係があるか... -
基礎知識
R で割合を計算する方法
R でカテゴリデータを集計して、割合を計算する方法。 R で割合を計算する方法 カテゴリデータの集計の方法 もっとも使うのがtable()。 表(table)形式で集計する関数だ。 例としてMASSパッケージのbirthwtデータフレームを使う。 lowは低体重出生(1)か、そ... -
基礎知識
R で skewness や kurtosis を計算する方法
R で skewness や kurtosis を計算する方法。 平均と標準偏差 統計ソフトRで、平均値は、mean()で算出する。 標準偏差は、sd()で計算する。 sdはstandard deviationの略。 平均値と標準偏差の値の関係で、データの分布を大まかに推測できる。 平均値が標準... -
基礎知識
R の attach の使い方
R の attach とはどんな関数か? データフレームとは? R の中で、データフレームとは、データの一つの塊を言っている。 それも、変数名がついて、何列かのデータのことだ。 エクセルで言えば、A、B、Cと列が並んでいるところに、 Aには、年齢 Bには、性別... -
基礎知識
R のライブラリとは
R でlibrary() ライブラリ はよく使う関数だ。 ライブラリとは? ライブラリの定義 ライブラリは、辞書の定義だと、 〔コンピュータ〕ライブラリー: プログラムやデータなどをひとまとまりに登録したファイル. 出典:Progressive English-Japanese Diction...
