2019年– date –
-
多重比較
R で多重比較に必要となるサンプルサイズを計算する方法
多重比較のサンプルサイズ計算を R で行う方法 ボンフェローニ型 多重比較のサンプルサイズ計算 Bonferroni(ボンフェローニ)型多重比較とは、比較する数で有意水準を割って、割った有意水準より小さい有意確率の場合、統計学的有意と考える方法。 三群あ... -
臨床疫学指標
R で 5 年生存率から逆算で生存期間中央値を求める方法
がん患者さんの生存期間中央値を5年生存率から逆算で求めるにはどうしたらよいか? R で計算する方法。 5 年生存率から逆算で生存期間中央値を求める計算式 生存確率は、一般論として指数関数で近似できる。 実際には、がんの治療後すぐになくなったり、数... -
多重比較
R でロジスティック回帰分析と傾向検定・多重比較を行う方法
R に組み込みのタイタニック号の生存・死亡データで、生存・死亡に関するロジスティック回帰分析と、独立変数の多重比較を実行してみる。 解析するタイタニック号の生存・死亡データの確認 解析するデータは、carData パッケージの TitanicSurvival という... -
ロジスティック回帰
R でロジスティック回帰を行う方法
タイタニック号は、1912年4月14日の夜、氷山に激突し、北大西洋の底に1,500名以上の命と一緒に沈んだ。 乗客乗員の生存・死亡のデータを用いて、ロジスティック回帰分析を実行してみる。 タイタニック号の生存・死亡データはどこにあるのか? R はインスト... -
相関係数
偏相関係数を計算したいときに考えること
偏相関係数について。 順位相関係数は偏相関係数が計算できるか。 偏相関係数が計算したい場面 新規の検査値Aと既存の検査値Bの関連性を検討したい。 nは40例程度。 解析するに当たり、患者背景が問題になると思っている。 既存の検査値 Bと身長が関連する... -
相関係数
R で相関係数と偏相関係数の違いについて ピアソンとスピアマンの両方について
相関係数は、相関関係の強さを示す指標。 一方が大きいときにもう一方が大きければ、正の相関関係で、相関係数は1に近い。 一方が大きいときにもう一方が小さい場合は、負の相関関係で相関係数は-1に近い。 では、偏相関係数とは何か? 違いは何か? 偏相... -
正規性
R と SPSS で重回帰分析の残差が正規分布であるのを確認する方法
回帰分析をする際に、説明変数や目的変数が正規分布をしていないことで悩んでいる人は多い。 悩むところはそこじゃない。 重回帰分析では、残差が正規分布している必要がある。 重回帰分析の前提は何か? 重回帰分析の前提は4つある。 独立性(データそれ... -
回帰分析・線形回帰・重回帰
t 検定と分散分析と回帰分析は同じことをしている
分散分析と回帰分析とt検定は同じものである。 これがわかれば、重回帰分析(共分散分析)が交絡因子調整した群間比較に使われる理由がわかるだろう。 t検定は回帰分析でもできるし、分散分析は二群でもできる ここで、t検定は、いわゆる t 検定のこと... -
多重共線性
多重共線性を回避する方法
多重共線性(たじゅうきょうせんせい)があるかどうかを確認する必要があるとはよく聞くが、確認して多重共線性があった場合はどうすればよいのか? 多重共線性とは?多重共線性はなぜ問題なのか?そして多重共線性を回避するにはどうすればよいか?につい... -
変数選択
SPSS で Cox 回帰における変数選択の方法とカテゴリ変数のハザード比の求め方
SPSS で Cox 回帰をする際の変数選択の方法とカテゴリ変数の設定の方法の解説 SPSS で Cox 回帰を行う例 SPSSでのCox回帰を行う例は以下の通り。 心臓カテーテル治療(PCI)を何度も経てから冠動脈バイパス術 (CABG) を行う患者の長期成績は不良かというテ... -
変数選択
多変量解析の変数選択は統計的にどうやるのか
多変量モデルの変数選択について、悩まない人はいない。 どの変数を採用してどの変数を採用しないのか。 明確な基準はあるのか? 想定している多変量モデルは? 多変量モデルは、多変量解析のモデル(もしくは型)を指している。 独立変数に多数の変数を使... -
対応分析
R でコレスポンデンス分析の計算を Step by Step で確認する
コレスポンデンス分析(対応分析とも言う) は、大きな分割表に集計されたデータを見やすくする分析方法。 二次元 つまり X軸とY軸に変換して、散布図にして傾向を見る。 コレスポンデンス分析とは? コレスポンデンス分析とは、対応分析とも呼ばれ、分割... -
テキストマイニング
階層的クラスター分析で使われるウォード法とは? わかりやすく解説
階層的クラスター分析のクラスター化の方法のウォード法とはどういう方法なのか? クラスター化とは? 階層的クラスター分析はクラスター化をしていく。 クラスター化とは何か? 階層的クラスター分析では、最初にJaccard係数等の指標で、単語同士の「距離... -
競合リスク
R で競合リスク回帰を実行する方法
競合リスク回帰とは、共変量調整をした競合リスク分析の方法。 競合リスク回帰の前に競合リスクとは? 競合リスクについては、以下を参照。 競合リスク回帰の種類 競合リスク回帰モデルには四つ考えられる。 絶対リスク回帰 Absolute Risk Regression ロジ... -
競合リスク
R で競合リスク分析 Gray 検定を行う方法
競合リスクとは何か? Gray 検定の実行方法 競合リスクとは? 再発がエンドポイントであったが、再発する前に死亡してしまったので、観察できなかった。 脳梗塞の発現がエンドポイントだったが、先に肺炎でお亡くなりになり、観察できなかった。 このよう... -
コックス回帰
R で生存時間データを分析する方法
Coxの比例ハザードモデル(コックスの比例ハザードモデル、Cox回帰、コックス回帰など表示・呼び名はたくさんあるが皆同じものを指している)は、生存時間とイベントデータを多変量解析できる統計モデルだ。 注目したい要因が、他の要因と相関があり、また... -
ログランク検定
R でログランク検定を行う方法
ログランク検定とは、生存時間解析で、二群以上のグループがある場合に、グループ間で統計学的に差があるかを検討する方法。 R での方法を解説。 R でログランク検定をする場合の関数は? R でログランク検定をする場合、survival パッケージのsurvdiff()... -
グラフ
R でカプランマイヤー曲線をグループごとに書く方法
Rでカプランマイヤー曲線を書く方法の紹介。 survfit を使ったグループごとの曲線の書き方。 Rでカプランマイヤー曲線を書くためのサンプルデータ カプランマイヤー曲線を書くためのサンプルデータは、survival パッケージの lung を使う。 これは、North ... -
テキストマイニング
Jaccard係数とは?― クラスタリングや共起ネットワークの類似度の指標
Jaccard 係数は集合の類似度を表す指標で、テキストマイニングでは、文章と文章の類似度=距離を表す指標になる。 Jaccard係数を少し詳しく解説。 Jaccard係数とは? Jaccard 係数とは、植物学者 Paul Jaccard が考案した集合の類似度を測る指標のこと。 ... -
クラスタリング
R で階層的クラスタリングを行う方法
R で階層的クラスタリングを行う方法。 階層的クラスタリングとは さまざまな特徴を持った集団、たとえば米国50州を、特徴が似ている似ていないで近い・遠いを表現して部分集団(クラスター)に分けることを言う。 以下も参照のこと。 階層的クラスタリン... -
ユークリッド距離
R でユークリッド距離を二次元で表示してみた
二次元でユークリッド距離を図示してみた。 二次元のユークリッド距離を示すサンプルデータ 二次元でユークリッド距離を例示してみるためのサンプルデータは、R に組み込まれているUSArrestsというデータを使う。 USArrestsの1列目 Murderと2列目 Assault... -
ユークリッド距離
R でユークリッド距離を求める方法
ユークリッドは紀元前325年に生まれたギリシャの数学者。 著した著書は数学のなかでも特に幾何学の教科書として有名であった。 ユークリッドが考え出した「距離」とは? ユークリッド距離とは? ユークリッド距離は、幾何学で扱う事項である。 幾何学とは... -
クラスタリング
クラスター分析とは?
クラスター分析とは何か? そもそも、クラスターって何? クラスターとは? クラスターとは、グループとか塊(かたまり)の意味。 データをいくつかの塊に分けたものをクラスタと言う。 クラスター分析とは? 集めたデータをいくつかの塊に分けて、その特... -
一致度
R で 3 人以上の評価者のカッパ係数 フライスのカッパ係数を計算する方法
フライス(Fleiss)のカッパ係数(kappa)は、3人以上の評価者の評価が一致している度合いを測定する係数。 カッパ係数には 2 人の場合と 3 人以上の場合の 2 種類がある Cohen's kappa が二人の評価者の一致度を判断するのに対して、Fleiss' kappa は三人... -
一致度
R でカッパ係数を計算する方法
二人の評価者のカテゴリ評価の一致度を見るのがいわゆるカッパ係数だ。 カッパはギリシャ文字のkのカッパ(κ)のこと。 Jacob Cohen先生が発明したので、Cohen's Kappaと呼ばれる。 これを R で計算してみようと思う。 irr パッケージを使う方法 簡単な方... -
一致度
R でブランド アルトマン 分析を行う方法
ブランド アルトマン 分析は、二つの測定系の結果が一致しているかどうかを確認する方法。 ブランド アルトマン プロットに、回帰直線を合わせると不一致に傾向がないかどうか確認できる。 ブランドアルトマン分析の準備 ブランドアルトマンプロットは、2... -
信頼区間
R でウィルソンのスコア法よる信頼区間を計算する方法
点推定値が100%に近いとき、より適切に割合の信頼区間を計算する方法 Wilson's score method(ウィルソンのスコア法)の解説。 割合の信頼区間は近似を使っている 割合の信頼区間は以下の式で計算できる。 これは正規分布を近似的に使っている。 $$ \hat{p... -
グラフ
R でグラフを描いてグラフの一部を塗りつぶす方法
グラフを描いた後、一部を塗りつぶしたいときがある。 そんなときにどうしたらいいか? 標準正規分布の場合 確率分布の一部を塗りつぶしたい場合、以下のようにすれば可能。 # 前半 curve(dnorm(x), -4, 4, las=1, xlab="Z") arrows(0,0,0,dnorm(0),length... -
回帰分析・線形回帰・重回帰
R で行列計算を使って重回帰分析を行う方法
重回帰分析は行列計算をしているわけだが、実際どのような計算をしているのか、R を使って計算してみる。 サンプルデータの準備 使用するデータは ISLR パッケージの Carseats データ。 これはチャイルドシートの売り上げデータ。 パッケージのインストー... -
分散分析
R で一元配置分散分析を行う方法
Rで、一元配置分散分析を step by step で計算してみた。 lm() と Anova() を使えばあっという間だが、具体的な一つ一つの計算を自分で組み立ててみるとどうか? 教科書の例題に沿って確認した。 R で一元配置分散分析を実行するための例題データ サンプル... -
回帰分析・線形回帰・重回帰
R で回帰直線の差の検定を行う方法
二つのデータセットがあって、二つの回帰直線が描けたとき、そのあとどうすればいいか? そのあとは、傾きが同じと言えるか?さらには切片が同じと言えるか?と進んでいく。 二つの回帰直線の差を検定してみる。 回帰直線の差の検定のためのサンプルデータ... -
相関係数
R で相関係数のメタアナリシスを行う方法
相関係数を統合したい場合はどうやるか? R での方法。 個々の研究の相関係数と95%信頼区間の準備 使うデータは以下の通り。 r が相関係数。 n がサンプルサイズ。 r <- c(0.307,-0.01,0.300,0.119,0.194,0.248) n <- c(107,1524,154,6165,4138,1559... -
相関係数
R で相関係数検定の実行と信頼区間を計算する方法
R で相関係数の検定と推定は cor.test() でできるが、個々のデータが必要だ。 個々のデータを使わなくても、検定や推定はできないだろうか? 相関係数の検定 母相関係数 ρ(ロー) がゼロかどうかの検定。 スクリプトは以下の通り。 r がサンプルの相関係... -
メタアナリシス
R で平均値の差のメタ解析を行う方法
平均値の差のメタ解析のやり方を解説。 メタ解析のやり方解説のためのサンプルデータ メタ解析のやり方を解説するためのデータは以下の通り。 mが平均、sが標準偏差、nがサンプルサイズ。 n1 <- c(155,31,75,18,8,57,34,110,60) m1 <- c(55.0,27.0,6...
1
