-
Jaccard係数とは?― クラスタリングや共起ネットワークの類似度の指標
Jaccard 係数は集合の類似度を表す指標で、テキストマイニングでは、文章と文章の類似度=距離を表す指標になる。 Jaccard係数を少し詳しく解説。 Jaccard係数とは? Jaccard 係数とは、植物学者 Paul Jaccard が考案した集合の類似度を測る指標のこと。 ... -
R で階層的クラスタリングを行う方法
R で階層的クラスタリングを行う方法。 階層的クラスタリングとは さまざまな特徴を持った集団、たとえば米国50州を、特徴が似ている似ていないで近い・遠いを表現して部分集団(クラスター)に分けることを言う。 以下も参照のこと。 階層的クラスタリン... -
R でユークリッド距離を二次元で表示してみた
二次元でユークリッド距離を図示してみた。 二次元のユークリッド距離を示すサンプルデータ 二次元でユークリッド距離を例示してみるためのサンプルデータは、R に組み込まれているUSArrestsというデータを使う。 USArrestsの1列目 Murderと2列目 Assault... -
R でユークリッド距離を求める方法
ユークリッドは紀元前325年に生まれたギリシャの数学者。 著した著書は数学のなかでも特に幾何学の教科書として有名であった。 ユークリッドが考え出した「距離」とは? ユークリッド距離とは? ユークリッド距離は、幾何学で扱う事項である。 幾何学とは... -
クラスター分析とは?
クラスター分析とは何か? そもそも、クラスターって何? クラスターとは? クラスターとは、グループとか塊(かたまり)の意味。 データをいくつかの塊に分けたものをクラスタと言う。 クラスター分析とは? 集めたデータをいくつかの塊に分けて、その特... -
R で 3 人以上の評価者のカッパ係数 フライスのカッパ係数を計算する方法
フライス(Fleiss)のカッパ係数(kappa)は、3人以上の評価者の評価が一致している度合いを測定する係数。 カッパ係数には 2 人の場合と 3 人以上の場合の 2 種類がある Cohen's kappa が二人の評価者の一致度を判断するのに対して、Fleiss' kappa は三人... -
R でカッパ係数を計算する方法
二人の評価者のカテゴリ評価の一致度を見るのがいわゆるカッパ係数だ。 カッパはギリシャ文字のkのカッパ(κ)のこと。 Jacob Cohen先生が発明したので、Cohen's Kappaと呼ばれる。 これを R で計算してみようと思う。 irr パッケージを使う方法 簡単な方... -
R でブランド アルトマン 分析を行う方法
ブランド アルトマン 分析は、二つの測定系の結果が一致しているかどうかを確認する方法。 ブランド アルトマン プロットに、回帰直線を合わせると不一致に傾向がないかどうか確認できる。 ブランドアルトマン分析の準備 ブランドアルトマンプロットは、2... -
R でウィルソンのスコア法よる信頼区間を計算する方法
点推定値が100%に近いとき、より適切に割合の信頼区間を計算する方法 Wilson's score method(ウィルソンのスコア法)の解説。 割合の信頼区間は近似を使っている 割合の信頼区間は以下の式で計算できる。 これは正規分布を近似的に使っている。 $$ \hat{p... -
R でグラフを描いてグラフの一部を塗りつぶす方法
グラフを描いた後、一部を塗りつぶしたいときがある。 そんなときにどうしたらいいか? 標準正規分布の場合 確率分布の一部を塗りつぶしたい場合、以下のようにすれば可能。 # 前半 curve(dnorm(x), -4, 4, las=1, xlab="Z") arrows(0,0,0,dnorm(0),length...