MENU

【無料プレゼント付き】学会発表・論文投稿に必要な統計を最短で学ぶことができる無料メルマガ

KH Coder で階層的クラスター分析を行う方法

階層的クラスター分析を KH Coder で行う方法


KH Coderとクラスター分析 – 前提知識

KH Coderは無料で使えるテキストマイニングソフトである。

詳しくは過去記事を参照。

https://toukeier.hatenablog.com/entry/2018/10/14/113839toukeier.hatenablog.com

クラスター分析は、要素間の「距離」を計算して、近い者同士を結び付ける分析方法。

階層的クラスター分析は、クラスター間により近い、比較的遠いの階層がある分析方法である。

クラスター分析については、以下の過去記事を参照。

https://toukeier.hatenablog.com/entry/2019/05/12/204830toukeier.hatenablog.com

階層的クラスター分析の過去記事も参考に。

KH Coderで階層的クラスター分析を行うには?

データの前処理が終わった段階として、話を進める。

データの前処理が終わっていなければ、前述の過去記事を参照。

https://toukeier.hatenablog.com/entry/2018/10/14/113839toukeier.hatenablog.com


方法は3つのオプションから選べる

階層的クラスター分析の方法は以下の3つから選べる。

  1. Ward法
  2. 群平均法
  3. 最遠隣法

デフォルトはWard法で、Ward法がおすすめだ。

他の方法も含め詳しくは以下の過去記事参照。

https://toukeier.hatenablog.com/entry/2019/08/17/213342toukeier.hatenablog.com

距離の計算も3つのオプションから選べる

抽出語間の「距離」の計算も3つのオプションから選べる。

  1. Jaccard
  2. Cosine
  3. Euclid

デフォルトはJaccard係数で、コメント程度のテキスト分析の場合、Jaccard係数がおすすめ。

詳しくは以下の過去記事参照。

クラスターのオプション

クラスター数と色分けのオプションはデフォルトのままでOK。

クラスター数はAutoになっている。特に決めずに自動に任せる。

色分けはしたほうが見やすいので、モノクロの指定がない限り色分けは使う。

最大出現数の上限設定

とても頻繁に出てくる単語だが、記号類等で意味がない単語は解析から除外する。

除外する方法の一つとして、最大出現数の上限を決めてしまうのがよい。

今回の場合、300回を超えて出現する単語は、Twitterの記号類だったので、削除するために上限300に設定した。

オプション設定の全体像

上記を踏まえて、クラスター分析のオプション全体は以下の通りである。

KH Coderで階層的クラスター分析を行った結果例

以下の図が分析結果である。

「近い」抽出語同士は「枝(まるでトーナメントの対戦相手を示すような線 (KH Coderでは水平である )」が短い。「遠い」語同士は「枝」が長い。

例えば、woofoo と inc、AL と OpenGateなどはとても「近く」いつも一緒に記載されていたことがうかがえる。

第二段階以上のつながりは、Ward法で近いと判断された方法で、結ばれていき、最終的に木を横にしたような形になる。

樹木のような図になるので、樹状図(じゅじょうず)またはデンドログラムと呼ばれる。

同じ色で塗られた抽出語群はクラスター(かたまり、一群)を形成していると言える。

まとめ

テキストマイニングソフト KH Coderで階層的クラスター分析の実際を見てみた。

基本的に全部デフォルトのままOKをクリックして解析してよい。

結果を見て、微調整をしてもよい。

ちなみに、結果は絶対的なものではなく、解釈はあくまで分析者が行う。

おすすめ書籍

KH Coder オフィシャルブック II

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

統計 ER ブログ執筆者

元疫学研究者

統計解析が趣味

コメント

コメントする

目次