KH Coderは、立命館大学の先生が作成し無料で提供しているソフトウェア。
特に、図示表現が秀逸。
難しいこと抜きでパッときれいな図ができる。
KHコーダーのインストール方法
Windows版パッケージを以下のリンク先からダウンロードしてダブルクリック!
自己解凍型ファイルになっている。Unzipをクリックして解凍する。
以下のダイアログボックスが出れば、解凍完了。OKをクリック。
デスクトップにできたKH Coderフォルダをダブルクリックして、そのなかのkh_coder.exeをダブルクリックで起動。
KHコーダーのダウンロードとインストール【動画】
KHコーダーの使い方
とても丁寧なチュートリアルスライドがある。
ここでは、言葉の抽出と分析法の一つ共起ネットワーク図の描き方について紹介する。
テキストデータの読み込みから言葉の抽出まで
テキストデータはぼくのTwitterのTweetsを使ってみる。Retweet(RT)を合わせて1000 tweets 強のデータ。
TwitterのTweetsを読み込む
KH Coderを起動すると最初の画面は以下のようになる。
メニューのプロジェクトから新規を選ぶ。
すると以下のウィンドウが開く。
参照をクリックしてTweetsのCSVファイルを選択する。
分析対象とする列をクリックしてtextに変更する。
言語のChaSen(茶筌)をクリックしてMeCab(和布蕪)を選択。ぼくはRでMeCabを使っている関係上、MeCabを使用する。ChaSenのほうが古くから有名。
ChaSenとは?
MeCabとは?
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
メモ欄にプロジェクトの説明をつけてOKをクリック。
言葉の抽出はどうやる?
前処理から分析対象ファイルのチェックを選択。
時間がかかるという警告が出るがひるまずOKを押す。1000 tweets あまりが、6秒だった。
問題があると以下のように表示される。問題がなかった場合は、問題なしと表示されるだけだ。画面に表示をクリックすると問題が含まれるデータが表示される。
右下の分析対象ファイルの自動修正の実行をクリックすれば、自動で修正してくれる。閉じるをクリックして次の手順に進む。
前処理メニューから前処理の実行を選択。
また時間がかかるかもしれない警告が出るがひるまずOKをクリックする。
今度はそこそこ時間がかかりそうな予感がするお知らせが表示される。
25秒で終了した。
総抽出語が53,379語であったことがわかる。
抽出語のリストを見てみる
ツールから抽出語→抽出語リストを選択する。
多い順にリストアップされる。12番の知るの右には+の記号がついていて、クリックすると展開されて、知るの活用形がリストアップされる。
知らなかった、とか、初めて知った、とか、知ることが大事、とか、知りました、とか、知ろう、とか。全部まとめると105回登場した。
KHコーダーのテキストファイルの読み込みと言葉の抽出【動画】
KHコーダーで共起ネットワーク図はどうやって描くか?
どんな言葉が一緒にTweetされているかを図示する方法。
ツールから抽出語→共起ネットワークを選択する。
オプションをいろいろと変更できる。最初はそのまま何もいじらずOKをクリック。
下のような図が表示される。これが共起ネットワーク図だ。
一緒のTweetに含まれていた言葉を、つながりと頻度によって、色分けと円の大きさで表したもの。一連のつながりは同じ色で表示され、円の大きさは出現頻度を表している。
T、RT、Co、httpsは最大勢力だが、Tweetに自動で含まれてしまう略号類だ。これを除外してもう一度描いてみる。
除外したい略号類は、すぐ下の「犬」266回よりも多く現れているので、先ほどのオプションのウィンドウで最大出現数を300にする。
今度は先ほどと比べ低頻度の言葉も大きく、たくさん表示された。
大きく分類すると、介助犬のこと、盲導犬のこと、障害自体のこと、ヘルプマークのことがRetweet含めTweetされていることがわかる。
KHコーダーで共起ネットワーク図を描くには?【動画】
まとめ
KH Coderの使い方をTwitterのTweetを使って簡単に紹介した。
テキストデータを読み込んで、前処理をして、抽出語の確認と共起ネットワークの描くところまでを記載した。
KH Coderは簡単・便利で、きれいな出力が得られる、無料で最強のテキストマイニングソフトウェアと言える。
いいソフトウェアに出会った。
KHコーダー オフィシャルブック
KHコーダー オフィシャルブックII
関連記事
以下は、関連記事の列挙。よければ、ぜひ。
KHコーダー 抽出語の解析方法 – 実践編
抽出語間の距離の計算とクラスタリング – 方法論
コメント