LDAによる国会会議録データセット参議院部分のトピック分析（ベータ版） : 正田研究室 @ 長崎大学

LDAによる国会会議録データセット参議院部分のトピック分析（ベータ版）

正田 @ 長崎大学 (Jan. 30, 2013)

データセット：http://lod.sfc.keio.ac.jp/challenge2012/show_status.php?id=d036

上記リンク先のデータセットの発言部分をMeCabで形態素解析し、名詞、動詞、形容詞、副詞、接続詞、連体詞、感動詞を取得。活用語は原形に変換。
データセット全体での出現頻度が、「私」という単語の頻度より大きいもの、50未満のものを、削除。
URLに"sangiin"の文字列を含んでいる部分だけを抽出。
同じ人物の連続する発言を一つの文書とみなしてまとめる。
各文書のTFデータを、潜在的ディリクレ配分法(LDA)のcollapsed Gibbs samplingの観測データとして、事後分布を推定。
LDAのトピック数は100。
collapsed Gibbs samplingのiteration数は1,000。つまり、1,000回、全データをスキャン。
LDAの分析結果から、頻度の高い順に24個のトピックを削除。（ストップワード的な単語を多く含むため。）
残りのトピックから、トピックへの割り当て頻度の高い順に20個の単語を抽出。これを可視化。
同じトピックに属する単語は、同じ色の円内にある。円の面積はトピックへの割り当て頻度を表す。
（なお、色の数がトピック数より少ないため、同じ色だからといって、同じトピックとは限らない。）