LDAによる国会会議録データセット参議院部分のトピック分析(ベータ版)
正田 @ 長崎大学 (Jan. 30, 2013)
- 上記リンク先のデータセットの発言部分をMeCabで形態素解析し、名詞、動詞、形容詞、副詞、接続詞、連体詞、感動詞を取得。活用語は原形に変換。
- データセット全体での出現頻度が、「私」という単語の頻度より大きいもの、50未満のものを、削除。
- URLに"sangiin"の文字列を含んでいる部分だけを抽出。
- 同じ人物の連続する発言を一つの文書とみなしてまとめる。
- 各文書のTFデータを、潜在的ディリクレ配分法(LDA)のcollapsed Gibbs samplingの観測データとして、事後分布を推定。
- LDAのトピック数は100。
- collapsed Gibbs samplingのiteration数は1,000。つまり、1,000回、全データをスキャン。
- LDAの分析結果から、頻度の高い順に24個のトピックを削除。(ストップワード的な単語を多く含むため。)
- 残りのトピックから、トピックへの割り当て頻度の高い順に20個の単語を抽出。これを可視化。
- 同じトピックに属する単語は、同じ色の円内にある。円の面積はトピックへの割り当て頻度を表す。
- (なお、色の数がトピック数より少ないため、同じ色だからといって、同じトピックとは限らない。)