トピックモデルを用いたユーザーコメントからのキーコメント抽出 Key

トピックモデルを用いたユーザーコメントからのキーコメント抽出
Key comments extraction from user comments using the topic model
認知支援システム学講座 0312011149 村上力
指導教官: Basabi Chakraborty,David Ramamonjisoa
1.
はじめに
近年,ソーシャルメディアの流行により,掲示板シ
ステムや SNS などの CGM(Consumer Generated
Media)に情報を発信する利用者の人口が増えている.
これにより,CGM に投稿された大量の文書から,効
率的に有益な情報を発見したいという需要は増加して
いる.CGM に蓄積された情報の解析は,他の利用者
の意見を知りたいという消費者側の希望や,潜在的な
需要を発見したいという企業の希望に答える為に必要
である.これに対し,[1]では複数のトピックモデルを
用いて CGM データに適するアルゴリズムを調査した.
本稿ではコメントの要点に当たる適切な文書をピック
アップするシステムを提案する.本システムでは文書
クラスタリングアルゴリズムを用い,Web 上の記事へ
の意見や感想として投稿されたコメント群に対し実験
を行う.文書クラスタリングを用いて発見した各トピ
ックから最もそのトピック全体を表しているコメント
を抽出し,これをキーコメントとして提示する.
2.
先行研究
参考文献[2]では掲示板の様な場に投稿された文書
に対して,メッセージの列における利用者の興味をそ
そる話題やそれら話題のメッセージに即応した意味の
変化を、利用者に飽きがこないように提示する話題抽
出手法を提案している.その結果として,掲示板シス
テムから話題を固有名詞と名詞の連続や名詞間が「の」
で繋がる名詞句を抽出して示している.本研究と先行
研究の違いは話題を名詞句として表すのではなく,投
稿されたコメント文書自体の中から優れたコメントを
発見している点である.
3.
文書クラスタリング手法
本システムでは後述する 5.1 の(7)でトピック特徴語
をまとめた単語箱(BoW:bag-of-words)を作成する.
このため単語ごとにトピックを抽出する必要がある.
この条件に合う文書クラスタリング手法として LDA
を採用した.
3.1.
潜在的ディリクレ配分法(LDA:Latent
Dirichlet Allocation)
LDA[3]はトピックモデルとも呼ばれる確率的潜在
変数モデルであり,文書集合の生成モデルである.
PLSA を階層ベイズモデルにより一般化したモデルで
あり,トピックモデルの代表的なアルゴリズムと言え
る.単語単位で隠れトピックを割り当て,トピックを
推定する.ここでは LDA の学習アルゴリズムとして
マルコフ連鎖モンテカルロ法の一種である Collapsed
Gibbs sampler を用いた.
4.
類似度の計算
本システムでは各文書をベクトル空間モデルに投射
して使用する.このため類似度の比較にはコサイン類
似度を使用する.
4.1.
コサイン類似度
コサイン類似度[4]はベクトル空間モデルに投射さ
れた文書間の類似度の尺度である.提案システムでは
𝒙を各コメントの単語箱,𝒚を各トピック特徴語の単語
箱とした.この時コサイン類似度は以下の式で求める.
𝒙𝒚
𝐜𝐨𝐬(𝒙, 𝒚) =
|𝒙||𝒚|
コサイン類似度が大きいほど,2 文書間の類似の度合
いが高いと判定できる.
5.
提案システム
5.1.
概要
本研究の提案手法の流れは以下の通りである.
(1) 対象の Web ページから HTML ファイルを取得.
(2) HTML ファイル群から HTML タグを削除し,コ
メントのみを抽出.
(3) 抽出されたコメントから URL,ストップワード,
引用部分を削除.
(4) 英語コメントの場合はコメント群を見出し語化,
日本語コメントの場合は名詞のみを抽出する.
(5) TF-IDF でコメントをベクトル空間モデルに投射
し,単語箱を作成する.
(6) LDA を用いてコメント内の単語の隠れトピック
を決定する.この際,LDA の性質から,予め文書
内に存在するトピック数を指定する必要がある.
今回はトピック数を5とした.
(7) 各トピックの特徴語を持つ単語箱を作成する.全
コメント内での TF-IDF を要素として持つ.
(8) 各コメント内の単語の隠れトピックの比率に従っ
て,その最も比率の高いトピックをコメント自体
の所属トピックとし,図1A の様にクラスタリン
グする.
(9) トピック毎に,所属するコメントと(2)で作成した
単語箱の該当トピックにあたるベクトルとのコサ
イン類似度を図1B の様に計算する.この値が大
きい程,そのトピックの話題をよく表している文
書である仮定する.
(10) トピック毎に(9)で計算した類似度が最大だった
コメントをそのトピックのキーコメントとする.
5.2.
実験データ
本実験で使用したデータセットを表 1 に示す.ここ
でコメント数は投稿されたコメント文書の数であり,
総単語数は 5.1 の(4)の処理を行った後の単語数を示し
ている.
ラウドであり,各まとまりはトピックを,単語の大き
さは TF-IDF を表している.この特徴を特に含んでい
るコメントをキーコメントとして抽出する.
図 1:文書クラスタリングと類似度計算のイメージ
表 1:データセット
ファイル名
Corpus-iPadmini
Corpus-greece2
Corpus-Surface3
Corpus-iPhone4
Corpus-Tokyo5
6.
1
コメント数
161
188
36
2783
314
総単語数
5679
3160
661
80751
2704
言語
英語
英語
日本語
日本語
日本語
実験結果
表 1 のデータセットの内,Corpus-iPadmini を例に
結果を示す.このコーパスは脚注 1 から取得したコメ
ント群である.ここで議論されている記事のタイトル
は「iPad mini features: what tablet users like – and
what the analysts say」であり,このコメント群でも
iPad mini についての話がされている.表 2 にトピッ
ク毎の頻出上位 20 単語とその出現頻度を示す.
表 2:トピック毎の頻出 20 語
Topic
0
1
2
3
4
頻出語
device resolution apple nexus android phil user
pay effective drive ago mini ipad work buy screen
end lower play made
time model decision price apple nexus sale
thought user spend tax pay mini buy uk coverage
market light cover point
time model price decision samsung apple sale
nexus looked space user compete brand mac pay
ago generally work io selling
device sale nexus ipad looked consumer android
apps user hand effective ago work generally io
mini low end lower student
pretty samsung apple work pay paid brand
expense attend high play scenario company map
travel daily embedded charles arthur visiting
cover
また,Corpus-iPadmini は図 2 のような特徴語により
構成されている.図 2 はワードクラウドジェネレータ
Wordle6で作成したコーパス全体を元にしたワードク
1http://www.theguardian.com/technology/2012/oct/2
4/ipad-mini-features
2 http://bbs.kakaku.com/bbs/J0000013557/
3 http://bbs.kakaku.com/bbs/K0000700535/
4 http://kakaku.com/item/J0000013557/
5 http://news.nicovideo.jp/watch/nw1389098
6 http://www.wordle.net/
図 2:Corpus-iPad のワードクラウド
7.
考察
トピック毎の頻出上位の単語が他のトピックと被って
しまう事が多かった.パラメータの更新毎にパープレ
キシティ(perplexity)によるモデルの評価や,出力
したトピックのコヒーレンス(一貫性)を[5]の手法で評
価することで,パラメータの最適化を行い,人の感覚
として自然なトピックに近づけていく必要がある.
8.
おわりに
本稿では CGM に投稿されたコメント群からトピッ
ク毎にキーコメントを抽出する方法を提案した.本稿
で使用した文書クラスタリング向けアルゴリズム以外
にも,トピックモデルには様々な派生アルゴリズムが
存在する.汎用的に利用できる LDA を元に利用用途
毎に最適化された LDA の拡張も複数提案されている
為,それらを利用する事でより良いキーコメント抽出
が見込めるか,更に実験を続けて検証していく予定で
ある.
参考文献
[1] 村 上 力 , Basabi Chakraborty , David
Ramamonjisoa:話題抽出とトピックモデル,平成 26
年度電気関係学会東北支部連合大会 2106
[2] 石井恵,中渡瀬修一,富田準二:名詞句と単語の
勢いを用いた話題抽出手法の提案,自然言語処理研究
会報告 2004(23), pp. 79-84, 2004
[3] D. M. Blei, A. Y. Ng, and M. I. Jordan:Latent
Dirichlet allocation. Journal of Machine Learning
Research, Vol. 3, pp. 993–1022, 2003.
[4] 北研二,津田和彦,獅々堀正幹(2007) 『情報検
索アルゴリズム』 共立出版株式会社 pp.53
[5] Keith Stevens , Philip Kegelmeyer , David
Andrzejewski , David Buttler : Exploring topic
coherence over many models and many topics,
EMNLP-CoNLL '12 Proceedings of the 2012 Joint
Conference on Empirical Methods in NLP and
CNLL pp.952-961