105 - 長岡技術科学大学 情報・経営システム工学課程・専攻

ブログにおける評価情報の遷移パターン抽出の試み
An Attempt to Extract Transition Patterns from Weblog Evaluation Information
2
2
⃝ 1 高野 淳史,
山田 耕一,
畦原 宗之
1
2
2
⃝ Atsushi Takano, Koichi Yamada, Muneyuki Unehara
1
長岡技術科学大学 大学院
1
Graduate School of Nagaoka University of Technology
2
長岡技術科学大学
2
Nagaoka University of Technology
Abstract: The paper studies a way to extract and to visualize transition patterns of reputation in the
Internet for objects such as products, brands, companies, etc. First, it collects weblog entries commenting
on the objects in the Internet, classifies them into positive or negative from evaluation in the comments,
aggregate the information in each month and make the reputation transition data as time-series graphs.
Then, it attempts to find some characteristic transition patterns in the time-series reputation data that
could be used, e.g. for marketing.
はじめに
1
Step 4 期間ごとに集計し,推移データとする
Step 5 推移データから特徴的なパターンを抽出
インターネットが普及し,多くの人々が自らの意見を
発信する場が増えた.特にブログや電子掲示板,Twit-
出力の例として,検索キーワードを「aquos」として
ter には非常に多くのユーザによる書き込みがある.多
ブログ記事を収集し,評判を時系列データとしたもの
数の書き込みによる多数の意見は,いわばインターネッ
を図 1(a) に示す.これは,Step 3 にて分類した記事を
ト上の世論である.ここで,インターネット上の世論
月ごとに集計し,月内の総記事数に占める肯定/否定
の一つである「評価」に着目する.評価は時間経過に
に分類された記事の割合を表している.図 1(b) は,肯
より変化するものであるから,より適切に評価を把握
定もしくは否定として分類された記事のうち,肯定に
するには,評価の移り変わりを知ることが重要である.
分類された記事の比率を表している.この例では「どち
そこで本研究では,評価の移り変わりを可視化する
らでもない」に分類された記事が少ないため,図 1(a)
ことにより評価の把握を支援する方法を提案する.具
と図 1(b) の実線は,ほぼ同じ形状となっている.
体的には,対象(製品,ブランド,会社,個人等)の
1
評価をインターネットから抽出し,評価の時間的な変
1
Positive
Negative
0.8
とで,遷移のパターンから対象を分類するような応用
Ratio
0.6
Ratio
化を可視化する.また,遷移のパターンを見つけるこ
Ratio
0.8
0.4
0.2
に活かせることも視野に入れる.
0.4
0.2
0
0
5
関連する研究に,打田ら [1] による,Web ユーザレ
10
15
20
25
30
Month
ビューの評価情報を時間的変化的に可視化する研究が
0.6
(a) 全記事数における評判の割合
ある.打田らの研究では,対象製品に付随する評価語
5
10
15
20
25
30
Month
(b) 肯定に分類された記事の割合
図 1: キーワードの評判の時系列推移
句が時間経過によりどう変化するかを HK Graph を用
いて視覚的に示す.本研究では,対象に付随する評価
2.2
語句そのものを示すのではなく,対象についての評価
を数値として捉えグラフとして提示する点が異なる.
法では,ブログ記事を評価情報に基づいて (肯定的/
否定的/どちらでもない) に分類する.現在,分類手
本研究で提案する手法
2
2.1
評価情報の分類
評価分類に関する研究は多く行われている [2].本手
法には,文書中の単語の出現頻度に基づいた手法 [3]
評価情報推移パターン抽出プロセス概要
を大幅に簡略化し,次に示す手順を用いている.
ブログから評価情報の推移パターンを抽出する手順
の概要を次に示す.これらの手順のうち,特に重要な
Step
Step
Step
Step
Step
Step 3, 5 について次節以降にて説明する.
Step 1 対象に関連するブログ記事の収集
Step 2 記事から必要な情報のみを抽出
Step 3 記事を肯定/否定に分類
-1-
1
2
3
4
5
記事本文を形態素解析
品詞が (形容詞・副詞) の単語を抽出
抽出した単語の評価極性値を辞書 [4] から特定
記事中の形容詞・副詞の評価極性値を全て加算
合計の評価極性値のが正ならば肯定に,負ならば
否定に,0 ならばどちらでもないに分類
パターン抽出
評判の時系列データから特徴的なパターンを抽出す
2(b) のように縦軸のスケールを 1 に正規化するとどの
線もほぼ横ばいであり,特徴を見出すことが困難であ
2.3
るために,部分時系列クラスタリングという手法 [5]
る.パターン抽出の前段階の時系列データ作成に問題
を用いる.本研究におけるパターン抽出の手順を次に
があり,それが原因となっているのではないかと考え
示す.
られる.作成された 14 個の時系列データ中の多くの
Step 1 時系列データを肯定/否定に分類された記事数の
比として表現する(図 1(b))
Step 2 時系列データから,長さ w の部分時系列データを,
s のスライド長だけずらしながら切り出す
Step 3 Step 1∼2 を複数の対象の時系列データに対して
実行し,多数の部分時系列データを得る
Step 4 多数の部分時系列データをクラスタリングし,k 個
のクラスタに分類
Step 5 各クラスタの中心を特徴的なパターンととらえる
値が図 2(b) と同様に 0.2∼0.4 の範囲に分布していた.
2.2 節で述べた通り今回の実験に用いた評価分類手法
が極めて単純なため,適切に分類されているかが非常
に疑わしい.問題に対処するためには,手作業による
記事の分類を行い,分類精度を計測できる環境を整え
る必要がある.その後,より分類精度の高い手法に置
き換える.手作業で分類することにより,教師付きの
機械学習を分類手法として採用できるようになる.
Step 4 のクラスタリング手法には,k-means 法を用
また,実験後に「パターン抽出に部分時系列クラス
いる.分割クラスタ数 k は,抽出するパターンの数を
タリングを単純に利用した場合,得られるパターンが
示している.特徴的なパターンの数は未知であるため,
入力時系列データにほとんど依存せずに決まる.
」とい
k-means 法を用いる場合は k の値を変化させて複数回
う本研究で採用しているパターン抽出方法には大きな
のクラスタリングを行う必要がある.部分時系列長 w
問題が存在していることを知った.この重大な問題を
は,wヶ月での評価の遷移を示すことになる.
回避するため,今後は藤巻ら [5] が提案している改善
手法が適用可能であれば適用し,それが困難な場合は
パターン抽出の実験
3
別のパターン抽出手法について検討する必要がある.
概要
3.1
2 章にて説明した手法を実際のデータに用いて評価情
4
報の遷移パターンを抽出できるかどうか実験を行った.
はじめに,14 件の検索キーワード(例:
まとめと今後の課題
キーワードに対するブログ上での評価の推移を時系
aquos,
bravia などのブランド名,東芝,SONY などの会社
列データとして可視化する手法を提案し,評価推移の
名)について本システムを用いて,2011 年 1 月∼2013
点では意味のあるパターンを抽出できていない.
年 6 月の 30ヶ月分の評判情報の時系列データを作成し
今後の大きな課題として,(1) 評価分類手法の見直
た.この時系列データの例はすでに図 1 に示した.
し,(2) パターン抽出手法の問題への対処が挙げられる.
その後,それらの時系列データからスライド長 s = 1,
部分時系列長 w = 15 として総計 224 個の部分時系列
クラスタリングを行った.その結果の一部を図 2 に示
す.それぞれのグラフにおける一つ一つの線は,クラ
スタリングによって得られたそれぞれのクラスタの中
心(w = 15 なので 15 次元)を表しており,本手法に
よって抽出された特徴的なパターンに対応する.
1
Ratio
Ratio
0.8
0.6
0.4
0.2
0
2
4
6
8
10
12
14
Month
(a) k = 6 のクラスタ中心
2
4
6
8
10
12
14
Month
(b) 縦軸範囲を 1 に正規化 (k = 6)
図 2: 時系列データからパターン抽出を試みた結果
3.2
参考文献
[1] 打田 裕樹, 吉川 大弘, 古橋 武, 平尾 英司, 井口 浩人,
Web ユーザレビューにおける評価情報の時系列変化の
可視化, 知能と情報 Vol.22 No.3, pp. 377-389, 2010
[2] 乾 孝司, 奥 村学, テキストを対象とした評価情報の分
析に関する研究動向, 自然言語処理 13(3), pp. 201-241,
2006-07-10
[3] Turney, P. D. (2002). “ Thumbs up? thumbs down?
Semantic Orientation Applied toUnsupervised Classification of Reviews. ” In Proceedings of the 40th
Annual Meeting ofthe Association for Computational Linguistics (ACL-2002), pp. 417–424.
[4] 高村 大也, 乾孝 司, 奥村 学, スピンモデルによる単語の
感情極性抽出, 情報処理学会論文誌ジャーナル, Vol.47
No.02 pp. 627–637, 2006.
[5] 藤巻 遼平, 広瀬 俊亮, 中田 貴之, 部分時系列クラスタ
リングの周波数解析と位相整列処理の評価, 人工知能
学会論文誌 25 巻 4 号 B, pp.540-547, 2010
データを切り出し,分割クラスタ数 k を変化させて
0.34
0.32
0.3
0.28
0.26
0.24
0.22
0.2
0.18
0.16
部分パターンを抽出する実験を行った.しかし,現時
連絡先
長岡技術科学大学 山田 耕一
考察
E-mail: [email protected]
長岡技術科学大学 大学院 高野 淳史
図 2(a) を見ると,一見,値が上下し何かしらのパ
ターンを抽出できているように見受けられるが,図
E-mail: [email protected]
-2-