単語グループに基づくWeb文書クラスタリング Web Document

03nisina :
2010/5/27(14:27)
単語グループに基づく Web 文書クラスタリング
仁科 朋也† ・内海 彰††
サーチエンジンの検索結果などの Web ページ集合をクラスタリングする手法とし
て,抽出された各重要語を含む Web ページ集合をひとつのクラスタとする手法が広
く用いられている.しかし,従来の研究では重要語間の類似度を考慮していないた
めに,類似した話題を表す語句が重要語として抽出されると,話題が類似するクラス
タが複数出力されてしまうという欠点がある.そこで本研究では,この問題点を解
消するために,単語間の類似度を考慮した Web 文書クラスタリング手法を提案する.
本手法は,サーチエンジンが返すタイトルとスニペットの単語分布情報から,互い
に類似していない重要語を抽出する.次に,どのクラスタにも属さない Web ページ
をできるだけ減らすために,重要語から直接 Web ページのクラスタを生成せずに,
各重要語に類似した Web ページ集合に含まれる単語集合として単語グループを生成
し,それらの単語グループのそれぞれに対応する Web ページクラスタを生成する.
そして,実際に人手で分類した正解データを用いて従来手法(語句間の類似度を考
慮しない方法)との比較評価を行い,本手法のほうがクラスタリング性能が高く,か
つ類似したクラスタを生成してしまうという従来手法の問題点が解消できることを
示す.
キーワード:Web ページクラスタリング,文書クラスタリング,単語グループ,スニペット,
検索結果
Web Document Clustering Based on the Clusters
of Topic Words
Tomoya Nishina† and Akira Utsumi††
Many Web page clustering systems construct clusters in such a way that, for each
of the extracted keywords, one cluster is constructed to contain all the pages that
contain this keyword. However, these systems suffer from one serious problem that
similar clusters (i.e., clusters that share many Web pages) are likely to be generated
from similar keywords, because their clustering method fails to take into account the
topical similarity between keywords. To overcome this problem, this study proposes
a new Web page clustering method that uses the topical similarity between words.
The proposed method first extracts keywords that are dissimilar to each other using
distributional statistics of word occurrence in snippets and titles of search results.
†
††
電気通信大学大学院電気通信学研究科システム工学専攻, Department of Systems Engineering, The University of
Electro Communications
電気通信大学大学院情報理工学研究科総合情報学専攻, Department of Informatics, The University of Electro
Communications
03nisina :
2010/5/27(14:27)
自然言語処理 Vol. 17 No. 4
July 2010
After that, in order to reduce the number of unclassified Web pages, the method generates word groups each of which is a set of words similar to each extracted keyword,
and then constructs Web page clusters using the word groups, rather than directly
generating Web page clusters from keywords. This study also conducts an evaluation
experiment in which our method is compared with the existing method that ignores
the similarity of keywords using the handmade test data. The result is that our system achieves better performance and can overcome the problem of multiple similar
clusters.
Key Words: Web page clustering, Document clustering, Word group, Snippet, Search results
1
はじめに
今日,Web からユーザーの望む情報を得る手段として Google などのサーチエンジンが一般
的に利用される.しかし,ユーザーの検索要求に合致しない Web ページも多数表示されるた
め,各ページがユーザーの望む情報を含むかどうかを判断するのに時間と労力を割かなければ
ならない.このような負担を軽減するための検索支援手法として,検索結果をクラスタに分類
して表示する Web 文書クラスタリングが挙げられる.Web ページのクラスタリング手法とし
て,Web ページの HTML タグの構造 (折原,内海 2008) や Web ページ間のリンク関係 (大野,
渡辺,片山,石川,太田 2006; Wang and Kitsuregawa 2002) など Web ページに特有の情報を用
いた手法も提案されているが,Web ページの内容(Web ページに含まれるテキスト・文章)に
基づく手法が一般的であり,多くの手法が提案されている (e.g., 江口,伊藤,隈元,金田 1999;
Ferragina and Gulli 2005; Hearst and Pedersen 1996; 平尾,竹内 2006; 成田,太田,片山,石川
2003; Zamir and Etzioni 1998).
Web ページの内容に基づくクラスタリング手法は,Web ページ間の類似度に基づく手法と
共通する語句に基づく手法に大別できる (Fung, Wang, and Ester 2003).前者は,ベクトル空
間モデルなどを用いて各文書間の(非)類似度を計算し,k-means 法などのクラスタリングア
ルゴリズムを適用する手法である.例えば,最初の Web ページクラスタリングシステムと言わ
れている Scatter/Gather (Hearst and Pedersen 1996) や江口らのシステム (江口 他 1999) はこ
の手法を用いている.類似度に基づく手法は文書クラスタリング手法として広く用いられてい
る (岸田 2003) が,実時間性が要求される検索結果のクラスタリングにはあまり適していない.
Web ページ間の類似度を適切に計算するためには,Web ページそのものを取得する必要がある
が,その取得時間がかかるとともに,文書規模が大きくなると類似度計算にも時間がかかる.
よって,サーチエンジンの検索結果をクラスタリングする手法として,Web ページ(スニペッ
ト)集合に共通して出現する語句に基づく手法が多く用いられている (Ferragina and Gulli 2005;
Fung et al. 2003; 平尾,竹内 2006; 成田 他 2003; Zamir and Etzioni 1998).この手法では,検
2
03nisina :
2010/5/27(14:27)
単語グループに基づく Web 文書クラスタリング
仁科,内海
索結果として得られるページタイトルやスニペットから何らかの方法を用いて基準となる語句
を抽出し,それらの語句を含む文書集合をひとつのクラスタとする.一般的に,ひとつの Web
ページ(スニペット)には複数の頻出語句が含まれるため,この手法は本質的に非排他的なク
ラスタリング(ひとつの文書を複数のクラスタに割り振ることを許すクラスタリング)を行う
ことになる.この手法は,タイトルやスニペットの情報のみを用いるために情報の取得時間が
短く,文書間の類似度を計算する必要がないために処理時間も短く,ノイズとなる単語が混ざ
りにくいなどの利点がある.さらに,Zamir and Etzioni (1998) は,スニペットのみの情報を用
いたクラスタリングの性能は Web ページ全体を用いる場合に比べて遜色ないこと,共通語句に
基づくクラスタリング手法が Web ページ間の類似度に基づく手法よりも高性能であることを実
験的に示している.
共通語句に基づく手法で重要となるのが,クラスタのベースとなる語句の抽出手法である.
既存研究では,文書頻度 (平尾,竹内 2006; Osiński and Weiss 2005; Zamir and Etzioni 1998),
tfidf (Ferragina and Gulli 2005; Zeng, He, Chen, Ma, and Ma 2004),検索結果のランキング (成
田 他 2003),語句の長さ (Zamir and Etzioni 1998; Zeng et al. 2004) などの情報を用いて語句を
ランク付けし,上位の語句を選択するという手法が用いられている.しかし,この抽出方法で
は語句間の意味的な類似関係を考慮していないので,クラスタのベースとなる語句どうしが類
似した話題を表していると,同じ文書を多く含む類似したクラスタを出力してしまうという欠
点がある.特に,検索結果の Web ページ集合には共通する話題が多いことを考えると,この問
題点は深刻である.抽出語句からクラスタを作成した後に重複の大きいクラスタをマージする
手法 (e.g., Zamir and Etzioni 1998) も考えられているが,話題が似ているからクラスタが重複
する場合(ひとつのクラスタとすべきである場合)と,複数の異なる話題が共通しているから
重複する場合(別々のクラスタにすべきである場合)かの区別はできない.
この問題に対して,本研究では,語句間の意味関係を考慮してクラスタのベースとなる語句
を選択することによって,類似したクラスタをできるだけ出力せずに Web ページを分類できる
と考える.さらに,作成されるクラスタに含まれる文書数はその語句の文書頻度と同じである
ため,文書頻度が低い語句が重要語として多く選択される場合には,どのクラスタにも属さな
い文書の数が多くなってしまう.そこで抽出語句を基準に Web ページ集合に含まれる単語のク
ラスタを作成し,単語グループから文書クラスタを作成することによって,どのクラスタにも
属さない Web ページを減らすことができると考えられる.
本論文では,以上の考え方に基づいて,検索結果のスニペットとタイトルから互いに話題が
類似しない重要語を抽出し,それらを核とした単語グループを生成し,単語グループに基づい
て Web ページをクラスタリングする手法を提案する.そして,実際に人手で分類した Web ペー
ジ群を用いて従来手法(語句間の類似度を考慮しない方法)との比較評価を行い,本手法のほ
うがクラスタリング性能が高く,かつ類似したクラスタを生成してしまうという従来手法の問
3
03nisina :
2010/5/27(14:27)
自然言語処理 Vol. 17 No. 4
July 2010
題点が解消できることを示す.
単語グループに基づく Web 検索結果のクラスタリング手法
2
2.1
概要
提案する手法の概要は以下の通りである.
(1)
ユーザの入力したクエリを受け取り,Google による検索結果のタイトルとスニペットを
文書として取得する.本論文の以下では,各ページのタイトルとスニペットをひとつの
「文書」と呼ぶ.
(2)
各文書に対して,茶筌 (http://chasen-legacy.sourceforge.jp/) を用いて形態素解析を行う.
(3)
形態素解析で名詞・英字と判断された単語から,複合名詞を含む名詞を抽出する.
(4)
抽出した名詞から,クラスタの話題を表すと考えられる互いに類似していない重要語を,
指定された文書クラスタ数だけ抽出する.
(5)
手順 (3) で抽出されたすべての単語に対して,各重要語から単語グループを生成する.
(6)
単語グループを用いて,文書クラスタを生成する.
以下の 2.2 節から 2.5 節では,上記の手順 (3) から (6) の各処理の詳細を述べる.
2.2
形態素解析結果からの名詞抽出
まず形態素解析により名詞及び英字と判断された単語を抽出する.この際に,非自立の名詞
や代名詞などは除き,英字の連続はひとつの名詞とする.また,各単語 wi の文書頻度 df (wi )
(wi を含む文書数)を検索結果の文書集合全体から計算し,一定値 CW 以下の単語を除外する.
さらにクエリ及びクエリの一部となる単語は,ほぼ全ての文書に出現するため,手順 (4) の重
要語の抽出に大きな影響を及ぼすので除外する.
次に,これらの単語から構成される名詞の n グラム(複合名詞)を,重要語候補として抽出
すべきかどうかを判断する.例えば,文書集合中で「情報」や「検索」という名詞が,ほぼ「情
報検索」という複合名詞でしか用いられていない場合には,
「情報検索」をひとつの単位として
抽出すべきである.また,形態素解析が固有名詞と認識できないために不適切に分解されてし
まう固有名詞(例:
「エースコック」
)を適切に抽出することも意図している.
以下の手法により,重要語の候補として抽出すべき(複合名詞を含む)名詞を決定する.
(1)
Σ1 ←(すべての単語の集合),n ← 1 とする.
(2)
Σn+1 ← φ とする.
n
集合 i=1 Σi 中の単語 wi と,集合 Σn 中の単語 wj のすべての組み合わせ(ただし wi = wj )
(3)
に対して,以下の処理を行う.
(a)
2 つの単語をつなぎ合わせた語句 wi wj ,wj wi のうちで,全文書における出現頻度
4
03nisina :
2010/5/27(14:27)
単語グループに基づく Web 文書クラスタリング
仁科,内海
が高い方を合成候補 Str とする.ただし,一方の単語がもう一方の単語を部分文
字列として含む場合には,合成はせずに長いほうの単語を Str とする.
全文書における wi ,wj 及び Str の出現頻度(2.3 節の式 (1) で定義される)をそれ
(b)
ぞれ tf (wi ),tf (wi ),tf (Str) としたとき,次式で定義される値 W M を計算する.
WM =
tf (Str)
max(tf (wi ),tf (wj ))
上記で計算した W M が閾値 CW M (> 0.5) 以上ならば,Σn+1 ← Σn+1 ∪ {Str},
(c)
Σ1 ← Σ1 − {wi },Σn ← Σn − {wj } とする.つまり,wi ,wj の代わりに Str を複
(4)
Σn+1
合名詞として用いることになる.
n
= φ ならば,Σ = i=1 Σi を複合名詞(重要語候補)の集合として終了する.Σn+1 = φ
ならば,n を 1 増やしてから手順 (2) に戻る.
閾値 CW M を適切に(0.5 より大きく)設定することによって,wi や wj が単独で出現するより
も複合名詞 Str として出現することが多い場合に,複合名詞として抽出することができる.
なお,本論文の以下では,複合名詞を含む重要語候補(Σ の要素)のことを単に「名詞」や
「単語」と表記する.
2.3
重要語の抽出
前節で得られた名詞集合 Σ から,以下の手順を用いて,重要語を抽出する.
(1)
抽出されたすべての名詞に対して,2.3.1 節で述べる重み付け手法を用いて,ランク付け
する.結果として得られた名詞のランク付きリストを S とする.
(2)
リスト S の中でランクの最上位にある名詞を取り出して,重要語とする.
(3)
抽出した重要語との類似度(2.3.2 節参照)が基準値 C 以上のすべての名詞をリスト S か
ら取り除く.なお,2.3.3 節で述べるように,基準値 C は文書集合に応じて自動的に決定
する.
(4)
重要語の個数が指定されたクラスタ数 n に満たない場合には,手順 (2) に戻る.
上記の手順 (3) において,抽出された重要語と話題が類似する名詞を重要語(クラスタのベー
スとなる語)としないことによって,本手法は重要語どうしの類似度が低くなるように重要語
を抽出する.なお,1 章で述べた従来の手法は,手順 (1) で得られるリスト S のランク上位 n
個をクラスタのベースとなる重要語として抽出することに相当する.
2.3.1
名詞の重み付け
上記の手順 (1) における名詞の重み付け手法としては,以下の基準が考えられる.なお,3 章
で述べる評価実験では,これらのどの基準を用いても本手法のほうが優れていることを示す.
5
03nisina :
2010/5/27(14:27)
自然言語処理 Vol. 17 No. 4
July 2010
文書頻度 df 名詞 wi の出現する文書数である df (wi ) の値が大きいほど,その名詞が重要であ
ると考える.なお,計算に用いる文書は検索結果の文書集合全体である.
出現頻度 tf 次式で計算される文書集合中の総出現頻度 tf (wi ) が高い名詞が重要であると考
える.
tf (wi ) =
N
tf (wi , dj )
(1)
j=1
ただし,tf (wi , dj ) は文書 dj における単語 wi の出現数,N は文書数をそれぞれ表す.
tfidf
次式で定義される tfidf 値が高い(特定の文書に多く出現する)名詞が重要であると考
える.
tf idf (wi ) = tf (wi ) × idf (wi )
N
idf (wi ) = log2
+1
df (wi )
(2)
(3)
SP, LP (成田 他 2003) 次式で定義される SP (wi ) もしくは LP (wi ) が高い,つまり検索結果
のランキング上位の文書に多く含まれる名詞ほど重要であるとする指標である.
SP (wi ) =
N tf (wi , dj ) × sin
j=1
LP (wi ) =
N π
√
1+ j
tf (wi , dj ) × logN
j=1
N
j
× idf (wi )
(4)
× idf (wi )
(5)
ただし,dj はサーチエンジン(本研究では google)の検索結果のランキングが j 番目の
文書を表す.
TR (Gelgi, Davulcu, and Vadrevu 2007) T R(wi ) は単語をノード,共起の有無をエッジ
とするグラフの PageRank のように計算される値であり,T R(wi ) が高い(つまり重要な)
単語と多く共起している単語は重要であると考える指標である.
T R(t+1) (wi ) =
N
T R(t) (wj )corres(wi , wj )
N
k=0 corres(wk , wj )
j=0
(6)
ただし,corres(wi , wj ) は wi と wj の共起回数,t は繰り返し計算回数を表し,T R(0) (wi ) =
tf (wi ) である.
6
03nisina :
2010/5/27(14:27)
単語グループに基づく Web 文書クラスタリング
仁科,内海
名詞どうしの類似度の計算
2.3.2
上記の手順 (3) において,名詞どうしの類似度 sim(wi , wj ) (抽出された重要語とリスト S に含
まれる名詞との類似度)には,次式のコサイン (cos) 類似度を用いる.
N
空行を削除.段落
tf (wi , dk ) · tf (wj , dk )
sim(wi , wj ) = cos(Vi , Vj ) = k=1
N
N
の先頭(「上記の
2
2
k=1 tf (wi , dk )
k=1 tf (wj , dk )
(7)
~」)を字下げ.
つまり,名詞 wi を,文書 dk における出現頻度 tf (wi , dk ) を要素とする N 次元ベクトルで表現
したときのコサイン類似度に相当する.
基準値 C の設定
2.3.3
基準値 C が 0.05∼0.5(0.05 刻み)のいずれかの値をとるものとして,それぞれの値で実際
に文書クラスタリングを行い,最も多くの文書を分類できる(つまりどのクラスタにも属さな
い文書が最も少ない)値を基準値 C として採用する.ただし抽出した重要語が指定したクラス
タ数に満たなかった場合1 には,指定したクラスタ数に最も近いものの中での最適値を基準値と
する.
なお,この判定に用いる文書クラスタリング手法は,2.4 節で述べる単語グループを用いた方
法ではなく,本節で述べた方法で抽出した重要語を含む文書をクラスタとする方法である.
2.4
単語クラスタリング
前節の方法で得られた重要語に対して,以下のアルゴリズムを用いて単語グループを生成する.
(1)
各重要語 xi に対応する単語グループ W Gi を以下の方法で生成する.
(a)
重要語 xi との cos 類似度((7) 式)が基準値 C 以上の名詞(重要語は除く)をリ
スト S からすべて抽出する.
(b)
抽出した名詞集合に対し,重要語 xi との cos 類似度の平均値 M を求める.
(c)
重要語 xi との cos 類似度が平均値 M 以上の名詞のみを,その重要語を核とした
単語グループ W Gi に含める.
(2)
複数の単語グループに含まれる名詞を,すべての単語グループから取り除く.
基準値 C は 0.05∼0.5(0.05 刻み)のいずれかの値をとるものとし,それぞれの値で実際に文
書クラスタリングを行い,最も多くの文書を分類できる値を基準値 C として採用する.この判
別に用いる文書クラスタリング手法は,2.5 節で述べる手法を用いる.
1
2.3 節の手順 (3) において,重要語と類似しているとして多くの単語が取り除かれる場合に,このようが現象が生
じるときがある.
7
03nisina :
2010/5/27(14:27)
自然言語処理 Vol. 17 No. 4
July 2010
単語グループからの文書クラスタリング
2.5
以下のアルゴリズムを用いて,単語グループから文書クラスタを生成する.
(1)
単語グループ W Gi (i = 1, · · · , n) に対応する空の文書クラスタ DCi = φ を生成する.
(2)
以下の方法で,各文書 dj (j = 1, · · · , N ) がどの文書クラスタに含まれるかを決定する.
(a)
文書 dj が単語グループ W Gi の核となった重要語 xi を含んでいれば,文書 dj を
(複数の重要語 xi を含んで
単語グループに対応する文書クラスタ DCi に含める.
いれば,複数の文書クラスタに属することになる.
)
(b)
全ての単語グループ W Gi に対し,以下の式で定義される Si (dj ) を計算する.
δ(wk , dj )
(8)
Si (dj ) = wk ∈W Gi
|W Gi |
⎧
⎪
⎨1 (名詞 wk が文書 dj に出現する場合)
δ(wk , dj ) =
⎪
⎩0 (名詞 wk が文書 dj に出現しない場合)
そして,Si (dj ) の値が以下の不等式を満たすならば,文書 dj を文書クラスタ DCi
に含める.
n
Si (dj ) ≥
1
Sk (dj ) > 0
2
(9)
k=1
直観的に言うと,文書 dj が他の単語グループよりも単語グループ CWi の単語を
多く含んでいれば,その文書は CWi に対応する文書クラスタ DCi に分類される
ことになる.
評価実験
3
3.1
評価データ
Google の検索結果を人手により分類したものを評価用の正解データとして用いた.正解デー
タ作成にあたり 20 代の男女 10 人に協力を頼んだ.協力者が自由にクエリを入力して,Google
の検索結果上位 30 件をタイトルとスニペットのみから分類してもらい,15 セットの正解デー
タ(平均クラスタ数 3.6,最大クラスタ数 5,最小クラスタ数 2,クラスタに含まれる文書数の
平均 9.040)を得た.正解データ作成のために協力者が選んだクエリを表 1 に示す.検索結果を
30 件としたのは,検索エンジンのユーザの 54%が上位 10 件以内,73%が上位 20 件以内の検索
結果しか閲覧しないという調査結果 (Jansen and Spink 2003) から,検索結果 30 件をクラスタ
リングすることで十分な情報をユーザに与えられると考えたためである.なお,情報の少なさ
や内容の曖昧さから協力者が分類できないと判断した文書や文書数が 1 であるクラスタは正解
8
03nisina :
2010/5/27(14:27)
単語グループに基づく Web 文書クラスタリング
仁科,内海
表1
NTT
地デジ
米
四川
まりもっこり
折原 大
評価に用いたクエリ
伊右衛門
イレブン
オーバーラン
マジック
チョコボール
パソコン
ジャンプ
みるく
クエリ
データから除外した.
3.2
評価方法
本研究の手法と比較手法のそれぞれを用いて,15 セットの評価データのクラスタリングを行
い,その性能を比較した.比較手法は,名詞の重み上位順に(2.3 節の概要の (1) のリスト S の
順に)指定されたクラスタ数だけ重要語を抽出し,重要語を含む文書集合を文書クラスタとす
るという,1 章で述べた従来手法 (e.g., 平尾,竹内 2006; 成田 他 2003; Zamir and Etzioni 1998)
とした.
両手法において,名詞の重み付けには 2.3.1 節の手法を用いた.また,システムが出力するク
ラスタ(以下,システムクラスタと呼ぶ)の数 n は各正解データセットのクラスタ数とした.
なお,正解クラスタ数より少ない重要語しか抽出できなかった場合には,空のクラスタを出力
したとみなして評価を行った.さらに,提案手法によるクラスタリングにおいて,2.2 節におけ
る閾値を CW = 2,CW M = 0.6 と設定した.
3.3
評価基準
評価基準として,F 値,CR (clustering ratio), OR (overlapping ratio) を用いる.これらの値
はすべて各データセットごとに計算する.
クラスタリングの精度を表す F 値は以下の手順で求めることができる (折原,内海 2008).ま
ず,システムクラスタ SCi (1 ≤ i ≤ n) と正解クラスタ ACj (1 ≤ j ≤ n) のすべての対に対し
て,F 値 F (SCi, ACj) を次式で計算する.
2 × R(SCi , ACj ) × P (SCi , ACj )
R(SCi , ACj ) + P (SCi , ACj )
|SCi ∩ ACj |
R(SCi , ACj ) =
|ACj |
|SCi ∩ ACj |
P (SCi , ACj ) =
|SCi |
F (SCi , ACj ) =
(10)
(11)
(12)
次に,次式の F (M ) が最大となるようなシステムクラスタと正解クラスタの一対一対応 M を
求め,そのときの値をこのシステムクラスタの F 値とする.
F (M ) =
(SCi ,ACj )∈M
|ACj |
n
F (SCi , ACj )
k=1 |ACk |
9
(13)
03nisina :
2010/5/27(14:27)
自然言語処理 Vol. 17 No. 4
July 2010
これは,システムクラスタと正解クラスタを 2 つの頂点集合として,それらの間の枝の重みを
n|ACj |
F (SCi , ACj )
k=1 |ACk |
とする二部グラフの最大マッチング問題を解くことに相当する.
CR は文書集合のうちのどれだけの割合の文書をクラスタに分類できるかを表しており,次
式で計算される (成田 他 2003).なお,N は検索結果の文書数である.
n
SCi CR = i=1
N
(14)
本研究で扱っている共通の語句に基づくクラスタリング手法では,どのクラスタにも属さない
文書が生じてしまう可能性がある.したがって CR が高い(1 に近い)ほうが望ましい結果であ
ると言える.
OR はクラスタ間で文書が重複する割合の平均であり,次式で計算される.
OR =
n
n
1 |SCi ∩ SCj |
n C2 i=1 j=i+1 |SCi ∪ SCj |
(15)
この値は単純に低いほど(もしくは高いほど)望ましいというわけではなく,正解クラスタの
OR 値に近いほうが望ましい結果であると言える.
評価結果と考察
4
本章では,3 章で述べた評価実験について,以下の観点から評価結果を述べるとともに,考察
を行う.
• クラスタリングの精度:正しい分類をしているか
• クラスタリングの被覆度:どのくらいの文書をクラスタリングできるか
• システムクラスタ間の類似度:過度に類似したクラスタを出力していないか
• 単語グループの必要性:互いに類似していない重要語を抽出するだけでは不十分か
• 複合名詞の抽出手法:2.2 節における複合名詞抽出はどの程度影響があるか
なお,以下で示す評価値はすべて各セットごとに求めた値の平均値を用いている.
4.1
クラスタリング精度
クラスタリングの精度を示す評価基準である F 値の結果(全セットの平均値)を表 2 に示す.
「本手法」の値として「単語グループ無」と「単語
なお,表 2(およびこれ以降の表)において,
「単語グループ有」の値は,2 章で述べた提案手法
グループ有」の 2 種類の値が示されている.
による評価結果を示している.一方,「単語グループ無」の値は「2.1 節の概要の手順 (5) の単
語クラスタリング(2.4 節)を行わず,手順 (4) で抽出した重要語を含む文書の集合を文書クラ
10
03nisina :
2010/5/27(14:27)
単語グループに基づく Web 文書クラスタリング
仁科,内海
表2
各手法における F 値
重み付け手法
従来手法 df
tf
tfidf
SP
LP
TR(50)
0.555
0.567
0.540
0.539
0.466
0.511
本手法
単語グループ無 単語グループ有
0.568
0.608
0.598
0.625
0.591
0.629
0.604
0.632
0.567
0.614
0.585
0.621
スタとする方法」による評価結果である.つまり,本研究の提案手法と従来手法の中間に位置
する手法と言える.単語グループを用いずに文書クラスタリングを行った場合の評価結果を示
したのは,4.4 節で単語グループの必要性(類似していない重要語の抽出だけで十分かどうか)
を検証するためである.
表 2 より,全ての重み付け手法において,本手法の F 値は従来手法よりも高くなった.また
従来手法と本手法(単語グループ有)間で平均値の差の検定を行ったところ,df,tf 以外での
重み付け手法において有意差が見られた (p < 0.05).df と tf についても平均値の差は有意傾向
(df:p = 0.061,tf:p = 0.067) となった.この結果から,本手法は従来手法よりもクラスタリ
ング精度が高い(人手に近いクラスタリングを行うのに有効である)と言える.さらに,単語
グループを考慮しなくても従来手法より性能が高いことから,2.3 節の重要語の抽出手法そのも
のも有効であると言える.
特に,TR は検索結果を分類するのに有用な (discriminative) 単語が上位にランクされやすい
指標である (Gelgi et al. 2007) ので,TR に従来手法を適用しただけで意味的に類似したクラス
タを生成しにくくなる可能性がある.しかし,従来手法の TR の F 値(0.511)は本手法よりも
有意に低い値であることから,この可能性は排除できる.つまり,表 2 の結果は,本研究の手
法に基づいて重要語を抽出するほうが TR によるランキングに基づく手法よりも性能が高いこ
とを示している.
4.2
クラスタリングの被覆度
クラスタの被覆度(クラスタに含まれる文書の割合)を表す評価基準である CR の結果(全
セットの平均値)を表 3 に示す.表 3 より,全ての重み付け手法において,本手法の CR は従
来手法よりも高くなった.また従来手法と本手法(単語グループ有)間で平均値の差の検定を
行ったところ,全ての重み付け手法において有意差が見られた (p < 0.05).この結果から,本
手法は従来手法よりも多くの文書を分類できると言える.さらに,単語グループを考慮しなく
ても従来手法より CR が高いことから,互いに意味的に類似しない単語のみを抽出する本研究
11
03nisina :
2010/5/27(14:27)
自然言語処理 Vol. 17 No. 4
July 2010
表 3 各手法における CR
重み付け手法
従来手法 df
tf
tfidf
SP
LP
TR(50)
0.676
0.656
0.636
0.627
0.558
0.607
表4
本手法
単語グループ無 単語グループ有
0.720
0.844
0.716
0.847
0.689
0.840
0.702
0.842
0.658
0.811
0.696
0.818
各手法における平均クラスタサイズ
本手法
単語グループ無 単語グループ有
df
9.738
8.083
9.713
tf
9.226
7.608
9.252
tfidf
8.704
7.367
9.308
SP
8.519
7.371
9.182
LP
7.677
6.918
8.808
9.356
7.437
8.823
TR(50)
注)正解クラスタの平均クラスタサイズは 9.040 である.
重み付け手法
従来手法 の重要語抽出手法そのものがより多くの文書を分類するのに有効であると言える.
しかし,本研究では非排他的クラスタリングを行っているので,単純により多くの文書をひ
とつのクラスタに含めてしまえば,つまり,クラスタのサイズを大きくしてしまえば,不適切
に CR を高くすることが可能である.そこで,適切なクラスタサイズを保ちつつ本手法の CR
が高くなっているかどうかを調べるために,表 4 に平均クラスタサイズ(各クラスタに含まれ
る文書数の平均)を示す.表 4 を見ると,本手法(単語グループ有)のクラスタサイズは従来
手法よりは大きくなっているものの,正解データの平均クラスタサイズである 9.040 を大幅に
越えるものはない.(重み付け手法が df の場合にクラスタサイズが大きくなっているが,これ
は従来手法と本手法に共通した現象であり,本手法だけが不当にクラスタサイズを大きくして
いるわけではない.
)さらに,単語グループを考慮しない場合には従来手法よりもクラスタサイ
ズが小さくなっている.よって,本手法は,不当にクラスタサイズを大きくせずに,より多く
の文書を分類することができると結論づけられる.
4.3
クラスタ間の類似度
1 章で述べた,不適切に類似したクラスタを出力してしまうという従来手法の問題点が本手
法で解決されているかどうかを評価するために,クラスタ間の重複割合の平均値である OR の
12
03nisina :
2010/5/27(14:27)
単語グループに基づく Web 文書クラスタリング
仁科,内海
表5
各手法における OR
本手法
単語グループ無 単語グループ有
df
0.255
0.097
0.099
tf
0.234
0.077
0.069
tfidf
0.228
0.078
0.075
SP
0.215
0.067
0.066
LP
0.229
0.074
0.069
(50)
0.331
0.074
0.068
TR
注)正解クラスタの平均 OR は 0.029 である.
重み付け手法
従来手法 結果(全セットの平均値)を表 5 に示す.全ての重み付け手法において,本手法の OR は従来
手法よりも低い値であり,正解クラスタの値(0.029)にかなり近くなっている.したがって,
本手法は従来手法よりも類似したクラスタを出力しにくく,従来手法の問題点を解決している
と言える.
4.4
単語グループの必要性
本節では,本手法において単語グループを用いる場合と用いない場合の評価結果を比較する
ことによって,単語グループを用いてクラスタリングすることの必要性を検証する.
表 2 と表 3 から,重み付け手法に関係なく,単語グループを用いたほうが用いないよりも F
値,CR ともに高いことがわかる.この結果は,単語グループの必要性を支持している.
表 4 のクラスタサイズに注目すると,単語グループを用いない場合には,正解データのクラ
スタサイズである 9.040 よりかなり小さいサイズになっている.これは,本研究の重要語抽出
方法が出現頻度が低い名詞を抽出しやすいためである.一方,単語グループを用いた本手法の
クラスタサイズは正解データのサイズ 9.040 と同程度である.したがって,出現頻度が低い単
語が重要語として抽出された場合でも,単語グループを用いることによって適切なクラスタサ
イズの文書クラスタを生成できると言える.つまり,クラスタサイズの点からも単語グループ
が必要であると結論できる.
なお,表 5 のクラスタ間の類似度 OR は単語グループの有無による差はほぼなく,単語グルー
プを用いることは類似したクラスタを出力しないという利点そのものには貢献していない.し
かし,単語グループを用いない場合と同程度のクラスタ類似度のままで性能(F 値,CR)を向
上させていることになり,総合的に単語グループの必要性を示しているといえる.
4.5
複合名詞の抽出手法の評価
本節では,2.2 節で述べた複合名詞の抽出手法の性能を評価するために,この抽出手法を用い
る場合と用いない場合の評価結果の比較を行う.
13
03nisina :
2010/5/27(14:27)
自然言語処理 Vol. 17 No. 4
July 2010
まず,2.2 節の単語合成手法で実際に抽出された複合名詞の例を表 6 に示す.2.2 節で意図し
たように,
「情報」や「限定」などの一般的な単語に代わり,
「店舗情報」
,
「限定発売」などの具
体的な話題を表す複合名詞が抽出されている.また,形態素解析では複数の名詞に分割されて
しまう「綿陽」のような地名や「ブロードバンド」のような専門用語も正しく抽出されている.
次に,複合名詞抽出を行う場合と行わない場合の F 値,CR,OR をそれぞれ表 7,表 8,表
9 に示す.表 7 より,本手法では全ての重み付け手法で複合名詞抽出を行うほうが行わないよ
りも F 値が高いことがわかる.一方,従来手法では,重み付け手法が LP,TR のときに複合名
詞抽出を行うほうが F 値が高くなるものの,その他の重み付け手法では同じ値となった.また
表 3 と表 5 より,CR と OR は従来手法,本手法の全ての重み付け手法においてほぼ同じ結果
となった.以上の結果から,複合名詞抽出はクラスタリングの被覆度やクラスタ間の類似度に
表6
単語合成手法で抽出された複合名詞の例(括弧内は形態素解析による区切りを表す)
クエリ
四川
チョコボール
NTT
パソコン
抽出された複合名詞
店舗情報(店舗/情報)
,綿陽(綿/陽)
限定発売(発売/限定)
ブロードバンド(ブロード/バンド)
デスクトップ(デスク/トップ)
,周辺機器(周辺/機器)
表7
重み付け手法
df
tf
tfidf
SP
LP
TR(50)
複合名詞抽出の有無による F 値の比較
従来手法
抽出有
0.555
0.567
0.540
0.539
0.466
0.511
抽出無
0.555
0.567
0.540
0.539
0.454
0.501
本手法(単語グループ有)
抽出有
抽出無
0.608
0.586
0.625
0.623
0.629
0.625
0.632
0.621
0.614
0.608
0.621
0.596
表 8 複合名詞抽出の有無による CR の比較
重み付け手法
df
tf
tfidf
SP
LP
TR(50)
従来手法
抽出有
0.676
0.656
0.636
0.627
0.558
0.607
抽出無
0.676
0.656
0.636
0.627
0.549
0.602
14
本手法(単語グループ有)
抽出有
抽出無
0.844
0.840
0.847
0.847
0.840
0.840
0.842
0.838
0.811
0.820
0.818
0.820
03nisina :
2010/5/27(14:27)
単語グループに基づく Web 文書クラスタリング
仁科,内海
はあまり影響を与えないが,本手法のクラスタリング精度を向上させる効果があると結論でき
る.また,語句間の類似度を考慮しない従来方法に対しては,複合名詞抽出はほとんど効果が
ないと言える.
4.6
生成されたクラスタについて
本節では,評価に用いたデータセットに対するクラスタリング結果の実例を示すことによっ
て,本手法を定性的に考察する.表 10∼12 に,いくつかのクエリによる検索結果を本手法でク
ラスタリングした結果(重要語,単語グループ,文書クラスタ)を示す.
表 10 のクエリ「伊右衛門」による検索結果のクラスタリング例では,3 種類のクラスタ(サ
ントリーから発売されている緑茶「伊右衛門」
,京極夏彦の小説「嗤う伊右衛門」
,
「伊右衛門」
をタイトルに含むブログ)が生成されているが,これらのクラスタは正解クラスタと一致する.
表9
複合名詞抽出の有無による OR の比較
従来手法
抽出有
抽出無
df
0.255
0.255
tf
0.234
0.234
tfidf
0.228
0.228
SP
0.215
0.215
LP
0.229
0.221
0.331
0.323
TR(50)
注)正解クラスタの平均 OR は 0.029 である.
重み付け手法
表 10
本手法(単語グループ有)
抽出有
抽出無
0.099
0.095
0.069
0.068
0.075
0.074
0.066
0.065
0.069
0.061
0.068
0.064
クエリ「伊右衛門」における重要語,単語グループ,文書クラスタ
単語グループ
文書クラスタの内容(Web ページのタイトルを表示)
サントリー,
伊右衛門 サントリー,伊右衛門 サントリー,伊右衛門 - Wikipedia,京都 福寿園 伊右衛門,有機
化学美術館・分館 : ナノチューブを溶かす意外なもの - livedoor ...,伊右衛門とは - はてなダイ
飲料,緑茶,
アリー,
【asahi.com ショッピング】伊右衛門 の検索結果:通販・インターネット ...,asahi.com:
販売,商品, 「伊右衛門」米国で 5 月から販売 サントリー - ビジネス,サントリー、「伊右衛門」を米国市場
ソフトドリンク に投入、ネスレに販売委託 ...,サントリー緑茶「伊右衛門 濃いめ」新発売 - GIGAZINE,サ
ントリー「伊右衛門 抹茶入り玄米茶」を飲んだ - GIGAZINE,ZAKZAK,伊右衛門茶の「右」
-OKWave,サントリー緑茶 伊右衛門 濃いめ 茶飲料 ソフトドリンク 商品情報 ...,サントリー
緑茶 伊右衛門 茶飲料 ソフトドリンク 商品情報 サントリー,サントリー 伊右衛門 世界へ - 時
遊 zine
嗤,京極,
夏彦
Amazon.co.jp: 嗤う伊右衛門: 京極 夏彦: 本,Amazon.co.jp: 嗤う伊右衛門: 唐沢寿明, 小雪,
椎名桔平, 香川照之 ...,嗤う伊右衛門とは - はてなダイアリー,オンライン書店ビーケーワン:
嗤う伊右衛門 中公文庫,オンライン書店ビーケーワン:漫画・嗤う伊右衛門 単行本コミックス,
嗤う伊右衛門 - 映画作品紹介
日記
浅虫温泉 椿館/宿屋つばき 18 代目伊右衛門日記 - livedoor Blog(ブログ),
『伊右衛門日記』,
伊右衛門ネックレス|くみあみ kumimi のヘンプ編み日記
注)単語グループ内の太字の単語は重要語を表す.
15
03nisina :
2010/5/27(14:27)
自然言語処理 Vol. 17 No. 4
July 2010
表 11 クエリ「四川」における重要語,単語グループ,文書クラスタ
単語グループ
料理,写真
文書クラスタの内容(Web ページのタイトルを表示)
四川料理 - Wikipedia,シェラトン都ホテル東京|レストラン・バー,中国料理「四川」,四川
(シセン)/港区役所/四川料理、担々麺、[食べログ.com],四川(シセン)/上本町/四川料理、[食
べログ.com],四川大地震 : 特集 : YOMIURI ONLINE(読売新聞),ぐるなび - 赤坂 四川飯
店,ぐるなび - 四川料理 池袋 四川飯店,香辛料とレシピ・作り方特集【はじめての四川料理】
ゲーム,麻雀, 四川省 for Win,四川省,スパゲー無料ゲームサイト にこにこカドカド-四川省-,四川省(Win,四川省,四川省,担々麺 大岡山 四川屋台,asahi.com:朝日新聞 四
dows95/98/Me / ゲーム)
サイト
川大地震 - ニュース特集,四川大地震 - トピックス - MSN 産経ニュース
地震,
ニュース,
綿陽,新華社,
発生,北京,
震源
Yahoo!ニュース - 中国・四川省大地震,Yahoo!ニュース - 医薬品,共同通信ニュース特集:中
国・四川大地震,四川大地震 : 特集 : YOMIURI ONLINE(読売新聞),四川省の地震波、地
球表面を 2 周…気象庁が観測 : 科学 : YOMIURI ...,死者 9000 人超、50 万戸倒壊 中国・四川
大地震 / 西日本新聞,四川–人民網日文版,asahi.com:朝日新聞 四川大地震 - ニュース特集,
asahi.com:土砂ダム下流、15 万 8 千人避難命令 四川大地震 - 国際,中国・四川省の大地震 死
者約 1 万人に(1/2 ページ) - MSN 産経ニュース,四川大地震 - トピックス - MSN 産経ニュー
ス,中国国際放送局,四川とは - はてなダイアリー
人民
四川省 - Wikipedia,四川–人民網日文版,中国国際放送局
注)単語グループ内の太字の単語は重要語を表す.
表 12 クエリ「チョコボール」における重要語,単語グループ,文書クラスタの例
単語グループ
キョロ,応募
文書クラスタの内容(Web ページのタイトルを表示)
キョロちゃんファンクラブ,チョコボール - Wikipedia,みんな集まれ!キョロちゃんブログ :
チョコボール好き集まれ !,分路愚 : チョコボール - livedoor Blog(ブログ),WEB キャン
ペーン チョコボール(黒缶・赤缶)で大人のカンヅメ当たる
エンゼル,銀, ヤフオクウォッチ : 100 %当たりのチョコボール「解答編」ヤフオクや eBay ...,ヤフオクウォッ
チ : 100%当たりの未開封チョコボールヤフオクや eBay ...,森永チョコボールのエンゼル判別
金,確率
マル秘テク,おもちゃのカンヅメ当選確率を調査する,チョコボール エンゼルの出る確率,チョ
コボールの金のエンゼルって実在はするのか?: アルファルファモザイク,実験!チョコボール
をどの位安く食べることができるか!?,チョコボールキャスト Presented by. ぬぬ。ラジオ
チョコレート, ようこそ!森永製菓株式会社へ,ボールチョコ - CANDY AGOGO!,【asahi.com ショッピン
グ】チョコレート>チョコボール:通販 ...,マシューのチョコレート チョコボール - Yahoo!
ビター,商品
ショッピング,チョコレートボール ストロベリー&クリーム(ちょこれーとぼーる す ...,チョ
コボールとは - はてなダイアリー,チョコレートボール 旭化成ホームプロダクツ,大人味のチョ
コボール!? - 発売 40 周年を記念し、缶詰風パッケージが新 ...
注)単語グループ内の太字の単語は重要語を表す.
一方,従来手法では,どの重み付け手法でも「ブログ」に関する単語(表 10 では「日記」
)が
重要語として抽出されず,代わりに緑茶に関する単語(サントリー,飲料,緑茶など)が重複
して重要語として抽出されてしまう.
表 11 や表 12 の例を見ても,表 10 と同様に,類似する単語が重要語として選ばれておらず,
それらの重要語を核とする単語グループには,同じ話題を表す同義語や関連語(例えば,表 11
の「地震」から「震源」や「ニュース」
)が適切に分類されている.また,表 12 において,重要
語「エンゼル」から「金」
,
「銀」
,
「確率」といった単語が選ばれ,
「金(または銀)のエンゼル
が当たる確率に関するページ集合」というように,文書クラスタの内容が推測しやすくなる単
16
03nisina :
2010/5/27(14:27)
単語グループに基づく Web 文書クラスタリング
仁科,内海
語グループも見られる.しかし,
「商品」や「サイト」といった広い意味を持つ一般的な単語が
単語グループに含まれてしまうために,結果的に文書クラスタの精度が下がってしまう例(表
11 の「ゲーム」における「サイト」)も見受けられる.
5
おわりに
本研究では,サーチエンジンの検索結果としての Web ページ集合をクラスタリングするため
に,検索結果のスニペットとタイトルから互いに類似していない話題(トピック)を表す重要
語を抽出し,それらの重要語を元に文書中の単語をクラスタリングして,それらの単語グルー
プから文書クラスタを生成する手法を提案した.そして,評価実験を通して,重みによるラン
ク上位の単語を単純に取り出してその単語を含む文書をクラスタとする従来手法に比べて,提
案手法はクラスタリングの精度,被覆度ともに優れていることを示した.さらに,提案手法に
よって生成されるクラスタのサイズや重複割合も適切であることを明らかにした.これらの結
果は,本研究の提案手法の有効性を示すものである.
今後の課題としては,検索支援という観点からは検索結果を階層的にクラスタリングするこ
とが望ましいので,本手法を階層的クラスタリングに応用することである.ひとつの適用方法
としては,本手法を用いて生成したクラスタから出発して,それらを凝集もしくは分割してい
き,階層を生成することが考えられる.また,これに関係して,適切な(初期)クラスタ数を
どのように自動に決めるかという課題も残されている.さらに,検索支援の観点からは,生成
されたクラスタの内容が何かを示すことも重要であり,そのためのラベル付けや説明文の生成
なども興味深い課題である.
参考文献
江口浩二,伊藤秀隆,隈元昭,金田彌吉 (1999). 漸次的に拡張されたクエリを用いた適応的文
書クラスタリング法 電子情報通信学会論文誌, J82-D-I (1), pp. 140–149.
Ferragina, P. and Gulli, A. (2005). “A Personalized Search Engine Based on Web-Snippet Hierarchical Clustering.” In Proceedings of the 14th International World Wide Web Conference
(WWW’05), pp. 801–810.
Fung, B., Wang, K., and Ester, M. (2003). “Hierarchical Document Clustering Using Frequent
Itemsets.” In Proceedings of the 2003 SIAM International Conference on Data Mining,
pp. 59–70.
Gelgi, F., Davulcu, F., and Vadrevu, S. (2007). “Term Ranking for Clustering Web Search
Results.” In Proceedings of the 10th International Workshop on Web and Databases (WebDB
17
03nisina :
2010/5/27(14:27)
自然言語処理 Vol. 17 No. 4
July 2010
2007).
Hearst, M. and Pedersen, J. (1996). “Reexamining the Cluster Hypothesus: Scatter/Gather on
Retrieval Results.” In Proceedings of the 19th Annual International ACM SIGIR Conference
on Research and Development in Information Retrieval (SIGIR’96), pp. 76–84.
Jansen, B. and Spink, A. (2003). “An Analysis of Web Documents Retrieved and Viewed.” In
Proceedings of the 4th International Conference on Internet Computing, pp. 65–69.
岸田和明 (2003). 文書クラスタリングの技法:文献レビュー. Library and Information Science,
49, pp. 33–75.
成田宏和,太田学,片山薫,石川博 (2003). Web 文書の非排他的クラスタリング手法及びその
評価手法. データベースと Web 情報システムに関するシンポジウム (DBWeb2003) 論文集,
pp. 85–92.
大野成義,渡辺匡,片山薫,石川博,太田学 (2006). MaxFlow アルゴリズムを用いた Web ページ
のクラスタリング方法とその評価. 情報処理学会論文誌:データベース, 47 (SIG4(TOD29)),
pp. 65–75.
折原大,内海彰 (2008). HTML タグを用いた Web ページのクラスタリング手法. 情報処理学会
論文誌, 49 (8), pp. 2910–2921.
Osiński, S. and Weiss, D. (2005). “A concept-driven algorithm for clustering search results” IEEE
Intelligent Systems, 20 (3), pp. 48–54.
Wang, Y. and Kitsuregawa, M. (2002). “Evaluating Contents-link Coupled Web Page Clustering
for Web Search Results.” In Proceedings of the 11th ACM International Conference on
Information and Knowledge Management (CIKM’02), pp. 499–506.
Zamir, O. and Etzioni, O. (1998). “Web Cocument Clustering: A Feasibility Demonstration.”
In Proceedings of the 21st Annual International ACM SIGIR Conference on Research and
Development in Information Retrieval (SIGIR’98), pp. 46–54.
Zeng, H., He, Q., Chen, Z., Ma, W., and Ma, J. (2004). “Learning to Cluster Web Search Results.”
In Proceedings of the 27th Annual International ACM SIGIR Conference on Research and
Development in Information Retrieval (SIGIR’04), pp. 210–217.
平尾一樹,竹内孔一 (2006). 複合名詞に着目した Web 検索結果のクラスタリング. 情報処理学
会研究報告, 2006–NL–175, pp. 35–42.
略歴
仁科 朋也:2008 年電気通信大学電気通信学部システム工学科卒業.2010 年同
大学院電気通信学研究科システム工学専攻博士前期課程修了.在学中は自然
言語処理の研究に従事.
18
03nisina :
2010/5/27(14:27)
単語グループに基づく Web 文書クラスタリング
仁科,内海
内海 彰:1988 年東京大学工学部反応化学科卒業.1993 年東京大学大学院
工学系研究科情報工学専攻博士課程修了.博士(工学).東京工業大学大学
院総合理工学研究科システム科学専攻助手,同研究科知能システム科学専攻
専任講師を経て,2000 年から電気通信大学電気通信学部システム工学科助教
授,2010 年より同大学院情報理工学研究科総合情報学専攻准教授となり,現
在に至る.言語を中心とした認知科学,認知修辞学,言語情報処理の研究に従
事.日本認知科学会,情報処理学会,言語処理学会,人工知能学会,Cognitive
Science Society 等各会員.
(2009 年 9 月 3 日 受付)
(2010 年 1 月 17 日 再受付)
(2010 年 2 月 9 日 採録)
19