卒 業 論 文 00553 福田 隼人

卒 業 論 文
ユーザの閲覧履歴を考慮した
キーワード抽出によるブラウジング支援
平成 14 年 2 月 13 日提出
指導教官
石塚 満 教授
東京大学工学部 電子情報工学科
00553
福田 隼人
目次
第一章
序論・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 3
第二章
関連研究・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・4
関連研究・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 4
1.
2.
3.
キーワード抽出技術・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・4
語の共起の偏りに基づくキーワード抽出・・・・・・・・・・・・・・・・・・・・・・・・・・・・5
ブラウジング支援・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・8
第三章
1.
2.
Web ページからのキーワード抽出・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・9
閲覧中の Web からのキーワード抽出・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・12
第四章
1.
2.
3.
ブラウジング支援システムの構築・・・・・・・・・・・14
ブラウジング支援システムの構築・・・・・・・・・・・ 14
システムの全体像・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・14
ユーザインタフェース・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・16
その他の事項・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・19
第五章
1.
2.
3.
Web ページからのキーワード抽出・・・・・・・・・・・・9
ページからのキーワード抽出・・・・・・・・・・・・9
評価実験とその考察・・・・・・・・・・・・・・・・・・・・・・・20
評価実験とその考察・・・・・・・・・・・・・・・・・・・・・・・20
実験の手法・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・20
結果・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・22
考察・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・23
第六章
結論と今後の課題・・・・・・・・・・・・・・・・・・・・・・・・・25
結論と今後の課題・・・・・・・・・・・・・・・・・・・・・・・・・25
謝辞・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・26
謝辞・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・26
参考文献・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
参考文献・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・27
・・・・・・・・27
2
第一章
序論
近年コンピュータの低価格化・高性能化が進み、パーソナルコンピュータの職場・
家庭への浸透が一段落した感がある。その中で WWW は、最も身近で簡単な情報検
索手段の一つになっており、今後、携帯電話による Web アクセスサービスの普及と
共に、WWW を閲覧する機会はさらに増えるだろう。現在では、Yahoo1や MSN2など
のポータルサイト、Google3や goo4などの検索エンジンを通して目的の Web のページ
をアクセスすることが多いが、これらは多くの閲覧者が満足できるような情報の提示
が行われているため、その後の「実際に自分に必要な情報」の取捨選択は各人が各々
のページを開いて行っている。
一方、本来、そのユーザが何に興味を持っているか、どういう文書を見てきたかに
よって、情報の重要性は異なるはずである。例えば、「モーニング娘。5」に興味を持
っている人にとっては、
「米国テロ」のニュースよりも「モーニング娘。に新メンバ
ー加入」というニュースの方が重要と感じるかもしれない。また、単語単位で見れば、
「テロ」よりも「モーニング娘。
」が、さらに「モーニング娘。」よりも「高橋 愛6」
という語を重要と思うかもしれない。
本研究では、プロキシサーバを用いてユーザが閲覧している文書の頻出語を取り出
す。この頻出語はユーザの興味を表すような語が含まれている。しかし、閲覧中のペ
ージにこの頻出語が出現したからといって、その語が重要なわけではない。このよう
な語と関連はあるが、今まであまり出てきていないような語が多くの情報をもつと考
えられる。したがって、今まであまり出てきていないような語を抽出ハイライトする
ことにより、ユーザに対しブラウジング時の興味支援が出来るのではないか。そして
ユーザにとってより価値のある情報を提示することが出来るのではないかと考えら
れる。
本システムを用いて、実際にブラウジングしてもらい評価を行う。履歴を用いたブ
ラウジング支援システムがユーザに対しどの程度の効能があるか検証する。
本論文では以下のように構成される。第一章はこの序論、第二章は関連研究につい
て、第三章では Web ページからのキーワード抽出手法を、第四章、構築システムの
概要、第五章、評価実験と考察、最後に第六章で結論に達する。
1
2
3
4
5
6
http://www.yahoo.co.jp/
http://www.msn.co.jp/home.htm
http://www.google.co.jp/
http://www.goo.ne.jp/
http://morningmusume.dream.com/
http://morningmusume.dream.com/apartment/profile/takahasi.html
3
第二章
関連研究
本章では、本研究に関連するキーワード抽出技術、およびブラウジング支援システ
ムについて概観する。
1.
キーワード抽出技術
キーワード抽出技術
キーワードとは,文書中で重要な意味を担う語という意味である。文書から重要な
語を抽出するのがキーワード抽出である。「キーワード抽出」という語は,主にテキ
ストマイニングで使われる語であり(例えば[1])、情報検索の分野では自動索引づけ
(automatic indexing)とか自動キーワード抽出(automatic keyword extraction)と呼
ばれる。主に、文書を検索するための適切な索引語を見つける目的である。また、計
算機言語学では、自動用語抽出(automatic term recognition) と呼ばれる[2]。日々、
膨大な新語が創出されるなかで、どのように専門用語を抽出して、辞書の作成等に役
立てるかという目的がある。
いずれにしても、文書における語の重要性を計るのは本質的である。テキストマイ
ニングや発想支援という立場からも、適切なキーワードを自動的に抽出することがで
きれば、読むべき文書を選択しやすくなる、文書間の関係を把握することが容易にな
るなどのメリットがある。さらに、文書の傾向をつかむ、特徴的な意見を見つける、
新しい知見を得るといった用途に必要不可欠である。実際に、多くの情報検索/テキ
ストマイニング手法が何らかの形でキーワード抽出技術を用いている。
さて、キーワード抽出、または語の重みづけは、情報検索の分野で1950年代から行
われていた。最も単純な重みづけ、すなわち文書中の語の頻度による重みづけは1957
年のLuhnの研究[3]にまで遡る。その後、より詳細化した手法[4][5]も提案されたが、
基本的には語の頻度を数えるものである。また、「要するに」などの手がかり語をも
とにキーワードを抽出する方法[6][7]などもある。しかし、頻度による方法は単純す
ぎて一般的な語も抽出してしまうし、手がかり語による方法は汎用性がない。
索引づけという観点からは、語が文書に書かれていることをどのくらい網羅してい
るかという網羅性(exhaustivity)と、他の文書と区別するのにどのくらい役に立つか
という特定性(specificity) の両面を考えることが必要である[8]。特定性を高くするに
は、その文書には現われるが他の文書には現われないような索引語を選択すればよい。
極端な例では、その文書にしか現われないような索引語を選べば、その索引語を検索
質問で用いられれば、その文書のみを選択することができる。しかし、このように文
書にあまりに特化した索引語だけを選ぶと、検索質問でその索引語が用いられる可能
性も低くなる。一方、一般に文書によく用いられる語を索引語として用いると、多く
4
の文書の索引語となってしまう。したがって、特定性と網羅性は相互排他的な関係に
ある。
現在、情報検索システムで最もよく用いられている手法が tfidf である。 tfidf は、
その文書にはよく出現するが、他の文書にはあまり出現しない語を高く評価する。一
般的に、文書d における索引語 t の重みは、次のような式で与えられる。
tfidf (t , d ) = tf (t, d ) × idf (t ) ・・・(1)
頻度(term frequency) tf (t , d ) は、語 t の文書 d における出現回数である。 idf
(inverse documentfrequency)はさまざまなものがあるが、例えば、
idf (t ) = log
N
+1
df (t )
・・・(2)
がよく用いられる。 tfidf の他にも、ある文書集合にだけ偏って出現する語は特徴的
である[9][10]、文書集合中で共起する語が少ないほど特徴的である[11]、共起する単
語分布の偏りが大きい語ほど特徴的である[12]などの手法も提案されている。これら
は、文書集合中の語の分布をもとに、統計的/経験的な尺度を用いてある文書(集合)
を代表する語彙を自動識別する方法である。
影浦は、語の重要度の計算の方法として次のような5つの基本的なタイプに分類し
た[2]。
. その文書に現われる語は、索引語になりやすい。
. その文書に頻繁に現われる語は、索引語になりやすい。
. 限られた数の文書に現われる語は、それらの文書の索引語になりやすい。
. 全体の文書よりもある文書に頻繁に現われる語は、その文書の索引語になりやすい。
. 全体の文書で特徴的な分布を示す語は、全体の文書の索引語になりやすい。
次節では、本研究で使用する語の共起関係に基づくキーワード抽出法[13]について
詳しく述べる。この方法は、「全体の文書で特徴的な分布を示す語は、全体の文書の
索引語になりやすい」という性質を、単語の共起関係に着目することで単一の文書に
適用し、大規模なコーパスを用いずにキーワードを取り出すことを可能にしている。
単一の文書からキーワードを取り出す方法としては、他にも複数の頻出語のクラスタ
を結びつける語をキーワードとしてとりだし図示するKeyGraph[14]や、語の共起グ
ラフ上のSmall World性に着目して、Small World性に貢献している語をキーワード
として取り出す研究[15]などがある。
2.
語の共起の偏りに基づくキーワード抽出
本節では、本研究の基礎となった語の共起の統計情報に基づく文書からのキーワー
ド抽出法[13]についてまとめる。
5
文書中に出現する単語は、文毎に句点・ピリオドによって区切られている。そして、
同文中に出現する 2 つの語は 1 回共起していると考える。つまり共起とは、同文中の
同時出現である。
まず、一つの文章中において単語の出現頻度を数えることで頻出語を取り出すこと
ができる。ただし助詞・助動詞などの付属語や、副詞・接続詞のような自立語でも付
属的にしか使用しない語、すなわち文法的な機能を持つ語句はたとえ頻出しても頻出
語とは考えない(もちろん、キーワードとも考えない)
。これらはストップワードと
して省いておく。
次に、語の共起頻度を集計し各語間の共起頻度を要素に持つ行列「共起行列」を定
義する。ここで特定の語の間に特に関係がない、すなわち独立に生起するなら共起確
率の分布は文章全体での出現頻度の分布と同じになるはずであり、逆に少数の語とだ
け選択的に共起していれば、何らかの意味的なつながりがあると見ることができる。
図 1 、 図 2 は 、 Alan Turing に よ る 有 名 な 論 文 ”Computing machinery and
intelligence”[16]におけるいくつかの語と頻出語との共起の分布を表している。”kind”
や ”make” な ど の 語 は 、 ど の 頻 出 語 と も 共 起 し て い る が 、 ”imitation” や ”digital
computer”は、特定の語とだけ選択的に共起している。このような共起は、語と語の
意味的なつながりによるものであり、偏りの大きい語は文書中で重要な意味を持つ可
能性が高いと考えられる。実際、この論文は「機械は思考できるかという問いを
imitation game によって置き換える」ことを提案しており、”imitation”や”digital
computer”などの語は論文中で重要な語である。
したがって、ある語の頻出語に対する共起確率が頻出語単独でも出現確率から大き
くずれていればその語は特徴的な語であり、文中で意図的に用いられている重要度の
高い語である可能性が高いと考えられる。すなわち、一つ一つの単語について、各頻
出語との共起頻度を標本値とし、「単語A(文中)の出現確率は単語Bの出現如何に
かかわらず等しい」ことを帰無仮説として検定すればよい。この検定にχ2 検定を用
いる。
6
0.6
0.5
unconditional
“kind”
“make”
probability
0.4
0.3
0.2
0.1
0
a
b
c
d
e
f
g
h
i
j
term
図1:”kind”、”make”と頻出語との共起
0.4
0.35
unconditional
“imitation”
“digital computer”
probability
0.3
0.25
0.2
0.15
0.1
0.05
0
a
b
c
d
e
f
g
h
i
j
term
図 2:”imitation”、”digital computer”と頻出語との共起
まず、文書から取り出した頻出語群を G とする。頻出語単独での生起確率を理論確
率 p g ( g ∈ G ) とし、語 w と頻出語群 G との共起総数を n 、語 w と語 g ∈ G の共起頻
度を cooc( w, g ) とすると統計量 χ は以下の式で与えられる。
2
χ ( w) =
2
∑
(cooc( w, g ) − np g ) 2
np g
g∈G
χ 2 ( w) が大きな語 w が理論確率分布からのずれが大きな語、つまりキーワードで
7
ある。この手法は、単独の文書だけからキーワードが抽出できるのが特長であり、[13]
では学術論文に対して tfidf に匹敵する精度でキーワードを抽出することができると
述べられている。
3.
ブラウジング支援
本研究は、ユーザの Web ページからの情報の獲得を支援することを目指すが、ブ
ラウジング支援の研究は今までにもいくつか行われている。
[17] [18]では、ブラウジング中のユーザの記憶を補助するために「外部記憶装置」
として別のブラウザ画面を用意し、ユーザの興味空間を表示する。この画面を見るこ
とでユーザは自分の興味を理解することができる。自己理解ツールとしての応用を提
案しており、
「ブラウジングしている最中に興味を提示する」のではなく、
「閲覧時の
データを後で加工し表示する」ものであるといえる。したがって、一時的な興味に対
して支援するものではない。また、別のブラウザ画面を用意することで、提供できる
情報は増えるが、ブラウジング時に見なければならない対象が増えてしまうという問
題があるだろう。
[19][20]は、ユーザによって登録された興味ある文書からインデックスを作成し、
検索要求に対する結果をこのユーザモデルに基づいて並び替えることにより、ブラウ
ジング支援を行う。しかし、ユーザが自分で興味あるテキストを入力しなければなら
ない。
これらの研究は、人間の興味は混沌としているので、文脈に添って内容をわかりや
すく整理することが主眼に置かれているように筆者は思う。
また Web のハイパーリンク構造を利用したブラウジング支援としては、ユーザの
興味に添うようなリンクを先回りしてハイライト・出力するなどして提示し、ユーザ
を誘導する研究 [21][22][23]がある。また、リンク先の内容をも同時に読み込むこと
で、リンク先を開くことなくマウスポインタをかざすだけで、ポップアップしてリン
ク先を表示する研究[24]もなされている。
本手法では、ユーザの閲覧履歴を利用してユーザの興味を推定し、その興味に関連
ある語をハイライトすることでブラウジング支援を行う。したがって、ユーザの負担
は日常の Web ブラウジング行動とほとんど同じであり、使いやすいシステムとなっ
ている。
8
第三章
Web ページからのキーワード抽出
本章では、語の共起の偏りに基づくキーワード抽出法をいかにして Web に適用しブ
ラウジング支援を行うかを述べる。
1. Web ページからのキーワード抽出
実際にいくつかの Web ページからのキーワード抽出を行ってみた。
ここでは一例として、ユーザがまず時事ニュース①を閲覧した後、東海道新幹線の
ページ②を訪問し、現在エクスプレス予約システム(図 3)③を閲覧しているという
状況を想定している。
①
MSN ニュースサイト 見るだけで感染、最悪ウイルス被害拡大
http://news.msn.co.jp/articles/snews.asp?w=66739
②
JR 東海ホームページ TOP
http://www.jr-central.co.jp/
③
JR 東海エクスプレス予約システム(図 3)
http://www.jr-central.co.jp/service.nsf/doc/expresscard_rA
表 1:③の頻出語とキーワード
③の頻出語句
(11) 予約
(8) ご
(6) 携帯
(6) 電話
(5) エクスプレス
(5) パソコン
(5) 携帯 電話
(3) 東海道新幹線
(3) JR東海
(3) カード
(3) 利用
(3) 変更
(3) お受け取り
(3) ご 利用
③のキーワード
(15:27.1) 利用
(24:18.8) 変更
( 5:18.2) お受け取り
( 5:10.5) パソコン
( 5:7.8) 東海道新幹線
( 9:7.4) 予約
( 6:5.5) ご
( 3:4.0) 30
凡例: 頻出語句
(頻度)
語句
キーワード(頻度、χ2値) 語句
表 1 に現在閲覧中のページ③の頻出語、およびから抽出したキーワードを示す。キ
9
ーワードが少ないのは、閾値を超えたもののみピックアップしているからである。こ
のページの重要な語「エクスプレス予約」は頻出語に含まれているし、「のぞみ」は
どちらにも含まれていない。
そこで今までに、閲覧した文書(ここでは①②③)から頻出語を取り出すことを考
える。すると、頻出語は表 2 のようになる。この頻出語のうち、③に出現するものを
頻出語と考え、χ2 値の上位の語を取り出した。
表 2:履歴を考慮した③の頻出語とキーワード
頻出語句
(19) ご
(16) 日
(15) 感染
(14) 情報
(11) 予約
(10) 年
(9) JR東海
(9) ウイルス
(8) パソコン
(8) 東海道
(8) お
(7) 利用
(6) 案内
(6) きっぷ
③に注目したキーワード
( 6:93.6) 利用
( 3:69.0) JR東海 エクスプレス
( 8:67.1) ご
( 2:65.4) のぞみ
(17:63.8) 電話
(11:59.6) 予約
( 2:56.8) サービス
( 3:50.7) お受け取り
( 3:45.6) カード
( 2:42.3) きっぷ
( 1:39.1) 東海道
( 1:32.7) 便利
( 1:32.6) 新幹線
( 3:31.8) 東海道新幹線
凡例: 頻出語句
(頻度)
語句
キーワード(頻度、χ2値) 語句
表 2 に関して、まず、頻出語の順序とχ2値の順序では大きく内容が異なることが
表から確認できる。単に出現頻度のみで集計すると全体の
1
程度を占めるコンピュー
3
タウイルスに関する語句も当然のことながら含まれてしまう。しかし、「ウイルス」
や「感染」などの語は③に出現しないため、χ2値の上位は重要度が高いものになっ
ている。つまり、
「JR 東海エクスプレス」
「のぞみ」
「予約」…という語句は、普通の
人が新幹線を利用しようとした際に頭に浮かぶ語句というよりは、JR東海にはエク
スプレスカードというクレジットカードがあること、のぞみに対して割引があること
を理解する上で重要だろう。私自身が読んで重要だと感じた語句「のぞみ、予約、携
帯電話、エクスプレスカード」がキーワードとして抽出されている。
10
図 3:エクスプレス予約システム
11
2. 閲覧中の Web
Web からのキーワード抽出
さて、実際にユーザに 1 時間程度、自由に Web を閲覧してもらい、その文書におけ
る語の頻度を調べると、表 3 や表 4 のようになる。上位にくる語は、Web ページに特
有の「ページ」
「リンク」
「情報」などの語である。被験者1はピアノが趣味であるが、
表 3 には「ピアノ」
「音楽」
「piano」などの語が現れている。一方、被験者2はゲーム
が趣味であり、最上位語が「ゲーム」である。したがって、閲覧した Web ページにお
ける頻出語を見れば、その人の興味がある程度分かることになる。
このようなユーザにとっての頻出語との共起の偏りを考えることで、そのユーザに
とってのキーワードを抽出することができる。例えば、「ピアノ」や「音楽」が Web
の閲覧履歴において頻出していたとしよう。あるページでこれらの語と「コンサート」
が偏って共起していれば、
「コンサート」はキーワードであると考えることができる。
もし、「ピアノ」や「音楽」が履歴において頻出していなければ、「コンサート」とい
う語の共起の偏りも生じず、したがってキーワードにはならない。つまり、Web の閲
覧履歴における頻出語を G と考え、G と特に偏って共起する語をキーワードとすれば
よい。
なお、Web ページ単独での頻出語を G としないのには、次のような理由がある。
・ Web ページは、テキスト部分が比較的短く、単独で頻出語、偏りの大きな語を取
り出すのは無理がある。
・ できるだけ解釈が異ならないように客観的に書かれた学術論文と異なり、Web ペ
ージは見る人によって重要度が大きく変化する。したがって、重要な語かどうかも、
履歴における頻出語によって決めるのが自然であろう。
現在閲覧中のページのみからキーワードを抽出する場合と比べ、閲覧履歴から頻出
語を抽出しそれとの共起の偏りでキーワードを抽出すると、過去頻繁に出現している
語のχ2 値が下がり、より情報量の多い単語(例“のぞみ”、
“JR 東海エクスプレス”)
がχ2 値の上位にくるようになる。したがって、多くの閲覧履歴データを用いるとユ
ーザの興味をより濃く反映した抽出結果を得られると予想できる。
まとめると本研究では、ユーザにとっての頻出語を閲覧履歴から得て、それらの語
と選択的に共起する語を、そのユーザのとって情報量の多い、ユーザの新たな興味の
きっかけになるキーワードとして提示することを目指す。
12
表 3:被験者1の閲覧文書の頻出語
順位
1
2
3
4
5
6
…
23
24
24
24
…
31
31
…
59
59
59
59
59
単語
ページ
Nifty
Document
リンク
Write
情報
・・・・・・
ピアノ
研究
たち
思う
・・・・・・
音楽
コーナー
・・・・・・
piano
聴く
趣味
気軽
岐阜
頻度
34
24
20
20
19
19
…
14
13
13
17
…
11
11
…
9
9
9
9
9
表 4:被験者2の閲覧文書の頻出語
順位
1
2
3
4
5
6
…
15
15
15
15
…
57
57
57
57
57
単語
ゲーム
ページ
found
情報
server
関連
・・・・・・
更新
掲示板
登場
イメージ
・・・・・・
ネット
copy
シリーズ
ソフト
game
13
頻度
26
25
24
24
22
22
…
17
17
17
17
…
9
9
9
9
9
第四章
ブラウジング支援システムの構築
ここではブラウジングした Web ページの頻出語を保存し、現在ブラウジング中の
Web ページから、いかにキーワードを抽出・ユーザに提示するかを述べる。
1.
システムの全体像
ユーザのブラウジングを監視・データを取得するために本研究ではプロキシサーバ
を利用する。プロキシサーバとは、プロキシ(代理)という言葉が示す通り、インタ
ーネット上の目的のコンテンツ(ファイルや Web ページ等)をユーザのコンピュー
タの代わりに取って来てくれる機能を提供するサーバである。プロキシには様々なプ
ロトコル(HTTP、FTP、Telnet、SMTP あるいは POP 等)に対応したものが存在
するが、本研究では HTTP プロキシ(WWW で利用可能なプロキシ)を指す。
ユーザがプロキシサーバを利用しないで目的の Web ページを閲覧する場合、ユーザ
のコンピュータが目的の Web ページの置いてある WWW サーバに直接アクセスして、
Web ページを取って来る。
ユーザのコンピュータ(要求元)←→
WWW サーバ(要求先)
ユーザのコンピュータ(要求元)
サーバ(要求先)
一方、ユーザがプロキシサーバを利用して目的の Web ページを閲覧する場合、ユー
ザの代わりにプロキシサーバが WWW サーバにアクセスして目的の Web ページを取
って来ることになる。
ユーザのコンピュータ(
プロキシサーバ←→
WWW(
ユーザのコンピュータ(要求元)←→プロキシサーバ
要求元)
プロキシサーバ
WWW(サーバ要求先)
この場合、コンテンツの要求元(ユーザ)と要求先(WWW サーバ)の間にプロキ
シサーバを挟むことによって通信経路が多少複雑で遠回りになる。しかし、プロキシ
サーバを利用することで、通過する全てのトラフィックをフィルタリングすることが
できる。つまり、プロキシサーバはクライアントからサーバに送信されるデータ、あ
るいはサーバからクライアントに送信されるデータをモニタリングして、それらのデ
ータを加工することが可能になる。
本研究のシステム構成を図 4 に示す。プロキシサーバを介し、閲覧中のページ内容
に応じて順次処理を行い、キーワードをハイライトした内容をブラウザに渡す。ユー
ザは普段使い慣れたブラウザのインタフェースそのままにキーワードのハイライト
によるブラウジング支援を利用することができる。以下詳しく説明する。
14
図 4:正常処理概念図
ユーザがインターネットに要求を出すときには、中継だけを行う。返ってきたデー
タはプロキシサーバを通過し、まず画像ファイルや音声ファイルでないかを html プ
ロトコルのヘッダで判断する。html/text 以外はそのままブラウザに送る。さらに
html/text であった場合でも、極端に長さが短いもの(5 行未満)も加工しない。これに
より、極端に短い文書や、ポップアップ広告など、キーワードを抽出するのにふさわ
しくないページを省くことができる。この時点で処理に不適格なファイルはすべて取
り除かれることになる。
次に html ファイルをテキストに変換する。Web ページはある意味アーティスティ
ックであり、視覚的に情報を訴えるため・美しく見せて求心力を得るために html タ
グを用いてレイアウト・フォントの種類などが指定され書かれている。したがって、
html タグを全て取り除き、内容を示す body 部分だけに出来ればよい。処理には Web
上で公開されているフリーソフト html2text7を用いた。なおここでは、タグをすべて
取り除くことを主眼においているが、Web 作成者がわざわざ視覚的情報を加えている
ものを除去していることになり、少なからず情報を失っているようにも感じられる。
タグの使用状況・フレーム分けの他、フォント、色の使い方もキーワードを抽出する
対象になり得るかもしれない。
さらに文字コードを nkf を用い EUC に変換する。(日本語 Web ページは主に
7
http://www.cs.queensu.ca/FAQs/FAQaid/html2text.html
15
Shift-JIS、JIS、EUC のいずれかで書かれている。
)この時点で各ページデータは処
理の容易なテキストデータになっている。
このテキストデータ中に出現する単語は、動詞・形容詞などの場合、活用・語尾変
化を起こしている。しかし、活用していても単語としては同一であれば、同じ語とし
て認識する必要がある。こうした処理を含め、文章を単語レベルに分解・解析するこ
とを形態素解析という。今回この形態素解析には奈良先端大松本研にて開発されたフ
リーソフト「茶筅」8を用いることにした。
ここでは、名詞(ただし代名詞、非自立、特殊、接尾等は除く)
、動詞(自立のみ)
、
形容詞(自立のみ)
、副詞(副詞一般)だけを取り出す。
こうして得られたテキスト中に含まれる語は、ユーザごとの頻出語を管理する頻出
語サーバに送られる。つまり、閲覧履歴そのものをすべて保存していくと時間の経過
とともに処理するデータ量が膨大になるため、語とその出現回数だけを管理する。ま
た、各語の出現回数をメモリにロードしておくのは処理速度の点で不利である。した
がって、プロキシサーバとは別の頻出語句サーバを構築し、負荷の分散とデータベー
スとしての独立性を保たせ、処理の速度・確度の上昇に貢献もさせた。
頻出語サーバから各語の出現回数を受け取り、テキスト中で今まで多く出現した語
をこのユーザにとっての頻出語として取り出す(上位 30%を取り出す)。そして、こ
の語と共起の偏りをχ2 値測定し上位 15 語をキーワードとする。
流れ図の各点において判定が No になった、あるいは処理が失敗したときは閲覧中
のページを元のままブラウザに渡す設定になっている。Web 上には様々な Web ペー
ジが存在するので、想定外の Web ページに対しても通常のブラウジング機能を損な
わず、ユーザへの負担が最小限になるようにした結果である。
なお、プロキシサーバは ruby、テキスト処理及び頻出語サーバは perl、キーワード
を抽出する部分は C 言語で記述している。
2.
ユーザインタフェース
ユーザへのキーワード語句の提示は、元のページの構成になるべく手を加えず、ま
た通常のブラウジングをさまたげないように、キーワードをハイライトすることで視
覚的に目立つようにした。本研究では、最も提示したいキーワードを目立つ赤字で、
ユーザにとっての頻出語を青字でハイライトしている(図 5、6)
。
8
http://chasen.aist-nara.ac.jp/chasen/whatsnew.html.ja
16
図 5:使用例 1
企業サイト(三井住友銀行)
17
図 6:使用例 2
ニュースサイト(asahi.com)
18
3.
その他の事項
Web ページには、ストップワードがある。前出のニュースサイトの例にもあるが、
「メール」
「情報」
「検索」のような単体でキーワードとなる可能性があるが、特定の
サイトでは頻出しすぎる語や、
「Copyright」
「All Rights Reserved」のような著作権
に関連するような語である。
前者に関して、ユーザにとっての頻出語を上位 10%~30%にすることで、寄与の低
い語を排除しつつ意図されたキーワード抽出に影響が出ないように調整した。後者は
付属語と同様にストップリストに加えることで、そもそも処理内容に現れないように
した。これにより抽出語の精度を上げることに成功した。
処理時間に関しては、Web ページの読み込み・更新と同時に処理を行っている関係
上、要求から表示までを測定するとネットワーク側の混み具合も含まれてしまうため、
正確な時間は不明だが、ブロードバンドで接続されている環境なら数秒以内に処理さ
れた表示がなされる。体感的には普段のブラウジングとほぼ同じ状況が実現された。
本処理では中間処理ファイルがいくつか生成されるが、これをクリーンアップする
機能は実装されていない。そのため、長く使っているとファイルが一方的にたまって
いってしまう。その規模はおよそ一時間で 1MB を超える場合もある。実用化には若
干の問題を含む。
19
第五章
評価実験とその考察
本システムの評価をするためどのような観点でどのような実験をすればよいのだ
ろうか。いくらシステムを構築しても評価方法が確立できなければ正しい評価を行え
ない。本研究で目指すものは、いかにユーザの興味にあったキーワードを提示し、ブ
ラウジングの支援ができるかにある。したがって、ユーザ個人の主観的な評価に頼ら
ざるを得ない。しかし他手法との比較を行うことで、ある程度の客観的評価を行える
と思う。
本章では、実際にユーザに本システムを用いたブラウジングをしてもらい、アンケ
ートにより評価を行った。
1. 実験の手法
実験で検証したい本システムの特徴は大きく分けて以下の二点に集約される。
①
語の共起の偏りをχ2 検定で測定するキーワードの抽出方法
②
閲覧履歴を反映し各ユーザへのカスタマイズ
すなわち、比較対象として図 7 の組み合わせが考えられる。
図 7:比較対象の配置
各手法の実装を詳しく解説する。
システムⅠは、閲覧中のページのみからキーワードを抽出する。したがって、頻出
語句サーバを経由せず、ユーザの閲覧履歴は考慮しない。形態素解析を行った(ノイ
ズを取り除き)結果から、χ2検定手法でキーワードを同定する。以下これをシステ
ムⅠと呼ぶ。
20
システム II は、tfidf によるキーワードを提示する。tfidf (第二章 1 節式(1)参照)は、
コーパスを必要とするが、ここでは閲覧履歴における語の頻度を df として利用する。
つまり、式(2)において N を今までに閲覧した文書数、 df (t ) を閲覧履歴中の語 t の頻
度とする。
システム III は、「本手法」である。
したがって、評価実験としてシステムⅠ~Ⅲについてブラウジングの比較をすれば
よいということになろう。通常のブラウジングとの比較は各システムを評価する際の
基準として通常のブラウジングを用いることで、4 種類の状態の比較が可能になる。
また、抽出されるキーワードの精度の比較対象として頻出語を用いた。この頻出語
は閲覧ページ中の頻出語ではなく、頻出語サーバに蓄積されている各個人の履歴全体
での頻出語であることに注意が必要である。ただし、I の場合には蓄積が 0 なので閲
覧中のページの頻出語となる。
実験は本学の学部生・大学院生(20 代の男性)10 人に対して行った。各人共に情
報系の研究をしている。システムⅠ、Ⅱ、Ⅲの順に 10 分~15 分程度ずつブラウジン
グをしてもらった。システムⅠでは、履歴は関係ないが、利用中にも頻出語の履歴は
保存しておくようにした。被験者にはハイライト表示される二種類の語がキーワード
か頻出語か、及びシステムの内容を告げていない。また被験者は情報系とはいえ、直
接この分野の研究をしている人間ではなく、使用時の印象はおよそ一般の人と同じと
見なせるであろう。
質問項目は次のとおりである。なお、頻出語が青字、キーワードが赤字でハイライ
トされる。
①
ブラウジングのしやすさ
②
赤字で表示されている語はユーザの興味語か
③
興味語が赤字で表示されているか
④
青字で表示されている語はユーザの興味語か
⑤
興味語が青字で表示されているか
以上を 1~5 ポイント(基準点 3)
で採点してもらった。すべてのシステムを試した後、
・
どのシステムが一番ブラウジングしやすいか
・
どのシステムが一番自分の興味を反映しているか
に答えてもらった。
この他にも赤字・青字に対する感想、最終的にどのシステムが一番いいか、その他
気づいたこと・印象をフリーに書いてもらった。
21
2. 結果
ポイントによる集計では以下の表 5 のようになった。ブラウジングのしやすさ①に
関しては各システム 3 前後の値で推移し、システムを利用すること・文字をハイライ
トさせることで通常のブラウジングの妨げにはなっていないことが確認できる。一方
で、キーワード抽出精度②③に関してはⅠ(閲覧履歴無し)とⅡ、Ⅲ(閲覧履歴有り)
には大きな性能の差が出ている。④⑤に関してはⅡとⅢのキーワードについて、Ⅱ
( tfidf )よりⅢ(本手法)の方が重要度の数値が低く、ユーザが感じるキーワード
をキーワードとしてより抽出できていると言える。
システムⅠ、Ⅱ、Ⅲのいずれにおいても、頻出語④⑤よりもキーワード②③の方が
高い評価であった。つまり、今までによく出現した語よりも、これらの語との共起が
偏った語の方がユーザの興味のある語となっている。単純に履歴とマッチするという
だけでは、ユーザにとって重要な情報ではないということになる。
一番ブラウジングしやすいもの・一番興味を反映できているものという問いにはⅠ
を選ぶものは 10 人中 1 人とほとんど存在せず、一番多くかつほとんどのユーザがⅢ
を選んだことから本手法の完成度は高いと言えそうである。
(表 6)
22
表 5:集計結果
Ⅰ
①
②
③
④
⑤
Ⅱ
①
②
③
④
⑤
Ⅲ
①
②
③
④
⑤
A
3
3
3
2
3
B C D E
3 3 2 3
3 3 4 3
3 3 3 3
2 3 4 3
3 3 3 3
F G H
3 2 3
3 2 3
3 2 2
2 1 4
1 1 4
I
3
3
3
2
2
J 平均
3
2.8
5
3.2
4
2.9
4
2.7
4
2.7
3
4
4
2
3
3
4
4
2
2
3
5
4
4
4
5
5
4
3
3
3
4
3
3
3
4
2
2
4
4
2
3
3
1
1
3
4
3
2
2
3
4
3
2
2
3
5
3
2
1
3.2
4
3.3
2.5
2.5
3
4
4
2
3
3
4
4
1
2
3
5
5
4
4
4
4
4
2
2
3
4
3
3
3
4
4
5
2
2
3
3
2
1
1
4
4
4
1
1
3
4
4
2
3
2
5
3
2
3
3.2
4.1
3.8
2
2.4
Ⅰ:χ2履歴なし
Ⅱ:tfidf
Ⅲ:χ2履歴あり
A~J:被験者
①ブラウジングのしやすさ
②赤字が興味のある語か
③興味のある語が赤字か
④青字が興味のある語か
⑤興味のある語が青字か
表 6:一番ブラウジングしやすいもの・興味を反映しているもの
ブラウジング 興味を反映
Ⅰ
1
0
Ⅱ
3
2
Ⅲ
6
8
単位:人
3. 考察
本研究の提示するキーワードとは、その単語を読み繋げればサイト内容が理解でき
る要旨抽出型のものではなく、ユーザの新たな興味のきっかけとなるような語を指す
(ここに誤解がないようにしていただきたい)ことは第三章にも述べたところである。
したがって、抽出提示キーワードが閲覧本文の内容を正しく表しているかどうかや、
提示キーワードの有無で内容理解のスピードが速くなったか等を、客観的に測定する
23
ことは、本研究の目指すものではない。そのため評価は難しい面がある。
アンケート結果の得点から判断するに、少なくとも支援システム実行時の演算時
間・ユーザへの表示方法ともにリアルタイムなブラウジング支援システムとしてユー
ザに負担にはなっていないと言えそうである。むしろ通常とほぼ同じ気持ちでブラウ
ジングできるということは、支援システムとしての付加価値が何ら障害となっておら
ず、導入に際し敷居は低いと考えられる。
一方、抽出キーワードのシステム間の差異について見てみると、閲覧履歴を用いた
方がよりよくユーザ興味を反映できていることがわかる。キーワードと頻出語の関係
も、キーワードこそが興味を表し頻出語は重要語にはなりにくいという製作者サイド
たる筆者の予想に呼応する印象を被験者側も持っているということが言えそうだ。被
験者には提示される語句がキーワードか頻出語か何かも告げずに実験したのである
が、中にはその事実に気付く者もおり、人間の推察能力はなかなか優れているようで
ある。
アンケートの自由記述欄には、システムⅢに関して「なかなか興味にあっている。
」
(被験者 A)
「ニュースサイトのような記事には(システムⅡより)強いようだ。」
(被
験者 C)と本研究の成果を称える意見が出る一方で、「まさにその通りだという次に
広がる語がある一方、提示意図の不明瞭な語もある。
」(被験者 B)「確かに目を引く
語ではあるしそう言われるとそうだが、説明を求められてもどう表現していいかわか
らない。
」(被験者 E)「依然一般語も一定水準で含まれている気がするが、かといっ
てその一般語が不必要かどうかは分からない。」
(被験者 H)と被験者自身も戸惑いの
表情を見せる場面も多かった。その理由として考えられるのは何かという問も同時に
したところ、
「自分の興味自身が不確定」
「興味といってもよく分からない」などと答
えられた。なるほど、普段我々はそれほど深く考えないでブラウジングするのでその
ようなものかもしれない。
やはりシステムが人間の興味をすべて包含してキーワードを割り出し提示すること
は不可能なようであるが、逆に「ハイライトされた文字がユーザの興味をひくことで、
興味を喚起された。」
(被験者 C)という答えも返ってきたので、まんざら否定するべ
きものでもなさそうである。少なくとも Web ブラウジングにおけるユーザ興味語の
支援にはなっているだろう。
他にユーザの意見として、
「ハイライトによって html の配置が崩れたり、文字が重
なって読みにくかったりする」(被験者 D)
、「本来検索用に背景に隠されている文字
までハイライトされてしまい煩雑だった。」という苦情も出た。デザイン面、html の
配置に対する配慮が足りなかったのは否めない結果となってしまったようだ。
24
第六章
結論と今後の課題
本研究では、語の共起の偏りに基づくキーワード抽出法を Web 文書に適用し、ブ
ラウジング環境を損なわずにユーザの興味語をハイライトするブラウジング支援シ
ステムを構築した。
本研究により、まず閲覧履歴を用いたブラウジング支援という方法が可能であるこ
とが実証できたと思う。閲覧履歴データを用いればその人の興味・趣向がある程度予
想できるということは非常に興味深い事実であり、うまく利用すればブラウジングす
るだけでユーザの情報を解析できることになり、欲しい商品・サービスの予想・提供・
宣伝と商業的に大きな展開が図れるかもしれない。またユーザにとっての頻出語さえ
得られれば、χ2 値によるキーワード抽出が効果を発揮することが分かった。今後様々
な用途で応用可能な技術であろう。
評価実験のサンプル数・内容ともに不十分であるかもしれない。今後はどのような
状況でうまく動作するのか、どのような用途で最もよい結果が出るのかといった調査
や、サイトにより効能が変わってくるのであればどのパラメータを変更すればよいの
かを明確にする必要があると考える。また、ユーザインタフェースの面でも、ハイラ
イトする際の表示色の選定やレイアウトへの影響を考慮するといった細かい改良が
必要だろう。
25
謝辞
本研究を進めるにあたり、多くの方々のご指導、ご鞭撻を賜りました。
指導教官の石塚満教授にはお忙しい中、貴重な時間にもかかわらず質問に対応して
いただき、さらに的確な指摘をしていただき誠にありがとうございました。
また、博士課程 3 年の松尾豊氏には本研究を進める上で多大なご指示・ご協力を賜
りました。ここまで漕ぎ着けたのも一重に松尾氏のお陰です。本当にありがとうござ
いました。
主たる研究の場となった石塚研究室擬人化エージェント東大分室の皆様には、各人
研究に打ち込みつつもアットホームな雰囲気を提供していただきました。ありがとう
ございました。
最後に同輩の綾君、柴田君、堀本君、溝渕君にも感謝申し上げます。
26
<<
参考文献
>>
[1] Rajman, M. and Besancon, R.: Text Mining
knowledge extraction from
unstructured textual data, in Proceedings of the 6th Conference of International
Federation of Clas si.cation Societies (1998).
[2] Kageura, K. and Umino, B.: Methods of Automatic Term Recognition,Terminology,
Vol. 3, No. 2, pp. 259-289 (1996).
[3] Luhn, H. P.: A statistical approach to mechanized encoding and searching of literary
information, IBM Journal of Research and Development, Vol. 1, No. 4, pp.390-317
(1957).
[4] Sparck-Jones, K.: A Statistical Interpretation of Term Speci.city and Its Application
in Retrieval, Journal of Documentation, Vol. 28, No. 5,pp. 111-121 (1972).
[5] Noreault, T., McGill, M., and Koll, M. B.: A Performance Evaluation of Similarity
Measure, Document Term Weighting Schemes and Representations in a Boolean
Environment, Butterworths, London (1977).
[6] Edmundson, H.: New Methods in Automatic Abstracting, Journal of ACM, Vol. 16,
No. 2, pp. 264-285 (1969).
[7] 木本晴夫:日本語新聞記事からのキーワード自動抽出と重要度評価, 電子情報通信学会
誌, Vol. 74-D-I, No. 8, pp. 556-266 (1991).
[8] 徳永健伸:情報検索と言語処理, 東京大学出版会(1999).
[9] 長尾, 水谷, 池田:日本語文献における重要語の自動抽出, 情報処理,Vol. 17, No. 2, pp.
pp.110-117 (1976).
[10] Dunning, T.: Accurate Methods for the Statistics of Surprise and Coincidence,
Computational Linguistics, Vol. 19, No. 1, pp. 61-74 (1993).
[11] 寺本, 宮原, 松本:類似文書検索のためのタームの共起語分布分析による計算, 情報処
理学会第 59 回全国大会論文誌, IP-06 (1999).
[12] Hisamitsu, T., Niwa, Y., and Tsujii, J.: A Method of Measuring Term
Representativeness Baseline Method Using Co-occuences Distribution, In Proceedings
of Coling 2000, pp. 320-326 (2000).
[13]松尾 豊、石塚 満、「語の共起の統計情報に基づく文書からのキーワード抽出アルゴリ
ズム」人工知能学会誌 Vol.13, No3 (2002) (掲載予定)
(特願 2001-254905)
[14] 大澤幸生、ネルス・E・ベンソン、石塚 満:KeyGraph-語の共起グラフの分割・統合に
よるキーワード抽出、電子情報通信学会(1999)
[15] 松尾 豊、大澤 幸生、石塚 満:Small World 構造を用いた文書からのキーワード抽出、
情報処理学会論文誌(2002)
(条件付採録)
[16] A. M. Turing, Computing machinery and intelligence, Mind, Vol. 59, p.433 ,(1950)
27
[17] 村上 晴美, 平田 高志, WWW からの情報獲得整理支援-思考・興味空間ブラウザ-,情報
処理学会研究報告 Vol.2001, No.20, pp.167-174,( 2001)
[18] 村上 晴美, Web ブラウジング履歴からの自己の興味の理解, 日本心理学会第 65 回大
会発表論文集, pp.9, (2001).
[19] 平嶋宗,蜂谷憲一,柏原昭博,豊田順一:文脈情報を用いたハイパーテキストのブラ
ウジング支援,人工知能学会誌, Vol.12, No.5 (1997)
[20] 野本 豊裕、松田 憲幸、平嶋 宗、豊田 順一、文脈情報に基づくブラウジング支援
-WWW 上での実装とその評価- In Proceedings of the 8th World Conference of the AIED
Society, Japan, 18-22 (1997)
[21] Mladenic, D.,Using Text Learning to help Web browsing, In Proceedings of the 9th
International Conference on Human-Computer Interaction, (2001)
[22] Joachims, T., Freitag, D., and Mitchell, T. ,Webwatcher: A tour guide for the world
wide web. In Proceedings of the Fifteenth International Joint Conference on Artificial
Intelligence, pages 770-775,Japan.(1997)
[23] Dominic Stanyer, Rob Procter. Improving Web Usability with the Link Lens. In: A.
Mendelzon et al. (Eds.). Journal of Computer Networks and ISDN Systems (Proceedings
of the 8 th International WWW Conference, Toronto), Vol. 31, pp. 455-466, (1999)
[24] 南野 朋之:プロキシサーバを用いた Web ブラウジング支援システムに関する研究、
東京工業大学 2000 年度卒業論文,(2001)
[25] 北村 泰彦、インターネット上での知的情報統合 第 47 回知識ベースシステム研究会
(2000)
28