卒業論文

1998 年度
卒業論文
題目
ディレクトリ情報と文書のスタイルを用いた
Web 文書のクラスタリング
提出者
指導教官
鈴木 優
田中 克己
提出期限 1999 年 2 月 19 日
神戸大学工学部
情報知能工学科
1998 年度
卒業論文
ディレクトリ情報と文書のスタイルを用いた
Web 文書のクラスタリング
神戸大学工学部情報知能工学科
鈴木 優
指導教官
田中 克己
1999 年 2 月 19 日
Web
デ ィレクトリ情報と文書のスタイルを
用いた
文書のクラスタリング
鈴木 優
要 旨
本論文では,ロボット型検索エンジンによって得られた検索結果を,ディレクト
リ型検索エンジンのディレクトリ構造に従って分類を行う手法について提案する.
あらかじめディレクトリ型検索エンジンよりディレクトリ構造を取得する.そし
て,ディレクトリに含まれる Web 文書を用いてディレクトリの特徴ベクトルを構築
する.ユーザがロボット型検索エンジンを用いて検索した Web 文書群から特徴ベク
トルを生成し,ディレクトリに付けられた特徴ベクトルとの類似度をそれぞれ計算す
る.その結果,一番類似度の高いディレクトリへ Web 文書を分類する.
本研究では,特徴ベクトルを生成する要素として形態素の頻度情報のみではなく,
文書のスタイルを表す情報を導入した.文書のスタイルとは,文書の特徴を表すよう
な情報であり,例えば文書中の漢字の量などであると定義する.文書のスタイル情報
を用いることによって,再現率を低下させることなく適合率を向上させることが可能
となる.
目 次
1 序論
1
2 基本的事項および関連研究
3
2.1 検索エンジン
: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : :
3
: : : : : : : : : : : : : : : : : : : : :
4
: : : : : : : : : : : : : : : : : : : : : : : : :
4
: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
4
2.1.1 デ ィレクトリ型検索エンジン
2.1.2 ロボット型検索エンジン
2.1.3
メタ検索エンジン
2.2 tf/idf 法
2.3 形態素解析
: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
2.4 再現率と適合率
2.5 関連研究
3
5
: : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
5
: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
6
2.5.1 GlOSS
: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
2.5.2 SavvySearch
: : : : : : : : : : : : : : : : : : : : : : : : : : : :
2.5.3 クラスタリング付き TITAN
: : : : : : : : : : : : : : : : : : :
3 特徴ベクト ルの生成
6
7
8
3.1 Web 文書の特徴ベクトル生成
3.1.1 形態素の頻度情報
: : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : :
3.1.2 文章のスタイルを表す情報
8
9
: : : : : : : : : : : : : : : : : : : :
9
: : : : : : : : : : : : : : : : : : : :
10
: : : : : : : : : : : : : : : : : : : : : : : : : : :
10
3.2 デ ィレクトリの特徴ベクトル生成
3.3 特徴ベクトルの比較
6
3.3.1 頻度情報ベクトルの比較
: : : : : : : : : : : : : : : : : : : : :
3.3.2 文書のスタイル情報ベクトルの比較
: : : : : : : : : : : : : : :
10
11
3.3.3 頻度情報ベクトルと文書のスタイル情報ベクトルの評価値の合成 12
i
4 システムの実装
13
4.1 システムの構成
: : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
13
4.2 システムの概要
: : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
13
4.2.1 ディレクトリ型検索エンジンによるディレクトリデータベース
の構築
: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
4.2.2 ロボット型検索エンジンによる検索結果のクラスタリング
: :
16
: : : : : : : : : : : : : : : : : : : : : : : : : : : : :
16
: : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
17
: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
17
4.3 システムの実行例
4.4 システムの評価
4.5 考察
13
5 結論と問題点
19
謝辞
19
参考文献
20
ii
第 1章
序論
WWW(World Wide Web) は現在爆発的な拡大を見せている.そのため,Web 文
書の数は 3 億 4 千万ページ に及んでいる.
ところが WWW を閲覧する場合,Web 文書の数が多過ぎるため求めている情報
を絞るのは容易な作業ではない.そのため通常,検索エンジンと呼ばれるデータベー
スシステムにキーワードを入力することによって,Web 文書の検索を行なう.検索
エンジンには,ロボット型検索エンジン,ディレクトリ型検索エンジンの 2 つが現在
実用的な検索エンジンとして用いられている.ところが,ロボット型検索エンジンを
用いた場合,次のような問題が指摘されている.
Web 文書を検索する際に複数のキーワードを考えるのは一般に困難である.
キーワード の数が少ない場合には検索結果が大量になってしまうため,必要な
情報を探索する労力や時間を必要とする
また,ディレクトリ型検索エンジンを用いた場合,次のような問題が指摘されている.
対象となる Web 文書の数が少ないため,ユーザが必要となる Web 文書が見つ
からない可能性が高い
デ ィレクトリに分類を行なった人間の主観が検索結果に影響する
これらの問題は,Web 文書の検索結果の提示方法が原因であり,従来の考え方で
行なわれているような Web 文書の検索結果の羅列では解決できない.また,ディレ
クトリ型検索エンジンのような人手による手法では検索対象となる Web 文書数に限
界がある.
そこで,本研究ではロボット型検索エンジンによる検索結果をディレクトリ型検
索エンジンの情報を用いてクラスタリングすることによって,ロボット型検索エンジ
ンの検索結果からユーザにとって必要な情報を発見しやすくする.また,ディレクト
リ型検索エンジンの問題点であった,検索対象となる Web 数の限界へも対処が可能
となる.
1
また,本研究ではクラスタリングを行なう際に,単語の頻度情報だけではなく文
書のスタイルを考慮に入れた.現在の検索エンジンは,ほぼ全て単語の頻度情報によ
るため,新たな情報として文書のスタイル情報を用いることにより,更に精度の高い
検索を行なうことが期待される.
2
第 2章
基本的事項および関連研究
本研究では,Web 文書の検索をより効率的に行うために,Web 文書群の分類手法
を提案する.以下に,本研究に関連する基本的事項,関連する研究について述べる.
2.1
検索エンジン
検索エンジンは大きく 3 つに分けることができ,それぞれディレクトリ型検索エン
ジン,ロボット型検索エンジン,メタ検索エンジンと呼ばれている.これらは,Web
文書群の収集方法やそれらへの索引や要約付けの手法が異なる.以下に,それらの手
法を述べる.
2.1.1
ディレクト リ型検索エンジン
ディレクトリ型検索エンジンとは,Web 文書群を各ジャンル毎にまとめ直したも
のである.あるキーワードを入力すると,それらのキーワードを含んでいるディレク
トリや Web 文書が検索できる.具体的には,Yahoo!JAPAN[4] や CSJ インデックス
[5] などが挙げられる.
デ ィレクトリ型検索エンジンの特徴として,キーワードによらない検索が可能で
あるという点が挙げられる.そこで,たとえユーザが検索キーワードを思い付くこと
ができない場合でも,検索エンジン上 に用意されたディレクトリをたど ってゆくこ
とによって容易に目的の Web 文書を発見することが可能となる.
ディレクトリ型検索エンジンは,全て人手で Web 文書をディレクトリに分別して
いる.そのため,検索対象となる Web 文書は 20 万から 30 万ページと,後述するロ
ボット型検索エンジンと比べると 2 3 桁程度少ない.よって,有名なページや,Web
文書製作者などの依頼により登録されたページ以外を探すことが出来ないといった
欠点を持つ.また,人間によって索引の生成,要約の作成等が行われているため,索
引と要約の信頼性が高いといった利点を持つ反面,索引と要約に人間,つまり分類を
行った人の主観が影響するといった欠点をもつ.
3
2.1.2
ロボット 型検索エンジン
ロボット型検索エンジンとは,自動的に索引付けされた Web 文書群からキーワード
を含む Web 文書を検索する仕組みである.検索キーワードを入力すると,キーワード
が出現している Web 文書が検索結果として得られる.例としては goo[6],AltaVista[7]
等が挙げられる.
ロボット型検索エンジンでは,Web ロボットやスパイダーと呼ばれる WWW 探
索プログラムを用いて,公開されている全ての Web サーバ上の文書情報を定期的に
収集し,その情報の索引付けを自動的に行っている.よって,検索対象となる Web
ページがディレクトリ型のものと比べて多い.一方,膨大な量の検索結果が得られて
しまうため,目的の Web 文書を探し出すのに膨大な時間がかかってしまう.結果と
して,ユーザは検索時に大変な労力がかかってしまうといった欠点がある.
2.1.3
メタ検索エンジン
メタ検索エンジンとは,自分自身でデータベースを持たず,ユーザからの問い合
わせを他の検索エンジンに問い合わせ,それらの結果を編集して結果を出力する検索
エンジンである.例としては,SavvySearch[8] や MetaSearch[9] などが挙げられる.
メタ検索エンジンでは,問い合わせされたキーワードを他のロボット型検索エン
ジンやディレクトリ型検索エンジンへ再び問い合わせ,それらからの各結果の違いを
考慮して一つの検索結果を出力する.検索対象となる Web 文書は前者二つと比較し
て一番多いが,検索時間が一番多くかかってしまうといった欠点もある.
2.2
tf/idf
法
tf/idf 法とは次の 2 点を考慮して,文書中の単語への重要度を計算する方法であ
る [12].
文書中にどれだけの頻度でその単語が出現するか
その単語が他の文書でどれだけ出現しないか
具体的には以下のような方法で単語の重要度を計算する.N 個の文書がベクトル
データベース db に含まれている.キーワード t とし,db の中の t が含まれている文
書の数を df ,文書の中の t の頻度を tf とおく.文書におけるそのキーワード の重み
を w を次のように定義する.
4
w
= tf 2 log
N
df
tf/idf 法を用いることによって,単語の出現頻度のみの重要度よりも各文書の違
いが明確に数値となってあらわれる.よって,文書の検索精度が向上することが期待
される.
2.3
形態素解析
日本語の文章は英語の文章のように単語を区切る習慣が無い.そのため構文解析
などを行う際には,はじめに漢字仮名混じり文から単語を抽出する必要がある.形態
素とは,それ以上小さな単位では意味をなさない単語,または単語の一部のことであ
る.つまり形態素解析とは,文を形態素に区切って品詞・活用情報を付加する処理の
ことである.代表的なシステムとしては茶筌 [10],JUMAN[11] などが挙げられる.
日本語形態素解析システムの技術として,次の 2 つの方法が取られている.
人手による優先規則を用いたシステム
人間が様々な言語現象をおおまかに捉えて,規則などの形に抽象化した優先規
則を用いるものである.だが,例外的な規則を追加してゆくと膨大な情報量と
なり,人間の手に負えなくなるといった欠点もある.
品詞タグ付きコーパスから学習されたパラメータを用いたシステム
様々な言語現象を含む大規模な品詞コーパスが存在すれば高精度の解析が可能
であるが,そのようなコーパスの入手は困難である.
ここで挙げられているコーパスとは,テキストコーパスのことであり,品詞情報,
文の構文意味情報,並列情報や文脈構造などの情報が付加されている文の集まりであ
る.テキストコーパスを用いることによって,高度な自然言語処理や音声処理などが
可能になる.ただ,テキストコーパスを作るためには言語的な専門知識や膨大な作業
が必要であるため,大規模な品詞コーパスを作成することは困難である.
2.4
再現率と適合率
情報検索では,検索結果は情報要求と常に合致したものである.ところが,主題
検索の場合には,検索結果が情報要求を完全に満たしたものではないことがある.つ
5
まり,本来検索結果に含まれるべきものが含まれない,不必要なものが検索される,
ということが起こりうる.前者を検索もれ,後者を検索ノイズと呼ばれている.この
ような結果になる理由として,検索対象とそれを表現するクエリーとの間にずれが生
じるからである.したがって,この種の検索システムでは検索結果の評価が不可欠で
ある.
検索結果がどの程度満足できるのかということを示す概念は,適合性と呼ばれる.
情報検索の目的が情報要求を満たす情報の提供であるため,適合性の概念は極めて
重要である.ところが,適合性の普遍的な定義は存在しないため,測定尺度として
Aslib Craneld 実験によって確立された適合率,再現率が一般的に使用されている.
[13, 14]
適合率とは検索されるべき情報のうち検索された情報の割合,再現率とは検索結
果のうち情報要求に適合した情報の割合である.また,適合率と再現率は逆の関係に
あり,単純に片方を上げようとするともう一方の値が下がる.したがって,どちらか
片方の値のみの評価では不当な結論となりかねないため,適合率と再現率の両方を総
合的に評価する必要がある.
2.5
関連研究
現在,あるキーワードから,有効なデータベースを自動的に探索するための手法
が提案されている.また,Web 文書検索エンジンによる大量の検索結果を効率的に
閲覧するための手法として,検索結果のクラスタリング手法が提案されている.
2.5.1
GlOSS
GlOS S
[1, 2, 3] とは,複数のデータベースから,キーワードにとって最も有効で
あると思われるデータベースを選び出すためのシステムである.
データベースそのものをランキングする試みがなされていることが,本研究との
類似点である.ところが,GlOS S では全て同等の扱いがされているデータベースを
扱うことに対し,本研究では階層化されたデータベースを扱う点が異なる.
2.5.2
SavvySearch
SavvySearch とは,複数の検索エンジンを集約したメタ検索エンジンである.同
時に複数の異なる検索エンジンへ問い合わせ,それぞれの検索結果のランキング順位
などを基に,再びランキングし直す.
6
複数の検索エンジンを使用してより良い結果を得ようとしていることは,本研究
との類似点である.ただ,この検索エンジンはクラスタリングを目的として作られた
ものでは無いことや,異なるデータベースに対して同等に扱っている点が本研究と異
なる.また,ディレクトリ型検索エンジンとロボット型検索エンジンを同等に扱って
いることも,本研究との相違点として挙げられる.
2.5.3
クラスタリング付き TITAN
TITAN とは,ロボット型検索エンジンのひとつである.ところが,ロボット型検
索エンジン本来の機能に加えて,単語の出現頻度による単語の重要度の変化に注目す
ることによる検索結果のクラスタリングを行う機能を持つ.
クラスタリング付き TITAN は次のような特徴を持つ.
TITAN の検索結果がいくつかのクラスタに自動分類され,各グループを特徴
づける.
初期の検索で得られたグループから適当であると思われるものを選択し,それ
らに基づいた再分類を行う.
次のような方法で Web 文書を処理している.
1. 検索結果におけるあるページの中の単語へ,tf/idf 法による得点を付ける.
2. 特徴分布は,そこに含まれる単語の得点分布により定まる.
3. 似たような単語の得点分布を持つページを同じグループへ配置する.
結果の画面において,クラスタおよび検索結果の配列順には特に意味は無い.
本研究との類似点は,単語の頻度情報を用いて Web 文書のクラスタリングを行う
試みがなされてる点である.また相違点は,TITAN では文書のスタイルに注目して
いない点,ディレクトリ型検索エンジンではなく文書自身でクラスタリングしようと
している点である.
7
第 3章
特徴ベクト ルの生成
本研究では,ロボット型検索エンジンによって得られた結果を,ディレクトリ型
検索エンジンの情報によってクラスタリングする手法について提案する.つまり,本
研究は検索エンジンの中のメタ検索エンジンという分類に属する.
あらかじめ,ディレクトリ型検索エンジンによって得られたディレクトリ全てに
特徴を表す情報を付与しておく.クラスタリングのために,ロボット型検索エンジン
によって得られた検索結果に特徴を表す情報を与える.そして,ロボット型検索エン
ジンによって得られた検索結果とディレクトリ型検索エンジンによって得られた検索
結果それぞれに付与された特徴を表す情報の類似度を計算する.その結果一番類似し
ていると考えられるディレクトリへ,ロボット型検索エンジンによって得られた検索
結果を分別する.
本研究では,現在の Web 文書検索手法において最も一般的な手法である,単語の
頻度情報を用いる.更に,この情報に Web 文書のスタイルを表す情報も併せて考え
ることにより,より高度な Web 文書の検索が可能となるものと考える.
そのためには,ディレクトリにおける特徴ベクトルを文書における特徴ベクトル
と比較することが可能なように構築しなければならない.また,ディレクトリ構造は
ノード の構造が木構造であることに由来するため,ノードの情報が木構造を反映され
たものでなければならない.
3.1
Web
文書の特徴ベクト ル生成
ノードに対する特徴ベクトルを作成するためには,Web 文書それぞれにおける情
報を作成しなければならない.ここでは,1 つの Web 文書を考えて特徴ベクトルを
作成し,それらに基づいてディレクトリの特徴ベクトルを作成するといった手法を
とる.
8
3.1.1
形態素の頻度情報
文書を形態素の単位に分割し,各形態素の要素の出現頻度を求める.
3.1.2
文章のスタイルを表す情報
文章のスタイルを表す情報として,本研究では次のような情報を考える.
文字の種類
文章中の文字群の中で,次の文字の種類の割合
{ 漢字
{ ひらがな
{ カタカナ
{ 数字
{ 英字
{ 記号
語尾
文の数を 1 とした場合の「だ 」や「です」,体言止めで終る文の数
句読点間の長さ・文の長さ
句読点から句読点までの文字数の平均値
図の量
1 つの文における絵の数
Web 文書 1 つに対して,各要素を数値化する.ここで Web 文書の場合,句点以外で
文の切れ目が存在する可能性があるため,文法上正確であると考えられる文を自動的
に区切る操作を行ことは困難である.ところが,句点以外の情報を文の区切りの推定
に活用しようとすると,文の区切りの位置が不正確になる可能性がある.また,
「だ 」
などに属する単語は文中でも使われるため,形態素解析による情報のみで判断するこ
とは非常に困難である.そこで,ここでは句点の数を文の数であると定義し,
「だ」で
終わる文の数は句点の数から「です」で終わる文の数であると定義する.
9
ディレクト リの特徴ベクト ル生成
3.2
デ ィレクトリの特徴ベクトルを次のように定義する.これらの定義はスタイルを
表す特徴ベクトルと単語の頻度を表す特徴ベクトルにそれぞれ適用する.
デ ィレクトリにサブデ ィレクトリが存在しない場合
デ ィレクトリにあるファイルの特徴ベクトルの各要素の総和を求める.
デ ィレクトリにサブデ ィレクトリが存在する場合
デ ィレクトリにあるファイルの特徴ベクトルの各要素の総和と,サブディレク
トリの特徴ベクトルの各要素の総和を求める.
形態素の頻度については使用する要素を特定できないため,特徴ベクトルを正規化し
ない.文書のスタイルを表す情報については使用する要素が特定できるため,各ディ
レクトリの特徴ベクトルを正規化する.
3.3
特徴ベクト ルの比較
特徴ベクトルを比較するために,頻度情報によるベクトル空間と文書のスタイル
を表す情報によるベクトル空間という 2 つの異なる種類のベクトルを別々に考えなけ
ればならない.よって,まずそれぞれのベクトルを個別に比較し,それぞれの評価値
を合成することによって,2 つの特徴ベクトルを併せた評価値を作成する,といった
手法を考える.
3.3.1
頻度情報ベクト ルの比較
ロボット型検索エンジンで検索された Web ページと,ディレクトリ型検索エンジ
ンで検索された Web ページを,それぞれの頻度情報ベクトルを用いて比較する.頻
度情報ベクトルの基底を,ロボット型検索エンジンで検索された Web ページにおけ
る頻度情報ベクトルの要素であると定める.
比較する方法には,tf/idf 法による各形態素の重みの総和を正規化したものを用い
る.つまり,ロボット型検索エンジンで検索された Web ページにおける頻度情報の
要素それぞれを tf/idf 法によって重みを求め,それらの重みの総和をそれぞれの Web
文書間の類似度を評価するための値であると定義する.つまり,評価値が高ければ高
いほど Web 文書間は類似していると判定することができる.
10
頻度情報による評価値を Wm ,ロボット型検索エンジンによって検索された文書
における特徴ベクトルの要素のうち,ディレクトリの特徴ベクトルに含まれる形態素
に対応する要素のみのベクトルを am ,ディレクトリ型検索エンジンの特徴ベクトル
の要素を bm とするとき,Wm を
Wm
=
a m 1 bm
jamjjbmj
(3:1)
と定義する.これはコサイン相関値 [15] と呼ばれる評価方法であり,相関関係が高い
程 Wm は高くなる.
am ,bm を比較する時,どちらかのベクトルの要素が 0 である要素が比較的多い
ものと思われる.このような場合,ベクトルの終点間距離などで評価値を求めてしま
うと,いずれかのベクトルの要素が 0 である部分の重みが非常に大きくなってしま
う.いずれかのベクトルの要素が 0 であるような部分を評価値に大きく反映してしま
うのを防ぐために,コサイン相関値を用いた.
3.3.2
文書のスタイル情報ベクト ルの比較
ロボット型検索エンジンで検索された Web ページと,ディレクトリ型検索エンジ
ンで検索された Web ページを,それぞれの文書のスタイル情報ベクトルを用いて比
較する.
比較する方法として,それぞれのベクトルの終点間距離を計算してそれを類似度
として考える手法をとる.つまり,評価値が低い程,Web 文書間は類似していると
判定することができる.
文書のスタイル情報による評価値を Wi ,ロボット型検索エンジンによって検索さ
れた文書における特徴ベクトルの要素,ディレクトリの特徴ベクトルの要素をそれぞ
れ am ; bm と定義するとき,Wm を
Wi
= jbm 0 am j
(3:2)
と定義する.これは,ベクトルの終点間距離を求めた式である.それぞれのベクトル
はあらかじめ正規化されている.また,Wi は相関値が高いほど低い値になる.
文書のスタイルファイルの特徴ベクトルは,am ; bm それぞれ 0 となることが少
ない.また,そのような状態を特徴として評価値に反映させるため,ベクトルの終点
間距離による評価値を用いた.
11
3.3.3
頻度情報ベクト ルと文書のスタイル情報ベクト ルの評価値の
合成
2 つのベクトル情報から,それぞれ評価値を作成した.ここで,それぞれの評価
値を合成して新たな評価値を作成する.評価値を合成するにあたって,2 つのベクト
ルを同等に扱うような工夫が必要である.よって,次のような評価値を提案する.
2 つのベクトル情報の類似度を W とすると,
W
Wm
=
Wm
Wi
(3:3)
が高い値であり,Wi が低い値である場合が一番相関関係が高い場合であると言
える.
以上によって得られた,Web 文書とディレクトリとの類似度を表す評価値を,ディ
レクトリ型検索エンジンにおける全てのディレクトリと比較してゆく.その結果,一
番類似していると判断されたディレクトリに Web 文書を分類する.これらの分類を,
ロボット型検索エンジンによって検索された Web 文書全てに対して行なうことによっ
て,大量の検索結果から容易にユーザの求めていた Web 文書を選び出すことが可能
になる.
12
第 4 章 システムの実装
以下に述べるシステムは CGI を用いて動作するものであり,全て Web ブラウザ
上で動作する.なお,実装するための言語として Perl を用い,ディレクトリ型検索
エンジンとして Yahoo!JAPAN,ロボット型検索エンジンとして goo を用いた.
システムの構成
4.1
システムの全体構成を図 4.1に示す.
システムは,大きく 2 つに分けることができる.
Yahoo!JAPAN を用いたディレクトリ情報データベースの構築
goo を用いたロボット型検索エンジンによる検索結果のクラスタリング
以下,それぞれについての詳細を記述する.
4.2
システムの概要
ロボット型検索エンジンによる検索結果を分類するためには,まず分類の指標と
なるデータベースを構築しなければならない.本研究では,ディレクトリ型データ
ベースによる階層型データベースを構築することを考える.以下では,まず階層型
データベースの構築部分を述べた後,ロボット型検索エンジンによる検索結果をクラ
スタリングする部分について述べる.
4.2.1
ディレクトリ型検索エンジンによるディレクトリデータベース
の構築
デ ィレクトリ型検索エンジンから階層型データベースを構築する手段について述
べる.
13
Keywords
Results
Robot Search Engine
goo
Result of Web Documents
Comparing
Informed Yahoo Directory
Directory by Results
Figure 4.1: The Way of Clutering Web Documents
14
ディレクト リの構築
まず,ディレクトリ型検索エンジンにおけるディレクトリ構造に基づいて,サー
バでディレクトリを構築する.そして,ディレクトリに含まれる Web ページも取り
込む. つまり,図 4.2の前半部分の作業を行なう.
A Construction of Directory-type Search Engine
Analyze Web Documents
A Construction of Directory with Informed Web Documents
Analyze Directory
A Construction of Informed Directory based on Web Documents
Directory
Informed Directory
Web Document
Informed Web Document
Figure 4.2: The Way of Analyzing Directory Databases
15
ディレクト リ型の検索エンジンにおける特徴ベクト ル計算
まず,それぞれのディレクトリに含まれる Web 文書全てにおいて,単語の頻度情
報,文書のスタイルを表す情報を計算する.計算しているディレクトリにサブディレ
クトリが含まれる場合は,まずサブデ ィレクトリの特徴ベクトルを計算する.サブ
ディレクトリを含む場合は,サブディレクトリの特徴ベクトルと計算しているディレ
クトリの特徴ベクトルのそれぞれの和を,ディレクトリにおける特徴ベクトルとした.
4.2.2
ロボット 型検索エンジンによる検索結果のクラスタリング
ロボット型検索エンジンによりキーワードから検索結果を取得する.検索結果の
ページを読み込み,検索結果となるページを読み込む.検索されたページの特徴ベク
トル計算を行い,ディレクトリ型検索エンジンにおける各ディレクトリの特徴ベクト
ルとの比較を行う.比較して一番類似度の高いディレクトリに対して,ロボット型検
索エンジンによって得られた Web ページを割り当てる.
4.3
システムの実行例
実際に,入力として「データベース」を入力した結果,次のような結果が得られ
た.時間を短縮するため,ディレクトリの検索範囲を 2 階層までに制限した.
結果の作成
http://www.hmd.rd.nacsis.ac.jp/Members/nakayama/TVstation.html は
このディレクトリに入ります:
/Society_and_Culture/Population
http://www.sorifu.go.jp/intro/kouhou/tv1.html は
このディレクトリに入ります:
/Business_and_Economy/Marketing
http://www.ccom.or.jp/home/link/l_news.html は
このディレクトリに入ります:
/Science/Institutes
16
・
・
・以下略・
・
・
結果の 1 行目は対象となる URL であり,3 行目はクラスタリングされた Ya-
hoo!JAPAN のディレクトリである.
実行時間は,ディレクトリ情報を構築する時間が約 4 日,検索に必要な時間が約
3 日程度であった.
4.4
システムの評価
500 の文書をクラスタリングした結果を以下に記す.
Table 4.1: A Result of System Using Document Style Information
Number of Documents Percentage(%)
Collect
183
36.6
Incollect
307
61.4
Miss
10
2.0
Table 4.2: A Result of System Not Using Document Style Information
Number of Documents Percentage(%)
Collect
7
1.4
Incollect
484
96.8
Miss
10
2.0
同じ目的で実装されているシステムが現在存在しないため,他のシステムと比較
することはできない.だが,再現率は goo のシステムと同じであることは明らかであ
る.goo と比較して適合している Web ページの割合が増えていることから,適合率
が明らかに向上していると言える.
また,文書のスタイル情報を用いることで,適合する Web 文書の割合が増加して
いることがわかった.
4.5
考察
以下のような結果が得られた.
17
検索にキーワード 以外の情報として文書のスタイル情報を用いることによって,
再現率を低下させることなく適合率が向上した
検索結果をディレクトリに分けることによって,よりユーザの求める結果を出
力することができるようになった
18
第 5章
結論と問題点
本研究は,ロボット型検索エンジンによって出力された大量の検索結果を,ディ
レクトリ型検索エンジンにおけるディレクトリ構造に含まれる文書の傾向を利用して
分類し,ユーザの労力を軽減しようというものである.
利点としては,次のようなものが挙げられる.
デ ィレクトリ構造を用いた情報の発見
単語の出現頻度とは違った特徴ベクトルの生成による適合率の上昇
本研究の問題点として以下のものが挙げられる.
ディレクトリ構造が Web 文書の代表となる文書に基づいている情報であるのに
対して,ロボット型検索エンジンによる検索結果は全てのページを対象として
いるため,不適切な比較をする場合がある
時間がかかりすぎるため,実用的なシステムであるとはいえない
インターフェースとして使いやすいシステムであるとはいえない
よって,今後の課題として以下のものが挙げられる.
検索時間を短縮するための工夫
単語の共起関係を用いた特徴ベクトルの生成
インターフェースの作成
検索結果の履歴を用いたディレクトリにおける特徴ベクトルの作成
19
謝辞
研究全般にわたりまして、ご指導を賜りました田中克己教授に厚く御礼申し上げ
ます。また日頃より様々なご協力を頂きました情報知能工学科の諸先生方へ感謝の意
をあらわします。
更に,本研究について様々な面でサポートして頂きました田中研究室の皆様方や
諸先輩方に,感謝の意を表します.
20
参考文献
[1] Luis Gravano,Hector Garcia-Molina:
\Generalizing GlOSS to Vector-Space Databases and Broker Hierarchies",
VLDB 1995,pp78-89.
[2] Luis Gravano,Hector Garcia-Molina,Anthony Tomasic:
\The Eectiveness of GlOSS for the Text Database Discovery Problem",
SIGMOD Conference 1994,pp126-137.
[3] Luis Gravano,Hector Garcia-Molina:
\Merging Ranks from Heterogeneous Internet Sources",
VLDB 1997,pp196-205.
[4] Yahoo!JAPAN:http://www.yahoo.co.jp/
[5] CSJ インデックス:http://www.csj.co.jp/csjindex/
[6] goo:http://www.goo.ne.jp/
[7] AltaVista:http://www.altavista.com/
[8] SavvySearch:http://www.savvysearch.com/
[9] MetaSearch:http://www.shiratori.riec.tohoku.ac.jp/ kihara/metasearch.html
[10] 松本裕治, 北内啓, 山下達雄, 今一修, 今村友明:
\日本語形態素解析システム『茶筌』version1.0 使用説明書",
NAIST Technical Report,NAIST-IS-TR97007,February 1997.
[11] 松本裕治, 黒橋禎夫, 宇津呂武仁, 妙木裕, 長尾真:
\日本語形態素解析システム JUMAN 使用説明書 version2.0",
NAIST Technical Report,NAIST-IS-TR94025,July 1994.
21
[12] Gerard Salton:
\Automatic text processing:the transform,analysis,and retrieval of infomation
by computer",
Addison Wesley,1989.
[13] Claverdon,W.C.:Aslib Craneld Reserch Project:
\Report on the First Stage of an Investigationinto the Comparative Eeciency
of Indexing System",
College of Aeronautics Technical report,1960.
[14] Claverdon,W.C.,C.,Mills,J.and E.,K.M.:Aslib Craneld Reserch Project:
\Factors Determining the Performance of Indexing System,Design",
Craneld,1966.
[15] P.Ingwersen:
\Informationn Retrieval: A Cognitive Approach", トッパン ,1995.
[16] G.Salton:
\The SMART Reyrieval System-Experiments in Automatic Document Processing",
Prentice-Hall Inc,Englewood Clis.
22