The 15th Annual Conference of Japanese Society for Articial Intelligence, 2001 ドメイン指向 Web 検索のためのドメイン判別ブール式の抽出 1D1-05 Extracting a Boolean expression of Keywords for Domain-Specic Web Search 小山 聡 小久保 卓31 石田 亨 Satoshi OYAMA Takashi KOKUBO Toru ISHIDA 京都大学大学院 情報学研究科 社会情報学専攻 Department of Social Informatics, Kyoto University This paper presents a new method for extracting a Boolean expression of keywords for domain-specic web search. Our system improves search performance by adding this domain-specic expression to the user's input query; the modied query is then forwarded to a general-purpose search engine. We describe a machine learning algorithm, which is a type of decision-tree learning algorithm, that can extract a simple Boolean expression of keywords from web documents. To demonstrate the value of our method, we conducted experiments in the cooking domain and the results showed the high performance both in precision and recall. 1. はじめに 2. WWW に蓄積されている情報量は日々,急速な勢いで増加を 続けている.しかし最も一般的な Web 情報検索手法である検索 エンジンは,大量の結果から必要な情報に絞り込んでいくために ある程度の知識や経験が必要とされ,多くの初心者にとって使い こなすのは容易ではない.こうした Web 情報検索における問題 の解決法の一つとして,ドメインを限定した専門検索エンジンの 提供が挙げられている [McCallum 99]. これまでに様々な専門検索エンジンの研究が行われているが, 最も単純な専門検索エンジン構築手法は,ロボットによりドメイ ンに関係する Web ページだけを収集してインデックス化したも のである.例としてコンピュータサイエンスの研究論文のための 検索エンジンである Cora[McCallum 99] が挙げられる.ここで ロボットはドメインに特化した学習により WWW を効率的に探 索している.しかし個人のホームページや料理レシピのような多 くのサイト上に広く分散している Web ページに対しては,ペー ジの収集にかかる時間やネットワーク帯域を消費する点から個々 の専門検索エンジンがロボットを用いるのは現実的ではなく,こ の手法は Web サイトの数が限られたドメインに適した方法とい える. 専門検索エンジンの構築に汎用検索エンジンの巨大なインデッ クスを利用することは有効な手法である.例えば Ahoy![Shakes 97] は個人ホームページの検索に特化した検索エンジンである.この システムはユーザの検索式を汎用検索エンジンに転送し,得られ た結果からドメインに属するページを判別するフィルタを用いて 不必要なページを削除する.しかしこのフィルタの性能は人間の 作り込んだ知識に依存しており,他のドメインへの適用も困難で ある. そこで本稿では,専門検索エンジンを構築する新たな手法を提 案する.その手法を実現する機械学習のアルゴリズムを示し,料 理レシピのドメインで提案手法の適用例を示し評価実験を行う. 連絡先: 小山聡,〒 606-8501 京都市左京区吉田本町京都大学大 学院情報学研究科社会情報学専攻, tel:075-753-5389, fax:075- 753-4820, mailto:[email protected] 31 現在, NTT ドコモ(株). ドメイン判別ブール式を用いた専門検索エ ンジン構築モデル ここで専門検索エンジンの構築を機械学習の問題として定義 する. を全ての Web ページ, をドメイン中の全てのキーワー ド集合とし,あるキーワード k をブール変数とした時の全 てのブール式からなる仮説空間を と定義する.ここで我々が ブール仮説空間を考えた理由は,多くの商用検索エンジンがブー ル式による検索をサポートしているからである.キーワードが Web ページに含まれる時にそのキーワード(ブール変数)に 1 を,そ れ以外の時に 0 を割り当てることで,キーワードのブール式は を 0; 1 に写像する関数とみなすことができる.ここでは,ドメ インを正しく判別するブール式 h を学習することが問題と なる. いくつかのサンプルテキストからドメインを判別するフィルタ を自動的に構築する自動テキスト分類は情報検索や機械学習の分 野における主要な研究テーマの一つである.ただしこれらのテキ スト分類の研究のほとんどは,電子メールやネットニュースのよ うに求めたいドメインに属するテキストの比率が高い集合に限定 して適用されている.これに対して WWW の場合,そこからラ ンダムにサンプリングしたとしてもドメインに属するページ(正 例)が含まれる可能性はほとんどないという,訓練集合作成の問 題が存在する. 本稿で提案するモデルは従来のモデルのように汎用検索エン ジンの結果をフィルタリングするのではなく,ユーザの検索式に ドメイン特有のブール式を結合して汎用検索エンジンに転送する 全く反対のモデルである(図 1).このモデルではドメイン判別 ブール式 h により,ユーザの入力した検索式 k を k h に修正す ることで結果の Web ページが検索式 k を含み,さらにドメイン に属するページとなる.これを,ユーザが気づかないうちにシス テムが適切なキーワードを加えて検索結果を良くしてくれるとい う意味で, \検索隠し味" (Keyword spice[Oyama 01])とよん でいる. このモデルによって,全ての Web ページではなくユーザの入 力するキーワードを含む Web ページだけをドメイン判別ブール 式構築のための学習の対象として考えることが可能となる.つま りサンプリングすべき範囲を全ての Web ページ集合 からキー ワード k を含む Web ページ集合 (k) に減らすことで,サンプ リング集合中のドメインに関係する Web ページの比率を高くす る.それによりランダムサンプリングでは不可能な訓練集合作成 D f g K 2K H D 2H ^ D 1 D The 15th Annual Conference of Japanese Society for Articial Intelligence, 2001 図 図 1: ドメイン判別ブール式を用いた専門検索エンジンの実現モ デル 3.1 ドメイン判別ブール式抽出アルゴリズム 決定木を用いたドメイン判別ブール式の抽出 大さじ ある特定のキーワード(例えば牛肉など)に対するドメイン判 別ブール式を見つけることは比較的容易である.なぜならそのキー ワードを汎用検索エンジンに入力して得られる結果だけから,学 習を行えばよいからである.しかしあるドメインのためのドメイ ン判別ブール式は,将来ユーザが入力すると予想されるキーワー ド全てに対して十分な効果を持つ必要がある. p(k) をユーザがその専門検索エンジンに入力するキーワード k の確率分布とすると,そのユーザからみてシステムが正しい分 類を返す期待値は次の式で表される. X X k2K p( k ) ドメイン判別ブール式の単純化 3.2 一般に枝刈りを行わずにに作成した決定木は訓練集合への過 学習のため他の問題に対する性能が低く,しかも木が大きくなる ためそこから導かれるブール式は複雑で商用検索エンジンに入力 できないという問題が生じる.そこで,我々は Rule post-pruning [Quinlan 93] と同様の 2 段階の枝刈り手法を考案した.本アル ゴリズムでは次の処理を行う. 1 ここで f (d) はドメインを識別する理想的な関数とする. そしてこの値を最小化するブール式が最も効果的なドメイン判 別ブール式と言え,それを求めるためには学習のための訓練集合 作成に p(k) を用いる必要がある.しかし事前にこれを得ること は難しいため,適当な p(k) から始めて,ユーザが入力したキー ワードを収集することで p(k ) の修正を行っていくことが妥当と いえる. 本論文では適用例としてレシピ専門検索エンジンの構築を試 みた.その際,料理ドメインの食材リストからいくつかのキーワー ドを適当に選択し学習を行うこととした. まず収集した Web ページを訓練集合 training と検証集合 test の 2 つの集合に分割する.そして訓練集合に対して, ID3[Quinlan で使用されている情報量に基づく決定木学習アルゴリズムを適用 して決定木を得る.学習手法として決定木を使用した理由は,決 定木は多くの検索エンジンがサポートするブール式に容易に変換 することができるからである. 図 2に単純な決定木の例を示す.決定木において各キーワード は 1 (Web ページがそのキーワードを含むとき)と 0 (含まな いとき)の値を持つ属性として扱われる.そして図 2の決定木は Web ページを T (料理レシピページ)と F (料理レシピ以外の ページ)の 2 つのクラスに分類するものであり,例えば \大さじ" を含まず \作り方" を含み \家庭" を含まず \トップ" を含まない Web ページはクラス T に分類される. D _ (:大さじ ^ 作り方 ^ :家庭 ^ :トップ) _(:大さじ _ :作り方 ^ こしょう ^ :鍋) がその式となる. jD(k)j ((k ^ h)(d); f (d)) d2D(k) D ドメインに属するページを判別する決定木の例 検索エンジンに入力できるブール式を作るために決定木のノー ドから葉へのパスから検索式を作成する.ただしドメインに属す る Web ページが抜き出せればよいので,ドメインに属する葉へ のパスだけを選択する.ここで各積項はパス上のリテラル(キー ワードを含む場合は正,含まない場合は負)の論理積で表現され る.そしてそれらの積項の論理和をとった和標準形が訓練集合の ドメインに属するページだけを全て抜き出すドメイン判別ブール 式となる.図 2の決定木では の問題を解決し,学習アルゴリズムを適用することが可能となる. これは,検索エンジンであればユーザは何らかの初期キーワード を入れるという事実を利用したものである. 3. 2: 1. ドメイン判別ブール式内の各積項からの不要なキーワード (リテラル)の削除. 2. ドメイン判別ブール式(和標準形)からの不要な積項の除 去. 第 1 段階が Rule post-pruning におけるルールの単純化,第 2 段 階がルール集合からのルールの削除に対応している. 情報検索における性能評価では,適合率と再現率がよく用いら れる.ここでの適合率 P と再現率 R は,検証集合に対するもの であり, domain と spice をそれぞれ,検証集合 test 中の人 間がドメインに属すると判断したページ集合と検索式がドメイン 86]に属すると判定したページ集合とすると, 2 D P = D D jDspice \ Ddomainj ; jDspicej R = jDspice \ Ddomainj jDdomainj の形で定義される. 本アルゴリズムでは単純化を行う際に,これらの適合率と再現 率の調和平均(Harmonic mean) [Shaw Jr. 97] F の値を用いる. = 2 1 + R P 1 The 15th Annual Conference of Japanese Society for Articial Intelligence, 2001 調和平均は,低い値を示す方に重みをおくという性質があり, 再現率,適合率が両方高い場合にしか高い値を取らない.そこで, F を高くする方向に検索式の単純化を行って行けば,再現率と適 合率のバランスの取れたドメイン判別ブール式を抽出することが 可能となる. 単純化の第 1 段階では,我々はそれぞれの積項を独立した検索 式として扱う.積項の検証集合に対する再現率,適合率の調和平 均を計算し,この値が最も大きくなるようなリテラルを積項から 取り除く.この過程をどのリテラルを削除しても調和平均が低下 する状態になるまで繰り返す. 積項からキーワードが削除される場合再現率は増加するか等し いままである.単純化前の積項においては一般に適合率が高く, 再現率が低い状態にある.そこで調和平均 F を単純化の指標に 用いると低い値の方に重きを置くため,多少の適合率の低下で再 現率が向上する場合,キーワードを取り除くことができる.ただ し調和平均を用いる場合の問題点として,最初の積項が含むドメ インに属するページ数が非常に少ない,すなわち R が小さい場 合,この値を大きくすることで F を大きくする作用のために, ドメインに属するページを多く含む反面,ドメインに属さないペー ジも多く含む積項が生成される.ただしこのような積項は次に示 す和標準形の単純化において削除されるため,最終的には問題と ならない. 次の段階ではさらに検索式を単純化するため,和標準形のブー ル式から不要な積項を取り除くことを行う.和標準形の検証集合 に対する再現率,適合率の調和平均を計算し,この値が最も大き くなるような積項を和標準形から取り除く.この過程をどの積項 を削除しても和標準形の調和平均が低下する状態になるまで繰り 返す. 最初の段階の単純化の後で,それぞれの積項は一般化され,検 証集合中の多くの例を含む状態にある.ここで,和標準形の再現 率は高い状態にあるが,いくつかの積項は多くの不適合なページ を含んでいる.我々は再現率の低下と引き替えに適合率を向上さ せる積項を削除することになる. ドメインに属するページは他の積項によっても含まれている場 合が多いため,ドメインに属さないページを多く含む積項を再現 率の大きな低下を引き起こさずにこの段階で削除することができ る.そして最終的に単純なドメイン判別ブール式が生成される. 図 3に以上で述べたアルゴリズムを示す. 4. pk kを 決め,そのキーワードを含む Web ページを収集する.そしてそれ ぞれがドメインに属するページかそうでないかを分類する. 0. ユーザの投入キーワードの予想分布 ( ) から入力キーワード 1. Web ページ集合を初期決定木を作るための訓練集合 Dtraining と ブール式の単純化を行うための検証集合 Dtest に分割する. 2. から葉へのパス上のキーワードの論理積をとり,それぞれ積項から なる検索式に変換する. 4. 全ての積項の論理和をとることでブール式の和標準形 5. Fc = 2 1 Rc + 1 Pc の値が最も増加するようにキーワードを取り除く. どのキーワードを削除しても Fc が減少する. 6. Until End Repeat 和標準形 h の検証集合に対する適合率 Ph と再現率 Rh の調和平均 Fh = 2 1 Rh + 1 Ph の値が最も増加するように h から積項を取り除く. Until どの積項を削除しても Fh が減少する. Return h 図 3: ドメイン判別ブール式抽出アルゴリズム 結果,次の検索式が抽出された. (材料 ^ :専門 ^ :商品) _ 大さじ これはキーワード数 4 と大きく単純化されており,ブール式をサ ポートした検索エンジンのどれにでも入力することができる. 5. 前章で述べたように,我々は本手法の適用例として料理レシピ ドメインを選択し, \牛肉", \鶏肉", \ピーマン", \じゃがい も", \かぼちゃ", \大根", \鮭", \豆腐", \トマト", \白身魚" の キーワードを商用検索エンジン goo31 に投入し,各 200 件ずつ Web ページの収集を行った.収集した Web ページがレシピページか どうかを人間が分類した結果, 2000 件のうち 565 件が料理レシ ピのページであった. これらの収集した Web ページを,訓練集合と検証集合に分割 した.この際 Web ページがレシピページかどうか,またどのキー ワードを用いて収集されたページかということは考慮せず,ラン ダムに分割を行い,ドメイン判別ブール式の抽出を行った.その 結果としてノード数 45 の決定木が得られ,ここから単純に導か れるブール式は積項が 10 でキーワード数が 65 の非常に複雑なも のとなった.しかしこの決定木に前章のアルゴリズムを適用した 31 For each 積項 c in h do Repeat h を得る. キーワードの積項 c の検証集合に対する適合率 Pc と再現率 Rc の調和平均 料理レシピドメインへの適用 f Dtraining から決定木学習アルゴリズムを用いて初期決定木を作る. 3. 決定木において,ドメインに属する Web ページを分類するノード g http://www.goo.ne.jp/ 3 評価実験 前章で求めた判別式を使って,料理レシピドメインにおいて本 手法の検索能力の評価実験を行った.このとき汎用検索エンジン には goo を使用し,ユーザが入力するキーワードとしてドメイン 判別ブール式を抽出するための Web ページ収集に使用しなかっ た \豚肉",\ほうれん草",\エビ" の 3 つのキーワードを用いた. f 5.1 g 適合率 3 つのキーワードについて, goo にキーワードだけを入力した 場合とドメイン判別ブール式と論理積をとって入力した場合の結 果上位 1000 件を見たときの適合率,すなわちレシピページの割 合を調べた.表 4にキーワードが \豚肉" の場合の,検索結果の 上位から累積した Web ページにおける適合率の推移を示す.ま たそれぞれの検索式での上位 1000 件の適合率を表 1に示す.表 1から本手法によって適合率が飛躍的に向上したことがわかる. 5.2 推定再現率 次に我々はこの手法により再現率がどのように変化するかの評 価も行った.再現率とは検索されなければいけない Web ページ の内,実際に検索できたものの割合であり,これを無視すれば適 合率を高くするのは容易である.ただし WWW 中の全レシピペー ジの数が分からないため,正確な再現率を求めるのは困難である. The 15th Annual Conference of Japanese Society for Articial Intelligence, 2001 6. おわりに 本論文では新たな専門検索エンジン構築手法として,検索結果 を向上させるドメイン判別ブール式をユーザの入力検索式に加え, 汎用検索エンジンに転送するというモデルを提案した.そして本 手法により従来のシステムで必要とされていた専門 Web ロボッ トや人間による知識の作りこみ無しに容易に専門検索エンジンを 構築することを可能にした.またドメイン判別ブール式を Web ページ集合から抽出する学習アルゴリズムを開発した.このアル ゴリズムにより一般の検索エンジンに入力可能な単純なドメイン 判別ブール式を抜き出すことが可能となる.そして実際に料理レ シピドメインでドメイン判別ブール式を抽出し,それを用いた評 価実験から,本手法により適合率を飛躍的に向上させることが確 認できた.さらに検索エンジンの出力結果を用いて再現率の推定 を行い,再現率の低下もわずかであることを確認した. 本手法で導出した検索隠し味は,山田ら [山田 01] の開発した 情報検索エージェントの中で実際に用いられている.今回は本手 法の適用例として料理レシピドメインを選択したが,今後はレス トランや個人ホームページといった他のドメインについても専門 検索エンジンを構築する予定である.さらに現在は人手で行って いる訓練集合の分類に関しても,ディレクトリ型検索エンジンな どに含まれる情報を利用することで,全手順を自動のアルゴリズ ムにすることを検討している. ¡ ' ¸ h·ª·1B ·s Ýgh·ª· 図 4: ドメイン判別ブール式(検索隠し味)を付加した場合とし ない場合の適合率の比較 表 1: 上位 1000 件の適合率の比較 キーワード キーワードのみ ドメイン判別ブール式付き キーワード 豚肉 ほうれん草 エビ 0.271 0.995 0.205 0.063 0.979 0.986 そこで我々は汎用検索エンジンの結果から再現率を推定する方法 を考案した.まず検索結果として表示される検索式に適合する Web ページの総数(ヒット数)と,先に求めた 1000 件の適合率から, 検索結果中のレシピページの総数を次の式で推定する. ' 2 (1000 件の適合率) (検索結果中のレシピページ数) (検索ヒット数) [Quinlan 93] Quinlan, J. R.: C4.5:Programs for Machine Learning, Morgan Kaufmann (1993). [Shakes 97] 表 2は goo の検索結果と先の適合率を利用して求めた推定再現 率である.この表から再現率に関しても 86% 以上と,高い値を 保っていることが分かる.つまり我々の用いた手法がドメインに 属さない Web ページだけを排除して,ドメインに属するページ はほとんど取り除いていないことが分かる. 以上の結果からドメイン判別ブール式を用いた手法が,専門検 索エンジンを構築する手法として非常に効果的であることが確か められた. 豚肉 ほうれん草 エビ 10084 4126 0.9400 0.8695 5868 5728 0.9761 Shakes, J., Langheinrich, M., and Etzioni, O.: Dynamic Reference Sifting: a Case Study in the Homepage Domain, in Proceedings of the 6th International World Wide Web Conference(WWW6), pp. 189{200 (1997). [Shaw Jr. 97] Shaw Jr., W. M., Burgin, R., and Howell, P.: Performance Standards and Evaluations in IR Test Collections: Cluster-Based Retrieval Models, Information Processing & Management, Vol. 33, No. 1, pp. 1{14 (1997). 推定再現率 10728 4744 Oyama, S., Kokubo, T., Yamada, T., Kitamura, Y., and Ishida, T.: Keyword Spices: A New Method for Building Domain-Specic Web Search Engines, in Proceedings of the 17th International Joint Conference on Articial Intelligence (IJCAI-01) (2001), to appear. [Quinlan 86] Quinlan, J. R.: Induction of Decision Trees, Machine Learning, Vol. 1, pp. 81{106 (1986). ' 表 2: 推定再現率 Reldockeyword Reldocspice [McCallum 99] McCallum, A., Nigam, K., Rennie, J., and Seymore, K.: A Machine Learning Approach to Building Domain-Specic Search Engines, in IJCAI-99, pp. 662{667 (1999). [Oyama 01] このようにして,もとのキーワードのみで検索可能なレシピペー ジ数 Reldockeyword をおよびドメイン判別ブール式を付加した 場合に検索可能なレシピページの総数 Reldocspice を求めること ができる. ここで全ての Web ページを知ることは不可能であるので,検 索エンジンで検索できる Web ページを全 Web ページとみなす こととする.つまり Reldocindex があるキーワードを含みドメイ ンに属する(ここならレシピ)ページの全てということとする. そのときドメイン判別ブール式を付加した場合の再現率は次の式 で表される. Reldocspice R Reldockeyword Query 参考文献 [山田 01] 4 山田, 小久保, 北村:マルチキャラクタインタフェー スを用いたWeb情報統合, 第 15 回人工知能学 会全国大会 (2001).
© Copyright 2026 Paperzz