語の共起関係を用いたアドホックドメイン指定検索について 藤巻伸洋 大囿忠親 新谷虎松 (名古屋工業大学) 1 はじめに Algorithm 1 function EvalDocuments(doms:documents,docs:documents):sorted documents Matrix Mdoms ← doms から得られる共起行列 foreach document dk in docs do Matrix Md ← dk から得られる共起行列 scorek : dk の評価値 mxi : Mx の語 ti に対応したベクトル T : doms と dk に含まれる異なり語の総数 既存の検索エンジンを利用した検索では,ユーザが真に望む結果を得るためのクエ リーを作成することは一般には困難である.これに対し,要求に応じた専門検索エン ジンを利用することで,よりユーザの望む結果が得られると言われている.中でも, 既存の検索エンジンを利用して,専門検索エンジンのような検索結果を得られるよう にする研究が行われている.[1] では,専門分野の文書から,実用的な学習手法を用い て,その分野の文書を検索するのに使えるクエリー拡張用のキーワードの導出を行っ ている.しかし,専門検索が可能なのはあらかじめ学習を行った分野に対してのみと なってしまう.これに対して,本研究ではアドホックなドメイン指定検索を提案する. アドホックなドメイン指定検索とは,システムが事前に専門分野に関する情報を用意 することなく,ユーザによって指定された検索対象分野からの検索を可能とした専門 検索である.これにより,特定の分野に限らない専門検索が可能となり,既存の検索 エンジンよりも容易に検索を行うことが出来る. 2 共起行列間の類似度は,二つの共起行列の行を比較することで評価する.共起行列 の行は,ある語が他の語とどのような共起関係にあるかを示している.よって共起行 列の同じ語に関する行が類似しているならば,それは共起行列が類似していると言え る.本研究では対応する全ての行をコサイン尺度を用いて比較し,その平均を共起行 列間の類似度と定義する. アドホックドメイン指定検索の実装 本研究で提案するアドホックドメイン指定検索における文書評価のアルゴリズムを 図 1 に示す.本手法ではユーザから二つのクエリーを入力として受け取る.一つはド T · mdi 1 X mdoms i doms T |mi | · |mdi | i end return docs を score の降順に並べ替えた結果 end ドメイン指定検索と語の共起関係 本研究におけるドメインとは,特定の分野についての話題が記述されている文書の 集合を指す.本研究で提案するドメイン指定検索とは,目的の文書が属するドメイン をユーザがキーワードで指定することで,検索を支援する検索手法である.一般には AND 検索によってドメイン指定キーワードを検索キーワードに含めて検索するが,そ のドメインに含まれる文書全てがドメイン指定キーワードを含んでいるとは限らない. ドメイン指定検索は,AND 検索では検索できない文書も検索対象にすることが出来 る.本研究ではこのドメイン指定検索に文書内での語の共起性を利用する. 語の共起性とは,ある文書やある文字列の中で,二つの語が共起する頻度を指す. 語の共起性はドメインに依存する傾向がある.よって,あるドメインの文書群と類似 する語の共起性を持つ文書は,そのドメインに属する文書であるという仮説が立てら れる.本研究では,この仮説をドメイン指定検索に利用するために,文書や文書群の もつ語の共起性を共起行列と呼ぶ行列で表し,共起行列間で類似性評価を行う. ある文書集合 D から得られる共起行列 M の要素 mij は,D における語 ti と tj の 互いの条件付き生起確率の平均と定義する.これは D の中で ti (tj ) が含まれる文書数 dfi (dfj ),そして ti と tj が共に出現する文書数 dfij を用いて式 (1) から求めることが 可能である. dfij 1 1 mij = ( + ) (1) 2 dfi dfj 3 scorek ← 図 1: アドホックドメイン指定検索における文書評価アルゴリズム メインを指定するクエリー.そしてもう一つが実際に文書に含まれるキーワードを指 定したクエリー.二つのクエリーで既存の検索エンジンを用いて検索した結果,前者 のクエリーから得られた文書群を doms,後者のクエリーから得られた文書群を docs とする.これらを図 1 の EvalDocument に与える.この結果,docs は指定したドメイ ンに適する順に並び替えられ,ユーザに提示される. 4 評価と考察 本手法の簡単な評価を行ってみた.ここでは,既存の検索エンジンに Google1 を利 用し,人工知能分野の学習に関する情報を検索することを目的とした.まず単純に, “learning” のみの検索では教育関連のページが上位に出現し,目的の人工知能分野の 学習に関する情報は得られなかった.次に検索結果を絞り込むために,AND 検索に よって “Artificial Intelligence” を追加したが,検索結果は人工知能分野のオーソリティ 的な Web ページが上位に出現し,“learning” に関する情報を用意に見つけることは 出来なかった.しかし本手法で,ドメイン指定キーワードに “Artificial Intelligence”, 実際のキーワードに “learning” を用いたところ,検索結果の上位には機械学習関連の Web ページが登場し,下位には生涯学習に関するページや NotFound のページが登場 した.ここから考察すると,本来,目的の文書を検索するには,その文書を特定するの に適したクエリー(ここでは “Machine Learning”)が必要なところ,本手法では「あ る分野(“Artificial Intelligence”)のあるキーワード(“learning”)を含む文書」とい うクエリーで,目的の文書の検索が可能になることがわかった.さらに事前に準備を 必要としないため,特定のドメインに限定されない,アドホックなドメイン指定検索 を実現することが出来たと言える. 参考文献 [1] Satoshi Oyama, Takashi Kokubo, Toru Ishida, Teruhiro Yamada and Yasuhiko Kitamura: “Keyword Spices: A New Method for Building Domain-Specific Web Search Engines”, IJCAI-01, pp.1457-1466, (2001). 1 www.google.com
© Copyright 2024 Paperzz