関連検索ワードを用いたユーザーの検索意図予測

琉球大学主催 工学部情報工学科 卒業研究発表会
関連検索ワードを用いたユーザーの検索意図予測
065761B:山城光 指導教員 : 遠藤聡志
2010/11/19(Fri)
1
はじめに
れる単語を抽出し、それぞれタグクラウドをつくる。つく
られたタグクラドに共通のタグがあるかを探し、得られた
インターネットの普及により大勢の人が web を通して情
単語群に対して、tf・idf や TermExtract にて重要度計算
報を得ることができるようになった。しかしその反面、得ら
をし重要度の高いものを検索結果に対する答えの候補とし
れる情報が膨大になり情報の取捨選択が難しくなる、雑多
てユーザに提示する。提示された結果には、ユーザーの要
な情報に得たい情報が埋もれてしまうこと等が頻繁に起こ
求する回答そのものが含まれる場合や、そうでない場合で
るようになった。すなわち現在利用されている検索エンジン
も新たな検索クエリが発見されることが期待できる。
の検索方法、検索結果の提供を再度検討する必要があると
言える。現在の検索結果の提供はユーザーが入力したキー
ワードに対して同じキーワードが含まれている web ページ
を各検索エンジンのランキング方式に従って順に表示する
方法である。この提示方法では、以下のような問題がある。
メインワード
入力
ユーザ
yahooAPIによる関連検索ワード抽出
(1) 適切なキーワードが思いつかない場合検索が困難で
ある。
関連検索ワードA
関連検索ワードB
関連検索ワードC
(2) 適切なキーワードを入力した場合でも表記の揺らぎに
より必要な web ページが表示されないことがある。
解答・新しい検索
クエリの発見
WEBページ群D
WEBページ群D
WEBページ群A
(3) 検索したキーワードに対しての web ページのリスト
は結果的には検索したいことを含む可能性は高いが答
WEBページ群E
WEBページ群E
WEBページ群B
WEBページ群F
WEBページ群F
WEBページ群C
tf・df、TermExtractによる重要度抽出
えそのものではない。
タグクラウドB
そこで web 検索を補助する試みとして、ユーザーの検索目
タグクラウドC
タグクラウドA
的の予測システムを提案する。ユーザーの検索目的を予測
するシステムとは、ユーザーが入力した検索ワードに対し
て web ページのリストを返すのではなくユーザーの知りた
図 1: システム概要図
いことを予測しその答えをタグクラウドとして提示するシ
ステムのことである。
2
アイディア
このシステムではユーザーがメインワードを入力し、関
連検索ワードをもちいてユーザーの検索意図を予測し提示
するシステムである。処理を図 1 に示す。
最初にユーザーにメインワードを入力してもらいメインワー
ドの関連検索ワードを yahooAPI を用いて XML 形式で取得
する。得られた XML 形式のファイルからメインワードとし
て使用していない関連検索ワードを重要単語として抽出す
る。抽出された各々の単語とメインワードを用いて web への
AND 検索を行い、検索結果にて上位に表示される web ペー
ジに対して形態素解析を行い tf・idf を用いて重要と思わ
1
利用する技術
3
3.1
関連検索ワードについて
関連検索ワードとは検索エンジンである yahoo において
ユーザーが特定のワードと組み合わせて検索したワードの
ことである。yahoo においての関連検索ワードについて説
明する。yahoo の関連検索ワードは検索されたクエリの人
気上昇率と使用回数によって表示を切り替えている。つま
り、
「最近人気の高い複合ワードを表示させる」という仕組
みになっている。これに対して google のクエリ候補は過去
の複合検索ワードと、単体のキーワードで検索したときに
上位ヒットするホームページ内に使用さているキーワード
3.3
を加味して表示されている。つまり「よく使われる複合ワー
ドを表示させる」という仕組みになっている。yahooAPI に
よって関連検索ワードは取得できるため本研究では yahoo
のデータを用いることにした。この関連検索ワードは多数
の人が共通した単語を使って情報の検索に用いたものであ
るので集合知としての性質を持っていると考えられる。こ
のデータを用いることによってユーザーの検索したいこと
の予測クエリを分析することとなる。
TermExtract[3] について
TermExtract は形態素解析ソフトの処理結果を入力とし
専門用語の重要度を計算するためのソフトである。重要度
計算の仕組みとしては複合語を構成する最小単位の名詞を
単名詞と呼ぶ、ここの単名詞が他の単名詞と連結して複合
語をなすことが多いほど、重要な概念をなすという考えで
計算されている。例として「情報科学技術」という入力が
あった場合を考える。この単語は「情報」、
「科学」、
「技術」
の3つの単名詞に分割できる。この時、それぞれの単名詞
が他の単名詞とどれだけ結びつくか統計的にわかっている
とする。複合語全体の重要度はこれらの 6 つ (単名詞数の二
3.2
yahooAPI について
単名詞
「情報」
「科学」
「技術」
yahooAPI は検索エンジンである yahoo!JAPAN が提供す
る WebAPI やその他のアプリケーションサービスのことで
の型に従って要求することで上位100件を得ることがで
きる。図 2 の例は”ハリーポッター”をメインワードとして
関連検索ワードを取得し手作業にて日本語オントロージ辞
書システムである Ontolopedia[1] のフォーマットでカテゴ
ライズしたものである。この図を見ると Ontolopedia にお
後の語に連結した回数
2
3
1
図 3: TermExtract による評価
ある。yahoo の提供しているサービスの情報、検索結果や
yahoo オークションの情報等を API を通して扱うことがで
きる。検索関連ワードの取得では API のリクエスト URL
前の語に連結した回数
1
2
1
倍) の数値の平均から求める。この際、平均は相乗平均でと
るようにしている。また、相乗平均をとる際に、連結した
回数が0回の単名詞に対応するために書く回数に1を加算
した値をもちいる。この他にもドキュメント中の用語の出
現頻度を掛け合わせる方法や学習機能等オプションもある
のでより良い結果を出すために調節も必要となるだろう。
いてカテゴライズされいている概念のほとんどを埋めるこ
とができている。これはメインワードから派生する様々な
検索興味が抽出ができるということである。さらに未分類
4
まとめと今後の計画
の単語も多く含まれている。未分類とされている単語が多
関連検索ワードを用いたユーザーの検索意図予測に関す
いということは Ontolopedia では表現しつせない新たな興
味対象の存在の可能性があるということである。
る提案を行った。今後のはシステムの完成及び評価実験を
行う。また、ユーザーの検索履歴か web ページの観覧履歴
を用いることでユーザーごとにシステムを最適化できるよ
うな仕組みを作ることで精度を向上させることも課題の一
つである。
[参考文献, 関連文献]
[ 1 ] 宮城 良征 , 日本語オントロジー辞書システム Ontolopedia
の構築と興味抽出手法への応用検討,2009 年
[ 2 ] 赤間 世紀, オントロジーがわかる本, 株式会社工学社,2010 年
[ 3 ] 専 門 用 語( キ ー ワ ー ド )自 動 抽 出 用 Perl モ ジュー
ル”TermExtract”
の 解 説,http://gensen.dl.itc.u-
tokyo.ac.jp/termextract.html
図 2: カテゴライズ図