検索ログからの半教師あり意味知識獲得の改善 - J

217
�
�
�論 文 �
Technical Papers ��
検索ログからの半教師あり意味知識獲得の改善
Improving Semi-supervised Acquisition of Semantic Knowledge from
Query Logs
小町 守
Mamoru Komachi
奈良先端科学技術大学院大学
Nara Institute of Science and Technology
[email protected], http://cl.naist.jp/~mamoru-k/
鈴木 久美
Hisami Suzuki
マイクロソフト リサーチ
Microsoft Research
[email protected], http://research.microsoft.com/~hisamis/
keywords: query log, semantic knowledge, named entity, semi-supervised learning
Summary
We propose a method for learning semantic categories of words with minimal supervision from web
search query logs. Our method is based on the Espresso algorithm (Pantel and Pennacchiotti, 2006) for
extracting binary lexical relations, but makes important modifications to handle query log data for the
task of acquiring semantic categories. We present experimental results comparing our method with two
state-of-the-art minimally supervised lexical knowledge extraction systems using Japanese query log data,
and show that our method achieves higher precision than the previously proposed methods.
1. は じ め に
ある.固有表現や関係の認識は,先に挙げた評判検索シ
ステムや質問応答システム,テキスト自動要約といった
近年人名・地名・組織名といった固有表現や,それら
の間の関係に関する意味知識の獲得が盛んに研究されて
いる.形態素解析や構文解析といった自然言語処理の基
盤技術は成熟しつつあるが,これらの基盤技術を用いて
自然言語処理のアプリケーションで大きな役割を果たす
が,分野を限らないこれらの知識の獲得とメンテナンス
は上記の理由により困難であり,分野を限ったシステム
を作成せざるを得ないといった問題がある.
現実的なアプリケーションを作るに当たっては,文章に
こういった人手による意味知識獲得の負担を軽減する
含まれる固有表現や固有表現間の関係を認識することが
ために,大規模なコーパスから半教師あり学習によって
重要であり,固有表現辞書や関係知識のカバー率が問題
知識獲得を行う手法が用いられるようになってきた.コー
になってくる.たとえば,レストラン評判検索というア
パスによる固有表現・関係抽出とは,対象にマッチするパ
プリケーションを例に取ると,この分野の文章中の固有
ターンを用いて固有表現・関係を獲得するというタスクで
表現を探し,その固有表現がどの分野 (意味カテゴリ) に
ある.大規模なコーパスを使うことの利点は,作成コス
属するのかといった情報も必要になってくる.たとえば
トのかかる辞書やオントロジーを用いることなく,コー
「ふわとろ豆腐」について検索した人に対し,それが料
パスから直接固有表現や関係を獲得することができる点
理名に関する用語だということが分かれば,それに関す
である.パターンの作成方法は大別すると人手による手
る属性 (たとえば,その料理を出す店やレシピ) 情報を整
法と自動で抽出する手法があり,パターンを元に自動的
理して提示したり,その料理を出す店に関する広告を検
に関係抽出を行う手法は Hearst (1992) [Hearst 92] に
索結果に連動させて表示させる,といったことが可能に
よって初めて提案された.彼女の手法は人手で作成した
なる.
3 つの語彙統語パターン (Lexico Syntactic Pattern) か
ら上位下位 (is-a) 関係をブートストラップ的に抽出する.
一方,パターンを (半) 自動で抽出して知識獲得を行う手
法は固有表現抽出 ([Collins 99, Etzioni 05]) においても
関係抽出 ([Brin 98, Riloff 99, Pantel 06]) においても広
しかしながら,固有表現や関係に関する知識は膨大で
あり,人手で作成するには大きなコストがかかる.特に
商品名・サービス名といった固有表現は常時新しい表現
が作られる上,新しく生まれる表現は様々な意味カテゴ
リに渡るため,人手によって固有表現辞書をメンテナン
スするためには各分野に精通したエキスパートが必要で
く用いられている.
本論文では大規模な日本語の検索ログを用いて意味カ
218
人工知能学会論文誌
23 巻 3 号 F(2008 年)
テゴリを学習する方法について述べる.ここにおける意
知識源として用いるため,Paşca et al.(2006) [Paşca 06]
味カテゴリとは,分野 (カテゴリ) つきの固有表現のこ
と同様,あるインスタンスの文脈パターンとして検索ク
とである.我々の手法は用語間の 2 項関係抽出のための
エリ中のインスタンスの文字列以外の全文字列を文脈パ
Espresso アルゴリズム ([Pantel 06]) に基づき,検索ロ
ターンとした.例えば,シード単語 JAL に対して検索
グから単項関係を効果的に抽出するために改良を加えた
クエリ「JAL+時刻表」は文脈パターン「�+時刻表」を
ものである.検索ログは知識獲得源として,一般的なテ
もつ
キストと比較して以下のような利点がある.
なる単語分割もヒューリスティクスを用いた境界検出も
∗1
.これらのパターンを同定するに当たって,いか
• Web 文書の分布はユーザの検索の分布と一致してい
行っていない.元データには大量の未知語が含まれるた
ないが,検索クエリは検索を行うユーザの関心を反
め,単語分割誤りはパターン抽出においてノイズとなる
映している [Silverstein 98].そのため,検索に関す
可能性があり,単語分割を行わない本手法は高速に動作
るタスクにおいては,検索ログから学習した意味カ
するだけでなく,より頑健に動作することが期待される.
テゴリが有効であると考えられる.
抽出された文脈パターンは,獲得対象のタイプのイン
• 一般的にユーザが生成する検索クエリは非常に短い
スタンスを抽出するための有用性を反映したスコアを割
が,検索クエリの単語は単語分類のためには適切な
り当てられる.有用性は主にパターンとインスタンスの
ことが多い.
間の共起尺度に基づいたもので,基本的に高い適合率で
• 多くの検索クエリはキーワードからなっている.つ
インスタンスを獲得できるパターンには高いスコア,再
まり,検索クエリはユーザによってすでに単語分割
現率が高くても適合率が低い,つまり多数のインスタン
がなされている.これは,通例単語境界が明示され
スを獲得できるが無関係のインスタンスも獲得してしま
ない日本語や中国語において,単語境界を学習する
うようなパターンには低いスコアを割り当て,スコアの
ための大きな知識獲得源になることを示している.
高い順にパターンを用いることによって,適合率を高く
我々の研究はテキストから自動的に知識ベースを獲得す
維持したままインスタンスを獲得していくことができる.
るという研究の一つに位置づけられるが,意味カテゴリ獲
特に,コーパス中に頻出するパターンは複数のカテゴリに
得のために日本語の検索ログから半教師あり学習を行う
出現するジェネリックパターンである可能性があり,ジェ
手法としては,我々の知る限り初めてのものである.本研
ネリックパターンを用いるのは 2 つの問題点がある.第
究は英語の検索ログを用いて文脈パターンを発見し,人手
一の問題点は,ジェネリックパターンは獲得対象以外の意
で作成した固有表現辞書を精錬する Sekine and Suzuki
味カテゴリとも共起するパターンなので,初期値として
(2007) [Sekine 07] の研究と類似しているが,カテゴリ分
与えたシード単語と関係ないインスタンスを獲得してし
けされた膨大な固有表現辞書を必要とせず,少量のシー
まう.一度シード単語と関連性の薄いインスタンスが獲
ド単語を用い,反復的に単語とパターンを獲得する点が
得されてしまうと,そのインスタンスがそれ自身と関連
異なっている.また,Paşca らによる検索ログを用いた固
性の高いインスタンスを獲得するパターンを抽出し,徐々
有表現に関する知識獲得の研究 [Paşca 07a, Paşca 07b]
に獲得対象が関連性の低いものに移り変わってしまう (意
もあるが,彼らは固有表現の属性を学習することに焦点
味ドリフト semantic drift),という問題がある.たとえ
を当てており,本研究とは目的が異なっている.
ば最初旅行に関するインスタンスとして「熱海」があっ
たとする.これが「熱海+画像」という検索クエリとマッ
2. 関 連 研 究
チして「�+画像」というパターンを抽出してしまうと,
「木村拓哉」
「VAIO」といったインスタンスも獲得してし
本節では関係抽出におけるアルゴリズムをいくつか解
説する.簡単にまとめたものが表 1 である.
まい,それらがさらに「�+ブログ」や「�+壁紙」といっ
た旅行とは関連性の低いパターンを抽出し,カテゴリが
これらのアルゴリズムの目標は,あるカテゴリや関係
どんどんずれて行ってしまう,という現象である.第二
を抽出するための文脈パターンを用い,そのカテゴリに
の問題点としては,ジェネリックパターンは多数のイン
属する抽出対象のインスタンス(例:動物クラスのネコ),
スタンスと共起するため,パターンとインスタンスの共
もしくは関係抽出の場合は特定の関係にある単語のペア
起尺度の計算において計算コストがかかる.特に大規模
(例:is-a 関係にあるパスタ::食べ物) を学習することで
なコーパスを用いてブートストラップを行うに当たって
ある.
は,計算コストを低く抑えることが重要である.
先行研究ではパターンにどのようなスコアを割り当て
2・1 パ タ ー ン 抽 出
インスタンス獲得のための第一ステップは文脈パター
ンを抽出することである.先行研究では,文脈パターン
は is-a 関係抽出のための X such as Y などの表層テキ
ストパターンが用いられていた.本研究では検索ログを
るか,そしてどのようにインスタンスを抽出するかがそ
れぞれ異なっており,また,適合率が低く再現率が高い
∗1 � はインスタンスが検索クエリに現れた場所を示し,+ は元
の検索クエリに空白文字があったことを示す.ここでは空白文
字もパターンの一部として扱った.
219
検索ログからの半教師あり意味知識獲得の改善
Sekine & Suzuki
Basilisk
Espresso
Tchai
表 1
関係抽出アルゴリズム
シード数
抽出対象
反復回数
コーパス
~600
10
~10
5
カテゴリつき NE
1
∞
∞
∞
検索ログ
英語
MUC-4 [Sundheim 92]
TREC-9 [Voorhees 01]
英語
検索ログ
日本語
意味的語彙
意味的関係
カテゴリつき単語
言語
英語
を用いてインスタンスを同定し,次式で各インスタンス
ジェネリックパターンの扱いも異なっている.
にスコアを割り振る.
�Pi
2・2 Sekine and Suzuki (2007) のアルゴリズム
あるカテゴリをもっとも特徴づける文脈パターンを選
AvgLog(wordi ) =
j=1 log2 (Fj
択するに当たり,Sekine and Suzuki (2007) [Sekine 07]
Pi
+ 1)
(5)
は tf.idf ,相互情報量,χ2 検定といった既存の共起尺度は
ここで Pi は単語 wordi を抽出するパターン数である.彼
いずれも固有表現の精錬タスクには適さなかったと報告
らは頻度の対数の平均を取ることによってジェネリック
している.これらに代わる新しい尺度として提案されて
パターンの再現率と適合率をうまく調節している.この
いる尺度は,文脈 c が共起する異なりカテゴリ数に基づ
式に従って上位 5 つのインスタンスが辞書に加えられ,
いたもので,全カテゴリの延べ頻度で正規化されている.
ブートストラップのプロセスが反復する.インスタンス
g(c)
C
g(c) = ftype (c)/Finst (c)
Score(c) = ftype log2
C =
ftype (ctop1000)
Finst (ctop1000)
は反復ごとに累積的に獲得されるが,パターンは各反復
(1)
(2)
(3)
ftype はインスタンスが文脈パターン c と共起する異な
り頻度,Finst は全データにおける c の延べ頻度であり,
ctop1000 は頻度トップ 1,000 の文脈パターンである.彼
らは大規模で信頼性のある固有表現辞書から学習をスター
の終わりに毎回破棄している.彼らのアルゴリズムはシ
ンプルで高速に動作するという利点があるが,スコア関
数はヒューリスティクスによるものであり,検索ログか
らのカテゴリつき固有表現抽出タスクに適したスコアリ
ングになっている保証はない.
2・4 Espresso アルゴリズム
新しい固有表現を抽出するステップを 1 回のみ行い,反
我々の手法は Pantel and Pennacchiotti (2006) [Pantel 06] の Espresso アルゴリズムに基づいているので,
Espresso アルゴリズムについて詳細に述べる.
Espresso は汎用的なブートストラップ手法で,少量
復しない.ジェネリックパターンは低いスコアが割り当て
のシードインスタンスを元に反復的に表層パターンを抽
トしており,数百のシード単語を用いることができるた
め,単にトップ k 個の高スコアの文脈パターンを用いて
られるので,このアルゴリズムでは無視されている.カ
出し,より多くのインスタンスを獲得する手法である.
テゴリつき固有表現抽出というタスクは共通しているも
のの,我々は少量のシードを用いてブートストラップ的
Espresso の鍵はジェネリックパターンの使い方にある.
Espresso では,ジェネリックパターンで獲得されたイン
に用語を増やすことを目的としているため,彼らのスコ
スタンスであっても,正しいインスタンスであれば少な
アリングは適さない.
くとも一つの信頼度の高い(適合率が高く再現率が低い)
パターンと共起していると仮定し,この特徴を活かした
2・3 Basilisk アルゴリズム
Thelen and Riloff (2002) [Thelen 02] は複数カテゴ
リの意味的語彙知識獲得のための Basilisk と呼ばれる手
スコア関数を提案している.
Espresso は 2 項関係にある少量のシードインスタンス
から出発し,表層パターン P を抽出し,トップ k パター
法を提案した.この手法は少量のシード単語から出発し,
ンを選択して,スコア上位 m 個のインスタンスを獲得す
コーパス中でシード単語にマッチする全てのパターンを
る,というプロセスを繰り返す.Espresso は信頼度 rπ
抽出する.ブートストラップのプロセスは全パターンか
に従って P 中の全パターンをランクづけし,インスタン
ら R log F 式 [Riloff 96] に従ってインスタンス抽出に用
ス獲得のためにトップ k 個のパターンを保持する.k の
いるパターンの部分集合を選択するところから始まる.
値は各反復ごとに 1 ずつ加算される.
R log F (patterni ) =
Fi
log2 (Fi )
Ni
(4)
Fi は patterni によって抽出されたカテゴリに属するイ
ンスタンスの数であり,Ni は patterni によって抽出さ
れたインスタンスの総数である.次にこれらのパターン
パターン p の信頼度スコアは,信頼性の高いパター
ンは信頼性の高いインスタンスと共起する,という直観
に基づいている.Espresso では自己相互情報量 (PMI:
pointwise mutual information) を用い,パターン p の
信頼度をインスタンス集合 I 中の各インスタンス i とパ
220
人工知能学会論文誌
ターン p との間の重み付き共起として定義している:
�
rπ (p) =
pmi(i,p)
i∈I max pmi rι (i)
|I|
23 巻 3 号 F(2008 年)
ンスをフィルタすることができなかった.また,Espresso
はブートストラップの毎反復ごとにパターン抽出を行う
(6)
が,パターン抽出のためにはコーパス全体を検索する必
要があり,大規模なコーパスでは非常に時間がかかる,と
rι (i) はインスタンス i の信頼度で max pmi は全パター
ンと全インスタンスにおける最大の PMI である.イン
スタンス i = {x, y} とパターン p の間の PMI は次式で
いう問題点がある
∗3
.
そこで,我々は Espresso をベースにいくつかの拡張
を行い,Tchai と名付けた.
推定する.
pmi(i, p) = log
|x, p, y|
|x, ∗, y||∗, p, ∗|
(7)
|x, p, y| は用語 x および用語 y を伴うパターン p の頻度
である(Espresso は 2 項関係を対象にしていることに注
3・1 メインアルゴリズム
Espresso は 2 項関係を扱うので PMI の計算は (7)
によって行っているが,Tchai は 1 項関係を扱うので,
PMI は
意).アスタリスクはワイルドカードの意味である.彼
らの手法では pmi(i, p) は [Pantel 04] で提案されている
割引係数をかけることによって,低頻度のインスタンス
に対するバイアスを回避している.
インスタンスの信頼度も同様に,信頼度の高いインス
タンスは多くの信頼度の高いパターンと共起するものと
定義される.
�
rι (i) =
pmi(i,p)
p∈P max pmi rπ (p)
|P |
pmi(i, p) = log
|i, p|
|i, ∗||∗, p|
(9)
を用いる.|i, p| はインスタンス i およびインスタンス i
を伴うパターン p の頻度である.また,Espresso は小
規模コーパスにおけるデータの過疎性を補うために自動
品詞タグ付けの結果を用いたパターンの一般化を行って
いるが,Tchai は品詞タグ付けを行わず,出現した表層
(8)
rπ (p) はパターン p の信頼度であり,P は表層パターン
の集合である.rι (i) と rπ (p) は再帰的に定義される.パ
文字列のみをパターンとして扱う.これは,検索クエリ
といった短い文字列で適切に品詞タグ付けを行うことが
できるか不明であるためと,大規模なデータを用いるこ
とによって表層の文字列を用いるだけで充分なパターン
ターンの信頼度とインスタンスの信頼度は,パターンの
が得られると判断したためである.また,Espresso にお
リランキングとインスタンス獲得ステップの間で交互に
いてはデータ量を増やすために Google の検索結果およ
計算される.Basilisk と同様,インスタンスは累積的に
び用語の主辞を用いて用語を展開した結果をコーパスに
学習されるが,パターンは毎回の反復の最後に破棄され
追加する処理を行っているが,我々は大規模な検索ログ
る.このアルゴリズムは少量のシードインスタンスを用
データが使用できるため,これらのデータの追加は行わ
い,適合率を高く保ったまま再現率も重視するアルゴリ
なかった.
ズムになっており,新しく産み出された用語を自動的に
発見して辞書に追加したい∗2 といった背景がある我々の
タスクに合致している.
3・2 曖昧性のあるインスタンスとパターンのフィルタ
前述の通り,曖昧性のある低適合率・高再現率のジェ
ネリックパターン(例:「�+地図」
「�+動画」)の扱いは,
3. Tchai アルゴリズム
ブートストラップアルゴリズムにとって大きな問題となっ
ている.2 項関係を学習する場合は項が 2 つ与えられる
Espresso は部分全体関係などの関係抽出において,ジェ
ことでそれぞれの項の語義の曖昧性がある程度緩和され
ネリックパターンを用いることで適合率を落とさず再現
るが,1 項抽出である意味カテゴリ獲得においては特に
率も高く関係を抽出することができたと報告されている
曖昧性の問題は深刻である.抽出されたパターンだけで
が,我々のタスクではジェネリックパターンを抽出してし
なく,獲得されたインスタンスも曖昧である可能性があ
まうこと自体が一つの問題である.Espresso では,ジェ
るからである.例えば,
「ポケモン」のような曖昧なイン
ネリックパターンにマッチするインスタンスのうち,曖
スタンスを学習してしまうと,複数のカテゴリ(例:ゲー
昧性のあるインスタンスを獲得しないためのスコア (確信
ム,アニメ,映画)に出現するパターンを抽出するよう
度confidence score,後述) が提案されているが,我々の
になってしまうが,このような事態は望ましいことでは
持つ検索ログデータセットに対しては,信頼度と類似し
ない.
たスコアを返すスコア関数になっており,曖昧なインスタ
ジェネリックパターンの欠点を制御するため,Espresso
∗2 最終的には人手によるチェックが入るので適合率が高い必要
はないが,適合率が低すぎると全て見ないといけなくなるので
コストがかかる.一方,適合率が高くても再現率が低いと,高
頻度の既に辞書に追加されている用語のみ獲得してしまう可能
性があり,ある程度の再現率も必要である.
では信頼度の尺度とは異なるが,信頼度に類似した確信
度という尺度を導入し,確信度がある閾値以下のパター
∗3 我々の検索ログデータセットでは Espresso によるブートス
トラップでは 20 回の反復に 1 週間かかった.
221
検索ログからの半教師あり意味知識獲得の改善
ンをフィルタリングしている.確信度 S(i) は以下の式で
与えられる.
�
rπ (p)
T
�
rπ (p) =
pmi(i,p)
i∈I maxi∈I pmi rι (i)
|I|
(13)
ここで PR は前のステップで選択された信頼度の高いパ
PMI は [−∞, +∞] の値を取るため,Espresso では信頼
度の重みとして用いる pmi(i, p) は,全パターンと全イン
スタンスに対する max pmi で割ることにより,[−1, 1]
ターンの集合,T はパターン p ∈ PR の信頼度 rπ (p) の
の範囲に収まるように正規化している.しかしながら,
合計であり,Sp (i) は
PMI は低頻度の単語を過大評価する傾向,つまり低頻度
S(i) =
Sp (i)
p∈PR
Sp (i) = pmi(i, p) = log2
(10)
|i, p|
|i, ∗||∗, p|
(11)
語に高いスコアが割り振る傾向
∗5
が知られており,実際
た ∗4 ため,我々は彼らの提案した確信度は用いず,ジェネ
Espresso により獲得された用語には低頻度の用語が多数
含まれる.そこで,我々は正規化項として (12)(13) のよ
うに,max pmi の代わりに local max pmi を用いるこ
とを提案する.インスタンスに対する local max pmi と
は,全インスタンスについての全パターンの PMI の最
リックパターンに対しては単に曖昧なインスタンスやパ
大値ではなく,あるインスタンスについての全パターン
ターンを選択しない,という方法を使用した.ここで曖昧
についての PMI の最大値(の絶対値)である.パターン
なインスタンスとは,既に獲得されたインスタンスのう
に対しての local max pmi も同様に定義される.
で与えられる.
しかしながら,我々の実験では彼らの確信度の尺度は
信頼度とほとんど変わらない傾向のスコアしか返さなかっ
ち,最も共起パターンが多いインスタンスの共起パター
この修正により,中・高頻度のインスタンスおよびパ
ン数の 1.5 倍以上のパターンを抽出するインスタンスの
ターンのスコアがオリジナルの信頼度より高く見積もら
ことであり,ジェネリックパターンとは,既に抽出された
れることになる.典型的なブートストラップアルゴリズ
パターンのうち,最も共起インスタンス数が多いパター
ムでは,毎回の反復で数個しかパターンを用いないため,
ンの共起インスタンス数の 2 倍以上のインスタンスを獲
曖昧なインスタンスより曖昧なパターンを用いるほうが
得するパターンのことである.たとえば,既に抽出された
適合率に対する影響が大きい.特に反復の初期段階はシー
パターン中で「�+予約」がコーパス中で 622 回出現する
ドインスタンスに関連性の高いインスタンスを獲得でき
最頻のパターンだったとすると,頻度 1,244 回以上出現
ることが期待されるが,この反復の初期段階において,よ
しているパターンはジェネリックパターンとして抽出し
り中・高頻度のインスタンスを獲得することによって,獲
ない.反復が進み頻度 622 回以上 1,244 回未満のパター
得対象の意味カテゴリに関連性が高い (シードインスタ
ンが選択されるとジェネリックパターンと判断される頻
ンスと同様高頻度のインスタンスをカバーする) パター
度の上限値も更新されるため,反復の初期では適合率が
ンを発見できると考えられる∗6 .次節で見るように,こ
高く再現率の低いパターンを抽出し,徐々に高頻度で高
の修正がもっとも適合率に影響を与えている.
再現率のパターンを抽出することになる.Espresso では
行っているが,パターンだけではなくインスタンスにつ
3・4 パターン抽出回数の削減
Tchai は Espresso と異なり,パターン抽出ステップは
いても曖昧性の存在する事例があるため,パターンとイ
毎回の反復ごとには行わず,単に最初に抽出されたパター
ンスタンスのいずれにおいてもフィルタリングを行った.
ンの信頼度を再計算する.毎回の反復ごとに行わないこ
4・2 節で見るように,この変更によってブートストラッ
とによって,新しいインスタンスを獲得する新しいパター
プの特に初期段階におけるインスタンス獲得の適合率を
ンの抽出ができなくなる可能性も考えられるが,シード
向上させることができると考えられる.
インスタンスの選び方を工夫することによって,パター
パターンに関してのみ確信度を用いたフィルタリングを
ン抽出を毎回行う必要なく新しいインスタンスを獲得す
3・3 信頼度に対する重み係数
Espresso に対するもう一つの修正点は,ジェネリック
るパターンの選択を行うことができる.つまり,シード
パターンの影響を抑えるため,全パターンと全インスタ
れば,それらのインスタンスは大量のパターンと共起し
ンスに対する max pmi ではなく,インスタンス・パター
ており,ブートストラップによって抽出されるパターン
ンごとに PMI を最大値によって正規化したことである.
は,典型的には高々数十のオーダーなので,最初に抽出
�
rι (i) =
pmi(i,p)
p∈P maxp∈P pmi rπ (p)
|P |
インスタンスとして検索ログの中に頻出するものを用い
されたパターンの中に重要なパターンは全て含まれてい
(12)
∗4 考えられる原因としては,彼らは信頼度の計算に用いる PMI
の推定にはコーパスを用いるのに対し,確信度の計算に用いる
PMI の推定には Google のヒットカウントを用いていること
で,我々はいずれの PMI の推定にも検索ログコーパスの共起
回数を用いたために,両者のスコアが似通ったものになってし
まったと考えている.
る,と考えられ,そのため毎回の反復におけるパターン
抽出のステップを省くことができる.
∗5 Espresso 同様 [Pantel 04] で提案されている割引係数を用
いることにより,この傾向をある程度回避できるが,十分では
ない.
∗6 後で示すように,実験においてはシードインスタンスとして
各意味カテゴリ内において頻度がもっとも高いものを用いた.
222
人工知能学会論文誌
表 2
パターン抽出は計算量の大きい処理であるため,パター
ン抽出のステップを省くことによって,Tchai は Espresso
に比べ約 400 倍高速に動作するようになった.
シード
旅行
jal,ana,jr,じゃらん,his
験
みずほ銀行,三井住友銀行,jcb,
新生銀行,野村證券
本節では 2 章で述べた半教師あり学習アルゴリズムを
表 3
人手による分類 (10K リスト) との比較:旅行カテゴリ
用いたシステムと Tchai の比較実験について述べる.
10K リストに含まれる
4・1 実 験 設 定
旅行
検索ログ
旅行以外
インスタンス獲得に用いた知識獲得源は,Live
サーチで 2007 年 1 月から 2 月の間に検索された匿
名化済み検索ログ集合のうち,異なり頻度上位 100
表 4
我々のタスクは Web 検索ユーザの関心
を反映した単語カテゴリの学習である.単語カテゴ
金融
リはタスク依存であると考えられるため,我々は既
金融以外
存のオントロジから単語カテゴリの学習を始めずに,
は,Web 検索に特化した 23 カテゴリのリストと,
2006 年 12 月の頻出上位 10,000 検索クエリを人手
旅行
旅行以外
含まれない
280
0
17
7
251
125
10K リストに含まれる
あり,検索ログ中に現れた総頻度が振られている.
少量のシード単語から学習することにした.評価に
10K リストに
人手による分類 (10K リスト) との比較:金融サービスカテ
ゴリ
万クエリを用いた.検索クエリの大部分は日本語で
対象カテゴリ
各カテゴリでのシード単語
カテゴリ
金融サービス
4. 実
23 巻 3 号 F(2008 年)
表 5
10K リストに
金融
金融以外
含まれない
41
0
30
5
30
99
獲得されたインスタンスの例
タイプ
例
地名
トルコ,ラスベガス,バリ島
旅行会社
として用いた Espresso の計算時間がかかりすぎる
アトラクション
jtb,トクー(http://www.tocoo.jp/ ),
yahoo(Yahoo! Travel),net cruiser
ディズニーランド,usj
ため,全てのカテゴリを用いた評価は行わず,最大
ホテル
帝国ホテル,リッツ
交通機関
京浜急行,奈良交通
でいずれかのカテゴリに分類した
∗7
(以後このリス
トを 10K リストと呼ぶ)リストを用いた.比較対象
のカテゴリである「旅行」カテゴリ
∗8
(10K リスト
で 721 単語) と最小のカテゴリである「金融サービ
ス」カテゴリ (10K リストで 240 語) のみを用いた.
システム
本研究では 2 章で述べた反復学習アルゴリズ
ムを実装した 3 つのシステムを比較した.
• Basilisk : 2・3 節で述べた Thelen and Riloff
(2002) [Thelen 02] によるアルゴリズム
• Espresso: 2・4 節で述べた Pantel and Pennacchiotti (2006) [Pantel 06] によるアルゴリズム
• Tchai: 本稿で述べた Tchai アルゴリズム
4・2 実 験 結 果
§ 1 Tchai アルゴリズムの結果
Tchai アルゴリズムの意味カテゴリ獲得の適合率およ
び,頻度の低いインスタンスも獲得できているかどうか
調べるために,表 3 と表 4 において,システムの出力結
果を 10K リストと比較した.
表 3 は旅行カテゴリの実験結果である.旅行カテゴリ
に属する用語として獲得された全 680 インスタンスを評
各システムには同じシード単語を与えた.シード単
価のために旅行カテゴリであるかどうか人手で分類し,
語は各カテゴリに対して 10K リスト中で頻出上位 5
旅行・旅行以外という行で示した.また,それぞれのカ
単語を選択した.Basilisk は 20 パターンの抽出から
テゴリに対し,それが 10K リストに含まれるかどうか列
スタートし,各反復ごとに 100 インスタンスずつ獲
に示した.10K リストに含まれる数字を見ることによっ
得する.Espresso と Tchai アルゴリズムでは 5 パ
てシステムの適合率が分かり,10K リストに含まれない
ターンの抽出からスタートして各反復ごとに 200 イ
用語の数字を見ることによって検索ログ中で低頻度の用
ンスタンスずつ獲得する.Basilisk と Tchai アルゴ
リズムは 20 回反復したが,Espresso アルゴリズム
は計算時間がかかりすぎるため 5 回だけ反復した
∗9
.
∗7 人手による分類では,1 単語を複数のカテゴリに分類するこ
とが非常に困難なため,1 単語に 1 つのカテゴリのみ割り当て
になっているが,これは最適であるとはいえない.提案手法は,
1 単語を複数のカテゴリに分類できるので,この点で人手によ
る分類より現実的であるといえる.
∗8 地名は全てこのカテゴリに入るためである.
∗9 いずれのアルゴリズムもシードの個数・初期抽出パターン
数・各反復ごとのインスタンス・パターンの追加数といったさ
まざまなパラメータがあり,最適な値で比較することが困難な
ため,同じ個数のインスタンスを獲得したときの適合率で評
価を行った.これは,アルゴリズムの性格が違う Basilisk と
Espresso ・Tchai の間での比較を公平に行うためにも必要で
あると考える.
223
検索ログからの半教師あり意味知識獲得の改善
図 1 各システムの適合率:旅行
図 2
表 6 相対再現率:旅行
語も獲得したかどうかが分かる.表 3 から分かるように,
Tchai の適合率は非常に高く,10K リストの 297 単語中
旅行カテゴリの 280 単語 (92.1%) を正しく学習した.17
単語はエラーと考えられるが,これは人手の分類の曖昧
性によるものと考えられる.例えば,
「東京ディズニーラ
ンド」は人気の旅行先であるが,
「旅行」ではなく「エン
ターテインメント」と分類されていた.また,人手によ
各システムの適合率:金融サービス
システム
単語数
適合率
相対再現率
Basilisk
Espresso
Tchai
651
500
680
63.4%
65.6%
80.6%
1.26
1.00
1.67
表 7
相対再現率:金融サービス
る分類の 10K リストに含まれない 251 単語も正しく学
システム
単語数
適合率
相対再現率
習することができた.125 単語は「誤って」旅行カテゴ
Basilisk
Espresso
Tchai
278
704
223
27.3%
15.2%
35.0%
0.70
1.00
0.73
リであると検出されたが,これらの単語には旅行に関係
する一般用語,例えば「釣り」や「レンタカー」も含ま
れる.今回はカテゴリを限定した固有表現の獲得を目的
としているためにこれらを不正解としたが,これら一般
用語も含めたカテゴリに特有の表現を評価対象にするこ
とも考えられる.
一方,表 4 によると金融サービスカテゴリについても
同じ傾向が見られる.金融サービスカテゴリは属する固
有表現の数が少ない閉じたカテゴリなので,獲得された
インスタンスの絶対数は少ないものの,新たに 30 個の
低頻度のインスタンスを獲得することができた.10K リ
スト中にあるインスタンスと獲得したインスタンスを全
てシードとして与え,検索ログから低頻度のインスタン
スをマイニングすることは今後の課題である.
我々のアルゴリズムで獲得されたインスタンスの例を
表 5 に示した.この中にはシード単語としては与えなかっ
た旅行に関する用語のサブクラス(例えばホテルやアト
ラクション)が含まれる.また,単語の過分割は獲得さ
れた用語中には存在しなかった.このことは,単語境界
がテキスト中に明示的に示されない言語に対し,検索ロ
グが非常に適していることを示している.
§ 2 Basilisk と Espresso との比較
れのカテゴリにおいても Basilisk と Espresso の適合率
を上回っている.旅行カテゴリでは常に適合率が他のア
ルゴリズムを上回り,金融サービスカテゴリでも特に反
復の初期段階において非常に高い適合率を保っている.こ
れらの 2 カテゴリにおけるふるまいの違いはカテゴリの
大きさの違いに起因するものと考えられる.小さな金融
サービスカテゴリでは Basilisk と Espresso は「� ホー
ムページ」や「� カード」といったジェネリックパター
ンによって誤ったインスタンスを獲得してしまっている
が,Tchai はこれらのパターンを選択しなかった.ジェ
ネリックパターンの選択は,抽出されたパターン数の影
響を受け,パターン数が多いほどジェネリックパターン
が選択されてしまう可能性が高くなるため,各アルゴリ
ズムやカテゴリに最適な初期パターン数・追加パターン
数のパラメータ設定は今後調査する必要がある.
一般に用語獲得の再現率を求めることは難しいが,[Pan-
tel 04] が提案した相対再現率を用いることによって,あ
るシステムの再現率を基準に相対的な再現率を求めるこ
とができる.相対再現率は次式によって計算される:
図 1 と図 2 は各システムがどれくらい正しく意味カ
テゴリを学習できるか示すため,Tchai アルゴリズムと
Basilisk および Espresso アルゴリズムの適合率を比較
した結果である.横軸は各反復ごとに獲得された用語を
スコア順に並べたランクであり,縦軸はランク順の累積
適合率である.これらから分かるように,Tchai はいず
RA|B =
RA
CA
CA /C
PA × |A|
=
=
=
(14)
RB
CB /C
CB
PB × |B|
RA|B はシステム B を基準としたシステム A の相対再現
率で,CA , CB はそれぞれシステムが出力した正解の個
数であり,C は真の正解の個数である.C は相殺される
224
人工知能学会論文誌
図 3 パターン抽出ステップの修正の影響
図 4
23 巻 3 号 F(2008 年)
旅行カテゴリにおける Tchai の適合率
ので CA , CB を求めればよく,これはシステム A,B の適
合率 PA , PB と単語数の積で求められる.この式に従い,
け行った場合との適合率の比較を示している.横軸は毎
Tchai がジェネリックパターンを用いないことが再現率
にどのような影響を与えるのか明らかにするため,2 つ
のカテゴリで相対再現率を求めたものが表 6 と表 7 であ
る.旅行カテゴリでは Tchai が適合率・相対再現率いず
れにおいても他の 2 システムを上回っている.金融サー
ビスカテゴリでは Espresso が相対再現率において優れ
ているが,Espresso の適合率は低く,Tchai は 3・2 節の
ステップで獲得されたインスタンスをスコア順に並べた
フィルタリングを行うことによって,高い適合率を得る
ときのランクであり,縦軸はランク上位からの累積適合
率である.図 3 によると,Espresso においてパターン抽
出ステップを毎回行った場合と 1 回だけの場合とで,適
合率に大きな違いは見られないが,3・4 節で述べたよう
に動作速度には大きな開きがある.そのため,Espresso
と異なりパターン抽出ステップを最初の 1 回のみ行うこ
とによって,効率的に Tchai を動作させることができる.
ことができており,ジェネリックパターンを用いること
図 4 は 3 章で示した Tchai アルゴリズムで提案した
による再現率の向上は金融サービスカテゴリにおいても
変更点が適合率に対してどのような影響をもたらしたか
[Pantel 06] で報告されているよりも軽微なので,ジェネ
リックパターンに対する処置は Tchai の単純なフィルタ
について,旅行カテゴリのデータで比較した結果である.
リングでよいと考えられる.
と 3・3 節 (-noscaling) において述べた変更を行ったシ
表 8 は 4 回の反復後のそれぞれのアルゴリズムで抽出
されたパターンの例を掲げた
∗10
.Basilisk によって抽出
グラフの各線は Tchai アルゴリズムで 3・2 節 (-nofilter)
ステムと行っていないシステムに対応する.グラフより,
max pmi に対する変更点が我々のシステムの適合率に
されたパターンは,例えば「p�sonic」や「google:�lytics 」
とって最も影響が大きいことが分かる.ジェネリックパ
のように,ただシード単語「ana」とマッチしただけで,
ターンのフィルタリングは旅行カテゴリのインスタンス
旅行カテゴリとは全く関係ないものも含まれる.Basilisk
獲得適合率にはあまり影響はないが,フィルタリングを
はパターンのスコア算出に延べ頻度を用いていることも,
行わないシステムよりは常に高い適合率を示している.
こういったパターンが抽出されていることの一因となっ
ている可能性がある.Basilisk も Espresso も地名を文
5. ま
と
め
脈パターンとして抽出している(例:「� 東京」
「� 九州」
)
が,これらはジェネリックなパターンであって,旅行カ
本研究では半教師ありのブートストラップ手法 Tchai
テゴリのパターンとは考えられない.逆に,Tchai は旅
を提案した.この手法の主要な貢献は,汎用的アルゴリ
行カテゴリに特徴的な文脈パターンを検出することがで
ズム Espresso を改良して検索ログから意味カテゴリを
きている.例えば,交通手段に関するパターン (�+格安
獲得するタスクにうまく適用したことである.提案手法
航空券,�+マイレージ) や宿泊に関するパターン(�+ホ
は単語獲得の適合率において既存手法より優れているだ
テル)などである.
けでなく,オリジナルの Espresso アルゴリズムと比較
§ 3 Tchai アルゴリズムの改善点
図 3 はパターン抽出を毎回行わなくてもシステムの性
能に影響がないことを調べるため,Espresso においてパ
ターン抽出ステップを毎回行った場合と,最初の 1 回だ
して高速に動作し,カテゴリを特徴づけるためにより意
∗10 Basilisk と Espresso はインスタンスの獲得のために文脈パ
ターンの抽出を行っており,パターン自体には関心がないこと
に注意.しかし,意味カテゴリの特徴を示すために,その意味
カテゴリを獲得するために使われたパターンが有用な場合もあ
ることから,ここでは比較することにした.
本研究は小町のマイクロソフト・リサーチでのインター
味のある文脈パターンを収集することができる.
謝
辞
ンシップ期間中に行われました.研究に関するコメント
をいただいた自然言語処理グループのみなさん,特に技
術的なアドバイスをいただいた Dmitriy Belenko 氏と
225
検索ログからの半教師あり意味知識獲得の改善
表 8 各アルゴリズムで抽出されたパターンの例
システム
Basilisk
サンプルパターン
� 東日本,� 西日本,p�sonic,� 時刻表,� 九州,�+マイレージ,� バス,google+�lytics,�+
料金,�+国内,� ホテル
Espresso
Tchai
� バス,日本 �,� ホテル,� 道路,� イン,フジ �,� 東京,� 料金,� 九州,� 時刻表,�+旅行,
�+名古屋
�+ホテル,�+ツアー,�+旅行,� 予約,�+航空券,�+格安航空券,�+マイレージ,羽田空港+�
Christian König 氏に深く感謝します.Espresso を提案
した Patrick Pantel 氏,Espresso を解析的な面から考
察してくださった工藤拓氏,検索ログを用いた知識獲得
の研究をされている Marius Paşca 氏とは直接議論する
機会があり,実験のノウハウまで含めさまざまなアドバ
イスをいただきました.どうもありがとうございました.
最後になりますが,匿名で査読してくださった 2 名の方々
から有益な助言・適切なコメントをいただきました.こ
の場を借りてお礼申し上げます.
♦ 参 考 文 献 ♦
[Brin 98] Brin, S.: Extracting Patterns and Relations from
the World Wide Web, in WebDB Workshop at 6th International Conference on Extending Database Technology,
EDBT ’98, pp. 172–183 (1998)
[Collins 99] Collins, M. and Singer, Y.: Unsupervised Models for Named Entity Classification, in Proceedings of the
Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, pp. 100–
110 (1999)
[Etzioni 05] Etzioni, O., Cafarella, M., Downey, D.,
Popescu, A.-M., Shaked, T., Soderland, S., Weld, D. S., and
Yates, A.: Unsupervised Named-Entity Extraction from the
Web: An Experimental Study, Artificial Intelligence, Vol.
165, No. 1, pp. 91–134 (2005)
[Hearst 92] Hearst, M.: Automatic Acquisition of Hyponyms
from Large Text Corpora, in Proceedings of the Fourteenth International Conference on Computational Linguistics, pp. 539–545 (1992)
[Paşca 06] Paşca, M., Lin, D., Bigham, J., Lifchits, A., and
Jain, A.: Organizing and Searching the World Wide Web of
Facts — Step One: the One-Million Fact Extraction Challenge, in Proceedings of the 21st National Conference on
Artificial Intelligence (AAAI-06), pp. 1400–1405 (2006)
[Paşca 07a] Paşca, M.: Organizing and Searching the World
Wide Web of Fact — Step Two: Harnessing the Wisdom of
the Crowds, in Proceedings of the 16th International World
Wide Web Conference (WWW-07), pp. 101–110 (2007)
[Paşca 07b] Paşca, M. and Durme, B. V.: What You Seek is
What You Get: Extraction of Class Attributes from Query
Logs, in Proceedings of the 20th International Joint Conference on Artificial Intelligence (IJCAI-07), pp. 2832–2837
(2007)
[Pantel 04] Pantel, P. and Ravichandran, D.: Automatically Labeling Semantic Classes, in Proceedings of Human
Language Technology Conference of the North American
Chapter of the Association for Computational Linguistics
(HLT/NAACL-04), pp. 321–328 (2004)
[Pantel 06] Pantel, P. and Pennacchiotti, M.: Espresso:
Leveraging Generic Patterns for Automatically Harvesting
Semantic Relations, in Proceedings of the 21st International
Conference on Computational Linguistics and the 44th annual meeting of the ACL, pp. 113–120 (2006)
[Riloff 96] Riloff, E.: Automatically Generating Extraction
Patterns from Untagged Text, in Proceedings of the Thirteenth National Conference on Artificial Intelligence, pp.
1044–1049 (1996)
[Riloff 99] Riloff, E. and Jones, R.: Learning Dictionaries
for Information Extraction by Multi-Level Bootstrapping,
in Proceedings of the Sixteenth National Conference on Artificial Intellligence (AAAI-99), pp. 474–479 (1999)
[Sekine 07] Sekine, S. and Suzuki, H.: Acquiring Ontological
Knowledge from Query Logs, in Proceedings of the 16th international conference on World Wide Web, pp. 1223–1224
(2007)
[Silverstein 98] Silverstein, C., Henzinger, M., Marais, H.,
and Moricz, M.: Analysis of a Very Large AltaVista Query
Log, Digital SRC Technical Note 1998-014 (1998)
[Sundheim 92] Sundheim, B. M.: Overview of the fourth
message understanding evaluation and conference, in Proceedings of the 4th conference on Message understanding,
pp. 3–21 (1992)
[Thelen 02] Thelen, M. and Riloff, E.: A Bootstrapping
Method for Learning Semantic Lexicons using Extraction
Pattern Contexts, in Proceedings of Conference on Empirical Methods in Natural Language Processing, pp. 214–221
(2002)
[Voorhees 01] Voorhees, E. M.: Overview of the TREC 2001
Question Answering Track, in Text REtrieval Conference,
pp. 71–79 (2001)
〔担当委員:松村 真宏〕
2007 年 10 月 24 日 受理
著
者
紹
小町
介
守(学生会員)
2005 年東京大学教養学部基礎科学科科学史・科学哲学分
科卒.2007 年奈良先端科学技術大学院大学情報科学研究
科博士前期課程修了.同年同大学博士後期課程に進学.工
学修士.大規模なコーパスを用いた意味解析に関心がある.
ACL・情報処理学会員.
鈴木
久美
1990 年国際基督教大学教養学部卒業,2002 年シカゴ大
学人文科学部言語学科より言語学博士号取得.1995 年よ
り米国マイクロソフト・リサーチの自然言語処理グループ
に勤務し,日本語言語処理や機械翻訳等の研究に従事.