第6回 情報抽出・質問応答 - 知識ベース研究室

知識発見特論
吉岡真治
前回の質問

どんな情報を要約したいか?
– 論文
2
– ブログやSNS
3
時系列データとして要約することで、ブログの著者の興味
なども分かる。
– 就職活動のための企業情報
同じようなスタイルで複数の企業の情報を要約することで
比較が容易になる。
– ニュース
– メール
メールの重要度を考慮して、要約してくれるとうれしい。
– マニフェスト
他との違いなども含めて要約してくれるとうれしい。
– 自分の日々の活動の記録
体調の情報や移動の履歴などとも関係づけると、体の調
子が悪いといったことを通知できるようになる。
– 製品の評判情報
前回の質問

自動要約でできそうなこと
– 本の要約などが短すぎるといった場合があるので、自
動要約で長さがコントロールできるとうれしい。
– 異なるアイディアの書いてある教科書などをまとめた
新しい教科書の生成
– 1日のニュースをまとめて見やすくしてくれるサイト
– 発話に対して自動要約することで、議事録などが読み
やすくなる。発言者の情報も得られる。
– 因果関係の明確化
– ホームページの自動アブストラクト生成
– 論文のアブストラクト作成支援
前回の質問

質問・コメント
– 自動要約は日本語だから難しいのか?
– 自動要約の結果は、本当に元の文書の意味を表して
いるのか?
– ディープラーニングという手法について気になってい
る。このようなニューラルネット的なアプローチが使え
る可能性はあるか?
– スニペットが自動要約の一種であると理解しました。
講義の予定

情報検索 Information Retrieval
–
–
–
–

情報検索システムの概観
様々な情報検索モデル
WWWを対象とした情報検索システム
評価型ワークショップによるシステムの評価
自動文書要約 Text Summarization
– 文書要約の概観
– 様々な文書要約の手法

関連研究分野 Related Research Areas
– 情報抽出、質問応答
参考資料

特集 自然言語による情報アクセス技術, 情報
処理学会誌 Vol.45 No.6 (2004)
情報抽出 Information Extraction

Webや新聞記事などに記述されている非構造的
な情報から役に立つ情報を抽出する
– 例:
• 新聞記事から特定の事柄(例えば、人事異動・企
業合併)などについて述べている部分を抽出して
整理
• Webページから製品情報や価格の情報を抽出し整
理
初期の情報抽出の技術
Topics of Information Extraction at Early Stage

Message Understanding Conferenceの課題(1980
年代~90年代半ば)
http://www.itl.nist.gov/iaui/894.02/related_projects/muc/
– 新聞記事のようにきちんとした自然言語で記述された
文書から、特定の目的に合致する情報を抽出する。
– 汎用的な構文解析ではなく、局所的なパターンを利用
A社は、本年3月に、B社長が
退任すると発表した。同社は
、C専務が社長に就任するこ
ともあわせて発表した。
人名
企業
前職
B
A社
社長
C
A社
専務
新しい職
社長
パターン (企業)は (人名)(役職:前職)が 退任 発表
→ 企業=A社 人名=B 役職:前職=社長
情報抽出のための要素技術
Fundamental Technology for Information Extraction

固有表現抽出
– 固有名詞や数値表現などの特定の表現を抽出
– パターンとのマッチングに制約をかけることが可能

照応関係の解析
– パターンでは、代名詞などとマッチングする可能性が
あり、その内容を特定するためには、照応解析が必
要

パターンの自動作成
– パターンの作成は人手がかかるため、パターンの自
動生成が望まれる
固有表現抽出 Named Entity Extraction

情報抽出に役立つ固有表現をカテゴリごとに抽
出
– MUCの初期段階
• 人名、組織名、地名、日時、金額表現、割合表現
– IREX http://www.csl.sony.co.jp/person/sekine/IREX/
• 固有物

固有表現抽出システム
– パターンベース
• 人手によるパターンの作成
• 固有表現のタグつきコーパスからの自動学習
固有表現の抽出法の例
An Example of Named Entity Extraction

NExT(Named Entity Extraction Tool)
パターン辞書と抽出規則(品詞連接)を利用した固有表
現抽出ツール
http://www.ai.info.mie-u.ac.jp/~next/next.html
– パターン辞書(固有表現キー)
• 固有表現を発見するのに役立つキー
• 例
– 人名: ~さん、~先生
– 地名: ~市、~半島
– 抽出規則
• 固有表現の切り出しを行うための品詞の規則
• 例、
– 人名や地名の場合は、名詞もしくは未知語の連接、人名には、
「さん」や「先生」は含めない。
– 田中さんが、山田さんと札幌市で会った。
固有表現のカテゴリ
Category for Named Entity

情報抽出における利用シナリオによって必要と
なる表現が変わる
– 抽出したい情報に当てはまるタイプの表現
• 伝染病の発生場所と名前 → 伝染病(病気)
• 発癌物質として認識されている食品添加物
→ 食品添加物(化合物)

固有表現のカテゴリの拡張
– 定義の問題
• 複数のカテゴリの違いを考える必要がある
– データ数の問題
• 全てのカテゴリーに対して、パターン発見のための
十分な訓練データを用意することが困難
照応関係の解析
Anaphora Resolution

必要とされる照応解析
–
–
–
–

代名詞:この企業
略語:「北海道大学」と「北大」
省略:主語の省略など
時間:昨年、4日、…
解析の例
– 代名詞:代名詞のカテゴリーとそれより前に現れるカ
テゴリーに属する名詞
– 略語:省略形の生成ルール
– 省略:前の文の主語などを補完
– 時間:基点となる時間情報(例えば、記事の掲載され
た月日)の利用
パターンの自動生成
Automatic Pattern Generation

テキストコーパスの利用
– トピックに関連するドキュメントの利用
• トピック特有の言い回しが多く現れると仮定し学習
– タグつきコーパス
• 実際にカテゴリーが付与されたデータを利用して学
習

パターンの表現
– 構文木構造による表現
• 動詞と主格
• ofでつながれた名詞節
• 任意の部分木構造
Webからの情報抽出
Information Extraction from the Web

Webラッパー
– Webのhtml文書の構造を利用して、役に立つ情報を
抽出
• テーブル要素の繰り返しやリストの列挙情報から情
報を抽出
• 例:
– テーブルから商品名と価格の対の組み合わせを獲得
– 各研究者の論文リストから、論文名とその論文のファイル
を獲得 http://citeseer.ist.psu.edu/
Webからの情報抽出
Information Extraction from the Web

Webラッパー
HD1
160GB
SCSI
35000
HD2
350GB
IDE
25000
<table>
<tr>
<td> HD1 </td>
<td>160GB </td>
<td>SCSI </td>
<td>35000</td>
</tr>
<tr>
<td> HD2 </td>
<td>350GB </td>
<td>IDE </td>
<td>25000</td>
</tr>
</table>
テンプレート
型番:table/tr[*]/td[1]
容量:table/tr[*]/td[2]
タイプ:table/tr[*]/td[3]
値段:table/tr[*]/td[4]
型番 容量 タイプ
値段
HD1
160GB
SCSI
35000
HD2
350GB
IDE
25000
質問応答 Question and Answering

Webや新聞などの情報を知識源として、ユーザ
の質問に答えることができるシステムの作成
– 様々な要素技術の複合
質問文
質問文解析
言語知識
情報検索
回答候補の
絞込み
回答
知識源
質問文解析

質問に応じて、回答が満たすべき固有表現のカ
テゴリを決定
– 「~を行ったのは誰ですか?」 → 人名
– 「~はいつですか?」→ 時間
質問応答のための情報検索

全ての文書を解析して、回答を作成するのは時
間的に困難
– 役に立ちそうな文書を探してから解析
– 情報検索の利用
• 質問部の内容を含む文書を検索
回答候補の絞込み

固有表現抽出の技術を利用する方法
– 言い換えなどについても検討
– 例:
• 「最も安い」→「最安値」

文書の特徴を利用する方法
– 回答は質問文中のキーワードの近くにある
– 頻度の情報(複数の文書からの解析結果を利用)
質問応答のための情報検索

特定の名付実体(固有名詞:人名等)に関連する
質問のための情報検索
– 名付実体の情報を含まない文書は否適合文書
Query: ポール・ニッツはいつ亡くなりましたか?
ポール・マッカー
トニー ……ポー
ル……. 亡くなる
….ポール…死
亡….
部分照合を行うIR○
質問応答用IR
×
………………
ポール・ニッツ
…死亡……
………………
………………
……
○
○
…… 死亡
……………
……………
………….
×
×
まとめ Summary

Webを情報源とした知識発見
–
–
–
–
必要な情報を探す:情報検索
情報をユーザに簡潔に提示する:自動要約
特定の情報を見つけ出す:情報抽出
複合技術としての質問応答