ウェブニュースを利用した雑談対話システム

ウェブニュースを利用した雑談対話システム
Human-Computer Interaction System Using Web News
水野淳太∗ 乾健太郎
Junta Mizuno
Kentaro Inui
松本裕治
Yuji Matsumoto
奈良先端科学技術大学院大学
Nara Institute of Science and Technology
Abstract: In this paper, we propose a non-task-oriented human-computer interaction system
with which users can communicate any time they like. As far as the system provides the users with
new information every day, they will enjoy communicating with the system without being bored.
For achieving this, the system needs to obtain the information that are new to the users. So, to
keep the system-user communication continue, we need to renew the knowledge constantly.
Over 300 web news articles are updated a day from one newspaper publishing company. It is
useful to use them for the new knowledge. The system retrieves news articles that are similar to
or related with user’s utterance, and generates its utterance using the title and the running texts
of the articles. We evaluate the system utterances generated for the user’s utterances extracted
from micro-blog.
1 はじめに
我々は,ユーザが何度でも話したくなる,飽きさせな
いような雑談対話システムの実現を目指している.計算
機との対話にすぐに飽きてしまうようなユーザであって
も,人との対話にもすぐに飽きてしまうということは少
ないだろう.人同士の対話においては,対話相手の知識
や経験を得られることがおもしろさである.さらに,対
話相手と他の話題について話したり,同じ話題でも時間
をあけて話すことによって,さらに知識や経験を得るこ
とができることが対話を飽きさせない要因の一つである
と言えよう.このような対話を計算機との対話において
実現するために,システム発話に利用する情報をユーザ
にとって未知の情報とすることがその方法の一つである
と考えられる.
しかし,ある情報がユーザにとって未知であるかどう
かを真に判断するのは難しい.そこで,ユーザにとって
未知である可能性の高い情報で近似する.例えば最新の
情報を利用した図 1 の対話例では,ユーザ発話は全く同
じだが,対話を行った日時の違いによりシステム発話は
異なっている.
このような例を実現する対話システムを構築するため
には,対話に利用する知識源をどのようにして獲得する
かが課題となる.そこで,ウェブニュースをシステム発
話の知識源として利用する.ウェブニュースは 1 社で 1
日につき 300 記事以上発行される,次々に更新される新
しい情報源であり,ユーザにとって未知である可能性が
高い.
∗ 連絡先: 奈良先端科学技術大学院大学
奈良県生駒市高山町 8916-5
E-mail: [email protected]
• 2008/9/23
ユーザ> ガソリン代が下がってきたね
システム> 原油価格の下落傾向が続けば「10 月にはガソ
リンは 160 円台に戻る」公算が大きいそうです
• 2008/9/27
ユーザ> ガソリン代が下がってきたね
システム> 石油情報センターが 25 日に発表したガソリン
の小売価格調査によると,レギュラーガソリンの全国
平均価格は · · ·
図 1: 最新の情報を利用した対話例
本稿では,ユーザにとって未知の情報を利用したシス
テム発話はユーザを飽きさせないという仮説のもとで,
そのような仮説を満たすような対話システムが実現可能
であるかどうかを,実際にシステムを構築し,その評価
を行うことで検証した.
2 関連研究
青山ら [1] は,ロボットと人との対話において,ロボッ
トでユーザの個々の情報を獲得し,それらを確認すると
いった対話を行うことで,飽きさせない対話の実現を試
みている.斉藤ら [2] は,RPG などにおけるキャラクタ
が,同じ内容の発話を繰り返さないようにするために,
ウェブニュースや天候などの実世界情報を発話に利用し
ている.例えば,
「明日の天気は?」については具体的に
明日の天気予報の情報を,
「スポーツの話題は?」につい
てはスポーツ分野についてランダムに選んだ情報を,そ
れぞれ発話テンプレートを利用して発話文を生成する.
さらに,一定回数以上利用した情報や,ユーザが興味を
示さなかった情報の重みを下げることで,ユーザが関心
をもつ情報だけを残していく.
大量のウェブニュースからシステム発話に利用する情
図 2: 対話システムの概要
報を抽出するという課題は,情報検索の一種と考えるこ
とができる.情報検索を利用した対話システムについて
は宮部ら [3] や加藤ら [4] が論じている.特に柴田ら [5]
は,ウェブ検索エンジンを利用して,1. ユーザ発話が
質問文の時は回答を検索し,2. それに失敗した場合は関
連する情報を検索し,3. さらに失敗した場合は Eliza と
同様の手法で相槌を生成して,システム発話として提示
する.
情報検索を行う対話はタスク指向対話としてよく研究
されており,例えばレストラン検索タスクでは,ユーザ
の条件に合うレストランの数を提示し,決定したらその
店名を提示する [6].それを応用し,渡航プランを選択
する対話システムも研究されている [7].
先行研究の多くでは,知識源を構造化し,それを発話
テンプレートに当てはめることによって発話文生成を行
う.しかし,一般的にテンプレートは知識源の種類に依
存する [7].一方,テンプレートを利用しない場合は,大
規模な文法構造や語彙情報を利用するが,そのためには
大きなコストがかかる.そこで,言語モデルを利用した
システム発話生成が研究されており,自然で理解しやす
い発話文の生成が行えつつある [7].
3 ウェブニュースを利用した対話システム
構築した対話システムの概要を図 2 に示す.ユーザ発
話が入力されたとき,それと類似・関連したニュース記
事を知識源から抽出し,抽出された記事を利用してシス
テム発話を生成する.なお,対話システム全体を構築す
るためには,発話意図判定やトピック遷移検出など,多
くの複雑な要素が必要となる.本研究では,提案する対
話システムの中心的な課題であるニュース検索・システ
ム発話生成に重点をおくため,一問一答の対話のみを対
象とする.
3.1 ニュース検索
ニュース検索ではユーザ発話とニュース記事との類似
度を計る必要がある.そのために Namazu1 やウェブ検
索などの全文検索を利用することが考えられるが,ユー
ザ発話単語のすべてや名詞のみを検索クエリとした場合,
これらの全文検索では検索に失敗することが多い.クエ
リをいくつかのセットに分解することも考えられるが,
その場合類似度の尺度として検索結果の順位が利用でき
ない.
1 http://www.namazu.org/
そこで,汎用連想計算エンジン GETA[8] を利用する
ことで,多くのクエリを入力しても,類似度スコアの付
与された一つの検索結果が得られるようにする.GETA
は文書検索で通常用いられる内容語をベースとした類似
度尺度を用いており,類似尺度には TF-IDF を文書長で
正規化した重み付け [9] を用いている.GETA に入力す
るクエリはユーザ発話中の単語のうち,“記号” を除いた
すべてであり,品詞別の選択は行わない.本研究では検
索結果の上位 50 個を利用し,システム発話の生成を行
う.以降,GETA を利用した検索を “連想検索” と呼ぶ.
3.1.1 連想検索の拡張
連想検索では,例えば “松下電器産業” と “パナソニッ
ク” といった表層の異なる類義語で記述された類似記事
を獲得することが期待できる.その一方で,クエリ拡張
が悪影響を及ぼし,元クエリと関連性の低い記事を検索
してしまう場合がある.
そこで,Higashinaka et al.[10] に倣い,連想検索結果
の各文書に対して,ユーザ発話文との類似性を計ること
で,連想検索の性能を向上させることを試みた.ユーザ
発話文とニュース記事の類似性は,ユーザ発話中の単語
についてのニュース本文中での WordOverlap(以下 WO)
によって計算する.WO はニュース記事に対して,ユー
ザ発話中の単語がどれだけ多く含まれているかを数え上
げ,記事を構成する単語数で正規化したものとして計算
する.ユーザ発話単語のすべてを使って計算すると,助
詞などの影響が大きくなるため,“名詞” についてのみ計
算し,それを連想検索による類似度スコアに乗算する.
また,別の尺度として Gianna ら [11] による,ニュー
ス発行日から一定期間で半減する減衰スコアを導入す
ることで,より新鮮なニュースに対して重みを与える.
Gianna らのスコアは以下のようにして計算する.本稿
ではニュース発行日のスコアを 1,半減期の 7 日を経過
すると 0.5 となるようにする.
Score(t)
Score(t0 )
= Score(t0 )e−α(t−t0 )
=
(1)
1
( )
ただし,t0 = ニュースの発行日, α = − ρ1 ln 12 , ρ = 7
とする.Gianna スコアと WO は連想検索結果の文書に
ついて計算するため,連想検索は必ず行う必要がある.
それに対して他の 2 つのスコアを利用することによって,
検索性能の向上が期待できる.
3.2 システム発話文の生成
本研究におけるシステム発話は,ユーザ発話に類似・
関連した記事の内容を網羅的かつ簡潔に説明しているこ
とが望ましい.ニュースタイトルはその条件には合って
いるが,助詞を省略するなど文としては不完全であった
り,人名を途中で切るなどの極端な省略が行われている
場合がある.そこで,本文からシステム発話に利用すべ
き一文を抽出する手法を提案する.
3.2.1 本文を利用したシステム発話生成
ニュース記事の内容を網羅的かつ簡潔に説明する一文
を生成することは,本文の一文要約に相当する.しかし,
記事全体を一文に圧縮要約すると,文として不自然にな
ることが多く,不自然な文はシステム発話として望まし
くない.そこで,記事中の文の中で,要約としてもっと
もふさわしい一文を選択する.そのために 3 種類の尺度
を考え,それらを乗算した結果でもっともスコアの大き
いものをシステム発話に利用する.
1. ニュースの重要語についての WO まずニュースの重要語を決定するために,ニュース
タイトルを利用する.ニュースタイトルを本文から
構築するという研究 [12] においても,重要語の決定
が中心課題の一つとなっていることから,ニュース
タイトルにはそのニュースについての重要語の多く
が含まれていることが期待できる.従って,ニュース
の内容をもっともよく説明している文とは,ニュー
スタイトル中の単語がもっとも多く含まれている文
であると考えられる.そこで,記事中の各文に対し
て,ニュースタイトル中の単語についての WO を計
算する.さらに,ユーザ発話中の単語についても同
様にして WO を計算することで,ユーザ発話に対し
ても類似・関連性の高い一文を選択することができ
る.WO の計算に利用する単語の品詞は,タイトル,
ユーザ発話とも共通で,“名詞-一般”,“名詞-固有”,
“動詞-自立” とし,ユーザ発話単語の WO にはタイ
トル単語の WO の 3 倍の重みを与えた.これらの設
定は,評価実験で利用しなかったユーザ発話に対し
てシステム発話生成を行い,調整・決定した.
2. 文の記事中での位置 記事の文頭に近い方が内容の網羅性が高いという性
質を利用するために,記事中の各文について,その
文頭が本文全体に位置する割合をスコアとして計算
する.
3. 文長 システム発話は冗長ではなく簡潔であることが望ま
しいので,短い文に対して高いスコアを付与する.以
下のように本文全体の文字数に対して各文の文字数
の割合を計算する.
1−
#sentence
#all sentences
ユーザ> 郵政民営化は絶対に将来に禍根を残すと思うのに · · ·
システム> 将来に大きな禍根を残したと言えます
提案手法に比べてニュースの新しさなどは考慮されない
が,ユーザ発話との類似性は提案手法よりも高くなる傾
向にある.
4.2 実験設定
ウェブニュースは毎日新聞2 ・産経新聞3 を対象とし,
そのうち 2008 年 9 月 4 日から 2009 年 1 月 24 日までの
94,221 記事を検索対象とした.
本システムでは,ニュース検索において,1. 連想検索
のみ,2. 連想検索+WO,3. 連想検索+Gianna,4. 連
想検索+WO+Gianna の 4 種類,発話文生成において,
1. ニュースタイトル,2. ニュース本文 (ユーザ発話の
WO),3. ニュース本文 (タイトルの WO),4. ニュース
本文 (ユーザ発話の WO+タイトルの WO) の 4 種類を
用意することができる.なお,発話文抽出において,文
の位置および文長のスコアは全ての場合において利用す
る.これらの設定の組み合わせから得られる 16 発話と,
ベースライン手法を合わせることで,一個のユーザ発話
に対して最大 17 個のシステム発話を生成することがで
きる.
4.2.1 ユーザ発話セットの構築
本研究で構築した対話システムは,入力されたユーザ
発話と類似・関連した情報をウェブニュースから検索し,
システム発話として出力する.従って,そのような情報
が検索対象に含まれていない場合,適切なシステム発話
を出力することができない.そこで,検索対象によく含
まれ,かつ話題となっている単語をトピックワードとし,
それが含まれるユーザ発話のみを評価の対象とする.ト
ピックワードは,はてなキーワード4 の過去 100 日間の
注目キーワードであり,かつ検索対象に多く含まれるも
のとする.
しかし,評価者にとって,トピックワードを含むよう
な発話を考えることは難しい.そこで,マイクロブログ
の一つである twitter5 から,トピックワードを含み,か
つユーザ発話として適切であろう発話文 (つぶやき) を
(2) 抽出し,ユーザ発話セットを構築する.ユーザ発話とし
て適切かどうかを判断する条件を以下に示す.
1. 他ユーザに対する発話ではない • “@他ユーザ名” という,他ユーザへ向けた発話で
あることを明確に表すための表現を含まない
• “【急募】” や “[関東]01/30 18:00 総武線 · · · 遅れ
が出ています” といった,不特定ユーザに向けた
括弧を利用した表現を含まない
4 実験
2. 一文のみで完結する発話である 4.1 ベースライン手法
• 発話中に URL が含まれているとき,URL 先の情
ベースラインとなるシステム発話は,ユーザ発話と
報を知っていることを前提としている場合が多い
もっとも類似した文である.従ってすべての記事を一文
ため,これを含まない
ずつに分解した検索対象に対して,ユーザ発話に対する
2 http://mainichi.jp/
連想検索を行う.検索された文に対して提案手法と同様
3 http://sankei.jp.msn.com/
のヒューリスティックルールによって変換したものをベー
4 http://d.hatena.ne.jp/keyword/
5 http://twitter.com
スラインのシステム発話とする.
以上の 3 種類の尺度によって,重要語を多く含み,文
頭に近く,かつ短い一文を選択することができる.さら
に,選択した文に対して,ヒューリスティックルールに
よって語尾の変換,注釈の除去などを行い,システム発
話として出力する.
• “これ”,“それ” といった指示表現を含まない
• 複数文からなる発話ではない
3. 20 文字以上 60 文字以内の発話である
用意した 300 個のトピックワードのそれぞれについて
twitter から検索,上記条件に合うものを選択し,複数
ある場合はランダムに 1 発話を選択する.最終的に 229
発話が得られ,そこからランダムに選択した 51 発話を
評価実験に利用した.
• 東京のウオッカは買いだという情報もあるけどかわなーい。
• 総務省統計局の統計メールに登録してみた。
4.3 評価方法
ユーザ>「ねんきん特別便」とやらが届きました.
.
.
。
システム>
• ねんきん特別便を見て、暮らしの安心こそ社会の活力源だ
と改めて思いました
手法:[連想検索, 本文 (ユーザ発話+タイトル)]
• 拙宅に「ねんきん特別便」が届きました
手法:[ベースライン]
• きょうの怒、ねんきん特別便を見て、暮らしの安心こそ
手法:[連想検索, タイトル]
図 3: 対話システムの出力例
表 1: 評価項目 A:多数決による評価
評価
1
1 または 2
5人
0
7
4人
0
9.2
3人
2.8
10.4
評価者は,成人男性 3 名 (いずれも 20 代) と,成人女
性 2 名 (20 代と 30 代) の計 5 名である.まず,対話を
行っている状況について,“対話ロボットとのチャットに
5.1 評価項目 A
おいて,最近の話題についてシステムに話しかけた” と
5.1.1 評価者ごとの実験結果
する.その設定のもと,51 個のユーザ発話に対して,そ
評価項目 A について,まず入力されたユーザ発話に対
れぞれ最大 17 個のシステム発話を提示し,以下の評価
して,提案手法およびベースライン手法を問わず,自然
を行う.
なシステム発話を生成することができたかどうかを評価
A システム発話はユーザ発話に対して自然ですか?
する.そのため,一個のユーザ発話に対して,得られた
1 自然, 2 どちらかといえば自然, 3 どちらともいえない, 4 複数のシステム発話の内,もっとも高い評価をそのユー
どちらかといえば不自然, 5 不自然
ザ発話に対するシステムの結果とし,そのときのユーザ
B 評価項目 A が 1 ∼ 3 の場合,話題を変更することな 発話数を図 4 に示す.この結果から,51 個中 27 個の
く対話を続けられますか?
1 続けられる, 2 どちらともいえない, 3 続けられない
C 評価項目 A が 4 ∼ 5 の場合,システム発話はユーザ
発話と関連性がありますか?
1 関連している, 2 どちらかといえば関連している, 3 どち
らともいえない, 4 どちらかといえば関連していない, 5 関
連していない
また,以下のような場合は評価者による自由な推測およ
び調査を行うこととする.
• ユーザ発話とシステム発話で同じ単語または同義語が現れ
るときに,それらが同一のものであるか分からない場合
• ユーザ発話やシステム発話中に評価者が未知の単語や内容
が記述されている場合
図 4: 評価項目 A:各ユーザ発話における各評価者 (a∼e)
本研究では,ユーザ発話に対して,内容的に類似・関 の評価結果およびその平均 (average)
連したシステム発話を返せるかどうかを評価するのが目
的であるため,評価項目 A の重要性が高い.それに加 ユーザ発話に対して,“どちらかといえば自然” 以上の
えて,評価項目 A で自然な発話が得られたと評価され 評価のシステム発話を返すことができた.従って,前述
たとき (評価項目 A が 1,2),対話を続けられるかどうか の仮説を実証しうる対話システムは構築可能であるとい
は対話システムとして重要な要素である (評価項目 B). える.
また,自然な対話が得られなかった場合 (評価項目 A が
5.1.2 多数決による評価
4 ∼ 5),その原因を調べるためにユーザ発話とシステム
前節では評価者ごとによる評価を行ったが,ここでは
発話とで関連性があるかどうかを評価する.関連性がな
評価者 5 人の多数決による評価を行う.評価項目 A につ
い場合,ニュース検索誤りが生じた可能性が高いと言え
いて,3 人以上,4 人以上,5 人全員のそれぞれが 1 また
る (評価項目 C).
は 2 と評価したシステム発話のみを,そのユーザ発話に
対するシステムの結果であるとして,そのユーザ発話数
5 実験結果と考察
で評価する.その結果を表 1 に示す.4 人以上および 3
ユーザ発話と,生成されたシステム発話の例を図 3 に 人以上の多数決は,それぞれ 5 人のうちの任意の 4 人,
および任意の 3 人による多数決の平均である.
示す.
5.1.3 設定ごとの評価
ることで Gianna スコアによる検索性能の向上が期待で
評価項目 A について,ニュース検索および発話文生 きる.
WO を利用した場合だが,そもそも WO は予備実験
成の手法の違いによる評価を行う.本実験では 17 個の
の際に,連想検索によるクエリ拡張の悪影響が確認され
システム発話が生成されるが,設定が異なっても生成さ
れるシステム発話は同じになる場合がある.平均すると たために導入したスコアである.しかし,ユーザ発話と
9.2 発話 (最少 6 発話,最多 13 発話) であった.どのシス 検索対象とで語義が異なる場合は,検索性能を下げる原
テム設定で生成されたシステム発話の評価が高いかを, 因となる.その例を以下に示す.
MRR(Mean Reciprocal Rank) 6 によって評価する.評 ユーザ> 大阪市に大雨洪水警報、堺市は晴れまくってますが。
システム> タクシーとバイクが衝突、男性が死亡、大阪・堺
価者が 5 人いるため,最終的な MRR は評価者ごとの
です
MRR の平均をとる.その結果を図 5 に示す.もっとも
この対話において,ユーザ発話とシステム発話とで “大
阪”,“堺” の WO が高くなるが,ユーザ発話では天候情
報の場所の意味であり,システム発話では事故現場の意
味である.いずれも場所を示しているが,その細かい意
味は異なっている.このような語義曖昧性によってニュー
ス検索に悪影響を与えている場合が多く確認された.
発話文生成について,いずれの検索設定においても,
ユーザ発話 WO とタイトル WO の両方,またはユーザ
発話 WO のみを利用した場合に高い評価が得られた.特
にタイトル WO のみを利用した場合はベースラインを
下回ることもあり,ユーザは,自身の発話に類似したシ
ステム発話を好むことがわかる.
図 5: 評価項目 A:システムの設定ごとの MRR
タイトルをそのまま利用したシステム発話は,極端な
省略などがあり,日本語としては不自然 (特に助詞の省
評価の高かった設定は,ニュース検索に連想検索スコア 略) である場合が多いが,“本文 (タイトル WO)” よりは
のみ,発話文生成にユーザ発話単語の WO をとる設定 良い結果となった.
および,ユーザ発話単語とニュースタイトル単語の両方
の WO をとる設定の 2 設定である.
ベースライン手法との比較だが,ほとんどの場合で
ベースラインより良い評価が得られている.また,検索
手法にかかわらず,発話文生成にどのような設定を利用
したかでほぼ同じ傾向が確認できる.すなわち,“本文
(ユーザ発話 WO+タイトル WO)” および “本文 (ユーザ
発話 WO)” の評価がほぼ同じで高く,“本文 (タイトル
WO)” および “タイトルそのまま” の場合がほぼ同じで
低くなっている.
ニュース検索手法の比較では,1. 連想検索のみ,2.
連想検索+WO,3. 連想検索+WO+Gianna,4. 連想検
索+Gianna の順に高い評価が得られたことがわかる.
特に Gianna スコアを利用した場合の評価が低くなっ
た.その原因は,Gianna らはニュースの種類 (政治や
スポーツなど) によって変化させていたが,本研究では
ニュースの内容にかかわらず半減期を一定にしたためで
あると考えられる.しかし,どの種類のニュースにどの
程度の半減期が最適であるかは明らかではない.また,
例えば過去の事件に進展があったために再び報道された
ような場合,その記事中には過去の事件のあらましも
記述されており,同一記事中においても時間変化が大き
い場合がある.記事中および記事間の時間関係も考慮す
∑n 1
1
6
5.2 評価項目 B
評価項目 B は,評価項目 A が 1∼3 である場合にのみ
評価される,ユーザ発話がシステム発話に対して,ある
程度自然である場合にのみ,話題を変えることなく対話
を続けられるかどうかを評価している.どんなシステム
発話に対しても,聞き返しや否定などの返答を行うこと
は可能であるため,“話題を変えることなく” という条件
を付している.評価結果を図 6 に示す.評価項目 A が
図 6: (左) 評価項目 B:評価項目 A の結果に対する割合
図 7: (右) 評価項目 C:評価項目 A の結果に対する割合
1∼3 のそれぞれについて,評価項目 B の割合を示す.評
価項目 A が 1 の場合,評価項目 B も 1 である割合が高
く (85.0%),自然なシステム発話に対しては,さらなる
MRR = n
返答が行いやすいということがわかる.評価項目 A の
k=1 sk
n はユーザ発話の総数であり,ここでは 51 である.sk は k 番目の 評価が下がるにつれ,返答することが困難である割合が
ユーザ発話における評価値であり,1 ∼ 5 となる.MRR は 0 ∼ 1 の
値域をとり,1 に近い方がより良い結果となる.
増えていることが確認できる.
しかし,システム発話が自然であるかどうかについ
て “どちらともいえない” と評価した場合においても,
30.3%の割合で対話を続けることが容易であり,続けら
れない割合がそれよりもわずかだが少ない (29.8%).こ
のことは,ウェブニュースのように次々と更新される新し
い情報を利用した対話システムは,対話を活性化させら
れる可能性を秘めていることを示していると言える.す
なわち,システム発話として自然とは言えないが,ユー
ザ発話に関連した情報であるため,対話を続けられる割
合が多いと考えられる.
5.3 評価項目 C
評価項目 C は評価項目 A が 4 または 5 の場合にのみ
評価される.ユーザ発話がシステム発話に対して自然で
ない場合,ユーザ発話とシステム発話に関連性があるか
どうかを検証するのが目的である.評価結果を図 7 に
示す.
評価項目 A が 4 または 5 のそれぞれについて,評価
項目 C の割合を示している.評価項目 A で不自然であ
ると評価されるほど,関連性も低下していることが確認
できる.顕著なのは評価項目 A が 5,すなわちユーザ発
話に対してシステム発話が “不自然である” と評価され
た場合は,関連性も低い場合がほとんど (評価項目 A の
結果が 4 および 5 の場合を併せて 88.2%) であった.
6 おわりに
本稿では何度でも話したくなる,飽きさせない対話シ
ステムを実現するために,“次々に更新される新しい情
報を知識源として発話文を生成することが有用である”
という仮説の元で,そのような発話文生成自体が可能で
あるかどうかを検証した.その結果,51 個のユーザ発
話に対して,平均で 27 個について自然なシステム発話
を返すことができ,評価者による多数決をとった場合に
おいても,全員が “どちらかといえば自然” 以上の評価
をしたシステム発話が 7 発話あった.
また,評価項目 B で,システム発話に対する返答を容
易に行えるかどうかを評価することで,自然と判断され
たシステム発話に対しては 85.0%の割合で容易に返答が
でき,対話を続けられることがわかった.
エラー分析の結果からは,ユーザ発話単語の語義曖昧
性がニュース検索性能を低下させる大きな要因であるこ
とが分かった.今後は,語義曖昧性解消の手法を適用す
ることで,検索性能を高めることができると考えられる.
本研究において検索対象としているのは約 10 万件の
ニュース記事であるため,自由なユーザ発話が行えない.
今後は,検索対象をニュース記事に限らず,ブログなど
も対象としたい.そのような場合,GETA は実装上の問
題で利用するのが困難であるため,ウェブ検索エンジン
を利用したクエリ拡張を伴う全文検索を利用することが
考えられる [4].
参考文献
[1] 青山一美, 星野由紀子, 下村秀樹. ユーザ固有の情
報を獲得・再利用するロボットでの音声対話. 人工
知能学会研究会資料, SIG-SLUD-A301-6, 2003.
[2] 斉藤哲也, 広田健一, 星野准一. Web 情報を用いた
キャラクタの発話・世間話モデル. 情報処理学会研究
報告. 自然言語処理研究会報告, Vol. 2007, No. 94,
pp. 53–58, 20070925.
[3] 宮部隆夫. ネットニュース情報サービスのための質
問応答対話. 情報処理学会全国大会, 第 53 巻, pp.
45–46, 1996.
[4] 加藤恒昭, 福本淳一, 桝井文人, 神門典子. 質問応答
技術は情報アクセス対話を実現できるか. 第 162 回
自然言語処理研究会, No. 73, pp. 145–150, 2004.
[5] 柴田雅博, 冨浦洋一, 西口友美. Web 文書を言語資
源とする情報検索型対話システム. 人工知能学会研
究資料, SIG-SLUD-A701-12, 2007.
[6] Joseph Polifroni, Grace Chung, and Stephanie
Seneff. Towards the automatic generation of
mixed-initiative dialogue systems fromweb content. In EUROSPEECH, 2003.
[7] Nathanael Chambers and James Allen. Stochastic
language generation in a dialogue system: Toward
a domain independent generator. In Proceedings
of the 5th SIGdial Workshop on Discourse and Dialogue, pp. 9–18, 2004.
[8] 高野明彦, 西岡真吾, 今一修, 岩山真, 丹羽芳樹, 久
光徹, 藤尾正和, 徳永健伸, 奥村学, 望月源, 野本忠
司. 汎用連想計算エンジンの開発と大規模文書分析
への応用. 平成 13 年度成果報告集情報処理振興事
業協会, 2001.
[9] Amit Singhal, Chris Buckley, and Mandar Mitra.
Pivoted document length normalization. In SIGIR
’96: Proceedings of the 19th annual international
ACM SIGIR conference on Research and development in information retrieval, pp. 21–29, 1996.
[10] Ryuichiro Higashinaka and Hideki Isozaki. Automatically acquiring causal expression patterns
from relation-annotated corpora to improve question answering for why-questions. ACM Transactions on Asian Language Information Processing
(TALIP), Vol. 7, No. 2, pp. 1–29, 2008.
[11] Gianna M. Del Corso, Antonio Gullí, and
Francesco Romani. Ranking a stream of news. In
WWW ’05: Proceedings of the 14th international
conference on World Wide Web, pp. 97–106, 2005.
[12] Ruichao Wang, John Dunnion, and Joe Carthy.
Machine learning approach to augmenting news
headline generation.
In Proceedings of the
IJCNLP-05 Workshop on NLP for Less Privileged
Languages, pp. 155–160, 2005.