対話システムシンポジウムチュートリアル対話システム研究の進め方

対話システムシンポジウムチュートリアル
対話システム研究の進め方
(2015年8月改訂版)
(株)ホンダ・リサーチ・インスティチュート・ジャパン
中野幹⽣
協⼒
荒⽊雅弘（京都⼯繊⼤），駒⾕和範（阪⼤），
堂坂浩⼆（秋⽥県⽴⼤），東中⻯⼀郎（NTT），
藤江真也（千葉⼯⼤），船越孝太郎（HRI-JP），
翠輝久（HRI-US），南泰浩（電通⼤）
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
1
本チュートリアルの⽬的
• 背景：⾳声・⾔語処理技術の⾼度化に伴い，対話技術
へのニーズが⾼まっている
• 課題：⾳声認識研究等と⽐較して，対話システム研究の
進め⽅が共有されていないため，新たに研究を始めることが
簡単ではない
• ⽬的：研究の進め⽅に関する情報の共有
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
2
本チュートリアルの⽬的
• 背景：⾳声・⾔語処理技術の⾼度化に伴い，対話技術
へのニーズが⾼まっている
• 課題：⾳声認識研究等と⽐較して，対話システム研究の
進め⽅が共有されていないため，新たに研究を始めることが
簡単ではない
• ⽬的：研究の進め⽅に関する情報の共有
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
3
対話システム研究の進め⽅
対話システムの基本（モジュール構成な
ど）を理解する
とりあえず既存⼿法で
対話システムを作る
システムを使ってもらって
データを集める
新しい知識獲
得⼿法やシステ
ム評価法を作る
新しい対話システ
ムを作る
⼈-システムの対話
データを⼊⼿する
対話システムを
作って定量的定性
的に評価
要素技術を改良する
オフラインで評価し既存
⼿法と⽐較
対話システムツー
ルキットを作る
被験者実験を
⾏い⽐較
被験者実験を
⾏い評価
関連研究を調べて論⽂執筆
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
4
チュートリアル⽬次
• 対話システムの基本・歴史
• 対話システムの作り⽅
• 対話システム研究の類型
– 問題設定
– 実験の仕⽅
• 成果の論⽂化
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
5
対話システム研究の基本・歴史
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
6
対話システムの基本（モジュール構成な
ど）を理解する
とりあえず既存⼿法で
対話システムを作る
システムを使ってもらって
データを集める
新しい知識獲
得⼿法やシステ
ム評価法を作る
新しい対話システ
ムを作る
⼈-システムのデータ
を⼊⼿する
対話システムを
作って定量的定性
的に評価
要素技術を改良する
オフラインで評価し既存
⼿法と⽐較
対話システムツー
ルキットを作る
被験者実験を
⾏い⽐較
被験者実験を
⾏い評価
関連研究を調べて論⽂執筆
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
7
対話システムとは何か
• 対話システムの定義
– ⼈間と⾔語で情報を授受するシステム
– 複数回のやりとりを⾏い，その履歴（対話の履歴）を利⽤する
• 対話システムではないもの
– 対話の履歴を⽤いない⼀問⼀答型のシステム（データベース検
索など）
• AppleのSiriの機能は概ねここに⼊るが，タスクによっては複数回のやり
とりを⾏うこともある
– 対話型システム
• ヒューマンコンピュータインタラクション分野でインタラクティブなシステムを指
す．必ずしも⾔語は⽤いない
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
8
対話システムの基本を知るための教科書
• 対話システムの教科書
– 中野・駒⾕・船越・中野，対話システム，コロナ社
– 河原・荒⽊, ⾳声対話システム，オーム社
– McTear, Spoken Dialogue Technology, Springer
– Jokinen & McTear, Spoken Dialogue Systems,
Morgan & Claypool
– Delgado & Araki, Spoken, Multilingual and
Multimodal Dialogue Systems, Wiley
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
9
対話システムの基本を知るための教科書
• 対話システムに関する解説のある教科書
– 荒⽊：フリーソフトで作る⾳声認識システム，森北出版
– 荒⽊：イラストで学ぶ⾳声認識，講談社
– 島津・中野・堂坂・川森：話し⾔葉対話の計算モデル，電⼦
情報通信学会
– 中川（編）：⾳声⾔語処理と⾃然⾔語処理，コロナ社
– ⿊橋：⾃然⾔語処理，放送⼤学教育振興会
– Jurafsky & Martin: Speech and Language
Processing
– Huang, Acero, & Hon: Spoken Language Processing
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
10
対話システムのサーベイ
• 河原: ⾳声対話システムの進化と淘汰 ―歴史と最近の技術動向―. ⼈
⼯知能学会誌, 28(1), pp.45-51, 2013.
– http://www.ar.media.kyotou.ac.jp/~kawahara/paper/JSAI13.pdf
• 中野: 実⽤的な対話ロボットの構築に向けて–物理世界での⾔語インタラク
ションのモデルと技術課題–, メディア教育研究, 9(1), pp. S29-S41,
2012.
– http://www.code.ouj.ac.jp/media/pdf/vol9no1_shotai_4.pdf
• S. Young, M. Gǎsǐc, B. Thomson, and J. Williams: POMDPbased statistical spoken dialog systems: A review, 101(5),
pp. 1160~1179, Proc. IEEE, 2013.
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
11
対話システムのアーキテクチャ
対話管理
update
内部状態更新
モデル
内部
状態
内部状態
更新
[対話⾏為タイプ：質問
トピック：株価]
⾔語理解
モデル
⼊⼒理解
モデル
⾔語理解
「今⽇，の，株価，
は」
⼊⼒理解
⾳声・テキス
ト・画像など
2015/8/7
トピック
株価
会社名
―
未確
認
⾏動選択
ユーザ意図の理解結果，
意図理解確信度，確認
状況（グラウンディング状
況），etc.
⾏動選択
モデル
[対話⾏為タイプ：質問
トピック：会社名]
⾔語⽣成
⾔語⽣成
モデル
「会社名を
⾔ってくださ
い」
出⼒⽣成
出⼒⽣成
モデル
⾳声・テキスト・画像・
ロボットやエージェント
の⾏動など
© 2015 Honda Research Institute Japan Co., Ltd.
12
対話システムのバリエーション
• モダリティ
– テキスト
– ⾳声
– マルチモーダル（タッチスクリーン，バーチャルエージェント，ロボットなど）
• ドメイン（話題）
– シングルドメイン（ホテル予約，フライト情報など）
– マルチドメイン（複数のドメイン）
– オープンドメイン（あらゆる話題に対応）
• タスク
– 対話の明確な⽬標あり（タスク指向型：データベース検索，フォームフィリング，コマンド＆コントロール，
説明など）
– 対話の明確な⽬標なし（⾮タスク指向型：雑談，聞き役など）
• 参加者の数
– 1対1（ユーザ1⼈，システム1体）
– マルチパーティ（ユーザ，システムのどちらかまたは両⽅が複数）
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
13
対話システム研究の発展：90年代半ばまで
⼈間の対話のモデルの理論的枠組み・⾳声応答システム
SHRDLU
(Winograd)
⾃然⾔語インタフェース
（DBに⾃然⾔語で質
問）
フレームベース
対話管理
GUS
プランベース対話
協調的応答
(Cohen, Leveque,
Allen)
談話プラン，Joint Action
などの理論的枠組み
(Litman, Grosz, Sidner)
Grounding
Theory の導⼊
(Traum)
2015/8/7
⾳声応答システム
⿊板モデル
Hearsay II
Explanation
dialog
(Cawsey, Moore)
© 2015 Honda Research Institute Japan Co., Ltd.
ATIS
(フライト情報)
14
対話システム研究の発展： 90年代半ば〜2000年頃
⾳声認識と対話の研究の統合
ユーザ⾏動の分析
統計モデル，機械学習の導⼊
対話評価
PARADISE
(Walker)
mixed
initiative
TOSBURG
Error
Detection
(AT&T)
Virtual Agent
(視線・ジェス
チャー)
(Cassell)
2015/8/7
Multimodal
(Oviatt)
Philips
列⾞時刻案内
Information
state update
(Trindikit)
MDP・強化学習による
対話制御
(Levin, Walker)
© 2015 Honda Research Institute Japan Co., Ltd.
CSLU
Toolkit
Galaxy
Communicator
15
対話システム研究の発展： 2000年頃から現在
領域の拡⼤の時代，統計モデル・機械学習の定着
マルチドメイン
Virtual Agent
ユーザモデル・パー
ソナリティ
POMDP・強化学
習対話管理
多⼈数対話
ロボット
Engagement
Belief Tracking
⾮タスク指向対
話
モバイル
デバイス
感情・態度
知識獲得
チュータリングシス
テム
アンビエント
柔軟な発話交
替・逐次処理
対話ツールキット・
対話記述⾔語
WEB の利⽤
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
16
対話システムの作り⽅
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
17
対話システムの基本（モジュール構成な
ど）を理解する
とりあえず既存⼿法で
対話システムを作る
システムを使ってもらって
データを集める
新しい知識獲
得⼿法やシステ
ム評価法を作る
新しい対話システ
ムを作る
⼈-システムのデータ
を⼊⼿する
対話システムを
作って定量的定性
的に評価
要素技術を改良する
オフラインで評価し既存
⼿法と⽐較
対話システムツー
ルキットを作る
被験者実験を
⾏い⽐較
被験者実験を
⾏い評価
関連研究を調べて論⽂執筆
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
18
対話システムの作り⽅
• 対話システム構築のための様々なツールがあるが，どのツー
ルがどのような対話システムの構築に役⽴つのかを知るのは
難しい
→ 解決策
– 専⾨家に聞く
– 次⾴のように作る
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
19
初めての対話システム構築
•
•
•
⼊⼒理解
–
テキスト⼊⼒：Mecab，Jumanなどの形態素解析器
–
⾳声⼊⼒：Juliusディクテーションツールキットや商⽤のサーバ型⼤語彙⾳声認識を⽤いる
⾔語理解
–
対話⾏為タイプの推定：Bag-of-WordsとSVMなど
–
属性抽出：キーフレーズ抽出
対話管理
–
•
⾔語⽣成
–
•
フレームベース対話管理をPythonなどで実装
テンプレートベース⾔語⽣成（スクリプト⾔語によるプログラムでも良い）
出⼒⽣成
–
テキスト出⼒：表⽰するのみ
–
⾳声出⼒：OpenJTalkや商⽤の⾳声合成
–
エージェント，ロボットの制御などはそれらの制御ツールを⽤いる
参考⽂献：中野他「対話システム」コロナ社，p168コラム
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
20
注意点(1)
• ⼊⼒理解
– ⾳声認識
• 区間検出とゲイン調整が⼤事
• ⾔語モデル
– ターゲットドメインのデータを集める
– 辞書の読みに注意
– 単語の定義が重要
– データから良い統計モデルをつくるのはそれほど簡単ではない
– ⾳声認識⽤⾔語モデル（⾳声⼊⼒）や形態素解析モデル（テキス
ト⼊⼒）と⾔語理解⽤の知識の整合がとれていないといけない
• 単語の表記，単語境界などの統⼀
• ⼀つの知識源から⼀度につくる等の⼯夫
– ⼊⼒理解結果の確信度が重要→対話管理に使う
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
21
注意点(2)
• ⾳声合成
– 読み間違いの少ない合成器を選ぶ．
– 未知語は登録．アクセントを正しくつけないと聞き取れない
• 対話管理，統合システム
– 作ろうとしているシステムに合わせる必要がある
• 簡単な対話に複雑な対話管理（対話状態）は不要
– ツールキットの使い⽅も含めて様々なノウハウがある
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
22
対話システム研究の類型
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
23
対話システムの基本（モジュール構成な
ど）を理解する
とりあえず既存⼿法で
対話システムを作る
システムを使ってもらって
データを集める
新しい知識獲
得⼿法やシステ
ム評価法を作る
新しい対話システ
ムを作る
⼈-システムのデータ
を⼊⼿する
対話システムを
作って定量的定性
的に評価
要素技術を改良する
オフラインで評価し既存
⼿法と⽐較
対話システムツー
ルキットを作る
被験者実験を
⾏い⽐較
被験者実験を
⾏い評価
関連研究を調べて論⽂執筆
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
24
なぜ類型を知る必要があるのか？
• ある程度類型にはまらないと論⽂の内容や価値を理解してもらえない
– 問題設定の明確化
• ⼊⼒と出⼒など
– コミュニティーで⼀般的な評価法を利⽤
– コミュニティーが納得する⽅法で⾏った実験や収集したデータに基づく
• 類型にはまらない場合は，それを意識した説明が必要
– 査読者は類型にあてはめて理解しようとしてしまう
– 理解・納得してもらえさえすれば類型にはまらない論⽂は（新規性が⾼い
ので）通りやすい
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
25
対話システム論⽂の問題設定
• 問題設定＝対話システムのタイプ×技術項⽬
– 対話システムのタイプについては「対話システムのバリエーション」の
ページを参照
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
26
技術項⽬：談話理解・意図理解
• ⼊⼒
– ユーザ発話と発話履歴（ユーザ発話，システム発話の連鎖）
• 出⼒
– 意図理解結果 [Higashinaka et al. ACL 2003, 神⽥他情処論2006]
• 新規性
– タスクのタイプ，モデル・特徴量
• 評価
– オンライン（被験者実験）またはオフライン（⼈と機械の対話データ）で理解率
（スロット誤り率など）を⽐較
• 備考
– 近年，Dialog State Tracking Challengeがあり，共通のデータを⽤いて研究
が進められている
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
27
技術項⽬：談話意図の認識
• ⼊⼒：
– ユーザ発話と発話履歴（ユーザ発話，システム発話の連鎖）
（リアルタイム 10-100ms単位）
– 視線など
• 出⼒：
– ターン委譲意図の有無 [Kitaoka et al, ⼈⼯知能学会誌 2005]
– 態度（肯定/否定）[藤江他信学論D 2005]
– 会話参加度（engagement）[Ishii et al.，TiiS 2013]
– 受話者（Addressee）など [中野他，⼈⼯知能学会論⽂誌 2014]
• 新規性
– 対話システムタイプ
– モデル，特徴量
• 評価
– オンライン（被験者実験）でユーザの印象を⽐較
– オフライン（⼈と機械の対話データ）で認識率を⽐較
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
28
技術項⽬：対話管理
• 対話状態の表現・アップデート・発話選択のモデル
• 新規性
– 対話システムタイプ，対話状態・発話セット
– 最適化（強化学習）アルゴリズム，状態推定，近似
– ユーザシミュレーション
• 評価
– 実対話またはシミュレーション対話
– 評価軸
• タスク達成率[翠他信学論Ｄ2005]
• ユーザ満⾜度[Meguro et al, TSLP 2013]
• 対話時間
• ターン数[堂坂他⾃然⾔語処理ʼ02, 安⽥他情処論 2004]
• Reward（強化学習の場合）
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
29
技術項⽬：対話システムツールキット・対話記述⾔語
• 新規性
– ⾔語設計，ツールキットの機能
• 評価
– システム構築にかかる時間
– 定性的な⽐較
[桂⽥他情処論 2003, Araki et al. IEICE Trans 2005]
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
30
技術項⽬:ドメイン依存知識の⾃動獲得
• ⼊⼒
– 対話ログ（オフライン）
– 対話履歴（オンライン）
– ドメイン知識の⼀部（発話例）など
• 出⼒
– ドメイン依存知識 (⾔語モデル，談話理解モデルなど)
• 新規性
– 獲得のアルゴリズム
• 評価
– 獲得した知識を⽤いた場合の要素技術の性能 [Sudoh et al, Speech
Communication 2005，吉野他⼈⼯知能学会論⽂誌 2014]
– 獲得した知識を⽤いた場合のシステムの全体を客観的・主観的に評価
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
31
技術項⽬:対話の破綻の⾃動検出
• ⼊⼒
– 対話の履歴
• 出⼒
– 対話が破綻しているかどうか
• 新規性
– ⽤いる特徴，検出のための確率モデル
• 評価
– 状態検出率 [Komatani et al. SIGDIAL 2010]
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
32
技術項⽬:対話システムの⾃動評価法
• ⼊⼒
– 対話ログ
• 出⼒
– ユーザ満⾜度や対話時間の推定値
• 新規性
– 対話ログから得られる特徴，推定の確率モデル
• 評価
– ⾃動評価による推定と実際のユーザ満⾜度・対話時間の相関
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
33
その他の類型
• ユーザモデルの判別と利⽤
– 評価：ユーザモデルの判別率，利⽤した場合の対話の客観的（対
話時間など）・主観的評価
[Komatani et al. ACL 2003]
• ⾏動⽣成
– 発話・⾏動の内容やタイミングを⼯夫
– 評価：タスク達成率その他の客観尺度，
ユーザの印象評定＋分散分析 [船越他信学論09]
• 対話システムアーキテクチャ
– 評価: 実装して動作確認
[Nakano et al., Knowledge-Based Systems, 2011]
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
34
評価テクニック
•
•
•
•
•
テストの仕⽅・パラメータ最適化
–
Cross Validation （交差検定法）
–
ヘルドアウト補間法
評価尺度
–
Slot error rate (⾔語理解）
–
Recall, Precision, F値 (F-measure, F1-measure)
–
False Alarm Rate, False Rejection Rate, Equal Error Rate，11点平均適合率
–
Mean Reciprocal Rank
評価のビジュアライゼーション
–
混同⾏列
–
ROCカーブ
検定
–
分散分析(ANOVA)
–
t検定，符号検定，マクネマー検定，ウイルコクソンの符号順位検定，
bootstrap検定など
機械学習を⽤いた⼿法の場合，⾼村：「⾔語処理のための機械学習⼊⾨」（コロナ社）の６章が参考
になる
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
35
成果の論⽂化
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
36
対話システムの基本（モジュール構成な
ど）を理解する
とりあえず既存⼿法で
対話システムを作る
システムを使ってもらって
データを集める
新しい知識獲
得⼿法やシステ
ム評価法を作る
新しい対話システ
ムを作る
⼈-システムのデータ
を⼊⼿する
対話システムを
作って定量的定性
的に評価
要素技術を改良する
オフラインで評価し既存
⼿法と⽐較
対話システムツー
ルキットを作る
被験者実験を
⾏い⽐較
被験者実験を
⾏い評価
関連研究を調べて論⽂執筆
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
37
対話システム研究の発表先
• 対話システム研究を発表する先はたくさんある
• サーベイはコアな会議・ジャーナルから
• 発表先は広く考えられる
– 難関会議も多い
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
38
対話システムのコア国際会議(1)
会議名
特徴
SIGDIAL
対話システム全般．対話分析もある．対話システムの発表が最もたくさん集ま
る会議．やや⾔語処理より．発表件数 50-70件，採択率はトータルで50%
程度．参加者100⼈前後
IWSDS
⾳声対話システムの会議参加者50⼈程度．採択率70%程度．
ACL, NAACL, ECAL,
IJCNLP,
⾃然⾔語処理の会議. 対話システムのセッションがあることが多い．ACL，
NAACLは最難関．EACLは2－3年に1回．
COLING
⾃然⾔語処理の会議.，隔年開催，対話システムの発表は数件
SLT/ASLU
⾳声認識・理解の会議．交互に隔年で開催される．⾳声対話システムの発
表も多い．参加者数100⼈程度
Interspeech
⾳声処理の⼤規模会議．⾳声対話システムの発表がある
参加者数1000⼈程度．
ICASSP
信号処理全般の⼤規模会議．⾳声対話システムの発表がある
ICMI
マルチモーダルインタラクションの会議．⼈間同⼠のインタラクションの⾃動理解の
研究も多い．参加者200⼈程度
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
39
関連国際会議
会議名
全体の傾向
SEMDIAL
対話の理論的な会議．
IUI
AIとインタラクションの境界領域の会議．Web関係の発表も多い．
IVA
バーチャルエージェント．対話は数件，Longは難関．参加者100⼈くらい
INLG/ENLG
⾔語⽣成の会議．交互に隔年で開催される．
EMNLP
統計ベースの⾃然⾔語処理の会議．⾃然⾔語処理ではACL,NAACLについでレベルが⾼
い．対話システム関連の発表もある
UMAP
ユーザ適応の第⼀級会議：推薦システム，e-learningシステム，インタフェース評価などが
多い
総発表件数50弱，対話システムはそれほど多くない．採択率，long,short ,poster合わせ
てで40%弱，総参加者数160
Speech Prosody
韻律処理，対話システムも歓迎される
Humanoids
ヒューマノイドロボット全般．対話ロボットの発表もある
IROS
ロボティックス全般．対話ロボットの発表が時々ある．
HRI
ヒューマンロボットインタラクション・⼼理評価系が多い
Full 20-25%，対話はそれほどない
RO-MAN
ヒューマンロボットインタラクションなど，Social Robotics系が多い
AAAI/IJCAI
⼈⼯知能の最難関会議, 対話システムは数件程度
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
40
論⽂誌（コア）
•
•
•
•
•
Speech Communication
Computational Linguistics
Dialogue and Discourse
Computer Speech & Language
IEEE/ACM Trans. on Audio Speech and Language
Processing
• IEICE Trans on Information and Systems
•
•
•
•
情報処理学会論⽂誌
電⼦情報通信学会論⽂誌
⼈⼯知能学会論⽂誌
⾃然⾔語処理
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
41
論⽂誌（関連）
•
ACM Trans. on Computer-Human Interaction
•
ACM Trans. on Asian Language Processing
•
ACM Trans. on Interactive Intelligent Systems
•
AI Journal
•
Journal of Artificial Intelligence Research
•
Knowledge-based Systems
•
Computational Intelligence
•
International Journal of Human-Computer Studies
•
User Modeling and User-Adapted Interaction
•
Cognitive Science
•
Advanced Robotics
•
IEEE Trans. on Robotics
•
Robotics and Autonomous Systems
•
知能と情報
•
⽇本ロボット学会誌
•
ヒューマンインタフェース学会論⽂誌
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
42
論⽂を書くときに気をつけたいこと（1）
• 背景：対話システム研究では，課題，実験的評価の仕
⽅が暗黙のうちに共有されているわけではない
⇔ e.g. ⾳声認識研究
– 査読者はその分野の研究の問題や進め⽅について詳細な知識
を持っていないと仮定すべき
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
43
論⽂を書くときに気をつけたいこと（2）
• 留意点(1): 問題設定を明確に記述
– 問題の重要性
– 前提条件
– 構築しようとしているモジュールの⼊⼒と出⼒
– 評価の⽅法とその意義
• 留意点(2):コミュニティ共通の問題意識・先⾏研究を踏まえた上で，研究の重要性
・新規性を論述
– 重要性・新規性は共通の問題意識・先⾏研究と関連付けて主張
– 先⾏研究の評価・批判は根拠・条件を明確に
– 適切な参考⽂献
• 全く同じ問題を扱っているものでなくても，同じ問題を扱っていると査読者が思うかもしれないものに
は⾔及する
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
44
論⽂を書くときに気をつけたいこと（3）
• 留意点(3):主張とその論拠に⼀貫性・信頼性を持たせる
– 主張と論拠（実験結果など）を筋道⽴てて記述し，論理に⾶躍がないようにする
• どの実験結果がどの主張をサポートするかを明確に
– 論⽂を通して主張を揺るがさず，あやふやさをなくす
– 主張の限界・条件が適切に記述
– 実験・評価法に疑義を差し挟まれない．適切な⽐較対象
• 留意点(4):正しい英語で書く
– 英語が間違っていると，問題設定，提案⼿法，実験の内容が理解してもらえない
• 対話システム研究の場合，数式だけでは説明できない
• 英⽂添削では⽂法しか⾒てもらえないので，意味のレベルは⾃分でチェックする必要がある
• 対話システムの知識があり，英語が堪能な⽇本⼈に添削してもらうのが⼀番
– ⼀⼈で正しい英語を書けるようになるには，関連する英⽂論⽂をたくさん読んで表現を
覚える必要がある
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
45
その他の参考情報
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
46
国内のアクティビティ
• 対話システムシンポジウム
– ⼈⼯知能学会⾔語・⾳声理解と対話処理（SLUD）研究会にて2010年度よ
り毎年開催
• ⼈⼯知能学会全国⼤会オーガナイズドセッション「知的対話システム」
– 2011年度より毎年開催
• ⼈⼯知能学会論⽂誌論⽂特集「知的対話システム」
– 2014年1⽉号
– 2016年1⽉号（予定）
• 対話システムメーリングリスト
– 関連学会情報などが流れる
– https://sites.google.com/site/dialogsystemsjp/
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
47
国外のアクティビティ
• SIGDIAL （http://www.sigdial.org/）
– Special Interest Group on Discourse and Dialogue
– ACLとISCAのJoint SIG
– 対話システムのPrimaryな国際学会
– メーリングリストに参加するだけで会員になれる
• YRRSDS (Young Researchersʼ Roundtable on Spoken
Dialog Systems)
– 若⼿研究者が意⾒交換を⾏ったりシニア研究者のアドバイスをもらったりす
る会議
– SIGDIALの前後に開かれる
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
48
おわりに
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
49
おわりに
• 解くべき問題の数に⽐べて研究者の数が少ない
– ほとんどのテーマは最⼤2-3の研究機関しか取り組んでいない
• テキスト対話，マルチモーダル対話が発展中
– スマートフォンの普及に伴う
• 対話システム研究者の需給が逼迫
– 供給が⾮常に少ない
• 是⾮対話システム研究にご参加ください！
– まずは対話システムメーリングリストやSIGDIALメーリングリストにご登録ください
• 御意⾒・間違いの御報告はnakano＠jp.honda-ri.comまで
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
50
参考⽂献
•
M. Araki, A. Kouzawa and K. Tachibana. Proposal of a multimodal interaction
description language for various interactive agents. IEICE Trans. INF. & SYST,
E88-D(11), pp.2469-2476, 2005.
•
堂坂, 安⽥, 相川: システム知識制限下での効率的⾳声対話制御, ⾃然⾔語処理, Vol.9, No.1,
43-63, 2002.
•
藤江，江尻，菊池，⼩林，“肯定的/否定的発話態度の認識とその⾳声対話システムへの応⽤,”
電⼦情報通信学会論⽂誌 J88-D2(3), pp.489-498, 2005
•
船越，⼩林，中野，⼭⽥，北村，辻野, Artificial Subtle Expressionとしての明滅光源による
⾳声対話の円滑化, 電⼦情報通信学会論⽂誌, J92-A(11), 2009
•
R. Higashinaka, M. Nakano, and K. Aikawa. Corpus-based Discourse
Understanding in Spoken Dialogue Systems. Proc. of ACL, 2003.
•
R. Ishii, Y. I. Nakano, and T. Nishida: Gaze awareness in conversational agents:
Estimating a userʼs conversational engagement from eye gaze, ACM Trans. on
Interactive Intelligent Systems, 3(2) article no. 11, 2013.
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
51
参考⽂献
•
神⽥，駒⾕，尾形，奥乃：データベース検索タスクにおける対話⽂脈を利⽤した⾳声⾔語理解．情
報処理学会論⽂誌，47(6) , pp.1802̶1811, 2006
•
桂⽥浩⼀，中村有作，⼭⽥真，⼭⽥博⽂，⼩林聡，新⽥恒雄，"MMI記述⾔語XISLの提
案", 情報処理学会論⽂誌,44(11), pp.2681-2689, 2003.
•
N. Kitaoka, M. Takeuchi, R. Nishimura, and S. Nakagawa, "Response timing
detection using prosodic and linguistic information for human-friendly spoken dialog
systems," Journal of The JSAI, 20(3) SP-E, pp. 220-228, 2005.
•
K. Komatani, S. Ueno, T. Kawahara, and H. G. Okuno: Flexible Guidance Generation
using User Model in Spoken Dialogue Systems. Proc. ACL, pp.256--263, 2003.
•
K. Komatani and H. G. Okuno: Online Error Detection of Barge-In Utterances by
Using Individual Users' Utterance Histories in Spoken Dialogue System. Proc.
SIGDIAL, pp.289--296, 2010.
•
T. Meguro, Y. Minami, R. Higashinaka, and K. Dohsaka: Learning to control
listening-oriented dialogue using partially observable Markov decision processes,
ACM Trans. on Speech and Language Processing, 10(4), article no. 15，2013.
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
52
参考⽂献
• 翠, 駒⾕, 清⽥, 河原. ⾳声対話によるソフトウェアサポートのための効率的な確認戦略. 電
⼦情報通信学会論⽂誌, J88-DII(3), pp.499-508, 2005.
• M. Nakano, Y. Hasegawa, K. Funakoshi, J. Takeuchi, T. Torii, K. Nakadai,
N. Kanda, K. Komatani, H. G. Okuno, and H. Tsujino: A Multi-Expert Model
for Dialogue and Behavior Control of Conversational Robots and Agents.
Knowledge-Based Systems, 24(2), pp. 248–256, 2011
• 中野, ⾺場, ⻩, 林: ⾮⾔語情報に基づく受話者推定機構を⽤いた多⼈数会話システム,
⼈⼯知能学会論⽂誌, 29(1), pp. 69~79, 2014.
• K. Sudoh and M. Nakano, "Post-dialogue confidence scoring for
unsupervised statistical language model training", Speech Communication,
40(4), pp. 387-400, 2005.
• 安⽥, 堂坂, 相川: 確認対象ごとの認識性能を考慮する効率的対話制御法, 情報処理学
会論⽂誌, 45(9), 2186-2196, 2004.
• 吉野, 森, 河原: 述語項構造を介した⽂の選択に基づく⾳声対話⽤⾔語モデルの構築, ⼈
⼯知能学会論⽂誌, 29(1), pp. 53~59，2014.
2015/8/7
© 2015 Honda Research Institute Japan Co., Ltd.
53

Download Report