音声認識の信頼性を考慮した音声対話システム渡邊大地

2008 年度修士論文
音声認識の信頼性を考慮した
音声対話システム
指導教授
小林哲則教授
早稲田大学基幹理工学研究科情報理工学専攻
知覚情報システム研究室
5107B129-9
渡邊大地
i
目次
概要
1
第 1 章序論
1.1 背景と目的 . . . . . . . . .
1.2 関連研究 . . . . . . . . . . .
1.2.1 音声認識 . . . . . . .
1.2.2 対話制御 . . . . . . .
1.2.3 行動実行タイミング
1.3 本研究の特徴 . . . . . . . .
1.4 本論文の構成 . . . . . . . .
.
.
.
.
.
.
.
2
2
4
4
6
6
7
8
.
.
.
.
.
11
11
11
14
15
17
.
.
.
.
.
.
18
18
18
19
20
22
23
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
第2章
2.1
2.2
2.3
音声認識システム
はじめに . . . . . . . . . . . . . .
音声認識デコーダの並列動作 . .
フラグメント化した発話への対応
2.3.1 文仮説スコアの算出 . . .
2.3.2 認識結果出力 . . . . . . .
第3章
3.1
3.2
3.3
3.4
3.5
3.6
対話制御システム
はじめに . . . . . . .
基本情報量 . . . . .
信頼度 . . . . . . . .
情報量 . . . . . . . .
システムの理解状態
行動選択 . . . . . . .
第4章
4.1
4.2
4.3
行動実行タイミング
24
はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
発話期待度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
発話意欲度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ii
4.4 システム動作例 . . . . . . . . . . . . . . . . . . . .
4.5 ユーザのシステム返答タイミング許容時間調査実験
4.5.1 実験条件 . . . . . . . . . . . . . . . . . . . .
4.5.2 実験結果 . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
26
29
30
30
第5章
5.1
5.2
5.3
対話例
はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
音声認識システムの改良が効果的に作用する対話例 . . . . . . . . .
対話制御システムの改良が効果的に作用する対話例 . . . . . . . . .
33
33
33
34
第6章
6.1
6.2
6.3
評価実験
39
実験条件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
評価方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
結果と考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
第 7 章まとめ
44
謝辞
45
参考文献
46
iii
表目次
3.1 信頼度による情報量の変化．認識結果「はい」（基本情報量 1.0） . 22
3.2 信頼度による情報量の変化．認識結果「いいえ」（基本情報量 1.0） 22
iv
図目次
1.1 音声対話システムの基本構成
. . . . . . . . . . . . . . . . . . . . .
2.1 音声認識デコーダの並列動作
2.2 フラグメント化した発話の例
. . . . . . . . . . . . . . . . . . . . . 12
. . . . . . . . . . . . . . . . . . . . . 15
3
3.1 （a）ある項目に対しての質問（b）ある項目の値が正しいか確認（S:
システム発話，U:ユーザ発話の音声認識結果） . . . . . . . . . . . 19
3.2 （a）音声認識結果が信頼できる対話例，
（b）音声認識結果が信頼で
きない対話例（S:システム発話，U:ユーザ発話の音声認識結果） . . 19
3.3 信頼度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.1
4.2
4.3
4.4
4.5
4.6
発話期待度によるタイミング制御の流れ 1 . . . . . . . . . . . . . .
実話者が反応したタイミングと，提案手法によるタイミングの比較
期待度によるタイミング制御の流れ 2 . . . . . . . . . . . . . . . . .
実話者が反応したタイミングと，提案手法によるタイミングの比較 2
実験結果：フィラー有 . . . . . . . . . . . . . . . . . . . . . . . . .
実験結果：フィラー無 . . . . . . . . . . . . . . . . . . . . . . . . .
27
28
28
29
31
31
5.1
5.2
5.3
5.4
音声認識デコーダの並列動作が効果的に作用する対話例 . .
発話のフラグメント化への対応が効果的に作用する対話例
対話制御システムの改良がが効果的に作用する対話例 1 . .
対話制御システムの改良がが効果的に作用する対話例 2 . .
.
.
.
.
34
35
37
38
6.1 ロボット頭上のマイク配置 . . . . . . . . . . . . . . . . . . . . . . .
6.2 従来手法において対話終了するまでにかかった発話回数 9 回以内，
10 回以上の場合のアンケート結果 . . . . . . . . . . . . . . . . . . .
6.3 発話回数ごとの累積タスク達成率 . . . . . . . . . . . . . . . . . . .
6.4 従来手法，提案手法のアンケート結果 . . . . . . . . . . . . . . . .
40
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
41
42
42
1
概要
音声認識の信頼性を考慮して対話を進行する音声対話システムを提案する．
音声認識システムは，対話システムと切り離されて開発されているため，対話
音声中に生じる現象のいくつかについて考慮されていない．まず，音声認識の信
頼性を高めるため，対話の場面事に特化した音声認識デコーダの並列動作，フラ
グメントをまたがっての文仮説探索，の二つの機能を追加した．
また，従来の対話システムは音声認識の結果を信頼することが前提であり，そ
の結果直前の入力にのみシステムの理解状態が左右されてしまう．しかし，音声
認識結果は常に信頼できるとは限らない. そこで，それまでの対話履歴から現在
の音声認識の信頼性を算出，それを考慮した結果どの程度の情報が得られるかと
いうことに注目する. また，システムの理解状態を確率で表し，認識結果から得た
情報の積み重ねにより表現することで，過去の情報も考慮しての対話制御を行う.
従来は音声認識結果の出力をトリガーとして即座にシステムは対話制御システム
により選択された行動（発話）を実行していたが，音声認識結果が常に信頼でき
るとは限らないということを考慮すると，音声認識結果のみに依存したタイミン
グ制御は危険である．また，対話が間違った方向に進もうとしている場合，ユー
ザの発話終了を待たずシステムは割り込んで軌道修正を行うべきだと考えられる．
そこで，システムが行動して欲しいとどれだけ期待されているか，システムがど
れだけ行動したいか（行動する必要があるか）をそれぞれ発話期待度，発話意欲
度と定義し，この二つの値によって行動を実行するタイミングを決定する．
提案するシステムと従来のシステムを実際に人と対話させ，対話終了までにか
かった発話回数とタスク達成率による客観的評価，アンケートによる主観的評価
を比較した．結果，ユーザの意図が伝わらず対話が長引くケースが減少し，ユー
ザの満足度は高まったという結果が得られた．また，対話が終了するまでにかかっ
た発話回数が同数の場合の累積タスク達成率は，従来手法と同程度を実現した．
2
第1章
1.1
序論
背景と目的
人にとって音声で情報のやり取りを行うのは，最も手軽で簡単な情報伝達手段
である. これまで，音声対話についての研究が進み，様々なドメインにおいて実用
に耐えうる音声対話システムが開発されてきた [1]．音声対話システムの基本構成
を図 1.1 に示す. 図 1.1 が示すように，音声認識システムは対話制御システムと切
り離されて開発されているため，対話中に生じる現象のいくつかについて考慮さ
れていない. 例えば，実際の対話は話し言葉の使用，フィラー・言い淀みによる休
止の挿入など自由な発話形式で行われるため，一つの文発話がいくつかのフラグ
メントに分割されてしまうなど，自由発話特有の問題が生じる. これは，発話が文
中で休止したり，音声認識の前段に行われる音声区間検出（VAD）の誤りが原因
であり，音声認識器でなく，発話休止を動作トリガーの一つとして利用する対話
システムにおいても致命的なエラーとなる [2].
また，対話制御システム側からは音声認識の結果を信頼することが前提である
が，上記の自由な発話形式や，環境雑音の存在という厳しい条件下で行われるた
め音声認識誤りは不可避であり，音声認識結果は常に信頼できるとは限らない. さ
らに，認識結果を常に信頼しているため，直前の入力にのみシステムの理解状態
が左右されてしまうという問題も存在する．人同士の対話では，雑音により音声
が聞き取れなかった場合，
「もう一度言って」
「え，○○だって？」など受け取った
音声の信頼性に応じた対応を行っているが，システムの場合，音声認識誤りによ
り理解状態が誤ったまま対話が進行する，理解状態が確定せず同じ場面を何度も
第 1 章序論
3
繰り返すということが起こる．
また，前述したように音声認識の結果は，システムの動作タイミングにも大き
な影響を及ぼす．従来のシステムは音声認識結果の出力をトリガーとして動作す
るため，発話のフラグメント化などにより VAD を誤った場合，ユーザ発話中に割
り込むこととなり，円滑さを損ねてしまう．逆に，認識結果を受けとるまで反応
できないという問題点も存在する．人同士の対話を観察すると，音声がよく聞き
取れない場合，ユーザの発話が終わる前に「聞こえないよ」等と割り込んで聞き
返す場面が多々存在した．また，常に相手が話終わった直後に返答しているので
はなく，
「はい」
「違う」等の短い発話に対しては直後，内容のある返答を求められ
ている場合は考え込んでからなど，タイミングが様々なことが観察できた．シス
ユーザ発話
システム発話
音声認識
音声合成
意図推定
応答文生成
単語列
意図
ユーザの名前は
佐藤だ
単語列
対話制御
理解状態
意図
ユーザは
知らない人だ
図 1.1 音声対話システムの基本構成
第 1 章序論
4
テムが話し出すべきタイミングも，常に一定ではなく，音声認識の信頼性などそ
の時の状況と密接に関わっていると考えられ，場合によっては割り込んで軌道修
正を行うことも必要であると考えられる．
以上で述べたように，音声対話システムにおいて音声認識は重要な役割をになっ
ているが，結果が常に信頼できるとは限らない．そこで，本研究では，人が行って
いるように音声認識の信頼性を考慮して対話を進行する音声対話システムの実現
を目的とする.
1.2
関連研究
ユーザの発話音声を文字に変換する音声認識，文字を解釈するための意図推定，
ユーザの意図やシステムの状態に従って適切に対話を進行させる対話制御，文字
で用意されたシステムの発話を音声に変換する音声合成などがそれぞれに開発さ
れ，これらを統合することによって音声対話システムは実現されている. 本研究で
はこの中で特に音声認識と対話制御，そしてシステムが行動を実行するタイミン
グについて注目する.
1.2.1
音声認識
現在までに多くの音声認識システムが提案されており，その一部は音声ディク
テーションソフト，カーナビゲーションや携帯電話などの商品に搭載され利用さ
れている．Julius [3]，Sphinx-4 [4] などの音声認識システムはオープンソースウェ
アとして公開され，音声を用いたアプリケーションの構築に利用できる．これら
従来の音声認識システムは，音声対話システムと切り離され開発されてきたため，
音声対話システムへ適用することを考えると未だ機能が不足しておりそのまま適
用するのは困難である．
対話中の自由発話音声に対してより頑健な認識をするために，複数の言語モデ
ルを用いて音声認識を行う手法が提案されている．Stolcke らは，対話の場面に基
第 1 章序論
5
づいて言語モデルの重みを変更することで，わずかだが音声認識精度を改善できる
ことを示した [5]．安田らは，大語彙の言語モデルと，ある場面で想定されるユー
ザ発話に文法を限定した言語モデル，二つの認識文法を用いることで，音声認識
精度の改善，及び想定外発話の認識が行えることを示した [6]．李は音声認識シス
テム Julius [3] において，複数の n-gram，または記述文法デコーダを並列動作さ
せる機能を実現している．本研究でもこれらの研究と同様に複数の言語モデルを
並列に動作させる試みを行うが，音声・非音声の判定，認識結果の検証も同時に
行うことでより頑健な音声認識システムを構築する．
また，発話休止等によりフラグメント化した発話に対応するために，個々の音
響モデルをそれぞれの発話スタイルに合わせて精密化することで離散発話に対し
ても頑健な認識を可能にした手法や，有声休止・無声休止の音響的特徴をボトム
アップな信号処理にて検出し，それらを認識時に考慮することで両休止に対する頑
健な認識を可能とした手法が提案されている [7, 8]. しかし，これらの手法は，い
ずれも無声休止期間をスキップすることで休止区間の影響を軽減させるという試
みであり，無声休止区間を検出した際にデコーダの動作が一時停止してしまい反
応が遅れるという問題が存在する. また，VAD により発話区間検出→その区間の
音声を認識という流れであり，ある時点で検出された発話区間にのみ注目してい
るため，過去の情報は利用していない．しかし，発話のフラグメント化を扱うた
めには，連続したフラグメントを無関係のものとして扱うのは間違いである．例
えば，あるフラグメントの音声を，そのフラグメントのみで認識した際には最尤
でない仮説が，後発のフラグメントも含めて認識することで最尤となる場合が存
在する．つまり，フラグメント化した発話を扱うためには，過去の情報も利用す
る必要がある．また，河原らは，講演音声における話し言葉音声認識のためにデ
コーダのいくつかの改善を行っている [9]．講演音声においては，対話音声と同様
に，文中に頻繁にショートポーズが発生する．そこで，2 パスデコーダの 1 パス目
でショートポーズを検知する度に，それまでの 2 パス目の認識を行うことで，文
第 1 章序論
6
仮説の探索範囲を小さくし，さらに認識精度を向上させている．しかし，ショー
トポーズを越えて探索中の文仮説を引き継がないため，言い淀みなどの発話休止
による，断片化した発話を認識することができないと考えられる．
1.2.2
対話制御
音声認識誤りに対応するために，音声認識結果のスコアから発話内容に関する
信頼度を計算し，それを利用して対話制御を行う手法が提案されている [10–13]．
音声認識結果のスコアとして，認識結果の N ベスト候補の音響尤度，言語尤度が
用いられている．しかし，認識結果の N ベスト候補は多くの場合最尤の候補を少
しずつ変化させたものであるため，最尤の候補のみを扱う場合と比較して得られ
る情報は大差ないと考えられる．また，人によっては，
「はい」と発話しても「は
い」より「熊井」の方が常にスコアが高くなってしまう場合が存在する．このよ
うなことに対処するためには，入力された音声のみに注目するのではなく，対話
の流れから信頼性を見極める枠組みが必要である. 神田らは，複数のドメインを
扱う音声対話システムにおいて，対話履歴から得られる特徴量を導入してより精
度良くドメイン選択を行う手法を提案している [14]．これは，ユーザ発話を受け
取る事に，応答すべきドメインを（１）１つ前の応答を行ったドメイン，
（２）音
声認識結果に対する最尤のドメイン，
（３）それ以外のドメイン，のいずれである
かを選択する問題として捉えている．本研究では，神田らと同様に過去の情報を
使うアプローチを取るが，より局所的な，特定ドメイン内での対話制御について
検討した.
1.2.3
行動実行タイミング
従来のシステムでは，音声認識結果を用いた言語処理や，ポーズ検出をトリガー
としてシステムの行動実行タイミングを決定している [17]．この手法は，発話の
フラグメント化により誤った区間で音声認識結果が出力された場合，システムの
第 1 章序論
7
行動実行タイミングも誤ったタイミングとなってしまう．韻律情報や言語情報を
用いて，話者交替か話者継続かを識別する研究も行なわれているが，いずれの研
究も，発話終了後の特定のタイミングで得られた特徴量を元に，そのタイミング
で話者交替を行うべきかどうかの識別を行っているため，システムが行動を実行
するタイミングは状況によらず常に一定であり，システムが割り込むということ
は考慮していない [18–20]．しかし，実際の人とシステムとの対話は順調に進行す
るとは限らず，誤った方向に対話が進行しないように割り込むことも必要である
と考えられる．
1.3
本研究の特徴
まず，音声認識システムを対話に適した形に改良することで音声認識そのもの
の信頼性を向上させる. 実際の対話では対話の場面，話題が時々刻々と変化し，そ
れに応じて想定されるユーザ応答も限定される. そのため，ただ一つのモデルで認
識しようとすると，出現しないと考えられる単語まで認識対称としてしまい，誤
認識の原因となる. 場面や話題に応じたモデルを複数作成し，それらを並列動作さ
せることで場面に応じた適切な認識結果が得られるようになると考えられる. 音
声認識デコーダとして n-gram デコーダや FST デコーダ（主に記述文法に対応）
が考えられるが，本研究では，言語ネットワークの拡張，デコードアルゴリズム
の拡張など，対話システムの構築に必要な拡張を柔軟に行うことのできる FST デ
コーダを用いた．また，発話のフラグメント化に対応するため，VAD で切り出さ
れた音声区間毎に文仮説の探索を行った後，次の発話区間の開始時点で仮説を初
期化するのではなく，発話区間終了時にデコーダ内で保持している仮説の内文末
に達していないものを保存しておき，次の発話区間でも保存した仮説について引
き続き探索を行うよう改良する. 過去の仮説を引き継いで探索を行うため，フラグ
メント化した発話に対しても頑健な認識を行うことが出来ると考えられる．文末
まで達していない仮説の中で最尤の仮説と，文末まで達している仮説の中で最尤
第 1 章序論
8
の仮説，二つを比較し，文末まで達していない仮説の尤度比が高かった場合，対話
制御システムへそこまでの認識結果と，発話中であるという情報を送信する．休
止区間を検出するとデコーダの動作が一時停止してしまう従来の手法と比較して，
対話戦略に合わせた素早い応答（無視してシステムが話し出す，相槌やフィラー
を挟んで様子を見る，ユーザ発話の続きを待つ）が行えると考えられる．
対話制御システムにおいては，認識結果を常に信頼し単語列をそのまま受け取
るのではなく，それまでの対話履歴から音声認識の信頼性を算出し，それを考慮
した結果どの程度の情報が得られるかということに注目する. また，システムの
理解状態を確率で表し，認識結果から得た情報の積み重ねにより表現することで，
過去の情報も考慮しての対話制御を行う. 対話制御システムにより選択された行
動（発話）の実行のタイミングは，音声認識結果が出力されたという情報だけで
なく，言語情報・韻律情報を考慮してシステムが行動することがどれだけ期待さ
れているか（場の状況），そしてシステム自身がどれだけ行動したいか（行動する
必要があるか），の二つに注目して決定する．
1.4
本論文の構成
本論文では，次章以降次のような内容を扱う.
第 2 章では，対話システムに適した形にするために行った音声認識システムへ
の改良について詳細を述べる. まず，実際の対話は，時々刻々と場面や話題が移り
変わり，場面毎に想定されるユーザ応答は限定されるという事に注目する．それ
らに対処するために行った複数のデコーダの並列動作，それに附随する音節タイ
プライタを用いた認識結果の検証方法について述べる. 次に，自由発話特有の現
象，言い淀みなどによる文のフラグメント化に対処するために行った発話フラグ
メントにまたがっての文仮説探索について述べる. 仮説探索に用いるスコアは，通
常フラグメント毎に計算される．提案手法では，フラグメント毎ではなく，複数
のフラグメントにまたがって計算される．本研究で用いた文仮説スコアについて
第 1 章序論
9
説明し，それを用いてどのようにフラグメント化した発話に対応するかを述べる．
第 3 章では，提案する対話制御システムについて詳細を述べる. 従来の音声対話
システムにおいて，音声認識結果を常に信頼するため生じる問題に対処するため，
認識結果の単語列をそのまま信じるのではなく，単語列自体が持つ情報と音声認
識システムの信頼性から，認識結果がどの程度の情報を持つかということに注目
する. 本研究ではこの単語列自体が持つ情報量を基本情報量，音声認識の信頼性を
認識結果の信頼度，この二つの値から算出される，現在の音声認識の信頼性を考
慮して得られる情報の程度を情報量とそれぞれ定義する．まず，これらの必要性
について論じ，どのようの値に設定したかを述べる．次に，これらの値によって認
識結果の持つ情報量がどのように変化していくか述べ，その妥当性について検証
する．最後に，本手法によりどのような行動が選択可能になるかについて述べる．
第 4 章では，第 3 章で述べた対話制御手法により選択された行動を，どのタイ
ミングで実行するかについて述べる．まず，タイミング制御のために新たに定義
した用語について説明する．システムが行動することがどれだけ期待されている
かを発話期待度と定義し，その詳細と用途について述べる．対して，システム自信
がどれだけ行動したいかを発話意欲度と定義し，その詳細と用途について述べる．
次に，これらを用いてタイミングをどのように制御するかについて述べる．また，
システムの反応が遅すぎてはいけないということは自明だが，どの程度までなら
ユーザは許容できるのかということは不明である．逆に，システムの反応は早す
ぎる場合，ユーザは理解できないという可能性もある．そこで，最後に，予備実験
として行った，システムの返答タイミングの許容時間調査実験についてを述べる．
第 5 章では，提案する対話システムが有効に働く場合の対話例を示し，有効性
について検討する.
第 6 章では，提案するシステムの有効性を確認するために行った評価実験につ
いて述べる. まず，実験に使用したシステムの構成について述べる．次に実験条
件と評価方法について説明する．実験結果として，まず，従来手法を用いて，音
第 1 章序論
10
声認識がうまくいっている場合，うまくいっていない場合の主観的評価を比較し，
その結果について考察する．次に，累積タスク達成率と言う観点から客観的評価
を行い，提案するシステムの有効性について検討する．さらに，提案手法と従来
手法の主観的評価を比較し，同じく提案するシステムの有効性について検討する．
最後に，第 7 章でまとめと今後の課題を述べる．
11
第2章
2.1
音声認識システム
はじめに
本章では，対話システムに適した形にするために行った音声認識システムへの
改良について詳細を述べる．ベースとなる音声認識器には，SKOOD [21] を用い
た．まず，複数の言語モデルを並列に動作させることができるように改良を加え
る．その際，音節タイプライタも並列に動作させる事で，認識結果の検証も同時
に行う [22]．次に，自由発話特有の現象，言い淀みなどによる文のフラグメント
化に対処するため，発話フラグメントにまたがって文仮説を探索するように改良
を加える．
2.2
音声認識デコーダの並列動作
対話場面や話題が時々刻々変化するような音声対話においては，場面や話題に応
じて，複数の言語モデルを準備し，それぞれの言語モデルに基づく各ユーザ発話
の音声認識結果を総合的に用いて対話を進行させることが望ましい．他の方式と
して，対話場面によらずシステムが受理すべき全ての文を受理可能な言語モデル
を用意する方法があるが，環境雑音や，対話のような自由な発話形式という厳し
い条件下においては誤認識が多く，システムが望む認識結果が得られる可能性は
大変低くなる．この問題に対処するため，例えば最尤の認識結果のみでなく，尤度
の高い方から複数の文候補（N ベスト候補）を得て用いるという方法がある．し
かし，N ベスト候補は多くの場合，最尤候補の単語を少しずつ変化させたものに
過ぎない．また，n-gram 言語モデルに対して，想定される対話場面や直前の対話
第 2 章音声認識システム
12
履歴によって適応を行うという方法も考えられる．しかし，計算速度の問題から，
逐次進行する対話中に適応を行うことは困難である．言語モデルを複数用意し，そ
のうち１つだけを対話場面毎に選択して用いるという方法も考えられるが，常に
対話システムが想定している対話場面が正しいとは限らない．従って，あらゆる
対話場面の可能性を考慮して複数の言語モデルによってユーザ発話を待ち受けて
おいて，各モデルによる認識結果から事後的に結果を選択する方がより頑健な対
話制御を行えると考えられる．そこで，図 2.1 に示すような音声対話のための音声
入力音声
音響モデル
言語モデル
認識結果１
音響モデル
言語モデル
認識結果 1 の検証
認識結果 2 の検証結果２を受理 / 棄却 ?
・・・
音響モデル
結果１を受理 / 棄却 ?
認識結果２
デコーダ 2
・・・
音声区間検出・音響特徴量抽出
デコーダ１
言語モデル
デコーダ N
認識結果 N の検証
認識結果 N
結果 N を受理 / 棄却 ?
音響モデル
音節タイプライタ
音声 / 非音声の判定
発話 m の音響
特徴量列
音声 / 非音声 ?
音声 / 非音声モデル
図 2.1 音声認識デコーダの並列動作
第 2 章音声認識システム
13
認識システムを提案する．提案する音声認識システムにおいては，入力音声に対
して，複数の音声認識デコーダを並列に動作させることができる．各デコーダの
認識結果は音響尤度を用いて検証され，結果の受理・棄却を決定し，認識結果と
共に対話制御部に送られる．また，以上の処理とは別に，同じ音声に対して音声・
非音声の判定を行い，その結果も対話制御部に送信される．各デコーダでは，そ
れぞれ異なる内容の言語モデルを持つことを想定している．各デコーダは時間フ
レーム同期で動作し，音響モデルを共有していれば，デコーダの計算で多くを占
めている音素 HMM の音響尤度計算の結果をキャッシュしてデコーダ間で共有す
ることで，計算量を大幅に減らすことができる．
次に，音声認識システムで各デコーダの認識結果を検証するよう拡張する．上
記のように音声認識システムを拡張すると，個々の言語モデルがカバーする文の
種類は少なくなり，文法外発話が多くなることで誤認識が増える．そこで，認識
結果から想定される音声と実際の音声が音響的に大きく異なる場合には，認識結
果の棄却を行い，文法外発話が対話制御に用いられないようにする．音節タイプ
ライタによる対数音響尤度を Sp ，デコーダによる対数音響尤度を Sd としたとき，
下式のように，それらの差により検証を行う．
|Sp − Sd |
≤ ST
N
|Sp − Sd |
> ST
N
(受理)
(2.1)
(棄却)
(2.2)
N はフラグメント中の時間フレーム数，ST は予め定めた閾値である．音節タイプ
ライタには，FST デコーダに対して，あらゆる音節の並びを許すよう記述した文
法を与えたものを用いる．従って，音節タイプライタは通常のデコーダなので，他
のデコーダと並列して動作させることができ，
音声・非音声の判定には，音声，非音声の音響信号からそれぞれ抽出した音響
特徴量を混合正規分布モデル（GMM）でモデル化したものを用いる [23]．入力発
話に対して算出した各モデルによる尤度を比較し，尤度が大きい方のカテゴリと
して判定する．
第 2 章音声認識システム
14
基となるデコーダにおいては，単語辞書，記述文法をそれぞれ FST で記述し，
合成することで文仮説ネットワークを事前に作成している．デコード時には，合成
した文仮説ネットワークと音素 HMM を組み合わせて文仮説の探索を行う．この
FST 作成の際，合成した FST の最小化・決定化を認識に先だって行っておくこと
によりネットワークを最適化し，音声認識の探索を高速化することができる．こ
れらの FST に対する処理は AT&T FSM Library [24] を用いて行っている．こうし
て作成した FST の入力には音素（列），出力には認識結果に対応する単語（列），
意図理解のためのキーワードなどを設定する．これによって，デコード時には，発
話内容を文として認識すると共に，音声認識の後段に行われる対話制御に有用な
情報を得ることができる．
2.3
フラグメント化した発話への対応
フラグメント化した発話に対応するための，FST デコーダの文仮説探索アルゴ
リズムの拡張について詳細を述べる．ユーザ発話が単語ではなく文やフレーズの
ように比較的長い単位の場合，言い淀みによる文中の無声休止によって，1 文が複
数のフラグメントに分割されてしまうことがある（図 2.2）．対話音声において発
話休止は，文の終了を判断する重要な手がかりであり，しばしばシステム発話の
トリガーとして用いられる．しかし，文中の無声休止の存在を考慮すると，それ
らはユーザ発話終了の決定的な証拠とは言えない [2]．また，環境雑音が多く入力
音声の SNR が低い場合，VAD の誤りによっても発話のフラグメント化が起こり
やすい．そのため，発話休止を文終了の手がかりとする対話システムは，ユーザ
発話中など，誤ったタイミングで応答してしまうことがある．また，発話のフラグ
メント化は音声認識結果そのものにも大きな影響を与える．多くのデコーダでは
文の仮説探索は VAD で検出された発話単位で行われてしまうため，フラグメント
化が起こると言語モデルによる言語的制約が利用できなくなる．特に言語モデル
として記述文法を利用している場合には，認識結果に致命的な影響を与える．そ
第 2 章音声認識システム
15
無声休止
入力発話
無声休止
体温は … 三十六度 … 五分です。
文区間
時刻
VAD で検出された発話区間
従来のデコーダでの認識の可否
フラグメント化した文発話
図 2.2 フラグメント化した発話の例
もそも発話においては，音響信号に基づく VAD により文区間を検出することは本
質的に困難であり，しばしば各フラグメントに分割される形で 1 文の発話が検出
されることとなる．従って，音声認識デコーダにおいて言語モデルによる言語的
制約を用いて，トップダウンに文区切りを決定しながら音声認識を行うのが適切
だと考えられる．
従来の FST デコードアルゴリズムでは，VAD で切り出された音声区間毎に文
仮説の探索を行い，次の発話区間の開始時点で仮説を初期化する．そこで，発話
区間終了時にデコーダ内で保持している仮説のうち，文末に達していないものを
保存しておき，次の発話区間でも保存した仮説について引き続き探索を行うよう
にすることで，フラグメントにまたがった文の認識を行うことができる．
2.3.1
文仮説スコアの算出
仮説探索に用いるスコアは通常，1 フラグメント毎に計算される．ここで提案
するデコーダのアルゴリズムでは，1 フラグメント毎ではなく，複数のフラグメン
トに渡って計算する．それらのスコアはフラグメント間での文の接続を考慮して，
以下のように計算することにした．まず，m 番目のフラグメントに対応する部分
第 2 章音声認識システム
16
文仮説を sm ，入力音声を xm とした時，事後確率 p(sm |xm ) は
p(sm |xm ) ∝ p(xm |sm )p(sm )
(2.3)
のように計算できる．上式中の p(xm |sm )，p(sm ) はそれぞれ，音響モデル，言語
モデルに基づいて計算する．そして，連続する 2 つのフラグメント m − 1，m の
事後確率 p(sm−1 , sm |xm−1 , xm ) は以下のように計算する．
p(sm−1 , sm |xm−1 , xm ) ∝p(xm−1 |sm−1 ) · p(xm |sm )
· p(sm−1 ) · p(sm |sm−1 )
(2.4)
つまり，前後のフラグメントの音響尤度，先行フラグメントの言語尤度，2 フラグ
メント間の部分文仮説の連鎖確率 p(sm |sm−1 ) の積によって計算する．
ここで，連鎖確率 p(sm |sm−1 ) を，先行する文仮説 sm−1 が文末まで達しているか
否かによって場合分けして考える．先行フラグメントの文仮説が文末まで達して
いれば，新しい文仮説が文頭から開始される確率は，そうでない場合と比較して
非常に高くなる（1 と考えてよい）はずである．一方，仮説が文の途中で中断して
いる場合は，次のフラグメントで発話が文中から再開される場合と，文頭に戻っ
て発話される場合の両者を考慮する必要がある．前者は文中の無声休止，後者は
言い直し，言い換えに相当する．具体的には，


p(文頭開始 | 終端)




p(文中開始 | 終端)
p(sm |sm−1 )

p(文中開始 | 文中で中断)




p(文頭開始 | 文中で中断)
=1
=0
=1−α
(2.5)
=α
と考えることができる．ここで，wnm は部分文仮説 sm の n 番目の単語であり，α
は [0, 1] の実数値である．α の値が大きいほど，フラグメント間を横断した文が認
識されやすくなる．本研究では α は適当な大きさの定数としたが，実際は固定値
ではなく，フラグメント間の無音声区間の長さや先行フラグメント発話における
基本周波数変化などの韻律情報，FST ネットワークの複雑さなどの言語的制約に
も影響を受ける確率と考えられる．
第 2 章音声認識システム
2.3.2
17
認識結果出力
2.3.1 で述べた方法により，発話フラグメントを横断した文仮説のスコアを計算
することができる．先行発話フラグメントの探索終了時に，文末まで達した最尤
仮説のスコアと，それ以外の最尤仮説のスコアを比較し，文末まで達した最尤仮
説のスコアが上回った場合はその仮説の文を出力する．
後続するフラグメントにおいて新規に文が開始される仮説に対して，式 2.5 を考
慮して，後続フラグメント開始時点で取り得る最尤の仮説の選択を行うと同時に，
その際に選択された仮説の文を出力している．これにより，式 2.4 を最大化する基
準で連続するフラグメントの中で最尤の文仮説を決定・出力することが出来る．し
かし，この時選択されなかった他の仮説が後のフラグメント終了時には最尤とな
ることもあり得る．そのため，本デコーダの認識結果を受け取る対話制御部にお
いては，現在のフラグメントでの認識結果のみでなく，後続フラグメントの認識
結果も踏まえて総合的に行動決定をする必要がある．例えば，後続するフラグメ
ントの結果を一定時間待って，次の行動を選択するなどの戦略を取る必要がある．
本デコーダでは，複数のフラグメントを一つの文として認識し，出力する．一方，
認識結果の検証時には，音節タイプライタとデコーダにおける音響尤度を比較す
ることで，認識結果の受理・棄却を行う．そのため，音節タイプライタにおいて
は，認識結果に対応する複数のフラグメントの音響尤度を全て積算してデコーダ
の音響尤度と比較する必要がある．
18
第3章
3.1
対話制御システム
はじめに
本章では，提案する対話制御手法について詳細を述べる．従来の音声対話シス
テムでは，音声認識結果を常に信頼しているため，システムの理解状態はその都
度一つに定まり，過去に得た情報を無駄にしている．例えば，
「私の名前は佐藤で
す」という音声認識結果が得られた場合はシステムはユーザの名前は佐藤である
と考えるが，次に「私の名前は鈴木です」という音声認識結果が得られた場合は
それまでの情報は捨てユーザの名前は鈴木であると考える．しかし，実環境での
音声認識誤りは不可避であるため，このようなシステム構成の場合，いくら時間
をかけてもシステムの理解が確定しない，または間違った理解をしたまま先に進
行してしまうという問題が存在する．
これらの問題に対処するため，本研究では認識結果の単語列をそのまま信じる
のではなく，単語列自体が持つ情報と，音声認識システムの信頼性から，認識結
果がどの程度の情報を持つかということに注目する．また，システムの理解状態
を確率で表し，認識結果から得た情報の積み重なりで表現することで過去の情報
も考慮する．
3.2
基本情報量
単語列自体が持つ情報を考える．例えば，図 3.1（a）の対話例と（b）の対話例
を比較した場合，どちらの認識結果からもユーザは田中と判断できるが，判断材
料としては (b) の音声認識結果「はい」の方が有効であると考えられる．これは，
第 3 章対話制御システム
19
S：名前教えて
U：
S：田中さん？
U：
(a)
(b)
田中です
はい
図 3.1 （a）ある項目に対しての質問（b）ある項目の値が正しいか確認（S:シス
テム発話，U:ユーザ発話の音声認識結果）
S：名前教えて
U：
S：田中さん？
U：
S：名前教えて
U：
S：鈴木さん？
U：
(a)
(b)
田中です
はい
鈴木です
田中です
図 3.2 （a）音声認識結果が信頼できる対話例，
（b）音声認識結果が信頼できない
対話例（S:システム発話，U:ユーザ発話の音声認識結果）
ある項目（ユーザが誰か）に関する発話と，ある項目の値（ユーザは田中）の正
否に関する発話の違いである．このような認識結果ごとの判断材料としての有効
性を基本情報料と定義する．これは，前もって定めておく値であり，時不変であ
る．今回は恣意的に定めた値を用いる．
3.3
信頼度
音声認識の信頼性について考える．例えば，図 3.2（a）の対話例と（b）の対話
例を比較した場合，
（b）の音声認識の結果は信じられない．これは，
（b）の音声認
識結果が矛盾しているからである．しかし，システム側からは（b）の認識結果の
「鈴木です」と，
「田中です」，どちらが認識誤りなのか判断できない．しかし，音
声認識に誤りが生じているということは判断できる．そこで，今まで得た認識結
果の一貫性を音声認識の信頼性として利用する．この音声認識の信頼性を信頼度
第 3 章対話制御システム
20
αt と定義する．
情報の正誤に応じて信頼度を適宜変化させる必要がある．ある情報を得たとき，
それが過去に得た情報を補強している場合信頼度は増加し，逆に相反する場合は
信頼度は減少する．システムが信頼度の値に対して誤解しているときは，信頼度
の変更が強く働くことが望ましい．そこで，本研究では信頼度を増加させる場合，
減少させる場合をそれぞれ以下の式で定義する．
1. 増加
(
αt+1 = arctan tan
(π
2
)
αt
) π
+1 ÷
2
(3.1)
2. 減少
(
(π
)
) π
αt+1 = 1 − arctan tan
(1 − αt ) + 1 ÷
2
2
(3.2)
図 3.3 に示した上式の概形から分かるように，信頼度は 1 に近づくほど減りやすく
増えにくく，逆に 0 に近づく程増えやすく減りにくくなっている．
3.4
情報量
音声認識の信頼性を考慮したうえで認識結果から得られる情報量を考える．あ
る推定事項 x が Xi (i = 1, 2, …, n) ということに関する情報量を It (x) と定義する．
本研究では，情報量 It (x) を以下の式で定義する．
1. x = Xi であるという認識結果 Y を得たとき（基本情報量 C ）
1 − αC
n
1 − αC
I(x ̸= Xi |y = Y ) =
n
I(x = Xi |y = Y ) = αC +
(3.3)
(3.4)
2. x ̸= Xi であるという認識結果 Y を得たとき（基本情報量 C ）
1 − αC
n
1 − αC
αC
+
I(x ̸= Xi |y = Y ) =
n−1
n
I(x = Xi |y = Y ) =
(3.5)
(3.6)
第 3 章対話制御システム
21
式（3.3）, 式（3.6）の第 1 項が認識結果を信頼した場合の情報量，第 2 項が信頼
しない場合の情報量となる．この時注意しなければならないのは，x = Xi である
という認識結果を信頼しない場合でも，x ̸= Xi というわけではないということで
ある．
以下に信頼度に応じて情報量がどの用に変化するか示す．対話状況はユーザの
名前を尋ねている場面，ユーザの名前は佐藤，鈴木，田中，の三つのうちのどれか
であり，
「あなたは田中さんですか？」という質問に対しての返答がそれぞれ「は
い」，
「いいえ」の場合である．どちらの場合も，ユーザが佐藤であるか鈴木である
かに関しては何の情報もないので，It (ユーザは佐藤) = It (ユーザは田中) である．
表 3.1，表 3.2 が示すように，信頼度が低くなるにつれ，同じ認識結果「はい」や
「いいえ」を得た場合でもユーザが田中かそれ以外かについての情報が曖昧になっ
1
0
αt
式 (3.1)
式 (3.2)
αt
図 3.3 信頼度
1
第 3 章対話制御システム
22
表 3.1 信頼度による情報量の変化．認識結果「はい」（基本情報量 1.0）
信頼度
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
It (ユーザは田中) 0.33 0.4 0.47 0.53 0.6 0.67 0.73 0.8 0.87 0.93 1.0
It (ユーザは佐藤) 0.33 0.3 0.27 0.23 0.2 0.17 0.13 0.1 0.07 0.03 0.0
表 3.2 信頼度による情報量の変化．認識結果「いいえ」（基本情報量 1.0）
信頼度
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
It (ユーザは田中) 0.33 0.3 0.26 0.23 0.2 0.16 0.13 0.1 0.06 0.03 0
It (ユーザは佐藤) 0.33 0.35 0.36 0.38 0.4 0.41 0.43 0.45 0.46 0.48 0.5
ていくことが分かる．
3.5
システムの理解状態
ある時刻 t において，システムが推定事項 x に関して, Xi (i = 1, 2, …, n) だと考
えている割合を Pt (x = Xi ) と定義する．状態を確率で表現することにより，ユー
ザは多分田中さんだけど，もしかしたら佐藤さんかもしれないという曖昧な状態
が表現できる．認識結果 Y を受け取る度にシステムの理解状態は以下の式で更新
される．
Pt (x = Xi )It (x = Xi |y = Y )
Pt+1 (x = Xi |y = Y ) = ∑
i Pt (x = Xi )It (x = Xi |y = Y )
(3.7)
システムの理解状態はそれまでに得た情報の積み重ねで表現され，過去の情報を
無駄にすることなく行動を選択することが可能となる．
第 3 章対話制御システム
3.6
23
行動選択
システムがどの行動を選択するかは，信頼度とシステムの理解状態のエントロ
ピーから決定される．例えば信頼度が低い場合は，確認を多く行う，もっと大きな
声で喋るように促すなどの音声認識の信頼性が低いことを考慮しての誘導や，推
定事項を保留にして先に進めるなどの行動を行う．エントロピーが閾値以下になっ
た時，システムは現在の理解状態を確定して対話を次へ進める発話を行うが，逆
にエントロピーが高く現在の理解状態を確定できない時はさらなる情報を求める
発話を行う．
24
第4章
4.1
行動実行タイミング
はじめに
人同士の会話では，会話の参加者それぞれが現在の状況や，他の参加者の様子
から発話するタイミングを決定することで，相互に発話権をやり取りをしながら
スムーズに対話を進行している．しかし，現在のシステムは音声認識結果の出力
を動作トリガーとして用いているシステムが大半であり，システムが割り込むこ
とが出来ない，常に反応のタイミングは一定という問題点が存在する．しかし，シ
ステムが行動を行う最適なタイミングは，状況によって変わると考えられる．例
えば「はい」
「いいえ」などの短い発話が求められているなら即座に返答するべき
だが，内容のある発話の場合，即座に返答するとユーザが理解できない可能性が
ある．逆に，伝える内容によっては考え込んでから（間を置いてから）発話を開
始した方が良い場合もある．このように，システムが行動を行う最適なタイミン
グは，そのときの状況と密接に関わっていると考えられる．また，音声認識の信
頼性が低い場合や，対話が間違った方向に進行しそうな場合，システムはユーザ
発話に割り込むことになっても，早急に軌道修正を行うべきだと考えられる．
本研究では，現在進行中の対話の状況（誰が話すべきと期待されているか）と，
システム自身がどれだけ行動したいか（行動する必要があるか）を，それぞれ発話
期待度，発話意欲度と定義し，会話の場において期待される行動と自分の欲求を
照らし合わせ，状況に応じたタイミングで行動を実行する手法について検討する．
第 4 章行動実行タイミング
4.2
25
発話期待度
現在誰が話すべきと期待されているかを表す値である．期待度は会話を行って
いる場で定義される値であり，システムはこの値が最も高い会話の参加者（シス
テム含む）が話すべきだと考える．話を振られる，視線を向けられるなど，注目さ
れた場合に期待度は上昇する．沈黙が続いた場合は参加者全員が一定の値（皆等
しい値）に収束していく．期待度によりタイミングを制御することで，期待度が
高くなった場合には素早く反応，逆にそれほど高くない場合や，システムが反応
しても良いか判断つかいない曖昧なタイミングでは，間を置いてみる，フィラー
を挿み，ユーザの反応を確認してから反応するなど，状況に応じたタイミングで
話者交替を行うことが可能となる．発話期待度は，会話の参加者の発話期待度の
総和が 1 になるように設定した．本研究では，1:1 対話のみを扱うため，ユーザの
発話期待度増加はシステムの発話期待度減少ということであり，ユーザの発話期
待度減少はシステムの発話期待度増加ということになる．
ユーザ発話から言語情報としてフィラーが得られた場合にはユーザの発話期待
度を増加させ，問いかけや相槌が得られた場合にはユーザの発話期待度を減少さ
せることとした．また，韻律情報として，発話終了 200[ms] の基本周波数の近似直
線の勾配を利用した．勾配の絶対値が閾値以上の場合は，システムの発話期待度
を増加させ，勾配の絶対値が閾値以内，つまり平坦な場合にはユーザの発話期待
度を増加させることとする．実際の増加分は勾配の定数倍とする．このとき，勾
配が負の場合の定数より正の場合の定数を大きくした．これは，勾配が正の場合，
発話はシステムへの問いかけであることが多かったためである．勾配が平坦な場
合は，定数をユーザの発話期待度に上乗せした．また，人同士の対話を観察した
ところ，話す時間が長い人は常に長く，短い人は常に短いことが多いという傾向
が見受けられたため，発話時間に応じても期待度を増減させるようにした．
第 4 章行動実行タイミング
4.3
26
発話意欲度
3.6 で選択された行動（発話）をシステムがどれだけ実行したいか（実行する必
要性があるか）を表す値である．この値が低い場合は，システムが話すと期待さ
れた（システムが返答を求められた）場合にしかシステムは反応を返さない．こ
の値がある程度あるならば，ユーザが発話終了した直後に話し出す，高い場合は
ユーザの発話最中に割り込む．例えば，タスク達成上必要な情報を入手していな
い場合や，対話が誤った方向に進行しそうな場合（名前を聞いているのに体温を
答えようとしている等）に発話意欲度は高くなる．意欲度は発話ごとに定まる値
である．
4.4
システム動作例
システムの動作例を以下に示す．
• 話を振られた（システムの期待度高）
– 意欲度に関係なく即座に行動実行
• 話していいのかどうか曖昧（システムの期待度少し高い）
– 意欲度高：即座に実行
– 意欲度低：少し反応を遅らせる，フィラーを挟み様子を見ながら行動を
実行
• ユーザが話し中（システムの期待度低）
– 意欲度極高：割り込む
– 意欲度低：聞き手として振る舞う（相槌，うなずき）
基本的にシステムの動作タイミングはシステムの発話期待度により決定される．
システムの意欲度は，割り込むなど，システムが能動的に行動を実行する際や，行
第 4 章行動実行タイミング
27
動していいのかどうか曖昧な場合に利用する．つまり，システムが受身のときは
期待度だけを用いて行動実行タイミングを判断する．
発話期待度を用いてシステムが話し出すタイミングを判断する流れを図 4.1 に
示す．音声データは，人同士の 1:1 を収録したもの用いた．図 4.1 を見ると，まず，
ユーザ発話「えーと」の後に休止が来ているが，フィラーであり韻律も平坦という
ことでユーザの発話期待度が高いままである．次のユーザ発話「なんだ，てこと
は冷たくて」の韻律が下降しているが，まだユーザの発話期待度が高いためシス
テムは話出さない．その後，ユーザ発話「なんかゼリー，あんにん豆腐ね」，の最
後が終助詞「ね」のため，システムのへの問いかけと判断してシステムの期待度
が高まる，ここでシステムは話始める．また，実際に人が話し出したタイミング
と，システムが話し出したタイミングの比較図を図 4.2 に示す．音声認識結果の出
力に対して反応してしまうと誤ったタイミングになってしまうが，提案手法では
言語情報や韻律情報から総合的に判断しているため誤ったタイミングでは行動を
起こさず，実際に対話した人と同じタイミングで反応していることが分かる．同
システム期待度：0
フィラー+韻律が平坦ユーザ期待度：1
認識結果：「えーと大久保」ユーザ期待度上昇システム期待度：0
韻律情報：平坦
ユーザ期待度：1
認識結果：「なんかー」，僅かにシステム
期待度上昇システム期待度：0.23
「えことは，冷たくて」
ユーザ期待度：0.77
韻律情報：下降
START
認識結果：「なんかゼリー，
あんにん豆腐ね」
終助詞「ね」
システムへ
問いかけ
システム期待度：1
ユーザ期待度：0
図 4.1 発話期待度によるタイミング制御の流れ 1
第 4 章行動実行タイミング
28
様に，発話期待度を用いてシステムが話し出すタイミングを判断する流れを図 4.3
に示す．最初のユーザ発話「マンゴープリンかー」の発話末の韻律が平坦なため，
認識結果出力をトリガーとして話し出してしまうと誤りシステム音声
「えーとー」
「なんだ，
「何かゼリー，
てことは冷たくて」杏仁豆腐でよくね」
実際の対話相手の音声
図 4.2 実話者が反応したタイミングと，提案手法によるタイミングの比較
システム期待度：0
語尾を伸ばし，ユーザ期待度：1
認識結果：「マンゴープリンかー」韻律が平坦
システム期待度：0
韻律情報：平坦
ユーザ期待度：1
認識結果：「何ん豆腐とか僅かにシステム
という感じなら」期待度上昇システム期待度：0.6
ユーザ期待度：0.93
韻律情報：下降
システム
期待度急上昇システム期待度：1
認識結果：「華屋」
ユーザ期待度：0
韻律情報：急下降
START
図 4.3 期待度によるタイミング制御の流れ 2
第 4 章行動実行タイミング
29
ユーザの期待度が高いままである．次のユーザ発話「何ん豆腐とかというかんじ
なら」の発話末の韻律が下降しているため，わずかにシステムの発話期待度が高
まるが，まだユーザの発話期待度が高いためシステムは話出さない．最後のユー
ザ発話「華屋」の発話末の韻律が急下降しているため，システムの期待度が急上
昇し，システムは話出す．この場合の実際の対話中の音声と，システムがに行わ
れたタイミングとの比較図を図 4.4 に示す．図 4.2 と同様に，誤ったタイミングで
は反応せず，実際に対話した人と同じタイミングで反応していることが分かる．
4.5
ユーザのシステム返答タイミング許容時間調査実験
ユーザの発話が終了している場合に即座に発話を開始してもいいのか，逆に，シ
ステムが反応するまでにかかる時間についてどこまで許容できるのかが明らかで
ない．そこで，人はシステムが反応するまでにかかる時間についてどこまで許容
できるのか調査するために予備実験を行った．また，人が許容出来る時間はフィ
ラーの有無で変わるのではないかと考えられる．フィラーとは「えーと」等，思
認識結果出力をトリガーとして話し出してしまうと誤りシステム音声
「杏仁豆腐とか「華屋」
「マンゴープリンかー」そういう感じならー」
実際の対話相手の音声
図 4.4 実話者が反応したタイミングと，提案手法によるタイミングの比較 2
第 4 章行動実行タイミング
30
考プロセスが発話プロセスに追いついていない場合に起きる間を繋ぐための現象
である．フィラーはその特性から，使うと会話が冗長になりやすいが，システム
が反応するまでに時間がかかる場合など，適切なタイミングで使うことで，ユー
ザの不快感を軽減し対話を円滑に進行させることが出来ると考えられる．
4.5.1
実験条件
被験者は，23∼31 歳の成人男性 11 名．こちらが指示する文章をシステムに向
かって発話させ，システムの返答のタイミングを早過ぎる，早い，ちょうどいい，
遅い，遅過ぎるの 5 段階で評価させた．システムの返答のタイミングは，被験者
の発話終了後 0, 500, 1000, 1500, 2000[ms] 後の 5 種類である．各タイミング 3 回，
フィラーの有無も含め被験者 1 人当たり全部で 30 回の試行を行った．フィラーは
日常的によく使われる「えーと」に限定している．フィラーを挿み返答する場合，
実際に内容を伝えるのはシステムの発話開始後 1000[ms] 後．発話する文章，フィ
ラーの有無，返答のタイミング，それぞれの組み合わせ，順番は被験者ごとにラン
ダムである．
4.5.2
実験結果
フィラーを挿み返答した場合の結果を図 4.5，フィラーを挿まず返答した場合の
結果を図 4.6 に示す．図 4.5，図 4.6 から，発話終了直後にシステムが返答した場
合，たとえフィラーを挿み返答しても過半数が早いと感じているということが分
かる．特に，
「暑中見舞いは何がいい」等，システムに考えてから返答して欲しい
場合に即座に返答すると，考えていないのではないかと不信感を抱くという意見
もあった．つまり，システムの返答のタイミングは早ければ早いほど良いという
ことではなく，内容によるということが分かる．また，1500[ms] 以降は極端に評
価が悪くなっていることから，システムは，ユーザ発話終了後 1000[ms] 以内に何
かしらの反応を返す必要があるということが分かる．例えば，図 4.5 の 500[ms] と，
第 4 章行動実行タイミング
31
図 4.6 の 1500[ms] の結果を比較すると，実際に内容を伝えているのは，両者とも
にユーザ発話終了後 1500[ms] 後であるが，フィラーを挿み返答した場合の方が良
い評価を得ている事が分かる．もし，バックグラウンド処理等でシステムが返答
するまでに 1000[ms] 以上の時間が必要な場合には，500∼1000[ms] の間にフィラー
を挿むことが有効であるということが分かる．
100%
too slow
80%
slow
60%
in time
40%
early
20%
0%
too early
0
500
1000
1500
2000
waiting time [ms]
図 4.5 実験結果：フィラー有
100%
too slow
80%
slow
60%
in time
40%
early
20%
0%
too early
0
500
1000
1500
2000
waiting time [ms]
図 4.6 実験結果：フィラー無
第 4 章行動実行タイミング
32
以上の結果より，システムの期待度が高い場合や意欲度が高い場合には即座に
行動を実行するが，期待度も意欲度も低い場合にはユーザの発話が続かないか最
大 1000[ms] 待ち，それでも反応が無い場合はフィラーを挟んで発話を開始するこ
ととする．
33
第5章
5.1
対話例
はじめに
従来の対話システムと提案した対話システムを用いた場合の対話例を示す．対
話例として，システムがユーザの健康状態について質問し，それに合わせた返答
を行うという対話を扱う．想定する場面としては，調子の取得，体温の取得，血
圧の取得，の３つを想定する．健康管理を目的とするため間違いが許されないタ
スクであり，さらにユーザは必ずしも順番通りに回答するわけではないため，適
宜システムが確認や誘導を行う必要があるタスクである．以降の図では S はシス
テム発話，U はユーザ発話を表すものとする．
5.2
音声認識システムの改良が効果的に作用する対話例
2.2 で述べた，音声認識デコーダの並列動作が効果的に作用する対話例を図 5.1
に示す．システムは現在は調子を取得する場面だと考えているが（発話 S0），ユー
ザは勘違いで体温を答えている（発話 U0）．場面ごとに言語モデルを切り替える
構成では，このようにシステムとユーザの意識の間に齟齬がある場合正しい認識
結果を得ることが出来ない．しかし，提案したシステムのように常に複数の言語
モデルを並列に動作させることで，システムが想定している発話とは異なる発話
が入力された際にも，効果的な誘導（発話 S1 A）や，ユーザの希望に沿った対話
の進行を行うことができる（発話 S1 B）．
以降の図では音声認識結果は最尤の候補だけを示す．次に，2.3 で述べた，発話
のフラグメント化への対応が効果的に作用する対話例を図 5.2 に示す．この例で
第 5 章対話例
34
S0: 今日の調子はどう？
（システムが想定している場面は「調子の取得」）
U0: 体温は 36 度だったよ
・調子取得用言語モデルの認識結果
「体調良い」→×棄却
・体温取得用言語モデルの認識結果
「体温は 36 度だったよ」→○採用
・血圧取得用言語モデルの認識結果
「血圧は 36 だったよ」→×棄却
↓
S（従来）1 : え，今なんて言ったの？
S（提案）1_A:今は体温じゃなくて調子を聞いているんだよ
S（提案）1_B:体温は 36 度だね？
図 5.1 音声認識デコーダの並列動作が効果的に作用する対話例
は，ユーザは「35.7 度」と答えようとしているが，
「35.」と「7 度」の２つのフラ
グメントに分かれてしまっている．発話のフラグメント化を考慮しない従来のシ
ステムでは，ユーザが「35.」まで発話した後の休止を発話終了と考え，割り込ん
で返答を返してしまう．しかし提案したシステムならば，ユーザが「35.」まで発
話した後に一定時間待つことで，応答タイミングの誤りを減らすことができると
考えられる．また，フラグメント化した音声をそれぞれ単体で認識していては認
識結果が誤ってしまうが（発話 U0，U1），フラグメントをまたがって認識するこ
とで，正しい認識結果を得ていることがわかる（発話 U1）．
5.3
対話制御システムの改良が効果的に作用する対話例
第 3 章で述べた，システムの制御に関する提案手法が効果的に作用する対話例
を図 5.3，図 5.4 に示す．説明を簡単にするために，ここでは体温は 35 度，36 度，
37 度の 3 種類，音声認識の信頼度の初期値は 0.8 とする．まず，初期状態ではユー
ザの体温について情報が無いため，それぞれ等確率で表現される（発話 S0）．次
第 5 章対話例
35
S0: 体温はいくつだった？ U0: 35.（サンジュウゴウテン）（ユーザ途中で言い淀む）
終端まで達した認識結果の候補「35 度」（認識誤り）
↓
S1（提案）: (発話途中なので続きを待つ)
↓ （一定時間経過）
S1’: えーと，35 度？
U1: 7 度
・この発話のみで行った認識結果
（従来のデコードアルゴリズム）「37 度」
・前発話の仮説を引きついでの認識結果
（提案したデコードアルゴリズム）「35.7 度」
↓
S2（従来）: 37 度？ちょっと熱あるね
S2（提案）: 35.7 度か，平熱だね
図 5.2 発話のフラグメント化への対応が効果的に作用する対話例
に発話 U0 により，システムはユーザの体温は 36 度である確率が高いという予測
を立て，間違いがないかユーザに確認する（発話 S1）．それに対して新たに得た
「体温は 37 度（発話 U1）」という情報は，先の情報（発話 U0）と矛盾するため信
頼度が減少する．これで，発話 U1 により発話 U0 が否定され，さらに発話 U2 に
より発話 U1 が否定されたことになる．この際，従来のシステムでは結果的に何も
分からない理解状態，つまり初期状態と同じ理解状態になってしまい，それまで
の対話が無駄になってしまう．提案したシステムならば，現在の理解状態をそこ
までの過程も含めて確率で表現しているため，それに応じてさらに対話を進行さ
せることが可能である（発話 S3）．また，ユーザが発話 U2 の代りに U2’ を発話し
た場合のように，音声認識の結果が一貫しない場合には，
「え，36 度？」→「やっ
ぱり 35 度？」→「37 度なの？」→…，といつまでたっても対話が終わらないとい
う状況が起こりうる．しかし，提案したシステムでは，システムの理解状態のエ
ントロピーが高く，信頼度も低い，すなわちシステムはユーザの体温について判
第 5 章対話例
36
断つかない，音声情報も信頼出来ないといった場合，音声情報の信頼性を高めよ
うとユーザを誘導する発話（S3’ A）を返す，ユーザに当たり障りない発話 (S3’ B)
を返して次の場面へ進む（この際内部ではユーザの体温は保留としておきデータ
ベースを更新しない）などリスクの少ない手段を選択することが可能である．
第 5 章対話例
S0: 体温いくつだった？
P0 (ユーザの体温は 35 度) = 0.33
P0 (ユーザの体温は 36 度) = 0.33
P0 (ユーザの体温は 37 度) = 0.33
U0: 体温は 36 度だったよ
認識結果「体温は 36 度だったよ」
I0 (ユーザの体温は 35 度) = 0.12
I0 (ユーザの体温は 36 度) = 0.76
I0 (ユーザの体温は 37 度) = 0.12
S1: 36 度だね？
P1 (ユーザの体温は 35 度) = 0.12
P1 (ユーザの体温は 36 度) = 0.76
P1 (ユーザの体温は 37 度) = 0.12
U1: そうだよ
認識結果「体温は 37 度だったよ」（認識誤り）
I1 (ユーザの体温は 35 度) = 0.12
I1 (ユーザの体温は 36 度) = 0.12
I1 (ユーザの体温は 37 度) = 0.76
S2: え，37 度？
P2 (ユーザの体温は 35 度) = 0.08
P2 (ユーザの体温は 36 度) = 0.46
P2 (ユーザの体温は 37 度) = 0.46
信頼度:0.8 → 0.41
U2: 違う
I2 (ユーザの体温は 35 度) = 0.40
I2 (ユーザの体温は 36 度) = 0.40
I2 (ユーザの体温は 37 度) = 0.20
↓
S（従来）3: それじゃあ何度なの？
S（提案）3: それじゃあやっぱり 36 度？
P3 (ユーザの体温は 35 度) = 0.09
P3 (ユーザの体温は 36 度) = 0.61
P3 (ユーザの体温は 37 度) = 0.30
信頼度:0.41 → 0.26
図 5.3 対話制御システムの改良がが効果的に作用する対話例 1
37
第 5 章対話例
S0: 体温いくつだった？
P0 (ユーザの体温は 35 度) = 0.33
P0 (ユーザの体温は 36 度) = 0.33
P0 (ユーザの体温は 37 度) = 0.33
U0: 体温は 36 度だったよ
認識結果「体温は 36 度だったよ」
I0 (ユーザの体温は 35 度) = 0.12
I0 (ユーザの体温は 36 度) = 0.76
I0 (ユーザの体温は 37 度) = 0.12
S1: 36 度だね？
P1 (ユーザの体温は 35 度) = 0.12
P1 (ユーザの体温は 36 度) = 0.76
P1 (ユーザの体温は 37 度) = 0.12
U1: そうだよ
認識結果「体温は 37 度だったよ」（認識誤り）
I1 (ユーザの体温は 35 度) = 0.12
I1 (ユーザの体温は 36 度) = 0.12
I1 (ユーザの体温は 37 度) = 0.76
S2: え，37 度？
P2 (ユーザの体温は 35 度) = 0.08
P2 (ユーザの体温は 36 度) = 0.46
P2 (ユーザの体温は 37 度) = 0.46
信頼度:0.8 → 0.41
U2’: 36 度だよ
認識結果「体温は 35 度だったよ」（認識誤り）
I2′ (ユーザの体温は 35 度) = 0.56
I2′ (ユーザの体温は 36 度) = 0.22
I2′ (ユーザの体温は 37 度) = 0.22
↓
S（従来）3’: え，今度は 35 度？
S（提案）3’_A: ごめん，よく聞こえないから
もっと近づいて大きな声で喋ってもらえる？
S（提案）3’_B: そっか，わかった．
健康には気をつけなきゃだめだよ
P3′ (ユーザの体温は 35 度) = 0.16
P3′ (ユーザの体温は 36 度) = 0.42
P3′ (ユーザの体温は 37 度) = 0.42
信頼度:0.41 → 0.26
図 5.4 対話制御システムの改良がが効果的に作用する対話例 2
38
39
第6章
評価実験
提案するシステムの有効性を確認するための評価実験を行った．
6.1
実験条件
従来の対話制御手法を用いたシステムと提案する対話制御手法を用いたシステ
ムを，対話ロボット ROBISUKE に搭載し，人と ROBISUKE を実際に対話させる
試行実験を行った．対話が終了するまでにかかった発話回数やタスク達成率によ
る客観的評価と，アンケートによる主観的評価を得た．音声合成モジュールには
東芝製音声合成器を用いた．音声認識システム，対話制御システム，音声合成モ
ジュールなどの各モジュール間の情報共有には，P2P 通信を利用した枠組み [25]
を用いた．
6.2
評価方法
被験者は研究室の学生 10 名，こちらが指示する「名前」と「体温」を，時間が
かかってもロボットが最終的に記録すればタスク達成とする．
「名前」と「体温」で
1 セットとし，1 セット終了するごとに以下の 3 つの質問に 5 段階で回答させた．
質問 A : ロボットが意図した通りの振る舞いをしてくれたか
質問 B : ロボットに情報が正しく伝わったと思うか
質問 C : この対話を好ましく感じたか
提案手法では，音声認識の信頼度が低い場合にはタスクを保留して次に進むこと
があるため，質問 B に関しては評価が低くなると考えられる．しかし，対話が長
第 6 章評価実験
40
引くことがないため，質問 C の評価は高くなると考えられる．
名前と体温を 20 種類用意し，被験者 1 名あたり，提案手法，従来手法それぞれ
10 セット行った．名前と体温の組み合わせ，手法の順番はランダムであるが，手
法の順番に関しては偏りがでないように配慮した．音声認識は実際に人とロボッ
トが対話するときを想定して，1m 離れた位置からロボット頭上の MEMS マイク
を用いてハンズフリー音声認識を行った．マイクの位置を図 6.1 に示す．
図 6.1 ロボット頭上のマイク配置
第 6 章評価実験
6.3
41
結果と考察
従来手法を用いた場合で，対話が終了するまでにかかった発話回数が 9 回以内
の場合と，10 回以上の場合のアンケートの結果を図 6.2 に示す．9 回以内で終了し
た対話は全体の 69%，10 回以上かかって終了した対話は全体の 31% であった．図
6.2 より，発話回数が 9 回以内の場合と 10 回以上の場合で評価が大きく異なるこ
とが分かる．これは，発話回数が 9 回以内の場合は音声認識がうまくいっている
場合であり，10 回以上かかっている場合は音声認識がうまくいってない場合であ
ると考えられる．ユーザの意図がシステムに伝わらず対話が長引くのは，ユーザ
にとって大きなストレスとなっていることが分かる．
次に，1 セット終了するまでにかかった発話回数ごとの，累積タスク達成度を図
6.3 に示す．図 6.3 から，提案手法では発話回数 9 回以内でほとんどの対話が終了
していることが分かる．提案手法により，音声認識の信頼性が低い場合には適宜
もっと声を大きくするように誘導したり，保留して先に進めることによって対話
を長引かせることが減ったためである．
最後に，従来手法と提案手法のアンケート結果を図 6.4 に示す．どの質問におい
質問A
質問B
質問C
悪い
9回以内
10回以上
1
2
3
4
5
9回以内
10回以上
良い
9回以内
10回以上
0%
20%
40%
60%
80%
100%
図 6.2 従来手法において対話終了するまでにかかった発話回数 9 回以内，10 回以
上の場合のアンケート結果
第 6 章評価実験
42
ても，提案手法が従来手法を若干上回っていることが分かる．質問を保留して先
に進む場合が存在するため，実際は従来手法と比較して情報が正確に伝わってい
ないのだが，
「質問 B:情報が正確に伝わったと思いますか？」の評価も上がってい
ることから，ユーザにとっては発話回数が短い→音声認識がうまくいっている→
100
]% 80
[
率60
成
達
ク40
ス
タ
従来手法(タスク達成）
提案手法（対話終了）
提案手法（タスク達成）
20
0
3
4
5
6
7
8
9
10 11回以上
発話回数
図 6.3 発話回数ごとの累積タスク達成率
悪い
質問A 提案手法
従来手法
質問B 提案手法
従来手法
提案手法
質問C 従来手法
1
2
3
4
5
良い
0%
20%
40%
60%
80%
図 6.4 従来手法，提案手法のアンケート結果
100%
第 6 章評価実験
43
情報も伝わっていると考えていることが分かる．
以上の結果から，提案手法ではタスク達成率は下がったが，音声認識の信頼性
が低い場合に対話が長引き先に進まないということが減少し，ユーザの満足度は
高まったと言える．また，発話回数 9 回以下で終了した対話に関しては，累積タ
スク達成率は従来手法と同程度を実現した．
44
第7章
まとめ
本論文では，音声認識の信頼性を考慮した対話システムの実現を目的とした対話
システムに適した音声認識システムの改良と，対話制御システムの改良，そして
システムの動作タイミングについて述べた．具体的には，音声認識デコーダの並
列動作，発話のフラグメント化への対応，情報量による対話制御，発話期待度・意
欲度による行動実行タイミング制御の四つである．
また，そのシステムが効果的に作用する対話の具体例を示した．
さらに，従来の対話システム，提案した対話システム，それぞれを実際に人と
対話させ，評価実験を行った．提案手法ではタスク達成率は下がったが，音声認
識の信頼性が低い場合に対話が長引き先に進まないということが減少し，ユーザ
の満足度は高まったという結果が得られた．また，発話回数が同じ場合の対話に
関しては，累積タスク達成率は従来手法と同程度を実現した．
今後は，恣意的に定めている基本情報量等の定数を，統計的に求めることで更
なる性能の向上を図る．
45
謝辞
本研究の着手および方針について多くの御指導，御助言を頂きました小林哲則教
授に心から感謝致します．
藤江真也氏には，プログラミングから論文の書き方まで，様々な面で御指導, 御
助言を頂き，心から感謝致します．谷口徹氏には，研究の手法のみならず研究生
活で様々な御助力を頂き，心から感謝いたします．また，対話班の皆様には，デ
モの用意，実験への協力などの物理的な面から，精神面まで支えて頂き，心から
感謝いたします．特に，修士課程の谷山輝氏には ROBISUKE の制御，動作に関し
て御協力を頂き深く感謝いたします．
本研究の一部は，NEDO 戦略的先端ロボット要素技術開発プロジェクト高齢者
対応コミュニケーションシステム（サービス用ロボット分野）「快適生活支援 RT
システムの開発」の援助を受けて行われました．感謝いたします．
本研究では東芝製音声合成ソフトを利用させて頂きました．感謝いたします．
最後に，経済的，精神的側面から研究を支えてくれた家族に感謝致します．
46
参考文献
[1] 河原達也，“話し言葉による音声対話システム，” 情報処理，vol.45, no.10,
pp.1027–1031, 2004.
[2] 伊藤克亘，秋葉友良，上條俊一，田中和世，“休止を区切りとした対話処理，
”
情処研報，SLP-007, vol.95, no.73, pp.135–138, July 1995.
[3] 李晃伸，“大語彙連続音声認識エンジン Julius ver.4,” 情処研報，SLP-69,
vol.2007, no.129, pp.307–312, Dec. 2007.
[4] W. Walker, P. Lamere, P. Kwok, B. Raj, R. Singh, E. Gouvea, P. Wolf and J.
Woelfel, “Sphinx-4: A flexible open source framework for speech recognition,”
Tech. Rep. TR-2004-139, Sun Microsystems Laboratories, 2004.
[5] A. Stolcke, K. Ries, N. Coccaro, E. Shriberg, et al., “Dialogue act modeling for
automatic tagging and recognition of conversational speech,” Compuational
Linguistics, vol.26, no.3, pp.339–371, Sept. 2006.
[6] 安田宜仁，堂坂浩二，相川清明，“2 つの認識文法を用いた主導権混合型対話
制御，
” 情処研報，SLP-40, vol.2002, no.10, pp.127–132, Feb. 2002.
[7] F. Alleva, X. Hung, M. Hwang and L. Jiang, “Can Continuous Speech Recognizers Handle Isolated Speech?”, Proc. EuroSpeech, pp.911-914, Sept. 1997.
[8] 緒方淳，後藤真孝，伊藤克亘，“有声・無声休止区間の自動検出に基づく自由
発話音声認識の性能改善手法，” 情処研報，SLP-62, vol.2006, no.73, pp.1–6,
July 2006.
参考文献
47
[9] 河原達也，加藤一臣，南條浩輝，李晃伸，“話し言葉音声認識のための言語モ
デルとデコーダの改善，
” 情処研報，SLP-34, vol.2001, no.55, pp.15–22, June
2001.
[10] 中川聖一，堀部千寿，“音響尤度と言語尤度を用いた音声認識結果の信頼度の
算出，
” 情処研報，SLP-36, vol.2001, no.55, pp.87–92, Nov. 2001.
[11] C. Raymond, Y. Esteve, F. Bechet, R.D. Mori, G. Damnati, “Belief confirmation in spoken dialog systems using confidence measures,” Proc. ASRU 2003,
pp.150-155, St. Thomas, U.S. Virgin Islands, Nov. 2003
[12] 堤修一，磯部俊洋，森島昌俊, “複数の正規化尤度を複合的二用いた音声認識
結果の信頼度算出法，
” 情処研報，SLP-57, pp.31-36, July 2005.
[13] 駒谷和範，河原達也，“音声認識結果の信頼度を用いた効率的な確認・誘導を
行う対話管理，
” 情処論, vol.43, no.10 pp.3078–3086, Oct. 2002.
[14] 神田直之，駒谷和範，中野幹生，中臺一博，辻野広司，尾形哲也，奥乃博，“
マルチドメイン音声対話システムにおける対話履歴を利用したドメイン選択，
” 情処論，vol.48, no.5, pp.1980–1989, May 2007.
[15] I. Lane, T. Kawahara, T. Matsui, and S. Nakamura, “Out-of-Domain utterance detection using classification confidences of multiple topics,” IEEE
Trans. Speech and Language Processing, vol.15, no.1, pp.150–161, Janu. 2007.
[16] N. Gupta, G. Tur, D. Hakkani-Tur, S. Bangalore, G. Riccardi, and M. Gilbert,
“The at&t spoken language understanding system,” IEEE Trans. on Audio,
Speech, and Lanugage Processing, vol.14, no.1, pp.213-222, Janu. 2006.
[17] N. Kitaoka, M. Takeuchi, R. Nishimura, and S. Nakagawa, “Response Timing
Detection Using Prosodic and Linguistic Information for Human-friendly Spoken Dialog Systems,” Information and Media Technologies, vol.1, pp.296–304,
June 2006.
参考文献
48
[18] 大須賀智子，堀内靖雄，西田昌史，市川熹 “音声対話での話者交替／継続の
予測における韻律情報の有効性，
” 人工知能学会論文誌, vol.21, no.1, pp.1-8,
Janu. 2006.
[19] 小磯花絵，堀内靖雄，土屋俊，市川熹，“先行発話断片の終端部分に存在する
次発話者に関する言語的・韻律的要素について，” 信学技報, vol.95, no.600,
pp.25-30, 1996.
[20] K. Laskowski, J. Edlund, and M. Heldner, “AN INSTANTANEOUS VECTOR REPRESENTATION OF DELTA PITCH FOR SPEAKER-CHANGE
PREDICTION IN CONVERSATIONAL DIALOGUE SYSTEMS,” Proc.
ICASSP2008，pp.5041-5044，2008.
[21] 柴田大輔，小林哲則，“ワンパストライグラムデコーダにおける単語履歴の束
ね処理に関する検討，
” 音講論集，pp.151-152, Sept. 2002.
[22] 渡辺隆夫，塚田聡，“音節認識を用いたゆう度補正による未知発話のリジェク
ション，
” 信学論 J75-DII,vol.12, pp.2002–2009, 1992.
[23] N. Binder, K. Markov, R. Gruhn, “GMM を用いた音声区間の検出，” 日本音
響学会秋季研究発表会, I, pp.153–154, Sept. 2001.
[24] AT&T Finite State Machine Library,
http://www.research.att.com/sw/tools/fsm/
[25] 中野鐵兵，藤江真也，小林哲則，“MONEA:効率的多機能ロボット開発環境を
実現するメッセージ指向ネットワークロボットアーキテクチャ，
” 日本ロボッ
ト学会誌，Vol.24，No.4，pp.115-125, April 2005.

Download Report