8. 大学院講義8 (音声による機械との対話)

音声による機械との対話
音声言語インターフェース
LOW
(rigid)
user can remember
what to say
goal can be defined in
one utterance
user understands
the functionality
HIGH
(flexible)
Language Coverage
user cannot remember
what to say
needs ‘langrage processor’
Transaction Complexity
goal requires multiple
utterances
needs ‘dialogue manager’
Application Complexity
user unfamiliar with
total functionality
needs ‘AI’
(from R.K. Moore, 2003: ACL Tutorial)
人とコンピュータの対話はできるようになるのか
YES
チューリングテストに合格するか?
NO
Wizard of Oz 法では
人は機械と間違われる(主に合声音に依存?・応答速度?)
逆はありうるか?
文字言語と音声言語の特徴
文 字 言 語
音 声 言 語
音波(アナログ波形),
表現手段
文字(離散シンボル)
表現形式
一方向・体系的記述
対話的交流
表現内容
命題
命題+モダリティ
媒 体
紙,ディスプレイ
空気
受理手段
視覚
聴覚
入 力
非リアルタイム
オンライン・リアルタイム
記 録
永続,一覧性、(速読)
一過性(→録音)
文 体
埋め込み構造・複雑
非文法的・単純
誤り・ノイズ
誤字,語用法,汚れ,破れ
言い間違い,雑音
マーカー
句読点,引用符,フォント
韻律
(アクセント,イントネーション,ポーズ)
個人性・感性
筆記体,文体
声質,韻律
学習・獲得
先天的+より後天的
より先天的+後天的
未完成技術の
応用
かな漢字変換,機械翻訳,自動抄録,
文書作成支援,情報検索
データ圧縮,発音評価,言語訓練,
合成音声は印刷文字に対応?
人工内耳
音声対話に生ずる表現の例
現 象 名
言い換え(同内容)
例
ディズニーランド、東京ディズニーランドです。
言い直し(構文的変化) 晴海通りからまっすぐ行って、行けば有明に着きます。
言い差し
(中 断)
A: 靖国通りを通って、皇居の周りを走って、
B: 晴海通り。
A: 銀座を通り抜けて晴海通りに出ます。
あいづち
A: 晴海通りから行く場合にはですね、
B: そうですね。
自己調整
早稲田通りで銀座方面まで行きたいので、外苑東まで行って、
それから、えっと、じゃあ、とりあえず銀座まで行きます。
不要語
えーと、横浜まで行きたいんだけど。
照 応
A: 玉川インターから第三京浜に乗ってください。
B: そこは混んでいませんか?
倒 置
首都高速のほうが速いよね、速さとしては。
省 略
これで行くと、横浜(に着くのは)何時ですか?
文の中断
明治通りは混むから他の方法がいいのだけれど。
助詞落ち
山手通り(を)使う手もあるよね。
対 話 形 式
(1)メニュー選択 (2)空欄記入 (3)コマンド言語 (4)自然言語 (5)直接操作
自然言語の長所 「構文について学習する必要がない」
自然言語の短所 「確認のための対話が必要になる,キー入力が多い,
前後関係を示しにくい,結果が予測しにくい」
・文脈を明確にするための余分な対話が要求される。そのため他の形式に比べ対話速度も遅く実にわ
ずらわしい。タスクの範囲が限定されている場合や,たまにしか使わないので操作方法を忘れてしまう場
合などには,自然言語にもメリットがある。
・自然言語による対話システムはそれほど広く普及することはないと思われる。自然言語に最も適した
デザイン,ユーザ,タスクを表現するために注意深く統制された実験が行なわれるなら,もっと急速に進歩
することも考えられる。
・人間と人間の対話の方法が,必ずしも人間がコンピュータを使用する場合の適当なモデルとは言えな
い。コンピュータは,人間がコマンド入力するよりも1000倍も速く情報を表示できるので,豊富な情報を表
示し,初心者や中級者には単純にその中から選択できるようにする方が得策とも考えられる。
・音声によるエラー処理やフィードバックは難しくて遅く,音の入出力チャンネルは人間同士のコミュニケー
ションのために用意されているとも言える。結局,直接操作をはじめとする視覚的な対話方式が,高速ディ
スプレイをもつコンピュータの能力をより効率的に利用できる。
from シュナイダーマン
コミュニケーション形態の種類
(a)対話/電話
(b)音声対話,語学CAI
(情報検索,案内,設計)
(c)音声通訳,音声メール・検索
音声加工,電子会議
(対話支援)
人 間
人 間
人 間
機 械
人 間
機械
コンピュータ
人 間
( 対面, 遠隔)
音声対話システムの構成図
応答文生成部
問題解決部
音声出力
音声理解部
対話管理部
ユー ザ
音声入力
音声対話システムの開発
1. 音声認識,特に間投詞や未知語,言い直し,言い淀みなどの
混在した自然発話の認識
2. これらの誤りを含んだ認識結果からの頑健な言語理解
3. 質問文に対する適切な応答文の生成(協調的応答,代案)
4. 使い勝手のよいシステムとしてのユーザインタフェースの設計
ディスプレイ あり か なし か
タスクの型は?(検索・案内,予約,想談)
主導は?(システム,ユーザ,mixed)
エキスパート向き
初心者向き
音声対話システムの研究課題
1.
各処理レベル間のインタフェースを解明し,制約条件を形成すること。省
略補間,ユーザの意図・発話行為の推測。
2.
エラー,あいまいさ,省略,多義性などの不確実さや重複を含む「きたない
システム」としての音声対話系の扱い方を解明し,処理方式を確立する
こと。
3.
ユーザに不自然さを与えないシステム主導型の対話制御法。(欲望に
限りがない人間に対して,これが本当にユーザに有益であるかどうか評
価研究が必要である。ユーザ主導は現状では小さいタスクや発話・対
話構造が明確なタスクのみ可能である。)
4.
システムの制約に対するユーザの適応化能力の評価(たとえば,倒置や
言い直しは許さないという制限にユーザは適応可能か,システムの限界
の説明や状態の透明性,タスクの合理的な設計法など)。
5.
他のインターフェースを意識したアプローチ(メニューベースド,マルチモー
ダルインタフェースとの統合化も一方向)。
対話設計における8つの黄金律
1.
似たような状況では一連の手順に一貫性をもたせる→自由度を与えすぎ
ない(ただし,代名詞や省略の使用,多様な言い回しは許可)
2.
頻繁に使うユーザには近道を用意する→簡略表現やマルチモーダル入力
を許す,割り込み、ショートカット
3.
有益なフィードバックを提供する→相槌や確認
4.
段階的な達成感を与える対話を実現する→途中確認の表示
5.
エラーの処理を簡単にさせる→リジェクト機能・確認機能,簡単な再入力法
6.
逆操作を許す→間違った発声に対するキャンセル機能
7.
主体的な制御を与える→ユーザ主導の対話制御法
8.
短期記憶の負担を少なくする→途中結果の表示と音声合成以外の応答
表示機能
開 発 手 順
(1) Wizard of Oz 法によるデータ収集
(2) システムの設計・開発
(3) 研究室での評価
(4) 改良
(5) 一部を Wizard of Oz 法を用いたデータ収集
(6) 改良
(7) フィールドテスト
(8) 改良
発話スタイルと音響的特徴
(a)音節の継続時間長
発話スタイル
平均
孤立単語発声 134ms
(b)音響モデル間距離
標準偏差
発話スタイル
母音間 子音間 音節間
52ms
孤立単語発声
5.32
5.09
6.60
朗読音声
113ms
43ms
朗読音声
3.63
4.19
5.72
対話音声
107ms
69ms
対話音声
2.42
3.35
5.33
言語モデル
モ
デ
ル
文脈自由文法などの規則集合
N-gramなどの確率モデル
長
所
少量のテキスト(発話データ)でよい
<200∼500文
学習が自動的で容易
エントロピーが小さい
短
所
話し言葉の文法の構築が困難
(ill-formedな文の扱い)
大量のテキスト(発話データ)が必要
>5000∼10000文
(1/10でも学習可能?)
適
用
定型タスク,小規模タスク
中・大規模タスク
頑健な意味理解
(河原・松本 1995)
(1)部分解析法(partial parsing) 全体の解析に失敗した場合
に、部分的に得られた句や節に対応する断片的解析結果を用
いて、全体の意味を抽出する方法。
(2)制約緩和法(relaxation) 通常の解析で失敗した場合に、部
分的に制約(主に文法の制約)を緩めて解析をし直す方法。
(3)意味主導法(semantic driven) 意味的な情報を構文情報
より優先し、キーワードやキーフレーズの意味情報を用いて、
それを実現する構文規則を選択したり、意味解析を行う方法。
(4)ベィジアンネットワーク法(Bayesian network) 意味的・構文
的な制約を連続的な量と考え、部分的な解析結果をネットワー
ク全体に伝搬させ、全体の制約を同時に最適に満たす解釈を
見出す方法。
Perplexity
69
74
83
107
524
TOUR
LM adaptation
54
32.4
27.8
26.4
26.0
2.0 h
1.5 h
21.2
28.4
23.6
23.9
29.4
1.0 h
31.0
24.6
34.8
0.5 h
BN
25.3
51.0
45.1
0.5 h
26.4
43.1
42.2
41.9
1.0 h
1.5 h
2.0 h
BN
33.8
TOUR
AM adaptation
WER results by adapting the BN system to the TOUR task.
(Bertoldi et al.2002)
BN: Broadcast News
TOUR: Tourist information (dialogue)
Example of semantic frame and various paraphrases for the query
“What is the weather going to be like tomorrow in New York?”
SEMANTIC FRAME :
{c wh_query
: topic {q weather
: quantifier “which_def”
: pred {p month_date
: topic {q date
: name “tomorrow” }}
: pred {p in
: topic {q city
: name “new york city” }}}
: domain “Jupiter” }
ENGLISH: what is the weather in New York tomorrow?
SQL: select distinct geo. apt_code, source, day, dayspk, city, state, country,
region, weathrspk, tempspk from weather, geo where geo. city = ‘New
York City’ and weathrspk is not null and day = 1 and weather. apt_code =
geo. apt_code
KEYWORD-VALUE:
TOPIC: weather CITY: New York City
DATE: tomorrow
Architecture of a spoken language generator
(Walker et al. 2002)
Content
Planner
Sentence
Planner
Surface
Realizer
Speech
Synthesizer
Prosody
Assigner
SYSTEM
UTTERANCE
How to Say It
What to say
Turntaking
Grounding
(templates)
(templates)
Speech acts
(templates
+grammar)
Language Generation
(Stent 2002)
Response Frame {c speak_departure
:comment_list ({c no_nonstops})
:num_flights 3
:common_connection “ATL”
:common_airline “DL”
:flight_list ({c departing_flight
:departure_time “7:00”
:depart_xm “a.m.”}
{c departing flight
:departure_time “12:50”
:depart_xm “p.m.”}
{c departing_flight
:departure_time “5:40”
:depart_xm “p.m.”})
:continuant {c verbose_select_one}}
Response String
(Seneff 2002)
“There are no nonstop flights. I have 3 Delta flights connecting in Atlanta: a
flight leaving at 7:00 a.m., a flight leaving at 12:50 p.m., and a flight leaving at
5:40 p.m. Please select one of these flights or change any constraint you have
already specified.”
Conversation act types
Act type
Sample acts
turn-taking
take-turn, keep-turn, release-turn, assign-turn
grounding
initiate, continue, acknowledge, repair, cancel
core speech acts inform, yes/no question, suggest, request,
accept, reject
argumentation
elaborate, summarize, clarify, question-answer,
convince
(Stent 2002)
Language used to explicitly perform turn-taking acts
Cue
Turn-taking acts signaled
um
<lipsmack>
<click>
well
oh
uh
so
just a second
okay
isn’t that so
say that again
you know
I’m ready
keep-turn, take-turn, release-turn
take-turn, keep-turn
take-turn, keep-turn
keep-turn, take-turn
keep-turn, take-turn
keep-turn, take-turn
keep-turn, take-turn
keep-turn, take-turn
take-turn, keep-turn
assign-turn
assign-turn
assign-turn
release-turn
(Stent 2002)
Example of spoken dialogue between JUPITER and a user.
JUPITER: Hi! Welcome to JUPITER, the MIT Lab for Computer Science weather information
system. This call is being recorded for system development. You may hang up or ask for
help at any time. How can I help you?
User: CAN YOU TELL ME WHAT’S THE WEATHER LIKE IN BOSTON TODAY
JUPITER: In Boston this afternoon. Partly sunny early. Then becoming cloudy with 30 percent
chance of showers toward evening. Tonight: rain. Possibly heavy at times. Near 100
percent chance of rain. Can I help you with something else?
User: YES WHAT ABOUT SAN FRANCISCO
JUPITER: In San Francisco today: patchy fog near the ocean morning. Otherwise mostly sunny.
Tonight: areas of coastal fog and low clouds. Otherwise fair. Is there something else I can
do for you?
User: YES HOW COLD IS IT IN DALLAS TEXAS TODAY
JUPITER: In Dallas today: high upper 40s. Tonight: lows near 32. What else would you like to know?
User: I’D LIKE TO KNOW WHETHER. IT’S SNOWING IN DETROIT
JUPITER: I’m sorry, I didn’t understand you. Please rephrase your query.
User: WHAT IS THE WEATHER IN DETROIT
JUPITER: In Detroit this afternoon: occasional light rain and drizzle. Tonight: rain showers likely.
Becoming snow showers by late tonight. 70 percent chance of precipitation.
PERFORMANCE SUMMARY FOR WORD(WER),
SENTENCE(SER), KEYWORD(KER), AND
UNDERSTANDING(UER) ERROR RATES (IN PERCENT) FOR
THE 2507 UTTERANCE TEST SET.
WER AND SER ARE FOR RECOGNITION ONLY.
KER IS BASED ON THE KEYWORD-VALUE EVALUTION,
WHILE UER MEASURES UNDERSTANDING ERROR AT THE
UTTERANCE LEVEL
Accept
Reject
No Ref.
# Utts
WER
SER
KER
UER
1,755
105
378
13.1
27.1
56.0
33.9
72.4
93.4
14.5
30.0
N/A
21.2
41.9
N/A
携帯電話を利用した音声対話システムの遠隔利用
10次元メルケプストラム係数/8ms
音声取り込み
分析
日立フローラ
ノートパソコン
(pentium
90MHz) モ
HP Model
J-280
Max 9600bps
無線電話
デ
ム
利用地
言語処理
回帰係数の計算 対話制御
音声認識
協調的応答
認識・応答結果
HP Model
735/125
モ
デ
ム
豊橋技術科学大学
音声対話例
(括弧内は音声認識結果を,[ ]は間投詞を,/ /は未知語を示している)
SYS: 富士山観光システムです。ご用件をお願いします。
USR: えーと,本栖湖で何ができるんですか。
([え]/to o/本栖湖で何[あ]できるんですか)
SYS: どんな事をなさりたいのですか。
USR: テニスしたいです。
(テニスでしたいです)
SYS: テニスは本栖湖でできます。
USR: 本栖湖,あのー,ボートに乗れますか。
(本栖湖は[その−]ボートに乗れますか)
SYS: ボートは本栖湖では乗れません。ボートは山中湖と河口湖で乗れます。
USR: 水上スキーのできるホテルは,河・・・,河口湖にあります 。
(水上スキーのできるホテルは/pu o wa /河口湖のありますか)
SYS: 水上スキーのできるホテルは河口湖にありません。しかしテニスのでき るレイグランドホテルが河口湖にはあります。
Interpreter
Recognized sentence
Monophological analysis
monophological
dictionary
Bunsetsu analysis
Syntactic(dependence) analysis
Semantic analysis
semantic
dictionary
Contextual analysis
Semantic representation (of user’s input)
syntactic/semantic analysis
START
Standard analysis
Success
Fail
Analysis for omission
Success
Fail
Analysis for omission and inversion Success
Fail
Fail
Analysis for repair and inversion
Success
Filtering
Semantic-network exists?
No
Keyword analysis
END
Yes
Filtering
Example of semantic representation filters
filter 1: (pattern : ((ある) (form assert))
modify-fun : (change ’form yn-q))
filter 2: (pattern : (ある (form wh-q)
(cost (wh))))
filter 3: (pattern : ((宿泊する) (form yn-q))
modify-fun : (change ’form assert))
An example of semantic representation filters
user : 河口湖で宿泊したいんですが。
・・・・・desuga
( I want to stay at Kawaguchi-lake. )
recognition : 河口湖で宿泊したいんですか。
・・・・・desuka
( Do you want to stay at Kawaguchi-lake? )
Semantic representation :
(宿泊する (form yn-q)
(at-loc (河口湖)))
Semantic representation (after correction) :
(宿泊する (form assert)
(at-loc (河口湖)))
Semantic extraction form keyword
Description examples of the keyword patterns
pattern 1 :
(prototype : (かかる (form wh-q) (target (cost))
(obj ?org)
(cost (wh (ako (cost)))))
binding : ((?wh (imi (wh (ako (cost)))))
(?org (sem-features org))))
pattern 2 :
(prototype : (?exist (form wh-q) (target (obj))
(obj ?org)
(at-loc ?loc))
binding : ((?exist (imi (ある)))
(?org (sem-features org))
(?loc (semantic-features loc))))
An example of keyword patterns
User : 富士山にどんなホテルがありますか。
(What kind of hotels are there around Mt.Fuji?)
Recognition : 辺富士山にはどんなホテルがありますか富士山.
(???)
Semantic representation : (ある (form wh-q) (negation nil)
(target (obj)) (at loc (富士山))
(obj (ホテル(q-obj (wh-rentai)))))
Response generator
Semantic representation (of user’s input)
Intention analysis
Problem solution
knowledge
database
Semantic representation (for response sentence generation)
Information extraction
for outputs on display
Response sentence generation
Response sentence
Speech synthesis
pronounce
dictionary
Response sentence on synthesized speech
Output on display
(map,photograph,menu,dialogue history)
Evaluation experiment scenario
You are appointed as travel planner at your laboratory. The
traveling destination is Mt.Fuji. You should determine the travel
plan using our system. The outline of travel plan is shown below.
First Day
where to go
what to do
First night
where to stay
kind of accommodation
accommodation name
accommodation fee
your city
Second Day
where to go
what to do
Evaluation experiment
Writing Sheet
First Day
Determination
Where to go
What to do
First Night
Determination
Where to stay
Kind of accommodation
Accommodation name
Accommodation fee
Second Day
Where to go
What to do
Determination
Evaluation Results
100
90
Speech-Input
80
Text-Input
(transcription)
70
60
50
40
30
20
10
0
Recognition
rate
Semicorrect
recognition
rate
Understanding
rate
Correct
response rate
Data presentation System query Alternative
rate
rate
proposal rate
マルチモーダル対話
マルチモーダルな状況
送り手
表現のモダリティ
意図
感情
等
統合的
表現配分
表現
音 声
音 楽
背景音
文 字
記 号
図 形
映 像
身振り
等
受け手
チャン
ネル
インター
フェイス
耳
目
皮膚
鼻
等
感覚のモダリティ
感覚
聴 覚
視 覚
触 覚
嗅 覚
等
統合
・
認知
理解
マルチモーダルインタフェースの分類
Fusion
Use of Modalities
Sequential
Parallel
(逐次)
(並列)
Independent
EXCLUSIVE
CONCURRENT
(独立)
(専用)
(同時)
Combined
ALTERNATE
SYNERGISTIC
(統合)
(交互)
(共働)
マルチモーダルの原則
Current Interface Practice and Its Relation to IUI
Input
Processing
Dialog Control
Interaction
Management
Media
Analysis
Language
Media fusion
Keyboard
Graphics
Mic
Gesture
Discourse
modeling
Mouse
User(s).
Speaker
Graphics
Graph/
Table
Output
Rendering
User
Model
Plan
Recognition
& Generation
Media
Design
Language
User
Modeling
Graphics
Presentation
Design
Gesture
Discourse
Model
Application
Interface
Application Interface
presentation
Domain
Model
Task
Model
Representation and Interface
Media
Model
Information
Applications
People
AI Meets User Interfaces
User
Knowledge Representation
Model-Based UI Generation
Plan Generation and Recognition
Dialog Management
Temporal/Spatial Reasoning
Media Coordination
Speech Understanding
Gesture Understanding
A
I
Analysis of Multimodal Input
Image Understanding
Language Generation
Graphics Generation
Generation of Multimodal Output
Gesture Generation
User Modeling
Adaptive Interaction
Discourse Processing
Cooperative Dialog
Constraint processing
Layout and Disambiguation
Agent Modeling
Mixed Initiative Interaction
Interfaces
Medium, Mode, and Code
CODE
Language
Graphics
Gesture
MEDIUM
Output
Rendering
MODE
Input
Processing
Visual
Tactile
Audinary
System
Storage
Disk
CD-ROM
User
Olfactory
Taste
Results from intelligibility tests(VCV words).
Number of correct responses(in %).
100
90
80
% Correct
70
60
50
40
30
20
10
Synthetic
voiceNo face
Synthetic
voicesynthetic
face
Natural
voiceNo face
Natural
voicesynthetic
face
Natural
voiceNatural
face
0
(v-c-v) by B.Granstrom
Mean problem solution time for the 10 modes of communication.
35
Mean time (min)
30
25
20
15
10
5
0
Communication
rich
Voice
and
video
Voice
and
handwriting
Voice
and
typewriting
Voice
only
Handwriting
and
video
Typewriting
and
video
Handwriting
and
typewriting
Handwriting
only
Typewriting
only
Evaluation Test Result
98.6
100
100
87.588.9
90
Discrimination Rate [%]
100
100
88.9
SNR-18[dB]
SNR-12[dB]
SNR-6[DB]
81.9
80
70.8
70
60
55.6
50
40
30
33.3
27.8
19.4
20
8.33
10
3.9
0
VOICE ONLY
ORIGINAL
LINEAR
SINUSOIDAL
MISMATCH
合成顔画像の補間法
リップシンクの主観評(6数字の認識)
森島,人工知能学会誌,2002
Comparison of mean task
completion times.
mouse
speech
Mean completion(sees)
350
Comparison of mean user
errors, first trials, n=8.
2.5
300
2
250
1.5
200
150
1
100
0.5
50
0
0
Task 1
Task 2
Task 3
Task 4
Task 1
Task 2
Task 3
Task 4
R.D.Kanl, 1993
各作業での編集のしやすさの評価結果
5
5
4
4
3
Keyboard
Voice 1
Voice 2
2
1
Mean rating
Mean rating
Voice 1: 実行範囲の先指定なしの音声入力 Voice 2: 先指定ありの音声入力
0
Keyboard
Voice 1
2
1
0
B1
(a) Task 1
B2
B3
B4
B1
Block
B2
5
5
4
4
3
Keyboard
Voice 1
Voice 2
2
1
0
B3
B4
Block
(b) Task 2
Mean rating
Mean rating
3
3
Keyboard
Voice 1
2
1
0
B1
(c) Task 3
B2
B3
Block
B4
B1
(d) Task 4
B2
B3
Block
B4
各ブロックにおける入力モード間での所要時間の比較
Voice 1: 先指定なしの音声入力 Voice 2: 先指定ありの音声入力
(作業1)
(作業3)
Mean processing time(see)
Keyboard
Voice 1
Voice 2
Keyboard
Voice 1
Voice 2
800
700
600
500
400
300
200
100
0
1000
800
600
400
200
0
B1
B2
B3
B4
B1
B2
B3
B4
ポインティング装置間の精度の比較
Comparison of pointing accuracy among six pointing devices.
Error rate (%)
6
A: Mouse
B: Trackball
C: Joystick
D: Joycard
E: Lightpen
F: Touchscreen
5
4
3
2
1
0
A
B
C
D
Devices
E
F
ポインティング装置間の操作時間の比較
Pointing time (sec)
Comparison of pointing time among six pointing devices.
3
2
1
0
A
B
C
Devices
D
E
F
Average input times for speech and
keying as a function of run number:
Average number of input errors for speech
and keying as a function of run number:
pooled data from Experiments 1 and 2 for 11 subjects
keying
speech
8
140
Average number of errors
Average number of errors (s)
160
120
100
80
60
40
6
4
2
20
0
0
1
2
3
Run number
4
1
2
3
Run number
4
Time(Seconds)
Time to complete each problem as a function of interface.
400
300
200
100
0
Keyboard and Mouse
Voice Commands
Voice Dialog
μ
σ2
μ
σ2
μ
σ2
Problem 1
207
153
236
83
113
33
Problem 2
306
192
264
78
119
34
Problem 3
160
83
146
44
106
59
Average
225
141
215
59
113
31
Time(Seconds)
Time to complete all problems as a function of spreadsheet
expertise and interface.
1000
800
Keyboard &
Mouse
Voice Command
600
400
Voice D ialog
200
0
Novice
Average
Expert
1600
Printing time (ms)
1400
1200
Touch Panel
Mouse
1000
800
600
400
200
0
young
middle
elderly
Age group
Pointing time for each group.
(from Murata, IEICE, 2003)
0.25
Touch Panel
Mouse
Error rate
0.2
0.15
0.1
0.05
0
young
middle
elderly
Age group
Error rate for each age group.
(from Murata, IEICE, 2003)
Time to complete problems as a function of speech
recognition error rate. Points are plotted for each
subject, lines give least squares fit.
,
Voice Commands
×,
Voice Dialog
1200
Time(Seconds)
1000
800
600
400
200 ×
×
× ××
××
×
×
×
×
×
××
×
0
0%
5%
10%
15%
Error Rate
20%
25%
Average ET(s)
Average RT
4
20
3
15
2
10
1
5
0
Speech and
Speech
Speech and
Gaze
Speech and
Glove
Speech and
Mouse
0
Speech and
Speech
Speechi and
Gaze
Speech and
Glove
Speech and
Mouse
A comparison of reaction times (RT) and total execution times (ET) for
modality combinations, by Marsic et al. (Proceedings of IEEE (2000.8))
Evaluation experiment
Mt.Fuji sightseeing guidance
Task domain :
To make some plans of sightseeing
Task :
Vocabulary size (recognizer) : 292 words
Vocabulary size (interpreter) : 948 words
103 (CFG)
Test-set word perplexity :
10 users (novises)
Subjects :
Systems for evaluation experiment :
Mode-A : Using only speech input and output
(our conventional system)
Mode-B : Using speech input and multi-modal output
(graphical output on display and speech output)
Mode-C : Using multi-modal input and output
(input : speech input using touch screen)
(output : speech and graphical on display)
Evaluation of interfaces and whole
system through questionnaire
> Almost subjects preferred to Mode-B or Mode-C, even if
recognition/comprehension rate had been low.
> Over half of subjects preferred to Mode-B than Mode-C,
because input using combination of speech and touch was
felt difficult.
Mode-A
Mode-B
Mode-C
Input
Speech
Speech
Multi
Output
Speech
Multi
Multi
Acoustic
Models
Language
Models
Speech
Recognizer
Speech
words
Multimedia
Interface
Touch
Screen
Caseframe
Grammar
Semantic
Analyzer
Semantic
Frame
Dialog
History
Dialog
Manager
Semantic
Frame
DBMS
Semantic
Frame
Infos
SQL
Request
Information
Retrieval
Context/Commands
Vocal Output
Speech
Speech
Synthesis
text
Response
Generator
Rules
Unit
Dictionary
Mask kiosk system architecture
(L. Lamel et al. / Speech Communication 38 (2002) 131-139
User trial results by task type: time enquiry, price enquiry, and ticket purchase
T1
T2
T3
T4
5.2
23%
41%
3.9
1'15
79%
4.6
27%
54%
3.2
0'55
70%
3.7
46%
43%
2.0
0'43
97%
3.2
56%
66%
1.2
0'26
99%
11.4
16%
42%
11
3'44
96%
10.6
20%
45%
5.8
2'02
89%
9.6
25%
53%
3.7
1'46
98%
8.7
25%
41%
2.8
1'11
99%
13.1
13%
43%
9.4
3'26
85%
11.9
15%
43%
5.8
2'04
86%
9.4
15%
45%
4.3
1'42
92%
9.8
17%
41%
2.9
1'35
95%
Time Tak (25)
#Inputs
%Speech inputs
≫1 spoken action
#Help messages
Transaction time
Success
Price task (25)
#Inputs
%Speech inputs
≫1 spoken action
#Help messages
Transaction time
Success
Purchase task (50)
#Inputs
%Speech inputs
≫1 spoken action
#Help messages
Transaction time
Success
T1-T4 correspond to the 1st-4th time the task was carried out. An input correstpnds
to the provision of a data item and may be made by touch or speech.
演習問題 8.1
音声による対話にリズムをもたらすために、どんな現象
が観測されるか述べよ。
演習問題 8.2
人間との対話、コンピュータとの対話、ロボットとの対話、
機械との対話について、違いがあるとすればどのような
点か述べよ。
演習問題 8.3
音声対話システムの評価法として、客観的尺度と主観尺
度を対応つけるPARADISE(Walker.et al. Evaluating spoken
dialogue agents with PARADISE : two steady cases, Computer
speech and Language Vol.12 No.3 pp.317-347)法について述べ、
どのような尺度が有効か調べよ。
演習問題 8.4
入力手段として、万人に相応しいインターフェース手段
は存在するか? あるとすれば、どんな手段か?ないと
すれば、インターフェース手段の開発指針を述べよ。
演習問題 8.5
対話制御法として、マルコフ決定過程について述べよ。
(Levin et. Al: A stochastic model of human-machine interaction for
learning dialogue strategies, IEFE Trans. Speech and Audio
Process. Vol.8 No.1 pp11-23 (2000))
演習問題 8.6
曖味な発話、認識結果の不確かな発話に対する確認対
話で、Yes/No質問と選択肢質問、再発話要求のどれを
用いれば良いか、考察せよ。