音声による機械との対話 音声言語インターフェース LOW (rigid) user can remember what to say goal can be defined in one utterance user understands the functionality HIGH (flexible) Language Coverage user cannot remember what to say needs ‘langrage processor’ Transaction Complexity goal requires multiple utterances needs ‘dialogue manager’ Application Complexity user unfamiliar with total functionality needs ‘AI’ (from R.K. Moore, 2003: ACL Tutorial) 人とコンピュータの対話はできるようになるのか YES チューリングテストに合格するか? NO Wizard of Oz 法では 人は機械と間違われる(主に合声音に依存?・応答速度?) 逆はありうるか? 文字言語と音声言語の特徴 文 字 言 語 音 声 言 語 音波(アナログ波形), 表現手段 文字(離散シンボル) 表現形式 一方向・体系的記述 対話的交流 表現内容 命題 命題+モダリティ 媒 体 紙,ディスプレイ 空気 受理手段 視覚 聴覚 入 力 非リアルタイム オンライン・リアルタイム 記 録 永続,一覧性、(速読) 一過性(→録音) 文 体 埋め込み構造・複雑 非文法的・単純 誤り・ノイズ 誤字,語用法,汚れ,破れ 言い間違い,雑音 マーカー 句読点,引用符,フォント 韻律 (アクセント,イントネーション,ポーズ) 個人性・感性 筆記体,文体 声質,韻律 学習・獲得 先天的+より後天的 より先天的+後天的 未完成技術の 応用 かな漢字変換,機械翻訳,自動抄録, 文書作成支援,情報検索 データ圧縮,発音評価,言語訓練, 合成音声は印刷文字に対応? 人工内耳 音声対話に生ずる表現の例 現 象 名 言い換え(同内容) 例 ディズニーランド、東京ディズニーランドです。 言い直し(構文的変化) 晴海通りからまっすぐ行って、行けば有明に着きます。 言い差し (中 断) A: 靖国通りを通って、皇居の周りを走って、 B: 晴海通り。 A: 銀座を通り抜けて晴海通りに出ます。 あいづち A: 晴海通りから行く場合にはですね、 B: そうですね。 自己調整 早稲田通りで銀座方面まで行きたいので、外苑東まで行って、 それから、えっと、じゃあ、とりあえず銀座まで行きます。 不要語 えーと、横浜まで行きたいんだけど。 照 応 A: 玉川インターから第三京浜に乗ってください。 B: そこは混んでいませんか? 倒 置 首都高速のほうが速いよね、速さとしては。 省 略 これで行くと、横浜(に着くのは)何時ですか? 文の中断 明治通りは混むから他の方法がいいのだけれど。 助詞落ち 山手通り(を)使う手もあるよね。 対 話 形 式 (1)メニュー選択 (2)空欄記入 (3)コマンド言語 (4)自然言語 (5)直接操作 自然言語の長所 「構文について学習する必要がない」 自然言語の短所 「確認のための対話が必要になる,キー入力が多い, 前後関係を示しにくい,結果が予測しにくい」 ・文脈を明確にするための余分な対話が要求される。そのため他の形式に比べ対話速度も遅く実にわ ずらわしい。タスクの範囲が限定されている場合や,たまにしか使わないので操作方法を忘れてしまう場 合などには,自然言語にもメリットがある。 ・自然言語による対話システムはそれほど広く普及することはないと思われる。自然言語に最も適した デザイン,ユーザ,タスクを表現するために注意深く統制された実験が行なわれるなら,もっと急速に進歩 することも考えられる。 ・人間と人間の対話の方法が,必ずしも人間がコンピュータを使用する場合の適当なモデルとは言えな い。コンピュータは,人間がコマンド入力するよりも1000倍も速く情報を表示できるので,豊富な情報を表 示し,初心者や中級者には単純にその中から選択できるようにする方が得策とも考えられる。 ・音声によるエラー処理やフィードバックは難しくて遅く,音の入出力チャンネルは人間同士のコミュニケー ションのために用意されているとも言える。結局,直接操作をはじめとする視覚的な対話方式が,高速ディ スプレイをもつコンピュータの能力をより効率的に利用できる。 from シュナイダーマン コミュニケーション形態の種類 (a)対話/電話 (b)音声対話,語学CAI (情報検索,案内,設計) (c)音声通訳,音声メール・検索 音声加工,電子会議 (対話支援) 人 間 人 間 人 間 機 械 人 間 機械 コンピュータ 人 間 ( 対面, 遠隔) 音声対話システムの構成図 応答文生成部 問題解決部 音声出力 音声理解部 対話管理部 ユー ザ 音声入力 音声対話システムの開発 1. 音声認識,特に間投詞や未知語,言い直し,言い淀みなどの 混在した自然発話の認識 2. これらの誤りを含んだ認識結果からの頑健な言語理解 3. 質問文に対する適切な応答文の生成(協調的応答,代案) 4. 使い勝手のよいシステムとしてのユーザインタフェースの設計 ディスプレイ あり か なし か タスクの型は?(検索・案内,予約,想談) 主導は?(システム,ユーザ,mixed) エキスパート向き 初心者向き 音声対話システムの研究課題 1. 各処理レベル間のインタフェースを解明し,制約条件を形成すること。省 略補間,ユーザの意図・発話行為の推測。 2. エラー,あいまいさ,省略,多義性などの不確実さや重複を含む「きたない システム」としての音声対話系の扱い方を解明し,処理方式を確立する こと。 3. ユーザに不自然さを与えないシステム主導型の対話制御法。(欲望に 限りがない人間に対して,これが本当にユーザに有益であるかどうか評 価研究が必要である。ユーザ主導は現状では小さいタスクや発話・対 話構造が明確なタスクのみ可能である。) 4. システムの制約に対するユーザの適応化能力の評価(たとえば,倒置や 言い直しは許さないという制限にユーザは適応可能か,システムの限界 の説明や状態の透明性,タスクの合理的な設計法など)。 5. 他のインターフェースを意識したアプローチ(メニューベースド,マルチモー ダルインタフェースとの統合化も一方向)。 対話設計における8つの黄金律 1. 似たような状況では一連の手順に一貫性をもたせる→自由度を与えすぎ ない(ただし,代名詞や省略の使用,多様な言い回しは許可) 2. 頻繁に使うユーザには近道を用意する→簡略表現やマルチモーダル入力 を許す,割り込み、ショートカット 3. 有益なフィードバックを提供する→相槌や確認 4. 段階的な達成感を与える対話を実現する→途中確認の表示 5. エラーの処理を簡単にさせる→リジェクト機能・確認機能,簡単な再入力法 6. 逆操作を許す→間違った発声に対するキャンセル機能 7. 主体的な制御を与える→ユーザ主導の対話制御法 8. 短期記憶の負担を少なくする→途中結果の表示と音声合成以外の応答 表示機能 開 発 手 順 (1) Wizard of Oz 法によるデータ収集 (2) システムの設計・開発 (3) 研究室での評価 (4) 改良 (5) 一部を Wizard of Oz 法を用いたデータ収集 (6) 改良 (7) フィールドテスト (8) 改良 発話スタイルと音響的特徴 (a)音節の継続時間長 発話スタイル 平均 孤立単語発声 134ms (b)音響モデル間距離 標準偏差 発話スタイル 母音間 子音間 音節間 52ms 孤立単語発声 5.32 5.09 6.60 朗読音声 113ms 43ms 朗読音声 3.63 4.19 5.72 対話音声 107ms 69ms 対話音声 2.42 3.35 5.33 言語モデル モ デ ル 文脈自由文法などの規則集合 N-gramなどの確率モデル 長 所 少量のテキスト(発話データ)でよい <200∼500文 学習が自動的で容易 エントロピーが小さい 短 所 話し言葉の文法の構築が困難 (ill-formedな文の扱い) 大量のテキスト(発話データ)が必要 >5000∼10000文 (1/10でも学習可能?) 適 用 定型タスク,小規模タスク 中・大規模タスク 頑健な意味理解 (河原・松本 1995) (1)部分解析法(partial parsing) 全体の解析に失敗した場合 に、部分的に得られた句や節に対応する断片的解析結果を用 いて、全体の意味を抽出する方法。 (2)制約緩和法(relaxation) 通常の解析で失敗した場合に、部 分的に制約(主に文法の制約)を緩めて解析をし直す方法。 (3)意味主導法(semantic driven) 意味的な情報を構文情報 より優先し、キーワードやキーフレーズの意味情報を用いて、 それを実現する構文規則を選択したり、意味解析を行う方法。 (4)ベィジアンネットワーク法(Bayesian network) 意味的・構文 的な制約を連続的な量と考え、部分的な解析結果をネットワー ク全体に伝搬させ、全体の制約を同時に最適に満たす解釈を 見出す方法。 Perplexity 69 74 83 107 524 TOUR LM adaptation 54 32.4 27.8 26.4 26.0 2.0 h 1.5 h 21.2 28.4 23.6 23.9 29.4 1.0 h 31.0 24.6 34.8 0.5 h BN 25.3 51.0 45.1 0.5 h 26.4 43.1 42.2 41.9 1.0 h 1.5 h 2.0 h BN 33.8 TOUR AM adaptation WER results by adapting the BN system to the TOUR task. (Bertoldi et al.2002) BN: Broadcast News TOUR: Tourist information (dialogue) Example of semantic frame and various paraphrases for the query “What is the weather going to be like tomorrow in New York?” SEMANTIC FRAME : {c wh_query : topic {q weather : quantifier “which_def” : pred {p month_date : topic {q date : name “tomorrow” }} : pred {p in : topic {q city : name “new york city” }}} : domain “Jupiter” } ENGLISH: what is the weather in New York tomorrow? SQL: select distinct geo. apt_code, source, day, dayspk, city, state, country, region, weathrspk, tempspk from weather, geo where geo. city = ‘New York City’ and weathrspk is not null and day = 1 and weather. apt_code = geo. apt_code KEYWORD-VALUE: TOPIC: weather CITY: New York City DATE: tomorrow Architecture of a spoken language generator (Walker et al. 2002) Content Planner Sentence Planner Surface Realizer Speech Synthesizer Prosody Assigner SYSTEM UTTERANCE How to Say It What to say Turntaking Grounding (templates) (templates) Speech acts (templates +grammar) Language Generation (Stent 2002) Response Frame {c speak_departure :comment_list ({c no_nonstops}) :num_flights 3 :common_connection “ATL” :common_airline “DL” :flight_list ({c departing_flight :departure_time “7:00” :depart_xm “a.m.”} {c departing flight :departure_time “12:50” :depart_xm “p.m.”} {c departing_flight :departure_time “5:40” :depart_xm “p.m.”}) :continuant {c verbose_select_one}} Response String (Seneff 2002) “There are no nonstop flights. I have 3 Delta flights connecting in Atlanta: a flight leaving at 7:00 a.m., a flight leaving at 12:50 p.m., and a flight leaving at 5:40 p.m. Please select one of these flights or change any constraint you have already specified.” Conversation act types Act type Sample acts turn-taking take-turn, keep-turn, release-turn, assign-turn grounding initiate, continue, acknowledge, repair, cancel core speech acts inform, yes/no question, suggest, request, accept, reject argumentation elaborate, summarize, clarify, question-answer, convince (Stent 2002) Language used to explicitly perform turn-taking acts Cue Turn-taking acts signaled um <lipsmack> <click> well oh uh so just a second okay isn’t that so say that again you know I’m ready keep-turn, take-turn, release-turn take-turn, keep-turn take-turn, keep-turn keep-turn, take-turn keep-turn, take-turn keep-turn, take-turn keep-turn, take-turn keep-turn, take-turn take-turn, keep-turn assign-turn assign-turn assign-turn release-turn (Stent 2002) Example of spoken dialogue between JUPITER and a user. JUPITER: Hi! Welcome to JUPITER, the MIT Lab for Computer Science weather information system. This call is being recorded for system development. You may hang up or ask for help at any time. How can I help you? User: CAN YOU TELL ME WHAT’S THE WEATHER LIKE IN BOSTON TODAY JUPITER: In Boston this afternoon. Partly sunny early. Then becoming cloudy with 30 percent chance of showers toward evening. Tonight: rain. Possibly heavy at times. Near 100 percent chance of rain. Can I help you with something else? User: YES WHAT ABOUT SAN FRANCISCO JUPITER: In San Francisco today: patchy fog near the ocean morning. Otherwise mostly sunny. Tonight: areas of coastal fog and low clouds. Otherwise fair. Is there something else I can do for you? User: YES HOW COLD IS IT IN DALLAS TEXAS TODAY JUPITER: In Dallas today: high upper 40s. Tonight: lows near 32. What else would you like to know? User: I’D LIKE TO KNOW WHETHER. IT’S SNOWING IN DETROIT JUPITER: I’m sorry, I didn’t understand you. Please rephrase your query. User: WHAT IS THE WEATHER IN DETROIT JUPITER: In Detroit this afternoon: occasional light rain and drizzle. Tonight: rain showers likely. Becoming snow showers by late tonight. 70 percent chance of precipitation. PERFORMANCE SUMMARY FOR WORD(WER), SENTENCE(SER), KEYWORD(KER), AND UNDERSTANDING(UER) ERROR RATES (IN PERCENT) FOR THE 2507 UTTERANCE TEST SET. WER AND SER ARE FOR RECOGNITION ONLY. KER IS BASED ON THE KEYWORD-VALUE EVALUTION, WHILE UER MEASURES UNDERSTANDING ERROR AT THE UTTERANCE LEVEL Accept Reject No Ref. # Utts WER SER KER UER 1,755 105 378 13.1 27.1 56.0 33.9 72.4 93.4 14.5 30.0 N/A 21.2 41.9 N/A 携帯電話を利用した音声対話システムの遠隔利用 10次元メルケプストラム係数/8ms 音声取り込み 分析 日立フローラ ノートパソコン (pentium 90MHz) モ HP Model J-280 Max 9600bps 無線電話 デ ム 利用地 言語処理 回帰係数の計算 対話制御 音声認識 協調的応答 認識・応答結果 HP Model 735/125 モ デ ム 豊橋技術科学大学 音声対話例 (括弧内は音声認識結果を,[ ]は間投詞を,/ /は未知語を示している) SYS: 富士山観光システムです。ご用件をお願いします。 USR: えーと,本栖湖で何ができるんですか。 ([え]/to o/本栖湖で何[あ]できるんですか) SYS: どんな事をなさりたいのですか。 USR: テニスしたいです。 (テニスでしたいです) SYS: テニスは本栖湖でできます。 USR: 本栖湖,あのー,ボートに乗れますか。 (本栖湖は[その−]ボートに乗れますか) SYS: ボートは本栖湖では乗れません。ボートは山中湖と河口湖で乗れます。 USR: 水上スキーのできるホテルは,河・・・,河口湖にあります 。 (水上スキーのできるホテルは/pu o wa /河口湖のありますか) SYS: 水上スキーのできるホテルは河口湖にありません。しかしテニスのでき るレイグランドホテルが河口湖にはあります。 Interpreter Recognized sentence Monophological analysis monophological dictionary Bunsetsu analysis Syntactic(dependence) analysis Semantic analysis semantic dictionary Contextual analysis Semantic representation (of user’s input) syntactic/semantic analysis START Standard analysis Success Fail Analysis for omission Success Fail Analysis for omission and inversion Success Fail Fail Analysis for repair and inversion Success Filtering Semantic-network exists? No Keyword analysis END Yes Filtering Example of semantic representation filters filter 1: (pattern : ((ある) (form assert)) modify-fun : (change ’form yn-q)) filter 2: (pattern : (ある (form wh-q) (cost (wh)))) filter 3: (pattern : ((宿泊する) (form yn-q)) modify-fun : (change ’form assert)) An example of semantic representation filters user : 河口湖で宿泊したいんですが。 ・・・・・desuga ( I want to stay at Kawaguchi-lake. ) recognition : 河口湖で宿泊したいんですか。 ・・・・・desuka ( Do you want to stay at Kawaguchi-lake? ) Semantic representation : (宿泊する (form yn-q) (at-loc (河口湖))) Semantic representation (after correction) : (宿泊する (form assert) (at-loc (河口湖))) Semantic extraction form keyword Description examples of the keyword patterns pattern 1 : (prototype : (かかる (form wh-q) (target (cost)) (obj ?org) (cost (wh (ako (cost))))) binding : ((?wh (imi (wh (ako (cost))))) (?org (sem-features org)))) pattern 2 : (prototype : (?exist (form wh-q) (target (obj)) (obj ?org) (at-loc ?loc)) binding : ((?exist (imi (ある))) (?org (sem-features org)) (?loc (semantic-features loc)))) An example of keyword patterns User : 富士山にどんなホテルがありますか。 (What kind of hotels are there around Mt.Fuji?) Recognition : 辺富士山にはどんなホテルがありますか富士山. (???) Semantic representation : (ある (form wh-q) (negation nil) (target (obj)) (at loc (富士山)) (obj (ホテル(q-obj (wh-rentai))))) Response generator Semantic representation (of user’s input) Intention analysis Problem solution knowledge database Semantic representation (for response sentence generation) Information extraction for outputs on display Response sentence generation Response sentence Speech synthesis pronounce dictionary Response sentence on synthesized speech Output on display (map,photograph,menu,dialogue history) Evaluation experiment scenario You are appointed as travel planner at your laboratory. The traveling destination is Mt.Fuji. You should determine the travel plan using our system. The outline of travel plan is shown below. First Day where to go what to do First night where to stay kind of accommodation accommodation name accommodation fee your city Second Day where to go what to do Evaluation experiment Writing Sheet First Day Determination Where to go What to do First Night Determination Where to stay Kind of accommodation Accommodation name Accommodation fee Second Day Where to go What to do Determination Evaluation Results 100 90 Speech-Input 80 Text-Input (transcription) 70 60 50 40 30 20 10 0 Recognition rate Semicorrect recognition rate Understanding rate Correct response rate Data presentation System query Alternative rate rate proposal rate マルチモーダル対話 マルチモーダルな状況 送り手 表現のモダリティ 意図 感情 等 統合的 表現配分 表現 音 声 音 楽 背景音 文 字 記 号 図 形 映 像 身振り 等 受け手 チャン ネル インター フェイス 耳 目 皮膚 鼻 等 感覚のモダリティ 感覚 聴 覚 視 覚 触 覚 嗅 覚 等 統合 ・ 認知 理解 マルチモーダルインタフェースの分類 Fusion Use of Modalities Sequential Parallel (逐次) (並列) Independent EXCLUSIVE CONCURRENT (独立) (専用) (同時) Combined ALTERNATE SYNERGISTIC (統合) (交互) (共働) マルチモーダルの原則 Current Interface Practice and Its Relation to IUI Input Processing Dialog Control Interaction Management Media Analysis Language Media fusion Keyboard Graphics Mic Gesture Discourse modeling Mouse User(s). Speaker Graphics Graph/ Table Output Rendering User Model Plan Recognition & Generation Media Design Language User Modeling Graphics Presentation Design Gesture Discourse Model Application Interface Application Interface presentation Domain Model Task Model Representation and Interface Media Model Information Applications People AI Meets User Interfaces User Knowledge Representation Model-Based UI Generation Plan Generation and Recognition Dialog Management Temporal/Spatial Reasoning Media Coordination Speech Understanding Gesture Understanding A I Analysis of Multimodal Input Image Understanding Language Generation Graphics Generation Generation of Multimodal Output Gesture Generation User Modeling Adaptive Interaction Discourse Processing Cooperative Dialog Constraint processing Layout and Disambiguation Agent Modeling Mixed Initiative Interaction Interfaces Medium, Mode, and Code CODE Language Graphics Gesture MEDIUM Output Rendering MODE Input Processing Visual Tactile Audinary System Storage Disk CD-ROM User Olfactory Taste Results from intelligibility tests(VCV words). Number of correct responses(in %). 100 90 80 % Correct 70 60 50 40 30 20 10 Synthetic voiceNo face Synthetic voicesynthetic face Natural voiceNo face Natural voicesynthetic face Natural voiceNatural face 0 (v-c-v) by B.Granstrom Mean problem solution time for the 10 modes of communication. 35 Mean time (min) 30 25 20 15 10 5 0 Communication rich Voice and video Voice and handwriting Voice and typewriting Voice only Handwriting and video Typewriting and video Handwriting and typewriting Handwriting only Typewriting only Evaluation Test Result 98.6 100 100 87.588.9 90 Discrimination Rate [%] 100 100 88.9 SNR-18[dB] SNR-12[dB] SNR-6[DB] 81.9 80 70.8 70 60 55.6 50 40 30 33.3 27.8 19.4 20 8.33 10 3.9 0 VOICE ONLY ORIGINAL LINEAR SINUSOIDAL MISMATCH 合成顔画像の補間法 リップシンクの主観評(6数字の認識) 森島,人工知能学会誌,2002 Comparison of mean task completion times. mouse speech Mean completion(sees) 350 Comparison of mean user errors, first trials, n=8. 2.5 300 2 250 1.5 200 150 1 100 0.5 50 0 0 Task 1 Task 2 Task 3 Task 4 Task 1 Task 2 Task 3 Task 4 R.D.Kanl, 1993 各作業での編集のしやすさの評価結果 5 5 4 4 3 Keyboard Voice 1 Voice 2 2 1 Mean rating Mean rating Voice 1: 実行範囲の先指定なしの音声入力 Voice 2: 先指定ありの音声入力 0 Keyboard Voice 1 2 1 0 B1 (a) Task 1 B2 B3 B4 B1 Block B2 5 5 4 4 3 Keyboard Voice 1 Voice 2 2 1 0 B3 B4 Block (b) Task 2 Mean rating Mean rating 3 3 Keyboard Voice 1 2 1 0 B1 (c) Task 3 B2 B3 Block B4 B1 (d) Task 4 B2 B3 Block B4 各ブロックにおける入力モード間での所要時間の比較 Voice 1: 先指定なしの音声入力 Voice 2: 先指定ありの音声入力 (作業1) (作業3) Mean processing time(see) Keyboard Voice 1 Voice 2 Keyboard Voice 1 Voice 2 800 700 600 500 400 300 200 100 0 1000 800 600 400 200 0 B1 B2 B3 B4 B1 B2 B3 B4 ポインティング装置間の精度の比較 Comparison of pointing accuracy among six pointing devices. Error rate (%) 6 A: Mouse B: Trackball C: Joystick D: Joycard E: Lightpen F: Touchscreen 5 4 3 2 1 0 A B C D Devices E F ポインティング装置間の操作時間の比較 Pointing time (sec) Comparison of pointing time among six pointing devices. 3 2 1 0 A B C Devices D E F Average input times for speech and keying as a function of run number: Average number of input errors for speech and keying as a function of run number: pooled data from Experiments 1 and 2 for 11 subjects keying speech 8 140 Average number of errors Average number of errors (s) 160 120 100 80 60 40 6 4 2 20 0 0 1 2 3 Run number 4 1 2 3 Run number 4 Time(Seconds) Time to complete each problem as a function of interface. 400 300 200 100 0 Keyboard and Mouse Voice Commands Voice Dialog μ σ2 μ σ2 μ σ2 Problem 1 207 153 236 83 113 33 Problem 2 306 192 264 78 119 34 Problem 3 160 83 146 44 106 59 Average 225 141 215 59 113 31 Time(Seconds) Time to complete all problems as a function of spreadsheet expertise and interface. 1000 800 Keyboard & Mouse Voice Command 600 400 Voice D ialog 200 0 Novice Average Expert 1600 Printing time (ms) 1400 1200 Touch Panel Mouse 1000 800 600 400 200 0 young middle elderly Age group Pointing time for each group. (from Murata, IEICE, 2003) 0.25 Touch Panel Mouse Error rate 0.2 0.15 0.1 0.05 0 young middle elderly Age group Error rate for each age group. (from Murata, IEICE, 2003) Time to complete problems as a function of speech recognition error rate. Points are plotted for each subject, lines give least squares fit. , Voice Commands ×, Voice Dialog 1200 Time(Seconds) 1000 800 600 400 200 × × × ×× ×× × × × × × ×× × 0 0% 5% 10% 15% Error Rate 20% 25% Average ET(s) Average RT 4 20 3 15 2 10 1 5 0 Speech and Speech Speech and Gaze Speech and Glove Speech and Mouse 0 Speech and Speech Speechi and Gaze Speech and Glove Speech and Mouse A comparison of reaction times (RT) and total execution times (ET) for modality combinations, by Marsic et al. (Proceedings of IEEE (2000.8)) Evaluation experiment Mt.Fuji sightseeing guidance Task domain : To make some plans of sightseeing Task : Vocabulary size (recognizer) : 292 words Vocabulary size (interpreter) : 948 words 103 (CFG) Test-set word perplexity : 10 users (novises) Subjects : Systems for evaluation experiment : Mode-A : Using only speech input and output (our conventional system) Mode-B : Using speech input and multi-modal output (graphical output on display and speech output) Mode-C : Using multi-modal input and output (input : speech input using touch screen) (output : speech and graphical on display) Evaluation of interfaces and whole system through questionnaire > Almost subjects preferred to Mode-B or Mode-C, even if recognition/comprehension rate had been low. > Over half of subjects preferred to Mode-B than Mode-C, because input using combination of speech and touch was felt difficult. Mode-A Mode-B Mode-C Input Speech Speech Multi Output Speech Multi Multi Acoustic Models Language Models Speech Recognizer Speech words Multimedia Interface Touch Screen Caseframe Grammar Semantic Analyzer Semantic Frame Dialog History Dialog Manager Semantic Frame DBMS Semantic Frame Infos SQL Request Information Retrieval Context/Commands Vocal Output Speech Speech Synthesis text Response Generator Rules Unit Dictionary Mask kiosk system architecture (L. Lamel et al. / Speech Communication 38 (2002) 131-139 User trial results by task type: time enquiry, price enquiry, and ticket purchase T1 T2 T3 T4 5.2 23% 41% 3.9 1'15 79% 4.6 27% 54% 3.2 0'55 70% 3.7 46% 43% 2.0 0'43 97% 3.2 56% 66% 1.2 0'26 99% 11.4 16% 42% 11 3'44 96% 10.6 20% 45% 5.8 2'02 89% 9.6 25% 53% 3.7 1'46 98% 8.7 25% 41% 2.8 1'11 99% 13.1 13% 43% 9.4 3'26 85% 11.9 15% 43% 5.8 2'04 86% 9.4 15% 45% 4.3 1'42 92% 9.8 17% 41% 2.9 1'35 95% Time Tak (25) #Inputs %Speech inputs ≫1 spoken action #Help messages Transaction time Success Price task (25) #Inputs %Speech inputs ≫1 spoken action #Help messages Transaction time Success Purchase task (50) #Inputs %Speech inputs ≫1 spoken action #Help messages Transaction time Success T1-T4 correspond to the 1st-4th time the task was carried out. An input correstpnds to the provision of a data item and may be made by touch or speech. 演習問題 8.1 音声による対話にリズムをもたらすために、どんな現象 が観測されるか述べよ。 演習問題 8.2 人間との対話、コンピュータとの対話、ロボットとの対話、 機械との対話について、違いがあるとすればどのような 点か述べよ。 演習問題 8.3 音声対話システムの評価法として、客観的尺度と主観尺 度を対応つけるPARADISE(Walker.et al. Evaluating spoken dialogue agents with PARADISE : two steady cases, Computer speech and Language Vol.12 No.3 pp.317-347)法について述べ、 どのような尺度が有効か調べよ。 演習問題 8.4 入力手段として、万人に相応しいインターフェース手段 は存在するか? あるとすれば、どんな手段か?ないと すれば、インターフェース手段の開発指針を述べよ。 演習問題 8.5 対話制御法として、マルコフ決定過程について述べよ。 (Levin et. Al: A stochastic model of human-machine interaction for learning dialogue strategies, IEFE Trans. Speech and Audio Process. Vol.8 No.1 pp11-23 (2000)) 演習問題 8.6 曖味な発話、認識結果の不確かな発話に対する確認対 話で、Yes/No質問と選択肢質問、再発話要求のどれを 用いれば良いか、考察せよ。
