Web・音声統合サービス基盤技術

モバイルサービス向け基盤技術
Web・音声統合サービス基盤技術
2002年4月
日本電気株式会社
0
Web-音声統合サービスとは
„
„
音声サービスの進化系
Web画面によるサービスと音声対話を協調させ、情報提供するサービス
(音声とWeb画面のマルチモーダルサービス)
音声やWebによるリクエストを解釈し、
音声で応答、もしくはWebに反映
Webでアクセス
電話網
ボイスサーバ
ボイスサーバ
Web・音声統合
コンテンツ
音声で操作応答
INTERNET
Web画面で入出力
Web
Web
サーバ
サーバ
Web-音声統合サービス
メリット
・音声操作による入力操作の効率化と画面での入力・表示でスピーディな情報提供が可能。
・音声応答業務における夜間自動応答サービスなどサービスの拡充が図れる。
1
NECのWeb・音声統合サービスへのとりくみ
既存の携帯電話でのサービス提供
„
„
Nメロディタウン
乗り換え案内
CP
⑤着メロデータが
ダウンロード
携帯電話
パケット網
①メニューから着メロの
ページを選択
パケット
サーバ
インターネット
CP
携帯電話
電話網
②PHONE−TO機能で
音声認識サーバに接続
③ダウンロードしたい曲名
を発声
BIGLOBE
④曲名を認識
音声認識/応答
サーバ
CP:Contents Provider
2
Nメロディタウン
着信音メロディ配信サービス
„
„
„
„
着信音メロディのダウンロードサービス
音声認識装置利用した着信音メロディの試聴
Š 曲名を音声認識、着信音を再生
2000年サービス開始
iモード、J-SKY、Ezwebでサービス
着メロASP
システム構成
iモード
WAP
音声認識基盤
携帯
コンテンツ業者
着メロ
コンテンツ
着メロ
ISPサーバ
(BIGLOBE)
3
乗換え案内
ボイスサーチサービス
„
音声による駅名入力
[PHONE TO]
駅すぱあと
◆ボイスサーチサービス◆
◆終電経路検索◆
1.最寄駅チェック
2.全国版経路検索
3.時刻表経路検索
4.終電経路検索
5.ボイスサーチ
6.登録・解約
7.こんなサービス
8.お気に入り登録
1.全国版経路検索
2.時刻表経路検索
3.終電経路検索
4.検索結果表示
5.検索方法
1.首都圏
2.北海道
3.東北
4.関甲信
5.中部
6.近畿
7.中国・四国
8.九州
利
「出発駅をどうぞ」
「たまち」
用
「田町ですね?」
「はい」
者
「目的駅をどうぞ」
「とうきょう」
「東京ですね?」
「はい」
■ ルート表示
[経路1]
0:13発 田町 →
京浜東北・根岸線 →
0:20着 東京
[乗車券]160円
[所要時間]7分
[距離]4.6km
1.次をみる
2.経路登録
「田町から東京までの
経路をご案内します。
電話をお切り下さい。」
音
声
認
識
応
答
シ
ス
テ
ム
【結果表示】
【結果通知】
WWWサーバ(CGI処理)
4
「Web・音声統合サービス基盤技術」
実サービス提供の経験を元に、Webと音声合成、認識による
音声対話を統合したサービスを構築するための基盤技術
キーボードのかわりに音声でWeb画面とやりとり(入力、読み上げなど)
„ 音声による操作の結果をWeb画面で確認
Š Webページと音声の順次切り替えによるサービス機能(通常の携帯(2G))
Š Webページアクセスと音声を同時並行で処理 (PC,FOMA,キオスク端末など)
コールセンターなどのサービスで有用
„
1. チケット予約画面から
音声サービスモードへ
Web・音声統合
記述言語
航空券予約
便名
ページと音声の
処理を協調して
記述できる言語
日時
名前
音声サービスへ
Web
ブラウジング
HTML/HTTP,
WAP
2. 音声によるナビゲーションと
音声認識、トーン認識による入力
…「便名を押してください」… “222”…
…「名前をどうそ」…「鈴木一郎」…
3. Web画面へ戻り
予約内容の確認と予約確定
Moirissimo
Moirissimo
ページ
音声
処理
データ
音声応答
航空券予約
便名
222
日時
2001/8/16
名前
鈴木一郎
確定
公衆網、VoIP、
クライアント側で
処理など
Web&ボイスポータルサービス提供
音声応答を取り混ぜて、
音声エンジン
(音声合成・
認識)
各種ポータルサービスを
効果的にナビゲート
5
「Web・音声統合サービス基盤技術」
音声ポータルとWebのサービスを融合した新しいサービ
スを構築するための環境を開発
„
Webを記述するための言語や音声ポータルを記述するための言語を高度
に組み合わせて利用するためのフレームワーク(XHTML言語拡張および
処理系)を開発した。
音声ポータルの構築を容易にするための環境を開発
„
音声ポータル構築を容易にするために、音声出力などの処理を記述する
際にWebデザイナでも簡単に記述できる環境(XMLを使用した簡易音声制
御記述言語および処理系)を開発した。
当社の電話音声認識・合成エンジンに対応
„
高い認識性能と豊富な実績を誇るNEC製の電話音声認識エンジンと業界
トップクラスの自然な音声出力を実現する音声合成エンジンに対応した。
6
「Web・音声統合サービス基盤技術」:アーキテクチャ
Webサーバ
インターネット
Web・音声連携
コントローラ
Webコンテンツデータ
(iモードHTMLなど)
Web・音声統合記述
インタープリタ
Web・音声統合サービスサーバ
音声ポータル用
言語コンテンツ
(簡易音声制御
記述言語、
VoiceXMLなど)
http
公衆網
Web・音声連携
コントローラ
Voiceブラウザ
Web・音声統合記述言語
に基づくコンテンツ
音声認識・合成エンジン
音声サーバ
7
「Web・音声統合サービス基盤技術」:構成
Web・音声統合サービスサーバ
„
Java Servletとして提供
Š Servlet API2.2準拠のサーブレットコンテナが必要
(WebLogic、Tomcatなど)
音声サーバ
„
„
Dialogic(Intel)アナログボードをサポート
Windows NT/2000
8
W3C XHTML+Voiceによる記述例
<head>
<title>会員情報の入力</title>
...
<mmx:form id="voice̲juusho">
音声制御記述部
<mmx:field name="field̲juusho">
<mmx:grammar src=“address.srgf" type="application/x-srgf"/>
<mmx:prompt id="juusho̲prompt">住所をどうぞ</mmx:prompt>
</mmx:field>
</mmx:form>
<mmx:form id="voice̲namae">
<mmx:field name="field̲namae">
<mmx:grammar src=“name.srgf" type="application/x-srgf"/>
<mmx:prompt id="namae̲prompt">お名前をどうぞ</mmx:prompt>
</mmx:field>
</mmx:form>
...
</head>
<body>
...
<form>
住所:<input name="juusho" type="text“ ev:event="onfocus" ev:handler="#voice̲juusho">
<script ev:target="#field̲juusho" ev:event="mmx:filled">
juusho = field̲juusho;
</script>
名前: <input name="namae" type="text" ev:event="onfocus" ev:handler="#voice̲namae">
<input type="submit" value="送信">
<script ev:target="#field̲namae" ev:event="mmx:filled">
namae = field̲namae;
</script>
表示記述部
</form>
...
</body>
Webと音声の連携を
簡単に記述可能
携帯電話画面
会員情報の入力
・・・
住所:
名前:
・・・
音声ナビゲーションに
しがたい音声対話。
住所をどうぞ 東京都…”
会員情報の入力
・・・
住所: 東京都
名前: 鈴木一
・・・
*W3C XHTML+Voiceによる記述例
9
携帯電話を使用したWeb・音声統合サービス
2.5G
„
シーケンシャルモデル
Š eventモデルがない(on click)
Š インタラクションはフォームかページ単位
„ tel: などの属性を使って音声回線を接続
Š 通話料金が課題
3G
„
„
FOMA
Š マルチアクセス
„ 音声回線とパケットが同時利用可能
Š 実運用上はあまり違いがない
今後
Š シームレスな連携を期待
„ 音声のIP化などが必要
10
W3C Multimodal Interaction WG
2002年2月設立
Webユーザインターフェースをマルチモードでアクセス
関連技術
„
„
„
„
„
VoiceXML
SALT
XHTML+Voice
SMIL
Š マルチメディアオーサリング
XForms
Š クライアントデバイスに依存しないWebのフォーム
メンバ
„
Avaya, Comverse, France Telecom, Hewlett-Packard, IBM, Intel,
Kirusa, Microsoft, Motorola, Nokia, Nortel Networks, Nuance
Communications, OnMobile Systems, Openwave, PipeBeach,
Siemens, Snowshore Networks, Speechworks International,
Sun Microsystems, Syntellect, T-Online International,
Toyohashi University of Technology, Unisys, V-Enable, VoxPilot
and NEC.
11
サービス例1:新発売ゲーム予約
音声対話による操作環境を提供
予約内容確認、予約番号の記録など、
音声サービスのみではできないサービスを提供
ゲーム予約
ゲーム FFXIII
住所
1. 新発売のゲームの予約画面
から音声サービスモードへ
名前
音声サービスへ
2. 音声によるナビゲーションと
音声認識、トーン認識による入力
3. Web画面へ戻り
予約内容の確認と予約確定
Webからのエントリー
Webで少し入力後、音声サービスへ
音声対話による購買予約。
面倒な携帯での文字入力を行わなくてすむ。
名前入力も音声でOK。
…「住所をどうぞ」… “東京都…”…
…「名前をどうそ」…「すずきいちろう」…
ゲーム予約
ゲーム FFXIII
住所 東京都芝
名前 スズキイ」
確定
画面上で入力情報の確実な確認ができる。
また、予約番号の記録も画面メモなどで
記録できる。
ゲーム予約
3. 予約確定情報、
予約番号などの表示
ゲーム FFXIII
住所 東京都芝
名前 すずきいちろう
予約番号 1243
確定
12
サービス例2:グルメ検索
検索サービスなどで、住所など多数の種類があり、選択式で
はむずかしい情報の入力が簡単
グルメ検索
Webからのエントリー
選択形式など入力しやすいところは入力
住所を入力せず音声サービスへ
場所
ジャンルファースト
1. グルメサイトの検索画面から
音声サービスモードへ
検索
音声サービスへ
2. 音声によるナビゲーションと
音声認識、トーン認識による入力
3. Web画面へ戻り
入力内容の確認、
入力継続と検索
音声対話による住所の入力。
面倒な携帯での文字入力を行わなくてすむ。
名前入力も音声でOK。
…「住所をどうぞ」… “東京都港区…”…
グルメ検索
場所 東京都港
ジャンルファーストフ
Webにもどり入力情報を確認し、結果表示
検索
音声サービスへ
グルメ検索
3. 検索結果の表示
候補1:ランプ亭
(地図)
13
サービス例3(応用):ホテル予約
コールセンターなどの音声サービスも、Webのサービスや
自動応答サービスと組み合わせることで、効率化を実現。
ホテル予約
1. ホテルの予約画面から
音声サービスモードへ
日時 2/29
4名
人数
名前 鈴木一郎
Webからのエントリー
聞きたいことや複雑な要求があるので、
音声モードへ
音声サービスへ
2. 音声による定型的なナビゲーションの途中から、
係との直接対話モードへ。
…「日にちをどうぞ」… “2月28日”…
詳細な情報を詰める。
…「人数をどうぞ」… 4人 …
定型的な自動応答のあと、
係員との直接対話へ
…[お待たせいたしました」…
“子供用のベッドを用意してほしいんで
すが …「了解しました、確認いたします。
少々お待ちください」…
3. Web画面へ戻り
予約内容の確認と予約確定
…「ありがとうございます、電話を切り、
Web画面で予約内容を確認ください」
ホテル予約
日時 2/29
4名
人数
名前 鈴木一郎
特記事項
子供用のベッドを
画面で情報の確実な確認ができる。
また、予約番号の記録も画面メモなどで
記録できる。
14