分散型音声認識LSIソリューション(DSR)

技術解説
分散型音声認識LSIソリューション(DSR)
FAITHTMの適用事例として,アドバンスト・メディア社の音声認識
技 術「 AmiVoiceDSR TM( AmiVoice Distributed Speech
Recognition)
」のハードウェア化についてご紹介します。
はじめに
近年,ユーザインタフェースの一つとして音声認識技術の需要が
高まりつつあります。アドバンスト・メディア社が開発した音声認識シス
テムAmiVoiceDSRTMは,音響処理部と認識部をそれぞれクライア
ント
(端末)側とサーバに分割・処理する分散型のシステムです。認
識エンジンの言語モデルや辞書をサーバ側に持つことが特長で,他
言語への対応,辞書のメンテナンス性,大容量の辞書の搭載など
により,高精度な音声認識を実現します。この分散型音声認識シス
テムは,クライアント側で音声特徴量を抽出し,パケット化してサー
写真1 Harp評価ボード
バ側に送信するため,音声品質が劣化しないことも大きな特長です。
アドバンスト・メディア社 音声認識技術の特長
AmiVoice R の特長
し,評価ボードシステムを構築しました。
Harp=DSR-LSI評価システムとは
・不特定話者:発話者の事前トレーニングや個別学習が不要
・連続的な発話に対応:通常会話における連続発話を高精度で
認識可能。
HarpによるAmiVoiceDSRTMの評価システムについてご説明し
ます。
例:経済新聞記事,ニュース記事朗読の自動テロップなど
・発話スピードの変化に対応
・高精度な認識率:ディテクテーションタイプの辞書により,文章
図1にHarpの概要を示します。
(C++に
Harpは,AmiVoiceDSRTMのクライアント側ソフトウェア
より記述)
を機能的に等価なハードウェア
(RTL=DSR-IP)
として設
入力をほぼリアルタイムで処理可能。
計し,FPGAとして基盤実装した評価用のボックスです。ユーザ
例:放射線画像診断ディテクテーション認識率=95%以上
は実際にHarpボックスを利用して,AmiVoiceDSRTMの音声認識
・ノイズ対策:ブレイズ,周辺環境雑音等に強く,特殊条件へ
の個別対応が可能。
AmiVoiceDSRTMの特長
分散方式(Distributed Speech Recognition)
により,次の利
システム評価を行うことができます。
AmiVoiceDSRTMのフロントエンドシステムの構成は[音声入力部
(A/D変換部)+音声特徴抽出部+システムI/F]
となっており,
HarpのボックスにFPGA+ADCなどにより基盤実装してあります。
点があります。
ユーザはHarpボックスのミニジャックにマイクを接続し,PCサーバな
・クライアント部分を軽量化→小型端末への搭載が可能
どとUSBなどで接続すれば,AmiVoiceDSRTMのシステム評価が
・サーバ側のメンテナンスが容易
可能となります。また,サーバ側(PC用)評価用ソフトについても,
当社とアドバンスト・メディア社は,AmiVoiceDSRTMの音声認識
処理フロントエンジンをLSI設計手法FAITHTMによりハードウェア化
FIND
Vol.21 No.5
2003
Harpボックスとセットでの提供を予定しています。
図2にHarp評価ボードの構成図を示します。
9
分散型音声認識LSIソリューション(DSR)
③Harp本体のカスタマイズ:評価用Harp基盤のカスタマイズ受託
HarpによるサポートサービスとLSIの提供方法
④DSR-IPのカスタマイズ:DSR-IPの用途・機能チューニング
⑤DSR-IP搭載SoC開発:ユーザシステム向けのLSI設計・開発
分散型音声認識システムであるAmiVoiceDSRTMをハードウェア
受託
化することにより,システム全体の負荷低減,低消費電力化を実
これらのサポートサービスにより,必要に応じてお客様のシステム
現します。またこれにより,非力なCPU・システムで構成されている
設計をサポートし,端末からセンタサーバまでのシステム構築をお
システムや,従来ソフトウェアでは制限のあった分野(ITS,携帯電
手伝いします。
Harpに内蔵しているDSR-IPはFPGAで設計されているため,
話,デジタル家電など)
での利用が可能となります。
ユーザごとのシステムI/Fなどのカスタマイズに対応できます。また,
またHarpのサービスとしては,評価用Harpボックスの提供以外
に,次の①〜⑤のサービスを有償でご提供する予定です。
DSR-IPコアのバッファリングサイズ,ノイズリダクションなど用途ごとの
①サーバ接続環境の構築/テスト:サーバ,アプリケーションのSI
チューニングにも対応できます。
Harpは前述したFAITHTM設計手法を利用したサービスです。
業務受託・相談
②端末におけるシステム設計サポート:H/W設計時のコンサル
これによりHarp本体とDSR-IP(FPGA)のカスタマイズを可能とし,
ティング
図1
ユーザごとの仕様・用途別に最適化された,DSR-IP内蔵のシス
Harpの概要
[Harp による評価環境]
[AmiVoice R の評価環境]
サーバ
ネ
ッ
ト
ワ
ー
ク
モバイル端末
AmiVoiceDSRTM
--入出力/特徴量抽出-
音
声
AmiVoice R
--音声認識エンジン--
特徴量
認識デコーダ
認識結果
音響モデル
C++ to RTL
辞書
特徴量
R
AmiVoice :株式会社アドバンスト・メディアの音声認識エンジン
AmiVoiceDSRTM:株式会社アドバンスト・メディアのサーバ
クライアント型分散音声認識エンジン
Harp:AmiVoiceDSRTM をハードウェア化した評価ボックス
DSR-IP:AmiVoiceDSRTM のコア 部と機能的に等価な IP マクロ
FAITHTM により開発しており,用意に ASIC 対応可能
認識結果
Harp
DSR-IP
音
声
FPGA
FAITHTM により,
最短期間で開発可能
LSI,SoC
カスタム回路
図2
言語モデル
Harp評価ボードの構成図
コントロールボード
ヘッドフォン
ライン out
Power
コントロール
FPGA
マイクロフォン
ライン in
ターゲット FPGA ボード
オーディオ
コーデック
1.5 V
ADC/DAC
DSR-FPGA
SRAM
PCM
メモリ
DC8.4 〜 6.0 V
(バッテリ)
フラッシュ
メモリ
5V
Power
3.3 V
MCU
16 ビットバス
USB
コントローラ
USB コネクタ
シリアル I/O
(RS232C)
10
FIND Vol.21 No.5 2003
分散型音声認識LSIソリューション(DSR)
テムLSIとしての提供が容易に行えます。またFPGAでの検証後,
今回のプロジェクトでは,C++で記述されているAmiVoiceDSRTM
最短期間でLSI化が可能(最短2日間でサインオフ)です。
コア機能を完全ハードウェア化することに成功しています。
図3に,ソフトウェア
(C++)からハードウェア
(HDL)の開発事例
今回の設計では,FAITHTM設計手法を用いることで,回路デー
タ
(RTL)
を評価用デバイス
(FPGA/PLD)
と量産用デバイス
(シス
(DSR-IPのデザインフローと実装)
を示します。DSR-IPの開発は,
Amivoice
DSRTMのソースプログラムから開発したことにより,図
テムLSI)
で共通化しています。これにより,評価機と量産機のシー
3のような多様な実装方法が可能となっています。
ムレスな開発が可能となり,お客様にはFPGAで評価したDSR-IP
内蔵のLSI/SoCを最短期間で提供できる点も大きなメリットです。
最後に
当社は今後も,このような機能コアのFAITHTMによるハードウェ
ア化(FPGA/LSI化)に取り組んでいきます。
■
図4にHarpとFAITHTMの関係を示します。
*FAITHは富士通九州ディジタル・テクノロジ株式会社の商標です。
本稿では,FAITHTMを利用した機能コアのRTL化の事例とし
*AmiVoice,AmiVoiceDSRは,株式会社アドバンスト・メディアの商標および
て,AmiVoiceDSRTMのハードウェア化についてご説明しました。
図3
登録商標です。
DSR-IPのデザインフローと実装
DSR-IP のデザインフロー
AmiVoice DSR
定義仕様
DSR-IP の実装
アプリケーション
AmiVoice DSR Written in C++
FR-V
概念モデル
(構造解析)
<中間モデル>
written in systemC
機能モデル
(アーキテクチャ設計)
検
証
︵
期
待
値
照
合
︶
カーナビ
SoC
携帯電話
ICA モデル
(動作合成可能な BL/RTL)
DSR-LSI
DSR-IP Written in HDL
RTL(HDL)
図4
(FPGA)
Harp
携帯端末
ネットリスト
HarpとFAITHTMの関係
・回路データ
(RTL)
を評価用デバイス(FPGA/PLD)と量産用デバイス
(システムLSI)
で共通化することにより,評価機と量産機のシームレ
スな開発が可能
・論理設計と物理設計のコンカレント開発により,評価機から量産機
へのスムーズな移行が可能
カスタマイズ情報
ユーザ回路(RTL)
AMI̲DSR システム
「C」アルゴリズム
FAITH
コ
ン
カ
レ
ン
ト
開
発
ASIC/FPGA 共通 RTL の設計
お問い合わせ先【技術】:マーケティング統括部
TEL(03)5322-3353
FIND
Vol.21 No.5
2003
【営業】
:最寄りの富士通㈱
FPGA/PLD の設計
デモボードの設計
システム LSI の物
理設計
1〜2 ヵ月で LSI 化
第二マーケティング部
FAX(03)5322-3386
営業部(裏表紙をご参照ください)
11