技術解説 分散型音声認識LSIソリューション(DSR) FAITHTMの適用事例として,アドバンスト・メディア社の音声認識 技 術「 AmiVoiceDSR TM( AmiVoice Distributed Speech Recognition) 」のハードウェア化についてご紹介します。 はじめに 近年,ユーザインタフェースの一つとして音声認識技術の需要が 高まりつつあります。アドバンスト・メディア社が開発した音声認識シス テムAmiVoiceDSRTMは,音響処理部と認識部をそれぞれクライア ント (端末)側とサーバに分割・処理する分散型のシステムです。認 識エンジンの言語モデルや辞書をサーバ側に持つことが特長で,他 言語への対応,辞書のメンテナンス性,大容量の辞書の搭載など により,高精度な音声認識を実現します。この分散型音声認識シス テムは,クライアント側で音声特徴量を抽出し,パケット化してサー 写真1 Harp評価ボード バ側に送信するため,音声品質が劣化しないことも大きな特長です。 アドバンスト・メディア社 音声認識技術の特長 AmiVoice R の特長 し,評価ボードシステムを構築しました。 Harp=DSR-LSI評価システムとは ・不特定話者:発話者の事前トレーニングや個別学習が不要 ・連続的な発話に対応:通常会話における連続発話を高精度で 認識可能。 HarpによるAmiVoiceDSRTMの評価システムについてご説明し ます。 例:経済新聞記事,ニュース記事朗読の自動テロップなど ・発話スピードの変化に対応 ・高精度な認識率:ディテクテーションタイプの辞書により,文章 図1にHarpの概要を示します。 (C++に Harpは,AmiVoiceDSRTMのクライアント側ソフトウェア より記述) を機能的に等価なハードウェア (RTL=DSR-IP) として設 入力をほぼリアルタイムで処理可能。 計し,FPGAとして基盤実装した評価用のボックスです。ユーザ 例:放射線画像診断ディテクテーション認識率=95%以上 は実際にHarpボックスを利用して,AmiVoiceDSRTMの音声認識 ・ノイズ対策:ブレイズ,周辺環境雑音等に強く,特殊条件へ の個別対応が可能。 AmiVoiceDSRTMの特長 分散方式(Distributed Speech Recognition) により,次の利 システム評価を行うことができます。 AmiVoiceDSRTMのフロントエンドシステムの構成は[音声入力部 (A/D変換部)+音声特徴抽出部+システムI/F] となっており, HarpのボックスにFPGA+ADCなどにより基盤実装してあります。 点があります。 ユーザはHarpボックスのミニジャックにマイクを接続し,PCサーバな ・クライアント部分を軽量化→小型端末への搭載が可能 どとUSBなどで接続すれば,AmiVoiceDSRTMのシステム評価が ・サーバ側のメンテナンスが容易 可能となります。また,サーバ側(PC用)評価用ソフトについても, 当社とアドバンスト・メディア社は,AmiVoiceDSRTMの音声認識 処理フロントエンジンをLSI設計手法FAITHTMによりハードウェア化 FIND Vol.21 No.5 2003 Harpボックスとセットでの提供を予定しています。 図2にHarp評価ボードの構成図を示します。 9 分散型音声認識LSIソリューション(DSR) ③Harp本体のカスタマイズ:評価用Harp基盤のカスタマイズ受託 HarpによるサポートサービスとLSIの提供方法 ④DSR-IPのカスタマイズ:DSR-IPの用途・機能チューニング ⑤DSR-IP搭載SoC開発:ユーザシステム向けのLSI設計・開発 分散型音声認識システムであるAmiVoiceDSRTMをハードウェア 受託 化することにより,システム全体の負荷低減,低消費電力化を実 これらのサポートサービスにより,必要に応じてお客様のシステム 現します。またこれにより,非力なCPU・システムで構成されている 設計をサポートし,端末からセンタサーバまでのシステム構築をお システムや,従来ソフトウェアでは制限のあった分野(ITS,携帯電 手伝いします。 Harpに内蔵しているDSR-IPはFPGAで設計されているため, 話,デジタル家電など) での利用が可能となります。 ユーザごとのシステムI/Fなどのカスタマイズに対応できます。また, またHarpのサービスとしては,評価用Harpボックスの提供以外 に,次の①〜⑤のサービスを有償でご提供する予定です。 DSR-IPコアのバッファリングサイズ,ノイズリダクションなど用途ごとの ①サーバ接続環境の構築/テスト:サーバ,アプリケーションのSI チューニングにも対応できます。 Harpは前述したFAITHTM設計手法を利用したサービスです。 業務受託・相談 ②端末におけるシステム設計サポート:H/W設計時のコンサル これによりHarp本体とDSR-IP(FPGA)のカスタマイズを可能とし, ティング 図1 ユーザごとの仕様・用途別に最適化された,DSR-IP内蔵のシス Harpの概要 [Harp による評価環境] [AmiVoice R の評価環境] サーバ ネ ッ ト ワ ー ク モバイル端末 AmiVoiceDSRTM --入出力/特徴量抽出- 音 声 AmiVoice R --音声認識エンジン-- 特徴量 認識デコーダ 認識結果 音響モデル C++ to RTL 辞書 特徴量 R AmiVoice :株式会社アドバンスト・メディアの音声認識エンジン AmiVoiceDSRTM:株式会社アドバンスト・メディアのサーバ クライアント型分散音声認識エンジン Harp:AmiVoiceDSRTM をハードウェア化した評価ボックス DSR-IP:AmiVoiceDSRTM のコア 部と機能的に等価な IP マクロ FAITHTM により開発しており,用意に ASIC 対応可能 認識結果 Harp DSR-IP 音 声 FPGA FAITHTM により, 最短期間で開発可能 LSI,SoC カスタム回路 図2 言語モデル Harp評価ボードの構成図 コントロールボード ヘッドフォン ライン out Power コントロール FPGA マイクロフォン ライン in ターゲット FPGA ボード オーディオ コーデック 1.5 V ADC/DAC DSR-FPGA SRAM PCM メモリ DC8.4 〜 6.0 V (バッテリ) フラッシュ メモリ 5V Power 3.3 V MCU 16 ビットバス USB コントローラ USB コネクタ シリアル I/O (RS232C) 10 FIND Vol.21 No.5 2003 分散型音声認識LSIソリューション(DSR) テムLSIとしての提供が容易に行えます。またFPGAでの検証後, 今回のプロジェクトでは,C++で記述されているAmiVoiceDSRTM 最短期間でLSI化が可能(最短2日間でサインオフ)です。 コア機能を完全ハードウェア化することに成功しています。 図3に,ソフトウェア (C++)からハードウェア (HDL)の開発事例 今回の設計では,FAITHTM設計手法を用いることで,回路デー タ (RTL) を評価用デバイス (FPGA/PLD) と量産用デバイス (シス (DSR-IPのデザインフローと実装) を示します。DSR-IPの開発は, Amivoice DSRTMのソースプログラムから開発したことにより,図 テムLSI) で共通化しています。これにより,評価機と量産機のシー 3のような多様な実装方法が可能となっています。 ムレスな開発が可能となり,お客様にはFPGAで評価したDSR-IP 内蔵のLSI/SoCを最短期間で提供できる点も大きなメリットです。 最後に 当社は今後も,このような機能コアのFAITHTMによるハードウェ ア化(FPGA/LSI化)に取り組んでいきます。 ■ 図4にHarpとFAITHTMの関係を示します。 *FAITHは富士通九州ディジタル・テクノロジ株式会社の商標です。 本稿では,FAITHTMを利用した機能コアのRTL化の事例とし *AmiVoice,AmiVoiceDSRは,株式会社アドバンスト・メディアの商標および て,AmiVoiceDSRTMのハードウェア化についてご説明しました。 図3 登録商標です。 DSR-IPのデザインフローと実装 DSR-IP のデザインフロー AmiVoice DSR 定義仕様 DSR-IP の実装 アプリケーション AmiVoice DSR Written in C++ FR-V 概念モデル (構造解析) <中間モデル> written in systemC 機能モデル (アーキテクチャ設計) 検 証 ︵ 期 待 値 照 合 ︶ カーナビ SoC 携帯電話 ICA モデル (動作合成可能な BL/RTL) DSR-LSI DSR-IP Written in HDL RTL(HDL) 図4 (FPGA) Harp 携帯端末 ネットリスト HarpとFAITHTMの関係 ・回路データ (RTL) を評価用デバイス(FPGA/PLD)と量産用デバイス (システムLSI) で共通化することにより,評価機と量産機のシームレ スな開発が可能 ・論理設計と物理設計のコンカレント開発により,評価機から量産機 へのスムーズな移行が可能 カスタマイズ情報 ユーザ回路(RTL) AMI̲DSR システム 「C」アルゴリズム FAITH コ ン カ レ ン ト 開 発 ASIC/FPGA 共通 RTL の設計 お問い合わせ先【技術】:マーケティング統括部 TEL(03)5322-3353 FIND Vol.21 No.5 2003 【営業】 :最寄りの富士通㈱ FPGA/PLD の設計 デモボードの設計 システム LSI の物 理設計 1〜2 ヵ月で LSI 化 第二マーケティング部 FAX(03)5322-3386 営業部(裏表紙をご参照ください) 11
© Copyright 2024 Paperzz