コンパクトな単語音声認識,テキスト音声合成

シャープ技報
第77号・2000年8月
コンパクトな単語音声認識,テキスト音声合成
Small-Sized Speaker-Independent Word Recognition and Text-to-Speech Synthesis
山 口 耕 市 *1
Kouichi Yamaguchi
森 尾 智 一 *1
Tomokazu Morio
八 幡 洋一郎 *1
Yoichiro Yahata
赤 羽 俊 夫 *2
Toshio Akabane
本 田 和 正 *1
Kazumasa Honda
鶴 田 彰 *1
Akira Tsuruta
吹 田 慶 子 *1
Keiko Suita
勘 座 浩 幸 *1
Hiroyuki Kanza
神 谷 伸 *1
Shin Kamiya
要 旨
PDA や電話等の組込み用途向けに不特定話者単語
音声認識システム,テキスト音声合成システム(TTS)
を開発した。音声認識やTTSは多くの計算量とメモリ
を必要とするため,
コンパクト化が重要な課題であっ
た。単語音声認識では高速尤度演算法と2段階の高速
照合手法により,
高い認識性能を確保しつつコンパク
トな構成を可能にした。TTSでは音素別にスペクトル
情報をベクトル量子化することで素片辞書を圧縮表現
し,さらに人名の読み上げに特化した構成にすること
でコンパクトかつ高品質なシステムとした。
We have developed a speaker-independent discrete
word recognition system and a text-to-speech synthesizer
(TTS) for embedded use such as PDAs and telephones.
Speech recognition and TTS require a large amount of
computational cost and memory. So we have been trying to
cope with these problems. We have successfully decreased
the computational cost of the speech recognition system by
a fast likelihood calculation method and a fast two-stage
search method. We have also successfully compressed the
phoneme dictionary of the TTS by a phoneme-wise vector
quantization.
まえがき
近年,多くの音声認識,音声合成関連の商品化が行
なわれている。音声認識においては,パソコン用で数
万語を認識するシステムと組込み用で数百語までを認
識するシステムとがあり,両者の比較を図1に示す。
前者の主な用途はディクテーションであり,大語彙認
識を実現するためには高速CPU,大容量メモリ,専用
*1 技術本部 基盤技術研究所
*2 液晶システムデバイス開発センター SD2-PT
図1 音声認識システムの比較
Fig. 1 Comparison between speech recognition systems.
マイク,初期登録が必要であり,ユーザや商品への負
荷が大きい。一方,後者の主な用途は音声ダイヤラや
カーナビ,ゲーム機,リモコンなどであり,小∼中語
彙の認識であるがユーザや商品への負荷が小さいとい
う特徴がある。
本稿では,PDA や電話等の組込み用途向けに開発
した音声認識,テキスト音声合成システムについて報
告する。
1 . 単語音声認識システム
80 年 代 半 ば か ら 隠 れ マ ル コ フ モ デ ル ( HMM:
Hidden Markov Model)と呼ばれる確率統計に基づく
音響モデル1) の研究が盛んになり,90 年代に入ると
音響モデルの学習用に大規模な音声データベースが整
備されてきたことで不特定話者の音声認識性能が飛躍
的に向上した2)。
組込み用途においてはハードウェア
資源が限られているため小∼中語彙の離散単語音声認
識となるが,高精度化を実現するためにHMMがよく
用いられている。ただし,HMM は膨大な計算量を必
要とするため高速化が大きな課題となっており,高速
演算手法について活発な研究がなされている。
音声認識は騒音等の影響を受け,
実使用では認識率
― 26 ―
コンパクトな単語音声認識,テキスト音声合成
が大幅に劣化することがあるという問題点があり,実
用化の障壁となっていた。
実使用における変動要因と
その対策(ロバスト性向上)は中心的な研究課題と
なっている2)。
今回,組込み用途向けにHMMを用いてコンパクト
な構成ながらロバスト性を向上させた不特定話者音声
認識ソフトウェアを開発したので以下に報告する。
1・1 処理の概要
音声ダイヤラーに適用した場合の音声認識システム
全体の構成を図2に示す。
処理の流れは以下の通りで
ある。
マイクから入力された音声はディジタル波形に変換
され,音響分析部に入力される。音響分析部ではディ
ジタル波形を短い時間間隔(フレーム)毎に周波数分
析し,
スペクトルを表すパラメータのベクトル系列に
変換する。周波数分析にはLPCメルケプストラムと呼
ばれるスペクトルの効率よい表現方法を用いた。
尤度(音韻類似度)計算部では入力音声のパラメー
タベクトルに対し,音響モデル(音韻モデルとも言
う。ここでは HMM を採用)を作用させて各音韻毎に
尤度を算出する。
ここまでは入力音声に対して実時間
で処理するため,フレーム同期処理と呼ばれる。ここ
で,日本語の音韻は 26 種類程度だが,この音声認識
システムでは高精度化のため前後環境や話者による声
質の差,音韻内の時間変化を考慮しており,同じ「あ」
でも数十種類のスペクトルの分布(ここで分布とは音
韻の類似度を算出する出力確率密度関数のことであ
る)を持っている。ここでは総分布数は約800とした。
したがって800個の分布について尤度を算出する必要
がある。
大規模なデータを用いて確率・統計に基づき表現し
た高精度なモデルが現在の音声認識技術の基盤になっ
ている。今回のシステムの音響モデルもあらかじめ数
百人規模の話者が発声した音素的にバランスのとれた
大規模な音声データを用いて学習されている。HMM
には様々なタイプがあるが,
高精度化のため音素環境
依存型で混合連続分布の出力確率密度関数を持つ
HMM 1) を採用している。
尤度演算は音声認識システムの中で最も大きい処理
量となる。そこで後述のように,音響パラメータベク
トルを種類別にクラスタリングすることにより,効率
良く尤度演算の高速化を図っている。またモデル自体
のコンパクト化のため,
クラスタリングや音声学的知
見により,状態の共有や出力確率密度関数の共有を行
なっている。
照合部では音韻類似度系列に対し,
辞書にあるすべ
ての項目(単語)との照合を行ない,各単語について
スコアを算出する。その結果上位のスコアを得た候補
をホスト側に出力する。これが認識結果である。照合
処理は CPU への負担を軽減させるためフレーム同期
で行なう方法は採らず,
ここでは入力音声の語尾が検
出された後に行う(後処理と呼ぶ)方式を採用してい
る。照合アルゴリズムには Viterbi サーチが用いられ
る。Viterbiサーチ自体も処理量は大きいため,辞書に
あるすべての単語について逐一 Viterbi サーチを行う
と応答時間が遅くなってしまう。そこで後述する2段
階サーチによる高速化がなされている。
以下に今回開発した高速化・ロバスト化に関連する
主な技術項目について述べる。
図2 不特定話者単語音声認識システム構成
Fig. 2 Speaker-independent discrete word recognition system overview.
― 27 ―
シャープ技報
第77号・2000年8月
図3 特徴空間別クラスタリングによる高速尤度演算
Fig. 3 Fast likelihood calculation method by subspace clustering.
1・2 尤度計算部
一般に認識率は音響モデルの精度に依存しており,
認識率を上げるには音響モデルを高精度に
(規模を大
きく)する必要がある。音響モデルの規模が大きくな
ると尤度演算量が増加する。
尤度演算は音声認識シス
テムの中で最も処理量が大きい。したがって尤度演算
量をいかに削減するかが高速化の最大の課題となって
いる。
尤度演算の高速化手法には大きく分けて次の3つの
アプローチがある。
①出力確率値をテーブル参照する
方法。②一度計算した結果を再利用する方法。③音声
認識結果に直接影響する出力確率は精密に,それ以外
は粗い近似計算で済ませる方法。ここでは③を採用し
た。③には平均値ベクトルをあらかじめ木構造にクラ
スタリングする手法3) などが提案されている。
われわれは『特徴空間別クラスタリング』と呼ぶ高
速尤度演算法を開発した。処理の流れを図3に示す。
入力ベクトルはスペクトル,スペクトル変化量,パ
ワー,
パワー変化量の合計4種類の特徴空間から構成
され 26 次元からなるベクトルとして表現される。音
響パラメータを特徴空間別にクラスタリングすること
で,全次元一括でクラスタリングするより,効率良く
圧縮できることが実験を通じて検証できている。
以下
に総分布数が 800 の場合の処理の流れを述べる。
(1)まず近似尤度計算部にてあらかじめ特徴空間
別に作成された予備選択用分布集合(約 100 個)と入
力ベクトルとの尤度を計算し,
この尤度を用いて各音
韻の近似的な尤度を求める。
(2)次に詳細分布選択部にて近似尤度計算部の結
果から尤度を詳細に計算する必要のある分布を選択す
る。通常 20 個程度が選択される。
(3)最後に詳細尤度計算部にて各音韻の分布から
なる詳細分布集合(約 800 個)のうち詳細分布選択部
により選択された分布(約 20 個)について,入力ベ
クトルとの尤度を計算する。
上の例では従来だと800回必要な尤度演算を120回
で済ませていることになり,演算回数は 85%削減で
きており,30MIPS 程度の DSP 上でリアルタイム演算
ができる見通しを得た。
1・3 照合部
以下のようにファストマッチ(予備選択)と詳細
マッチの2段階に分けたサーチ手法により高速照合を
実現している。予備選択漏れを最小限に抑えつつサー
チ空間を約 10 分の1に削減し,詳細マッチと組み合
わせることで高い認識性能を確保している。
(1)ファストマッチ…状態方向では HMM を音素
環境独立にして音韻クラス間の誤り傾向を考慮した上
で状態を縮退させる。時間軸方向では尤度の時系列を
非線形に間引く。
これら2方向のサーチ空間削減によ
り,通常の Viterbi サーチに比べ処理量を 1/10 以下に
削減している。
(2)詳細マッチ…ファストマッチを通過した候補
についてのみ通常の Viterbi サーチを行なう。
― 28 ―
コンパクトな単語音声認識,テキスト音声合成
1・4 音響モデルのロバスト化
実使用においては種々の騒音下で発声されたり,
様々なマイクが使用されたりする。
またいろいろな声
の話者が存在する。
したがって入力音声は種々の要因
で変動する。
その変動要因は大きくは次の3つに分類
される2)。①空間伝送系(騒音,残響,マイクの位置
など)
,②電気的伝送系(マイクの特性,伝送路歪,電
気的雑音),③話者(個人差,発話様式,ロンバード
効果など)。
通常,
音響モデルの学習用データはクリーンな環境
でフラットなマイクを用いて収録されている。
いわば
理想的な条件で作成されている。これに対し,実使用
においては上述のように変動するため,
入力データと
音響モデルとの特性の違い(これをミスマッチと言
う)が生じる。このミスマッチが認識率の劣化の原因
となっている2)。ここでは実使用における変動要因の
うち,
主な要素と考えられる①の騒音と②のマイクの
周波数特性の違いに対処した。
(1)騒音対策
従来はスペクトルサブトラクションがよく用いられ
てきた。
定常雑音であっても絶えず変動しているので
その分散まで考慮すべく,最近では PMC 法4)が用い
られる。しかし PMC を実時間で作用させるのには計
算量が多く,
また安定した学習には騒音データがある
一定量必要となり,実装上困難が伴う。そこであらか
じめ想定しうる種々の騒音データを想定される範囲の
SN比で学習用音声データに重畳して音響モデルを学
習した。
(2)周波数特性の補償
マイクや回線特性に由来する伝送特性の歪みについ
ては入力音声を正規化させるケプストラム平均正規化
法5) が提案されている。しかし,この方法では話者
性や観測した音声データの音韻の出現頻度に依存する
ので正確な補正はできない。
ここではターゲットの伝送特性が既知・固定とし
て,音響モデルの学習の際に学習音声データをター
ゲットの伝送特性に合わせて周波数特性を補正した。
電話のように帯域が狭い伝送経路の場合やスペクトル
に大きなピークがあって周波数特性が平坦でない場
合,認識率の劣化を抑えることに効果がある。
表1 尤度演算手法の比較
Table 1 Comparison between two likelihood calculation
methods.
手法
提案した手法
オリジナル
認識率(1位)
97.4%
97.8%
尤度演算回数
120回
800回
2・1 尤度演算比較実験
評価音声データはフラットなマイクで収録されてい
る。表1にオリジナルと提案した特徴空間別クラスタ
リングによる高速尤度演算手法との比較実験結果を記
す。評価用音声データは防音室にてフラットなマイク
を用いて収録した。話者はすべて学習に用いた話者と
は異なる男性 100 名。語彙は日本人の姓のうち,高頻
度の 100 単語。
提案した手法は認識率がほとんど劣化することな
く,尤度演算回数を 15% に削減できている。
2・2 騒音環境での認識実験
ロバスト性を評価するため,
騒音環境下での認識実
験を行なった。評価用音声データは防音室にてコード
レス電話機 CJ-M8 の親機ハンドセットを用いて収録
した。話者はすべて学習に用いた話者とは異なる 107
名。語彙は日本人の姓のうち,高頻度の 100 単語。
騒音下での評価実験の際は,
騒音データにマイクの
周波数特性をかけて想定したSN比になるようにレベ
ルを調整して上記評価用音声データに重畳した。評価
に用いた騒音データはオフィスとショウ会場であり,
学習に用いた騒音データとは異なる。騒音学習用には
別途収録した種々の室内騒音データを用いている。
騒音対策と周波数特性補正を行なった音響モデルを
用いた実験結果を表2に示す。
いずれの騒音の場合も
クリーンな環境(重畳騒音なし)の場合に対し,認識
率の劣化は小さい。学習に種々の騒音を重畳させるこ
とにより,学習に用いていない騒音環境下においても
モデルとのミスマッチが抑えられているためと考えら
れる。
表2 種々の環境下での認識率
Table 2 Word recognition rates under noisy conditions.
2 . 単語音声認識実験
重畳騒音
なし
開発した手法のコンパクト性とロバスト性を実証す
るため,
単語音声認識実験を通じ尤度演算の計算量の
削減度合いと騒音環境下での認識率を測定した。
オフィス
― 29 ―
ショウ会場
想定SN比
42dB 以上
約 30dB
約 25dB
約 30dB
約 25dB
認識率(1位)
97.7%
97.0%
96.1%
97.3%
96.8%
シャープ技報
第77号・2000年8月
3 . テキスト音声合成システム
テキストから音声信号に変換する技術をテキスト音
声合成と呼ぶ。1980 年頃から日本語テキスト音声合
成システムが開発され始め6),
現在ではパソコンでの
Eメールの読み上げや,当社のコードレス電話では電
話をかけてきた相手の姓名を発声する「誰どこコー
ル」でも利用されており,応用商品が拡大している。
しかしながら,音声合成技術はまだ人間の能力には及
ばず,イントネーションが不自然になったり,音質が
機械的で不明瞭になったりするという問題があり,高
音質を確保しようとすると大量の音声データが必要と
いう課題があった。
今回,機器組み込み用途向けに,音声データサイズ
をコンパクト化した高音質の音声合成ソフトウェアを
開発したので報告する。
姓・名に対し合成音声を試聴評価し,合成音声の韻律
や音質の評価の低い姓・名に対しては,例外韻律辞
書,及び例外音声素片辞書にデータを登録し使用する
ことで対処した。
例外韻律辞書には,
アナウンサーが発声した音声か
ら抽出した韻律データを登録しており,
例外音声素片
辞書には,主観評価において音質が不充分と判断され
た単語に対し,該当部分の音声素片データを,別途保
有する音声データベース中の他素片
(例えば子音がよ
り明瞭なもの)と入れ替えてその単語専用で使用する
ように登録したものである。図4では「佐藤さんで
す」と発声する場合を例示しており,
「佐藤」の発声
に対して例外韻律辞書のデータを使用し,佐藤の
「さ」の素片も例外音声素片データを利用する場合を
例示している。
作成した辞書のエントリー数は,アクセント辞書:
約9000(県名や企業名も含む),例外韻律辞書:約500,
3・1 主な特徴
今回開発したソフトウェアは,
姓名の発声を主目的
にしており,
日本語漢字かな混じり文の解析部がない
音声合成である。以下に特徴を示す。
・姓名に適切なアクセントを自動付与
・例外韻律辞書と例外音声素片辞書を備え,自然で
明瞭な合成音
・データROM:約150KByte,データRAM:32KByte
以下でコンパクトなソフトウェアとして実現
以下では,
例外韻律辞書と例外音声素片辞書により
自然性と音質を改善した点と,
音素毎にスペクトル情
報をベクトル量子化することで音声素片辞書容量をコ
ンパクト化した点を中心に説明する。
3・2 システムの構成
図4に開発した音声合成システムの概要を示す。入
力はアルファベット文字列で記述した発声文字列と韻
律(声の長さ,高さ,大きさ)制御数字列から成る。
先ずアクセント付与部ではアクセント規則とアクセ
ント辞書により,姓名に適切なアクセント(高く発声
する音節位置)が付与される。この規則と辞書は,
2700万件の日本人名データベース中,頻度の高い姓・
名から設定している。次に韻律生成部で規則によって
韻律を付与した後,
音声素片選択部で合成に必要な音
声素片データを音声素片辞書(“母音+子音+母音”
等の単位で保持)から選択し,音声素片合成部で音素
毎の時間長/ピッチ周波数/振幅を制御しながら,音
声素片データを滑らかに接続して合成音を作成する。
従来は発声される音声の韻律が不自然な場合や,
合
成音声が不明瞭な場合があった。今回,上記高頻度の
― 30 ―
図4 テキスト音声合成システム
Fig. 4 Text-to-speech synthesizer.
コンパクトな単語音声認識,テキスト音声合成
例外音声素片辞書:約 400。基本の音声素片辞書は約
800 の種類を保持している。データサイズは合計で約
150KByte である。
3・3 音声素片辞書のコンパクト化
PC 用の音声合成の多くは,高音質の合成音を得る
ために,1話者当たり数MByte程度の音声素片データ
を保有している。
音質を保持し音声素片データをコン
パクト化することが装置の小型化にとっては重要であ
る7)。音声符号化分野では,伝送・蓄積容量を削減す
るために,スペクトル形状を表現する線形予測係数を
算出し情報圧縮している8)。テキスト音声合成の場合
は音声符号化とは異なり,話者が固定されており,か
つ音素名と対応付けてデータが保有されているので,
音声素片データを一層圧縮することが可能である。今
回,音素毎にスペクトルパターンをベクトル量子化す
ることで音質劣化を抑え,
基本の音声素片辞書データ
を約 50KByte に圧縮した。
図5はベクトル量子化されたスペクトルパターンの
例で,左側は音素 'i' を 64 パターンにベクトル量子化
した内の4個を例示しており,右は音素 'h' について
同様に例示している。音素毎にパターンを持つことで
'i'のように似通ったパターンの場合には,効率的に圧
縮表現できることが分かる。しかしながら 'h' のよう
に,前後に連接する音素の影響などからスペクトルパ
ターンのバリエーションが大きい音素もある。
図6は「本日は」と音声合成した合成音声スペクト
ルの例で,左から圧縮なし,音素毎に64 パターン,そ
して 16 パターンのベクトル量子化を行なったもので
ある。16パターンではホルマント構造(スペクトルの
山谷)がぼやけ,時間軸方向にも同一のスペクトルが
連続しており,聴感的にも歪んだ感じを受ける。音素
毎に 64 パターンの符号帳を用いれば聴感上の音質劣
化は小さい。音声素片辞書サイズとの兼ね合いで,今
回は 64 パターンで表現した。
4 . 合成音評価実験
図5 ベクトル量子化されたスペクトルの例
Fig. 5 Examples of vector quantized spectra.
音質評価の高い対抗他社の合成音声と比べるため,
了解度と音質嗜好度の二つの主観比較評価実験を行
なった。実験条件と評価結果を表3に示す。了解度・
嗜好度ともに,他社の合成音声と比べ良好な結果を得
た。
表3 主観評価実験
Table 3 Subjective sound quality evaluation.
実験1
再生方法
評価方法
評価単語
被験者
実験2
再生方法
評価方法
図6 ベクトル量子化によるスペクトル
Fig. 6 Running spectra of vector quantized speech data.
実験結果
1.了解度
2.嗜好度
― 31 ―
了解度試験
電話機スピーカから,
今回開発した合成音と
他社合成音をランダム順に再生
一回受聴後書き取り
日本人の姓 頻度上位100(例:佐藤さん)
20名
音質嗜好度試験
同上。今回開発した合成音と他社合成音
をペアにして再生
ペア再生のうち良いと思う方を選択
(評価単語と被験者は実験1と同じ)
他社合成音
開発した合成音
91.4%
95.3%
27%
73%
シャープ技報
第77号・2000年8月
むすび
開発を推進する。
16bit 固定小数点 DSP で実現できる,コンパクトな
不特定話者音声認識・テキスト音声合成ソフトウェア
を開発した。
音声認識においてはHMMの状態縮退と時間圧縮に
よる高速サーチ手法とパラメータ種類別クラスタリン
グによる高速尤度演算法により,処理量削減しつつ高
い認識性能を確保した。騒音環境下での名前100単語
の認識実験において 96% 以上の認識率を得ており、
30MIPSクラスの認識システムとしては良好な性能を
達成した。
テキスト音声合成においては名前の読み上げに特化
して開発することでコンパクトかつ高品質なシステム
とした。約 800 の音声素片を備えることで,他社製に
比べ,高い明瞭性,了解性を実現した。さらに音素別
にスペクトル情報をベクトル量子化することで素片辞
書をコンパクトに圧縮表現した。
今後,音声ダイヤラ以外の用途(カーナビ,ホーム
ページ呼出し,TV 番組選択/予約,ビデオ画像呼出
し,ネットワーク家電制御等)にも展開できるように
性能向上をめざす。
音声認識においては大語彙化や連
続音声の認識,テキスト音声合成においては任意文の
より自然な合成とさらなるコンパクト化のための研究
謝辞
本稿のシステムは IC 開発本部 NW システム開発セ
ンターと共同開発の形で開発を行いました。
参考文献
1) 中川聖一,
“確率モデルによる音声認識”
,
電子情報通信学会,
コロナ社(1988)
.
2) 中川聖一,
“音声認識研究の動向”
,
電子情報通信学会論文誌,
Vol.J83-D-Ⅱ, No.2(2000).
3) T.Watanabe et al.,“Speech recognition using tree-structured
probability density function”
, ICSLP94, pp.223-226(1994).
4) M.J.F.Gales, S.J.Young,“Robust continuous speech recognition
using parallel model combination”, IEEE Trans. SAP, Vol.4
(1996).
5) S.Furui,“Cepstral analysis technique for automatic speaker
verification”
, IEEE Trans. ASSP, Vol.29, No.2(1981)
.
6) 佐藤,
匂坂他,
“日本語テキストからの音声合成”
,
電子通信学会
全国大会,S6-3(1982. 3)
.
7) 新井,
瀬戸他,
“DSP組み込み可能な省メモリ音声合成方式”
,
音
響学会講演論文集,
2-P-4(1998. 3).
8) 大室,
守谷他,
“低ビットレートCELPのLSPパラメータ量子化法”
,
音響学会講演論文集,
3-8-6(1993. 3).
(2
00
0年5月12日受理)
― 32 ―