1-Q-5 トレーニングデータのソフトクラスタリングに基づく不特定 話者の音声認識∗ ◎朱 発強, 山本一公, 中川 聖一 (豊橋技科大) 1 はじめに 3.2 近年、性別・年齢に依存しない多くの不特定話者の 音声認識システムが開発されている。これからのシス テムの性能を向上させるために 話者クラスタリン グ手法が有効であることが知られている [1, 2, 3, 4]。 本稿では学習データのソフトクラスタリング方法を 提案する。ソフトクラスタリング手法方を用いてな い性別・年齢既知特定話者音声認識結果と比較したと ころ、認識性能の改善が得られた。 2 学習データとベースライン 本論文に使用するデータベースは JNAS、S-JNAS と CIAIR-VCV である。JNAS データベースの話者 数は 301 名 (男性 151 名、女性 150 名 、20∼60 歳)で あり、S-JNAS データベースの話者数は 400 名 (男性 200 名、女性 200 名、6 0 ∼90 歳) であり、CIAIRVCV データベースの話者数は 288 名(男性 145 名、 女性 143 名、6∼12 歳) である。CIAIR-VCV データ ベースではすべての話者が同じ内容を発声している。 ベースラインとして、性別と年齢に基づいて学習 データを六種類に分類し、六種類の HMM と GMM を学習した。この六クラスは老人男性と女性、成人男 性と女性、子供男性と女性である。コンテクスト独立 音響モデルは EM アルゴリズムを用いて学習を行っ た、また、コンテクスト依存音響モデルはコンテキス ト独立音響モデルから MAP 推定を用いて混合重み、 遷移確率、平均ベクトルのみを学習した。六種類の HMM を学習する時、老人と成人に対応する音響モデ ルは同じ方法で学習した。ただし、子供のモデルに 関しては、学習データが少量であり、すべての音節が カバーされていないため、初期モデルとして成人の 女性のコンテクスト独立音節モデルを用いることで、 コンテクスト独立とコンテクスト依存音節モデルを MAP 推定を用いて学習した。認識時は、性別・年齢 層が既知な場合と GMM で適切なモデルを選択する 方法を用いた。これらの方法をベースラインとした。 3 学習データのソフトクラスタリング 学習データを再分類する方法 3.1 ベースラインで使用されるモデルは、話者の特徴 と直接一致するとは限らない。たとえば、ある 60 歳 の話者の音響の特徴は、40 歳の話者群により近い場 合がある。より適切なクラスを得るために、ベースラ イン手法で作成された GMM を用いて話者の特徴に 基づいて学習データを再分類した。その後、六種類の HMM を学習した。 ∗ 6 クラスから20クラスに増やす方法 任意入力話者に近いモデルを作成するために、学習 データを 6 クラスから20クラスに増やした。1 クラ ス当りの学習データ量が6クラスの時と同量になる ように各発話データをオーバーラップを許しながら ソフトクラスタリングする。分類方法を以下に示す。 1. 性別、年齢とマイクの種類に基づいた初期 20 クラ スのデータを作る。データ量のバランスを考慮し て、学習データを分類した。このデータを用いて 20クラスの GMM を学習する。 2. 学習データ不足の解決のためにオーバーラップを 許したソフトクラスタリングを行う。オーバーラッ プの大きさを決めるために三つパラメータを用い た。rs:相対的な尤度;tmin : 最小割り当てクラス 数;tmax : 最大割り当てクラス数。オーバーラッ プに基づいたクラスタリグのアルゴリズムを以下 に示す。 I: 学習データの発話文の数;n: 候補割り当てク ラスの数.;sc:現在の文と各々の GMM との類似 尤度。 (1) For i=1 ∼ I 、n=0; 以下のステップ (2)(3)(4) を実行する。 (2) 現在の文と初期クラスの 20-GMM との尤度を 計算し、降順に並べる。 (3) For j=2 ∼ 20 if (sc(1) - sc(j) )< rs, n=n+1; (4) if n < tmin , i 番目の文を最適な tmin 個のク ラスに割り当てる; if n > tmax , i 番目の文を最適な tmax 個のク ラスに割り当てる; if tmin ≤ n ≤ tmax , i 番目の文を最適な n 個 のクラスに割り当てる; 実験的では、rs=0.5、tmin =2、tmax =5 と設定し た. 3.3 20クラスから30クラスに増やす方法 クラス数を増やす効果を調査するために、30 クラ スまで学習データを分類した。用いた方法を以下に 示す。 1. 20 クラスの GMM と対応する HMM を用いて学習 データの認識尤度を用いて各クラスの平均尤度の 悪い方から 10 クラスを選び、この 10 クラスを 20 クラスに分け、合計30クラスにしてから、収束 するまでクラスタリングを繰り返す(Initial 30)。 Speaker-independent speech recognition based on soft-clustering of training data , by Faqiang ZHU Kazamasa YAMAMOTO Seiichi NAKAGAWA (Toyohashi University of Technology) 日本音響学会講演論文集 - 159 - 2010年3月 90 88 86 84 82 80 78 76 74 72 2. Initial 30クラス GMM を用いてオーバーラップ を許しながら 3.2 節の方法でソフトクラスタリン グする。クラスタリングしたデータで 30 種類の GMM と HMM を学習する。実験では、rs, tmin , tmax は 0.8, 2 と 8 に設定した。 4 4.1 k nown 実験と結果 実験条件 実験では、老人男性、老人女性、成人男性、成人 女性、子供男性と子供女性の 6 種類のテストデータ を使用した。各々の種類のテストデータは、100 文か らなる。特徴パラメータは 38 次元(12 次元 MFCC、 ∆、∆∆ と ∆ パワー、∆∆ パワー power)を用いた。 HMM と GMM は、HTK ツールで学習した。 928 個のコンテキスト依存 HMM の各々は4状態、 4混合の GMM でブロック型全共分散行列を用いた (共分散行列は、コンテキスト独立と同じのため若干 認識率は悪い)。各 GMM は 12 次元の MFCC の 128 個のガウス分布からなる。 言語モデルは毎日新聞(75 ケ月)から作成した約 2万語の trigram を用いた。 4.2 認識結果 不特定話者音声認識システムは各入力発話に対し て、GMM により最適な GMM に対応する HMM を 用いて認識を行う。話者クラスタリングする時に、入 力文の全フレーム、最初の50フレーム、最初の2 0フレームを用いる三種類の実験を行った。比較のた めにベースラインで作成した音響モデル(性別・年齢 層別の HMM)を用いても認識実験を行った。なお、 ソフトクラスタリングは、1発話文ごとの方が、話者 ごとよりも良かった。1発話文ごとの認識結果を図 1 と図 2 に示す。この結果より、提案した方法で作成し た音響モデルの性能がよいと言える。発話の最初の 20 フレーム(200ms)だけを用いて HMM を選択し てもベースラインと比べて認識率の向上が得られた。 85 84 83 %][ 82 yc 81 ar 80 uc 79 Ac 78 77 76 75 all frames 50 frames 20 frames ベースライン ベースライン 既知 未知 Fig. 1 4.3 correct ][% 果結 識認 6クラス再分類 20クラス 30クラス 不特定話者の認識結果 リスコアリングによる結果 次にリスコアリング方法を不特定話者の認識シス テムに導入した。話者クラスタリングの結果対応する 一番良い音響モデルを用いてワンパスサーチアルグリ ズムで N-Best 候補を求め、話者クラスタリングの結 果の3-Best に対応する音響モデルを用いて N-Best 日本音響学会講演論文集 accuracy ベースライン 6 クラス 再分類 20クラス 20 クラス 3 0 クラス Fig. 2 提案したの不特定話者の認識結果 (all frames) とベースラインの特定話者の認識結果の比較 Table 1 20 クラスの音響モデルのリスコアリング結 果 (accuracy %) クラス タリング Known All frames 50 frames 20 frames Base line 79.0 再分類 - 20 ク ラス - 30 ク ラス - リス コア - 77.7 79.8 83.4 83.8 84.0 77.4 78.9 82.4 82.6 - 76.6 77.6 81.8 81.8 - をリスコアリングをする。3 つの尤度の和で、一番高 い尤度を持つの候補を結果として出す。20クラス の音響モデルを用いるリスコアリング実験を行った。 結果を表 1 に示す。リスコアリングによってさらに 認識率の向上が得られた。 5 結論 本稿では、学習データをソフトクラスタリングに基 づいて 20∼30 クラスの音響モデルを学習した。それ らを用いた不特定話者音声認識の認識結果は、性別・ 年齢層毎に用意した話者依存音響モデルによる音声 認識の認識結果よりも改善した。 参考文献 [1] S. Matsunaga, Kosaka and S. Sagayama, “Speaker-independent speech recognition based on tree-structured speaker clustering”, in Proc. Computer Speech and Language, Volume 10, pp. 55-74,1996. [2] Ananth Sankar, F. Beaufays, V. Digalakis, and Vassilios Digalakis, “Training data clustering for improved speech recognition”, in Proc. EUROSPEECH,pp.503-506,1995. [3] 西村竜一、中村敬介 李晃伸 猿渡洋 鹿野清宏 ”大人・子供に適応した音声情報案内のための ユーザ自動識別” SLP-49(17) (2003) [4] 小阪哲夫 ”話者クラス音響モデルおよび話者適 応を用いた話し言葉音声認識の検討” 電子情報 通信学会 SP2008-47 (2008) - 160 - 2010年3月
© Copyright 2024 Paperzz