トレーニングデータのソフトクラスタリングに基づく不特定 話者の音声認識

1-Q-5
トレーニングデータのソフトクラスタリングに基づく不特定
話者の音声認識∗
◎朱 発強, 山本一公, 中川 聖一 (豊橋技科大)
1
はじめに
3.2
近年、性別・年齢に依存しない多くの不特定話者の
音声認識システムが開発されている。これからのシス
テムの性能を向上させるために 話者クラスタリン
グ手法が有効であることが知られている [1, 2, 3, 4]。
本稿では学習データのソフトクラスタリング方法を
提案する。ソフトクラスタリング手法方を用いてな
い性別・年齢既知特定話者音声認識結果と比較したと
ころ、認識性能の改善が得られた。
2
学習データとベースライン
本論文に使用するデータベースは JNAS、S-JNAS
と CIAIR-VCV である。JNAS データベースの話者
数は 301 名 (男性 151 名、女性 150 名 、20∼60 歳)で
あり、S-JNAS データベースの話者数は 400 名 (男性
200 名、女性 200 名、6 0 ∼90 歳) であり、CIAIRVCV データベースの話者数は 288 名(男性 145 名、
女性 143 名、6∼12 歳) である。CIAIR-VCV データ
ベースではすべての話者が同じ内容を発声している。
ベースラインとして、性別と年齢に基づいて学習
データを六種類に分類し、六種類の HMM と GMM
を学習した。この六クラスは老人男性と女性、成人男
性と女性、子供男性と女性である。コンテクスト独立
音響モデルは EM アルゴリズムを用いて学習を行っ
た、また、コンテクスト依存音響モデルはコンテキス
ト独立音響モデルから MAP 推定を用いて混合重み、
遷移確率、平均ベクトルのみを学習した。六種類の
HMM を学習する時、老人と成人に対応する音響モデ
ルは同じ方法で学習した。ただし、子供のモデルに
関しては、学習データが少量であり、すべての音節が
カバーされていないため、初期モデルとして成人の
女性のコンテクスト独立音節モデルを用いることで、
コンテクスト独立とコンテクスト依存音節モデルを
MAP 推定を用いて学習した。認識時は、性別・年齢
層が既知な場合と GMM で適切なモデルを選択する
方法を用いた。これらの方法をベースラインとした。
3
学習データのソフトクラスタリング
学習データを再分類する方法
3.1
ベースラインで使用されるモデルは、話者の特徴
と直接一致するとは限らない。たとえば、ある 60 歳
の話者の音響の特徴は、40 歳の話者群により近い場
合がある。より適切なクラスを得るために、ベースラ
イン手法で作成された GMM を用いて話者の特徴に
基づいて学習データを再分類した。その後、六種類の
HMM を学習した。
∗
6 クラスから20クラスに増やす方法
任意入力話者に近いモデルを作成するために、学習
データを 6 クラスから20クラスに増やした。1 クラ
ス当りの学習データ量が6クラスの時と同量になる
ように各発話データをオーバーラップを許しながら
ソフトクラスタリングする。分類方法を以下に示す。
1. 性別、年齢とマイクの種類に基づいた初期 20 クラ
スのデータを作る。データ量のバランスを考慮し
て、学習データを分類した。このデータを用いて
20クラスの GMM を学習する。
2. 学習データ不足の解決のためにオーバーラップを
許したソフトクラスタリングを行う。オーバーラッ
プの大きさを決めるために三つパラメータを用い
た。rs:相対的な尤度;tmin : 最小割り当てクラス
数;tmax : 最大割り当てクラス数。オーバーラッ
プに基づいたクラスタリグのアルゴリズムを以下
に示す。
I: 学習データの発話文の数;n: 候補割り当てク
ラスの数.;sc:現在の文と各々の GMM との類似
尤度。
(1) For i=1 ∼ I 、n=0; 以下のステップ (2)(3)(4)
を実行する。
(2) 現在の文と初期クラスの 20-GMM との尤度を
計算し、降順に並べる。
(3) For j=2 ∼ 20
if (sc(1) - sc(j) )< rs, n=n+1;
(4) if n < tmin , i 番目の文を最適な tmin 個のク
ラスに割り当てる;
if n > tmax , i 番目の文を最適な tmax 個のク
ラスに割り当てる;
if tmin ≤ n ≤ tmax , i 番目の文を最適な n 個
のクラスに割り当てる;
実験的では、rs=0.5、tmin =2、tmax =5 と設定し
た.
3.3
20クラスから30クラスに増やす方法
クラス数を増やす効果を調査するために、30 クラ
スまで学習データを分類した。用いた方法を以下に
示す。
1. 20 クラスの GMM と対応する HMM を用いて学習
データの認識尤度を用いて各クラスの平均尤度の
悪い方から 10 クラスを選び、この 10 クラスを 20
クラスに分け、合計30クラスにしてから、収束
するまでクラスタリングを繰り返す(Initial 30)。
Speaker-independent speech recognition based on soft-clustering of training data , by Faqiang ZHU Kazamasa YAMAMOTO Seiichi NAKAGAWA (Toyohashi University of Technology)
日本音響学会講演論文集
- 159 -
2010年3月
90
88
86
84
82
80
78
76
74
72
2. Initial 30クラス GMM を用いてオーバーラップ
を許しながら 3.2 節の方法でソフトクラスタリン
グする。クラスタリングしたデータで 30 種類の
GMM と HMM を学習する。実験では、rs, tmin ,
tmax は 0.8, 2 と 8 に設定した。
4
4.1
k nown
実験と結果
実験条件
実験では、老人男性、老人女性、成人男性、成人
女性、子供男性と子供女性の 6 種類のテストデータ
を使用した。各々の種類のテストデータは、100 文か
らなる。特徴パラメータは 38 次元(12 次元 MFCC、
∆、∆∆ と ∆ パワー、∆∆ パワー power)を用いた。
HMM と GMM は、HTK ツールで学習した。
928 個のコンテキスト依存 HMM の各々は4状態、
4混合の GMM でブロック型全共分散行列を用いた
(共分散行列は、コンテキスト独立と同じのため若干
認識率は悪い)。各 GMM は 12 次元の MFCC の 128
個のガウス分布からなる。
言語モデルは毎日新聞(75 ケ月)から作成した約
2万語の trigram を用いた。
4.2
認識結果
不特定話者音声認識システムは各入力発話に対し
て、GMM により最適な GMM に対応する HMM を
用いて認識を行う。話者クラスタリングする時に、入
力文の全フレーム、最初の50フレーム、最初の2
0フレームを用いる三種類の実験を行った。比較のた
めにベースラインで作成した音響モデル(性別・年齢
層別の HMM)を用いても認識実験を行った。なお、
ソフトクラスタリングは、1発話文ごとの方が、話者
ごとよりも良かった。1発話文ごとの認識結果を図 1
と図 2 に示す。この結果より、提案した方法で作成し
た音響モデルの性能がよいと言える。発話の最初の
20 フレーム(200ms)だけを用いて HMM を選択し
てもベースラインと比べて認識率の向上が得られた。
85
84
83
%][ 82
yc 81
ar 80
uc
79
Ac 78
77
76
75
all frames
50 frames
20 frames
ベースライン
ベースライン
既知
未知
Fig. 1
4.3
correct
][%
果結
識認
6クラス再分類
20クラス
30クラス
不特定話者の認識結果
リスコアリングによる結果
次にリスコアリング方法を不特定話者の認識シス
テムに導入した。話者クラスタリングの結果対応する
一番良い音響モデルを用いてワンパスサーチアルグリ
ズムで N-Best 候補を求め、話者クラスタリングの結
果の3-Best に対応する音響モデルを用いて N-Best
日本音響学会講演論文集
accuracy
ベースライン
6 クラス 再分類
20クラス
20 クラス
3 0 クラス
Fig. 2 提案したの不特定話者の認識結果 (all frames)
とベースラインの特定話者の認識結果の比較
Table 1
20 クラスの音響モデルのリスコアリング結
果 (accuracy %)
クラス
タリング
Known All frames
50 frames
20 frames
Base
line
79.0
再分類
- 20 ク
ラス
- 30 ク
ラス
- リス
コア
- 77.7
79.8 83.4
83.8 84.0
77.4
78.9 82.4
82.6 - 76.6
77.6 81.8 81.8 - をリスコアリングをする。3 つの尤度の和で、一番高
い尤度を持つの候補を結果として出す。20クラス
の音響モデルを用いるリスコアリング実験を行った。
結果を表 1 に示す。リスコアリングによってさらに
認識率の向上が得られた。
5
結論
本稿では、学習データをソフトクラスタリングに基
づいて 20∼30 クラスの音響モデルを学習した。それ
らを用いた不特定話者音声認識の認識結果は、性別・
年齢層毎に用意した話者依存音響モデルによる音声
認識の認識結果よりも改善した。
参考文献
[1] S. Matsunaga, Kosaka and S. Sagayama,
“Speaker-independent speech recognition based
on tree-structured speaker clustering”, in Proc.
Computer Speech and Language, Volume 10, pp.
55-74,1996.
[2] Ananth Sankar, F. Beaufays, V. Digalakis,
and Vassilios Digalakis, “Training data clustering for improved speech recognition”, in Proc.
EUROSPEECH,pp.503-506,1995.
[3] 西村竜一、中村敬介 李晃伸 猿渡洋 鹿野清宏
”大人・子供に適応した音声情報案内のための
ユーザ自動識別” SLP-49(17) (2003)
[4] 小阪哲夫 ”話者クラス音響モデルおよび話者適
応を用いた話し言葉音声認識の検討” 電子情報
通信学会 SP2008-47 (2008)
- 160 -
2010年3月