CENSREC-2データ説明書(pdfファイル)

CENSREC-2 添付資料
IPSJ SIG-SLP 雑音下音声認識評価 WG
CENSREC-2 データベースの概要
1
音声データの収録は,表 1 に示す,3 種類の走行速度(ア
はじめに
イドリング,低速(市街地)走行,高速走行)と,4 種類の
本ドキュメントは,自動車内音声認識の評価用データ
車内環境(通常走行,エアコン On,オーディオ On,窓開)
ベース CENSREC-2 (Corpus and Environments for Noisy
を組み合わせた 11 種類の環境で行った.評価データの発話
Speech RECognition) の概要について述べたものである.
者数は 104 名(男性 52 名,女性 52 名)であり,収録音声
の総数は 17,651 発話である.これらの収録音声のうち,73
2
名(男性 33 名,女性 40 名)の話者のデータを学習データ
自動車内音声データの収録
2.1
とし,31 名(男性 19 名,女性 12 名)の話者のデータを評
価データとした.学習データの総数は 14,687 発話(接話マ
収録語彙
イクロホン: 7,492,遠隔マイクロホン: 7,195)であり,評
CENSREC-2 は,連続数字音声の認識を対象としており,
語彙は数字 11 種類(1∼9, 0(まる),Z(ぜろ)),無音
(sil), ショートポーズ(sp)の 13 種類である.発話内容,
発音スタイル等は,AURORA-2J [1] と同様である.
価データの総数は 2,964 発話(遠隔マイクロホンのデータ
のみ)である.
以上のような自動車内音声の収録において,収録条件は
評価データ,学習データともに,標本化周波数 16kHz,語
長 16bit であり,バイトオーダーはリトルエンディアンで
2.2
ある.また,収録時に収録機器のノイズが生じたデータや,
音声データの収録環境
オーバーフローを起こしたデータはデータベースより削除
自動車内音声の収録は,特別に設計された実験車両を用
した.
いて行った.実験車両には,運転座席周辺に 5 本のマイクロ
ホンが図 1 に示すような位置に設置されており,3,4 番は
表 1: 音声データの収録環境
ダッシュボード上,5,6,7 番は天井に設置されている.ま
走行速度
アイドリング
低速走行
高速走行
た,1 番は接話(ヘッドセット)マイクロホンである.これ
らのマイクロホンの内,CENSREC-2 では,1 番の接話マ
イクロホンと 6 番の遠隔マイクロホンで収録された音声を
車内環境
通常走行,エアコン On,オーディオ On,窓開
通常走行,エアコン On,オーディオ On,窓開
通常走行,エアコン On,オーディオ On
用いる [2].それぞれのマイクロホンには,SONY ECM77B
を用いている.
図 2 は,収録音声における各数字の出現頻度,図 3 は,
桁数の出現頻度を示している(6 桁数字のデータは存在し
ない).それぞれの図において,CT は接話マイクロホンの
データ,HF は遠隔マイクロホンのデータを示す.
2500
2250
Occurrence frequency
2000
1750
Training data (CT)
Training data (HF)
Testing data (HF)
1500
1250
1000
750
500
250
0
0
1
2
3
4
5
6
7
Digit
図 1: マイクロホンの設置位置 (上段):側面,(下段):真上
図 2: 各数字の出現頻度
1
8
9
Z
Ave.
表 2: 各評価環境で用いられる学習データ条件
Condition 1
接話
遠隔
—
°
—
°
—
°
評価環境
マイクロホン
アイドリング
低速走行
高速走行
Condition 2
接話
遠隔
—
°
—
—
—
—
Condition 3
接話
遠隔
°
—
°
—
°
—
Condition 4
接話
遠隔
°
—
—
—
—
—
表 3: 各評価環境で用いられる評価データ条件
Condition 1
°
°
°
評価環境
アイドリング
低速走行
高速走行
Condition 2
—
°
°
4
2250
Training data (CT)
Training data (HF)
Testing data (HF)
2000
Occurrence frequency
Condition 3
—
°
°
1750
ベースライン認識性能
4.1
1500
Condition 4
—
°
°
評価用スクリプト
評価用ベースラインスクリプトは,HTK [3] を用いて
HMM の学習,評価実験が容易に行えるように作成し,以
下のようなベースライン評価の仕様を設計した.
1250
1000
750
500
• 音声の認識は単語単位 HMM により行い,図 4 に示
す EBNF 記法の認識文法を用いる.
250
0
1
2
3
4
5
6
7
Ave.
Number of digits in each utterance
• HMM のトポロジーについては,数字 HMM が 16 状
態 20 混合分布,無音 HMM が 3 状態 36 混合分布,
ショートポーズ HMM が 1 状態 36 混合分布(無音モ
図 3: 桁数の出現頻度
デルの第 2 状態と共有)である.
3
評価環境の設計
CENSREC-2 では,様々な環境で収録された音声データ
を用いて,4 種類の音声認識評価環境(Condition 1∼4)を
構成する.
表 2,3 の ° 印は,各々の評価環境で用いるデータ,表 4,
5 は,使用するデータ量を示しており,それぞれの環境は,
Condition 1: 学習データと評価データでマイクロホン種別,
収録環境が共に一致
• 特徴量は,HTK の HCopy により抽出された,12 次
MFCC + log-power + ∆MFCC + ∆log-power +
∆∆MFCC + ∆∆log-power の 39 次元とする.分析
条件は,1−0.97z −1 のプリエンファシス,ハミング窓,
24 次元のメルフィルタバンク,20ms の分析フレーム
長,10ms のフレームシフトとする.また,cepstral
mean subtraction は行わない.
• 自動車雑音特有の低周波成分に対処するため,メル
フィルタバンク分析時に 250Hz 以下の低周波成分を
取り除く.
Condition 2: 学習データと評価データでマイクロホン種別
$digit = one | two | three | four |
が一致,収録環境が相違
five | six | seven | eight |
nine | zero | oh ;
Condition 3: 学習データと評価データでマイクロホン種別
が相違,収録環境が一致
Condition 4: 学習データと評価データでマイクロホン種別,
( [sil] < $digit [sp] > [sil] )
収録環境が共に相違
図 4: EBNF 記法による認識用文法
という条件を設定している.
評価用スクリプトの使用方法および詳細については,添
付資料(CENSREC-2 ベースラインスクリプトの使用方法
について)を参照されたい.
2
表 4: 各評価環境における学習データ数
走行速度
マイクロホン
接話
アイドリング
遠隔
車内環境
通常走行
エアコン On
オーディオ On
窓開
合計
通常走行
エアコン On
オーディオ On
窓開
合計
合計
接話
低速走行
遠隔
通常走行
エアコン On
オーディオ On
窓開
合計
通常走行
エアコン On
オーディオ On
窓開
合計
合計
接話
高速走行
遠隔
通常走行
エアコン On
オーディオ On
合計
通常走行
エアコン On
オーディオ On
合計
合計
合計
Condition 1
—
—
—
—
—
538
663
698
498
2,397
2,397
—
—
—
—
—
700
694
697
666
2,757
2,757
—
—
—
—
687
678
676
2,041
2,041
7,195
Condition 2
—
—
—
—
—
538
663
698
498
2,397
2,397
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
2,397
Condition 3
686
686
680
685
2,737
—
—
—
—
—
2,737
685
682
690
671
2,728
—
—
—
—
—
2,728
682
677
668
2,027
—
—
—
—
2,027
7,492
Condition 4
686
686
680
685
2,737
—
—
—
—
—
2,737
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
2,737
表 5: 各評価環境における評価データ数
走行速度
アイドリング
低速走行
高速走行
合計
車内環境
通常走行
エアコン On
オーディオ On
窓開
合計
通常走行
エアコン On
オーディオ On
窓開
合計
通常走行
エアコン On
オーディオ On
合計
Condition 1
198
216
297
195
906
298
294
297
291
1,180
293
291
294
878
2,964
3
Condition 2
—
—
—
—
—
298
294
297
291
1,180
293
291
294
878
2,058
Condition 3
—
—
—
—
—
298
294
297
291
1,180
293
291
294
878
2,058
Condition 4
—
—
—
—
—
298
294
297
291
1,180
293
291
294
878
2,058
表 6: CENSREC-2 ベースライン認識性能の詳細 (%)
走行速度
アイドリング
低速走行
高速走行
車内環境
通常走行
エアコン On
オーディオ On
窓開
全環境
通常走行
エアコン On
オーディオ On
窓開
合計
通常走行
エアコン On
オーディオ On
全環境
全環境
Condition 1
94.06
93.96
68.60
96.46
86.38
89.14
88.09
67.04
78.86
80.80
78.97
79.75
63.76
74.14
80.58
Condition 2
—
—
—
—
—
79.78
88.60
73.27
77.43
79.77
57.96
77.20
67.11
67.38
74.49
Condition 3
—
—
—
—
—
78.98
66.70
60.30
57.10
65.84
62.45
52.66
51.57
55.56
61.46
Condition 4
—
—
—
—
—
63.55
56.41
51.26
46.68
54.52
43.27
39.78
40.71
41.25
48.87
表 7: CENSREC-2 スプレッドシート
CENSREC-2 Evaluation Results
4.2
Condition 1
80.58
CENSREC-2 Baseline Results (%)
Condition 3
Condition 4
Condition 2
74.49
61.46
48.87
Average
66.35
Condition 1
CENSREC-2 Word Accuracy (%)
Condition 3
Condition 4
Condition 2
Average
Condition 1
CENSREC-2 Relative Improvement
Condition 3
Condition 4
Condition 2
Average
ベースライン認識結果と認識性能の比較
参考文献
表 6 に,評価環境 Condition 1∼4 の車内環境毎の詳細な
[1] S. Nakamura, K. Takeda, K. Yamamoto, T. Yamada, S. Kuroiwa, N. Kitaoka, T. Nishiura, A. Sasou,
M. Mizumachi, C. Miyajima, M. Fujimoto, and T.
Endo, “AURORA-2J, An Evaluation Framework for
Japanese Noisy Speech Recognition,” IEICE Transactions on Information and Systems, Vol. E88-D, No.
ベースライン認識性能を示す.
また,研究機関毎の認識性能比較を容易にするため,表
7 のような Microsoft Excel にて作成されたスプレッドシー
トを配布する.表 7 の上段は,各評価環境のベースライン
性能とその平均を示しており,中段に自身の手法による認
識結果(単語正解精度)を入力する.中段に認識結果を入
3, pp. 535-544, Mar. 2005.
力すると,下段にベースライン性能との相対的な改善性能
[2] K. Takeda, H. Fujimura, K. Itou, N. Kawaguchi, S.
(誤り改善率)が自動で出力される.
Matsubara, and F. Itakura, “Construction and Evaluation a Large In-Car Speech Corpus,” IEICE Trans-
スプレッドシートの使用方法および詳細については,添
付資料(CENSREC-2 ベースラインスクリプトの使用方法
actions on Information and Systems, Vol. E88-D, No.
3, pp. 553-561, Mar. 2005.
について)を参照されたい.また,CENSREC-2 に関する
最新の情報は以下の URL を参照されたい.
[3] HTK Web site, http://htk.eng.cam.ac.uk/
AURORA-J/CENSREC Web site:
http://sp.shinshu-u.ac.jp/CENSREC/
4