長時間位相特徴パラメータによる音声認識の検討

1-6-3
長時間位相特徴パラメータによる音声認識の検討∗
◎末吉英一, 山本一公, 中川聖一 (豊橋技科大)
1
はじめに
従来の音声認識では，特徴パラメータとして
MFCC(Mel-frequency cepstral coefficients) が主とし
て用いられており，音声に含まれている位相情報は一
切無視されている．しかし，聴覚に関する知覚実験
では，位相スペクトルはスペクトル分析を行う際の
DFT の分析窓長を長くするほど音声の情報を多く含
むことが示唆されている．そこで、本稿では長時間の
分析窓長によって位相スペクトルから得られる音声
特徴パラメータを用いて音声認識を試みる．
2
長時間位相スペクトル
位相情報の長時間分析
2.1
Oppenheim と Lim[1]，Liu ら [2] は振幅あるいは
位相が持つ音声の情報量が，スペクトル分析を行う
DFT フレーム長に依存することを述べている．[2] で
は上記の知見を振幅・位相分析合成実験で検証してい
る．実験では，まず音声信号と白色雑音のそれぞれか
ら DFT 分析によって振幅・位相スペクトルを導出す
る. 次にそれらの振幅・位相スペクトルをそれぞれ音
声と白色雑音の間で入れ替えることによって合成信
号を作成する．音声の振幅と白色雑音の位相スペク
トルの合成信号では，短時間の分析窓長のとき音声
の明瞭度は 80%以上あるが，分析窓長が長くなるほ
ど，振幅・位相分析合成による音声の了解度は低下し
ていく．一方，白色雑音の振幅と音声の位相スペクト
ルの合成信号では，分析窓長が 128ms 以上という長
時間のとき，振幅・位相分析合成による音声の了解度
が 70%以上になると報告されている．このことから，
短時間振幅スペクトルだけでなく長時間分析した位
相スペクトルも音声を復元できるだけの情報を持って
いることがわかる．これから，一般的に MFCC の特
徴パラメータ抽出を行うときは 25ms 程度の短時間の
分析窓長を用いるが，本研究では 100ms 以上の分析
窓長で長時間分析して特徴パラメータを抽出する。
位相特徴量
2.2
位相情報を含む特徴パラメータとして群遅延に基
づく特徴を用いる。群遅延特性は位相スペクトルの
周波数軸方向の微分である．群遅延は次式のように
定義される．
dφ(f )
G(f ) = −
(1)
df
ここで、φ(f) は信号 x(t) をフーリエ変換することで
得られる位相である。本稿では，上式の定義通りに周
∗
波数微分を計算するのではなく，以下に示す 2 種類
の方法を用いて群遅延の計算を行った．
(a) 解析的手法
まず，解析的に求められる群遅延の定義に従い，群
遅延特徴量 τ (ω) を抽出した [3]．この群遅延は位相の
アンラッピングなしに直接音声信号から計算される．
τω =
XR (ω)YR (ω) + XI (ω)YI (ω)
|X(ω)|2
(2)
ここで、X(ω) は音声信号 x(n) をフーリエ変換し
たもの、Y (ω) は nx(n) をフーリエ変換したものを表
す。また，R と I はそれぞれ実部と虚部を表す．次に，
この群遅延のスペクトルに対して離散コサイン変換
をかけて群遅延ケプストラム (GDC) に変換したもの
を特徴パラメータとして用いた．
また，式 (2) の群遅延を高精度化した特徴として
Modified Group Delay function がある [3]．
τ (ω)
)(|τ (ω)|)α
τm (ω) = (
|τ (ω)|
(
)
XR (ω)YR (ω) + XI (ω)YI (ω)
τ (ω) =
S(ω)2γ
(3)
(4)
ここで，S(ω) は，振幅（|X(ω)|）をケプストラム
平滑化したものである．また，フォルマントのピーク
は普通，突出しているので，パラメータ α と γ はこ
れらの突出した部分の振幅を減少させるためと，音
声のスペクトルのダイナミックレンジを圧縮するた
めにそれぞれ導入される．ただし，0 ＜γ, α＜ 1 であ
る．今回は基礎検討として式 (2) を用いる．
(b) デルタ位相パラメータ
次に，位相スペクトルの各点の差分をとるΔパラ
メータで位相の周波数微分を簡易的に近似する方法
を用いて群遅延を計算した．音声信号を DFT して求
めた位相スペクトルは−π∼πの間の値となるので，
隣り合う点に 2 πの位相飛びがある場合には，2 πを
足したり引いたりして，まず位相を繋ぎ合わせる必要
がある．これを位相アンラップという．そして，位相
スペクトルの周波数軸方向の傾きをΔパラメータを
計算することによって求める．例えば，16kHz の音声
信号を 256 ｍｓ（4096 点）の長時間窓で DFT すると
周波数の範囲は 0∼8000Hz になる．これを均等に 30
等分し，その周波数の前後 33 点 (2048/31=66, オー
バーラップなしで周波数全域の傾きを求めるため) で
Δ係数の計算をして 30 次元の位相特徴パラメータと
した．Δパラメータは以下の式で計算した．ここで，
Investigation of long term phase spectrum for speech recognition. by SUEYOSHI, Eiichi, YAMAMOTO,
Kazumasa, NAKAGAWA Seiichi (Toyohashi Univ. of Tech.)
日本音響学会講演論文集
-9-
2010年3月
結果，MFCC 単独の認識率と比べ向上し，99.7%の
単語認識率を得た．
dω は周波数 ω でのΔパラメータを表す．
dω =
3.1
(5)
認識実験
実験データ
本実験で使用したデータは，CIAIR-VCV 子供の
声データベースのコンテンツ A である．これは室内
（無響室ではない通常の生活環境下）での小学生 (6 歳
∼12 歳) の声を収集している．コンテンツ A の内容
はカタカナ語を中心とした 30 個の単語である。テス
トデータは 145 名の男子の各年齢から 2，3 人ずつ，
合計 20 人分の音声を選び，残りの 125 名を全て学習
データとした．
長時間位相スペクトルの特徴パラメータの分析条件
はサンプリング周波数 16kHz，フレーム周期 10ms と
し，25ms，64ms，100ms，256ms，計 4 種類の分析窓
長を設定し，解析的手法で計算した群遅延では 10 次
元と 20 次元の特徴パラメータを抽出した．Δ位相特
徴パラメータの次元数は 30 である．さらにベースラ
インとしての特徴パラメータには，MFCC も用いる．
これの分析条件は，サンプリング周波数 16kHz，窓長
25ms，フレーム周期 10ms である．特徴パラメータの
次元数は 38 次元（MFCC+Δ MFCC+ΔΔ MFCC+
Δ Pow+ΔΔ Pow）である．音響モデルは状態数 23，
混合数 8 の単語単位 HMM を学習して用いた．
認識実験は東北大-松下データベース単語音声デー
タベース [5] を用いても行った．このデータベースか
ら日本語の単語を 200 語選び，5 人の男性話者をテス
トセットに，15 人の男性話者を学習データとした．群
遅延特徴の分析条件はサンプリング周波数 12kHz，フ
レーム周期 10ms とし，256ms の分析窓長を設定し，
10 次元の特徴パラメータを抽出した．特徴パラメー
タには，MFCC も用いる．これの分析条件は，サンプ
リング周波数 12kHz，窓長 25ms，フレーム周期 10ms
である．特徴パラメータの次元数は 38 次元（MFCC+
Δ MFCC+ΔΔ MFCC+Δ Pow+ΔΔ Pow）である．
音響モデルは状態数 23，混合数 8 の単語単位 HMM
を学習して用いた．
3.2
認識結果
まず，子供の声データベースでの単語認識結果につ
いて述べる．MFCC の認識率は 99.5%だった．群遅
延の特徴パラメータを用いて認識を行った結果を図 1
に示す．これらの表より位相情報のみを用いても音声
認識が可能になることがわかる (最高 97.1%)。そし
て，群遅延の特徴パラメータは分析窓長を長くするほ
ど認識率が高くなっている．また，特徴パラメータの
次元数に関しては，群遅延の 10 次元と 20 次元の両
方とも同程度の認識性能であることがわかる．さら
に，MFCC とΔ位相のモデルの認識尤度を併用した
日本音響学会講演論文集
- 10 -
認識率[%]
3
ΣK
k=1 k(θω+k − θω−k )
2
2ΣK
k=1 k
100
90
80
70
60
50
40
30
20
10
0
群遅延(10次元)
群遅延(20次元)
Δ位相
0
100
200
分析窓長[ms]
300
Fig. 1 群遅延特徴とΔ位相による単語認識率 [%]
次に，東北大-松下データベースでの単語認識結果
について述べる．MFCC の認識率は 96.2%だった．
256ms の分析窓長で得られた群遅延特徴の認識率は
76.1%だった．したがって，東北大-松下データベー
スでの実験においても長時間位相に基づく特徴を用
いて音声認識が可能になることがわかった．さらに，
MFCC と群遅延特徴のモデルの認識尤度を併用した
結果，MFCC 単独の認識率と比べ向上し，96.8%の
単語認識率を得た．
4
おわりに
本稿では位相情報を音声認識に利用するために長
時間分析により求めた群遅延特徴量を用いて音声認
識を行った．提案した特徴量を単独で用いて認識実験
を行った結果，長時間分析に基づく群遅延特徴量に音
声認識能力があることを確認できた．
参考文献
[1] A.V.Oppeheim and JS.Lim , ”The importance
of phase in signals.”, Proc. IEEE, Vol. 69, No.5,
pp.529-541, 1981.
[2] L.Liu, et al., ”Effects of phase on the perception
of intervocalic stop consonants.”, Speech Communication, Vol.22, pp.403-417, 1997.
[3] Rajesh M. Hegde, Hema A. Murthy, Member,
”Significance of the Modified Group Delay Feature in Speech Recognition”, IEEE Transactions
on Audio, Speech, and Language Processing,
Vol.15, No.1, 2007
[4] 子供の声データベース CIAIR-VCV,
http://db.ciair.coe.nagoya-u.ac.jp
[5] 東北大-松下単語音声データベース (TMW),
http://research.nii.ac.jp/src/list/detail.html
2010年3月

Download Report