長時間位相特徴パラメータによる音声認識の検討

1-6-3
長時間位相特徴パラメータによる音声認識の検討∗
◎末吉英一, 山本一公, 中川聖一 (豊橋技科大)
1
はじめに
従 来 の 音 声 認 識 で は ,特 徴 パ ラ メ ー タ と し て
MFCC(Mel-frequency cepstral coefficients) が主とし
て用いられており,音声に含まれている位相情報は一
切無視されている.しかし,聴覚に関する知覚実験
では,位相スペクトルはスペクトル分析を行う際の
DFT の分析窓長を長くするほど音声の情報を多く含
むことが示唆されている.そこで、本稿では長時間の
分析窓長によって位相スペクトルから得られる音声
特徴パラメータを用いて音声認識を試みる.
2
長時間位相スペクトル
位相情報の長時間分析
2.1
Oppenheim と Lim[1],Liu ら [2] は振幅あるいは
位相が持つ音声の情報量が,スペクトル分析を行う
DFT フレーム長に依存することを述べている.[2] で
は上記の知見を振幅・位相分析合成実験で検証してい
る.実験では,まず音声信号と白色雑音のそれぞれか
ら DFT 分析によって振幅・位相スペクトルを導出す
る. 次にそれらの振幅・位相スペクトルをそれぞれ音
声と白色雑音の間で入れ替えることによって合成信
号を作成する.音声の振幅と白色雑音の位相スペク
トルの合成信号では,短時間の分析窓長のとき音声
の明瞭度は 80%以上あるが,分析窓長が長くなるほ
ど,振幅・位相分析合成による音声の了解度は低下し
ていく.一方,白色雑音の振幅と音声の位相スペクト
ルの合成信号では,分析窓長が 128ms 以上という長
時間のとき,振幅・位相分析合成による音声の了解度
が 70%以上になると報告されている.このことから,
短時間振幅スペクトルだけでなく長時間分析した位
相スペクトルも音声を復元できるだけの情報を持って
いることがわかる.これから,一般的に MFCC の特
徴パラメータ抽出を行うときは 25ms 程度の短時間の
分析窓長を用いるが,本研究では 100ms 以上の分析
窓長で長時間分析して特徴パラメータを抽出する。
位相特徴量
2.2
位相情報を含む特徴パラメータとして群遅延に基
づく特徴を用いる。群遅延特性は位相スペクトルの
周波数軸方向の微分である.群遅延は次式のように
定義される.
dφ(f )
G(f ) = −
(1)
df
ここで、φ(f) は信号 x(t) をフーリエ変換することで
得られる位相である。本稿では,上式の定義通りに周
∗
波数微分を計算するのではなく,以下に示す 2 種類
の方法を用いて群遅延の計算を行った.
(a) 解析的手法
まず,解析的に求められる群遅延の定義に従い,群
遅延特徴量 τ (ω) を抽出した [3].この群遅延は位相の
アンラッピングなしに直接音声信号から計算される.
τω =
XR (ω)YR (ω) + XI (ω)YI (ω)
|X(ω)|2
(2)
ここで、X(ω) は音声信号 x(n) をフーリエ変換し
たもの、Y (ω) は nx(n) をフーリエ変換したものを表
す。また,R と I はそれぞれ実部と虚部を表す.次に,
この群遅延のスペクトルに対して離散コサイン変換
をかけて群遅延ケプストラム (GDC) に変換したもの
を特徴パラメータとして用いた.
また,式 (2) の群遅延を高精度化した特徴として
Modified Group Delay function がある [3].
τ (ω)
)(|τ (ω)|)α
τm (ω) = (
|τ (ω)|
(
)
XR (ω)YR (ω) + XI (ω)YI (ω)
τ (ω) =
S(ω)2γ
(3)
(4)
ここで,S(ω) は,振幅(|X(ω)|)をケプストラム
平滑化したものである.また,フォルマントのピーク
は普通,突出しているので,パラメータ α と γ はこ
れらの突出した部分の振幅を減少させるためと,音
声のスペクトルのダイナミックレンジを圧縮するた
めにそれぞれ導入される.ただし,0 <γ, α< 1 であ
る.今回は基礎検討として式 (2) を用いる.
(b) デルタ位相パラメータ
次に,位相スペクトルの各点の差分をとるΔパラ
メータで位相の周波数微分を簡易的に近似する方法
を用いて群遅延を計算した.音声信号を DFT して求
めた位相スペクトルは−π∼πの間の値となるので,
隣り合う点に 2 πの位相飛びがある場合には,2 πを
足したり引いたりして,まず位相を繋ぎ合わせる必要
がある.これを位相アンラップという.そして,位相
スペクトルの周波数軸方向の傾きをΔパラメータを
計算することによって求める.例えば,16kHz の音声
信号を 256 ms(4096 点)の長時間窓で DFT すると
周波数の範囲は 0∼8000Hz になる.これを均等に 30
等分し,その周波数の前後 33 点 (2048/31=66, オー
バーラップなしで周波数全域の傾きを求めるため) で
Δ係数の計算をして 30 次元の位相特徴パラメータと
した.Δパラメータは以下の式で計算した.ここで,
Investigation of long term phase spectrum for speech recognition. by SUEYOSHI, Eiichi, YAMAMOTO,
Kazumasa, NAKAGAWA Seiichi (Toyohashi Univ. of Tech.)
日本音響学会講演論文集
-9-
2010年3月
結果,MFCC 単独の認識率と比べ向上し,99.7%の
単語認識率を得た.
dω は周波数 ω でのΔパラメータを表す.
dω =
3.1
(5)
認識実験
実験データ
本実験で使用したデータは,CIAIR-VCV 子供の
声データベースのコンテンツ A である.これは室内
(無響室ではない通常の生活環境下)での小学生 (6 歳
∼12 歳) の声を収集している.コンテンツ A の内容
はカタカナ語を中心とした 30 個の単語である。テス
トデータは 145 名の男子の各年齢から 2,3 人ずつ,
合計 20 人分の音声を選び,残りの 125 名を全て学習
データとした.
長時間位相スペクトルの特徴パラメータの分析条件
はサンプリング周波数 16kHz,フレーム周期 10ms と
し,25ms,64ms,100ms,256ms,計 4 種類の分析窓
長を設定し,解析的手法で計算した群遅延では 10 次
元と 20 次元の特徴パラメータを抽出した.Δ位相特
徴パラメータの次元数は 30 である.さらにベースラ
インとしての特徴パラメータには,MFCC も用いる.
これの分析条件は,サンプリング周波数 16kHz,窓長
25ms,フレーム周期 10ms である.特徴パラメータの
次元数は 38 次元(MFCC+Δ MFCC+ΔΔ MFCC+
Δ Pow+ΔΔ Pow) である.音響モデルは状態数 23,
混合数 8 の単語単位 HMM を学習して用いた.
認識実験は東北大-松下データベース単語音声デー
タベース [5] を用いても行った.このデータベースか
ら日本語の単語を 200 語選び,5 人の男性話者をテス
トセットに,15 人の男性話者を学習データとした.群
遅延特徴の分析条件はサンプリング周波数 12kHz,フ
レーム周期 10ms とし,256ms の分析窓長を設定し,
10 次元の特徴パラメータを抽出した.特徴パラメー
タには,MFCC も用いる.これの分析条件は,サンプ
リング周波数 12kHz,窓長 25ms,フレーム周期 10ms
である.特徴パラメータの次元数は 38 次元(MFCC+
Δ MFCC+ΔΔ MFCC+Δ Pow+ΔΔ Pow)である.
音響モデルは状態数 23,混合数 8 の単語単位 HMM
を学習して用いた.
3.2
認識結果
まず,子供の声データベースでの単語認識結果につ
いて述べる.MFCC の認識率は 99.5%だった.群遅
延の特徴パラメータを用いて認識を行った結果を図 1
に示す.これらの表より位相情報のみを用いても音声
認識が可能になることがわかる (最高 97.1%)。そし
て,群遅延の特徴パラメータは分析窓長を長くするほ
ど認識率が高くなっている.また,特徴パラメータの
次元数に関しては,群遅延の 10 次元と 20 次元の両
方とも同程度の認識性能であることがわかる.さら
に,MFCC とΔ位相のモデルの認識尤度を併用した
日本音響学会講演論文集
- 10 -
認識率[%]
3
ΣK
k=1 k(θω+k − θω−k )
2
2ΣK
k=1 k
100
90
80
70
60
50
40
30
20
10
0
群遅延(10次元)
群遅延(20次元)
Δ位相
0
100
200
分析窓長[ms]
300
Fig. 1 群遅延特徴とΔ位相による単語認識率 [%]
次に,東北大-松下データベースでの単語認識結果
について述べる.MFCC の認識率は 96.2%だった.
256ms の分析窓長で得られた群遅延特徴の認識率は
76.1%だった.したがって,東北大-松下データベー
スでの実験においても長時間位相に基づく特徴を用
いて音声認識が可能になることがわかった.さらに,
MFCC と群遅延特徴のモデルの認識尤度を併用した
結果,MFCC 単独の認識率と比べ向上し,96.8%の
単語認識率を得た.
4
おわりに
本稿では位相情報を音声認識に利用するために長
時間分析により求めた群遅延特徴量を用いて音声認
識を行った.提案した特徴量を単独で用いて認識実験
を行った結果,長時間分析に基づく群遅延特徴量に音
声認識能力があることを確認できた.
参考文献
[1] A.V.Oppeheim and JS.Lim , ”The importance
of phase in signals.”, Proc. IEEE, Vol. 69, No.5,
pp.529-541, 1981.
[2] L.Liu, et al., ”Effects of phase on the perception
of intervocalic stop consonants.”, Speech Communication, Vol.22, pp.403-417, 1997.
[3] Rajesh M. Hegde, Hema A. Murthy, Member,
”Significance of the Modified Group Delay Feature in Speech Recognition”, IEEE Transactions
on Audio, Speech, and Language Processing,
Vol.15, No.1, 2007
[4] 子供の声データベース CIAIR-VCV,
http://db.ciair.coe.nagoya-u.ac.jp
[5] 東北大-松下 単語音声データベース (TMW),
http://research.nii.ac.jp/src/list/detail.html
2010年3月