多様な発声方法における話者識別の性能評価

多様な発声方法における話者識別の性能評価
Performance evaluation of the speaker recognition by various vocalization methods
吉田蓉平*1
Yohei Yoshida
川上雄太*1
Yuta Kawakami
王龍標*1
Longbiao Wang
*1 長岡技術科学大学
Nagaoka University of Technology
1. はじめに
近年のセキュリティには生体認証システムが用いられる
場合が多い。数ある手法の中でも、マイクがあれば利用で
きる汎用性から、音声による識別システムが使用される事
が期待されている。しかし、人間の声は一定でなく、健康、
状況、感情等によって変動する。発話者の状態によって識
別システムが誤認する可能性も十分に考えられる。
本研究では、話者の発声方法を意図的に変化させて話者
識別を行い、識別結果がどのように変化するのかを調査す
る。また、識別する際の特徴抽出には MFCC(Mel Frequency
Cepstral Coefficient)、位相情報(以下、位相)[1]、LPC(Linear
Predictive Coefficients)の 3 種類を用意し、発声方法の変化に
頑健な話者識別の特徴抽出方法を調査する。
2. 話者識別システムの概要
本研究で用いる話者識別システムは GMM(Gaussian
Mixture Model)[2]を用いたテキスト独立型話者識別手法を
使用する。GMM による話者識別システムは、識別を行う
話者の音声から特徴パラメータを抽出しモデル化を行う。
特徴パラメータの抽出方法にはいくつか手法がある。
MFCC はフーリエ変換した際の振幅情報を取り出す手法で、
現在の音声認識で一般的に用いられている。位相はフーリ
エ変換した際の位相情報を取り出す手法で、音源情報を多
く有すると言われている。LPC は音声波形を音声の生成モ
デルを全極モデルで再現する手法で、声道情報を線形予測
係数から導出されるケプストラム係数で表す。
3. 実験
3.1. 実験方法
20 歳前後の男子学生 20 名の音声を録音し、GMM を作
成した。音声は通常の発声 10 文に加えて、鼻つまみ声、
裏声、低い声、怒声、哀声、囁き声を 3 文ずつ録音した。
使用した録音機材を Table 1 に示す。
音声の特徴量抽出は MFCC、位相、LPC で行い、抽出
条件を Table 2 に示す。特徴抽出の際、音声のサンプリン
グ周波数を 16kHz にダウンサンプリングした。GMM モ
デルは混合数 128 で、通常の発声 5 文を使用して学習を
行った。GMM の評価には学習に使用しなかった通常の
発声と発声方法を変化させた音声で行った。
Table 1 録音機材
マイク
ATH-770COM
録音機
Roland
R-26 PORTABLE RECORDER
サンプリング周波数
48 kHz
岩橋政宏*1
Masahiro Iwahashi
中川聖一*2
Seiichi Nakagawa
*2 豊橋技術科学大学
Toyohashi University of Technology
Table 2 話者識別の分析条件
MFCC
位相
LPC
フレーム長
25ms
12.5ms
25ms
フレームシフト
10ms
5ms
10ms
特徴量次元数
25
24
26
3.2. 実験結果
実験結果を Table 3 に示す。最も結果が良いのは MFCC
ということがわかった。しかし、声質の著しい変化は総
じて識別率の低い結果となった。特に声質が極端に変化
する裏声や、声帯が振動しない囁き声はすべての識別方
法で認識結果が低下した。
位相情報に関して言えば、他の識別結果では 8 割の識
別率だった鼻つまみ声で識別率は 5 割程度だった。この
事から位相情報は話者の発声方法が外的な変化を受ける
と識別率が下がるものと考えられる。
それぞれの識別率を向上させる方法を検討し、組み合
わせることによって発声方法の変化に頑健なシステムが
設計できると考えられる。
Table 3 話者識別の結果
発声方法
識別率[%]
MFCC
位相
LPC
通常
100
92
97
鼻つまみ声
87
50
85
裏声
38
23
38
低い声
77
78
77
怒声
83
63
63
哀声
70
68
73
囁き声
23
15
27
全体
71
59
68
4. まとめ
今回の実験では、発声方法がどれほど話者識別システム
に影響するかを調査し、各特徴量での性能評価を行った。
今後は、LPC 残差(音源情報)といった他の手法でも試し、
発声方法の変化に頑健なシステムを調査していく。
5. 参考文献
[2] S. Nakagawa, L. Wang, and S. Ohtsuka “Speaker
identification and verification by combining MFCC and phase
information”, IEEE TRANSACITIONS ON AUDIO, SPEECH,
AND LANGUAGE PROCESSING, VOL. 20, NO. 4, MAY 2012.
[1] H. Beigi, “Fudamentals of speaker recognition”, Springer,
2011.

Download Report