雑音環境下における話者照合

社団法人 電子情報通信学会
THE INSTITUTE OF ELECTRONICS,
INFORMATION AND COMMUNICATION ENGINEERS
信学技報
TECHNICAL REPORT OF IEICE
雑音環境下における話者照合
鎌田
敏明†‡
峯松 信明‡
長内
隆†
蒔苗
久則†
谷本 益巳†
†科学警察研究所 〒277-0882 千葉県柏市柏の葉 6-3-1
‡東京大学大学院新領域創成科学研究科 〒277-8561 千葉県柏市柏の葉 5-1-5
E-mail: †{kamada, osanai, makinae, tanimoto}@nrips.go.jp, ‡{kamada, mine}@gavo.t.u-tokyo.ac.jp
あらまし 法科学における電話音声を対象とした話者照合では,一般的な研究とは異なる雑音環境下における異
同識別が求められることがある.異なる雑音環境とは SNR が 0dB 以下のような発声内容が聞き取れない劣悪な雑
音環境のことであり,このような状況では第一に雑音を除去するための音声明瞭化処理が行われるが,明瞭化処理
による個人性の変化に伴う話者照合の可否について明確な研究はこれまでほとんど行われていなかった.そこで本
稿では,雑音環境下における音声に対して,音声明瞭化処理を伴う話者照合実験を行い,明瞭化処理と照合結果の
関係について検討を行った.また電源雑音のような実在する雑音を使用した実験を行い,実環境下における話者照
合精度について調べた.
キーワード 話者照合,テキスト依存型,音声明瞭化,電話音声,法科学
Speaker verification in noisy environment
T. KAMADA†‡, N. MINEMATSU‡, T. OSANAI†, H. MAKINAE†
and M. TANIMOTO†
†National Research Institute of Police Science 6-3-1 Kashiwanoha Kashiwa, Chiba, 277-0882 Japan
‡Graduate School of Frontier Sciences, University of Tokyo 5-1-5 Kashiwanoha Kashiwa, Chiba, 277-8562 Japan
E-mail: †{kamada, osanai, makinae, tanimoto}@nrips.go.jp, ‡{kamada, mine}@gavo.t.u-tokyo.ac.jp
Abstract In speaker verification for voice telephony on the forensic science, we might be requested forensic speaker
identification in very noisy environment which is different from general research. In noisy environment, we do the clarification
of speech at the first. However, previous study of speaker verification with clarification of speech was not sufficient. In this
study, we experimented on speaker verification with clarification of speech in noisy environment, and we examined the
relation of speech clarification and speaker verification results. Moreover, the experiment that used the existing noise like the
power supply noise was conducted, and speaker verification accuracy in real environment was examined.
Keyword speaker verification, text-dependent, clarification of speech, voice telephony, forensic science
1. は じ め に
の特性をオフラインで十分調べることができ,リアル
我々が行っている話者照合は,研究結果の求められ
タイム処理が要求されるような状況はほとんどない.
る環境となる法科学の観点から,電話を通した音声を
そのため音声明瞭化処理についても,雑音の特性を詳
対象としている.これらの対象となる音声は,一般的
しく調べた上で,最適なフィルタやそのパラメータを
に行われている雑音環境下における研究と比較すると
決定することができる.また未知資料は再収録不可能
非常に悪い状況が多く,発声内容がほとんど聞き取れ
であり,雑音環境下で録音されることがあるが,比較
ない場合もある.このような状況においては,発声内
する対照資料は後に収録されることが多いため,比較
容が聞き取れるための音声明瞭化処理を行っているが,
的雑音の少ないよい条件で録音されるこというのも,
これまで明瞭化処理による個人性の変化を伴う話者照
法科学の分野における特徴の一つである.
合は十分行われていなかった.しかし実際にはこのよ
そこで本稿では,劣悪な雑音環境下における音声に
うな劣悪な雑音環境下における話者照合が要求される
対して,法科学の用件を満たす前提条件で音声明瞭化
場合もある.
処理を伴うテキスト依存型の話者照合実験を行い,明
雑音環境下における音声認識や話者認識の一般的
瞭化処理と照合結果の関係について調べた.対象雑音
な研究では,雑音の特性をオフラインで調べることが
と し て 狭 帯 域 (周 期 性 )雑 音 と 広 帯 域 雑 音 を 取 り 上 げ ,
できず,リアルタイムな処理と結果が要求されること
雑音の特性の違いによる照合結果の比較を行った.更
が多いが,我々が扱う法科学の分野においては,雑音
に狭帯域雑音の 1 つである実在する電源雑音を取り上
合実験を行い,実環境下における照合精度についての
←頻度
げ,電源雑音を含む音声に対する明瞭化処理を伴う照
同一人の距離分布
検討を行った.
しきい値
同一人
別人
2. 話 者 照 合
別人の距離分布
2.1. 音 声 デ ー タ ベ ー ス
話者照合実験に使用した音声データベースは電話
pds
を 介 し て 発 声 し た 成 人 男 性 3000 人 程 度 の 規 模 の デ ー
psd
タベースを元にしている.この音声データベースから
選 ん だ 300 人 の 音 声 資 料 を 話 者 照 合 実 験 に 使 用 し た .
図1 判断方法
→距離
表 1 に 示 し た 音 声 資 料 は 11.025 kHz の サ ン プ リ ン グ 周
の 話 者 間 (話 者 内 )距 離 分 布 を 得 た . 同 様 に 別 人 の 組 合
波 数 で A/D 変 換 さ れ て い る が ,電 話 音 声 で あ る こ と か
せによる別人の話者間距離を得た.別人の組合せは非
ら , 実 験 に 際 し て は 8 kHz に ダ ウ ン ダ ン プ リ ン グ し た
常 に 多 く な る た め ,組 合 せ に つ い て の 間 引 き を 行 っ た .
ものを使用した.
図 1 に判断方法の模式図を示す.発声内容ごとに得
2.2. DP マ ッ チ ン グ
ら れ た 同 一 人 と 別 人 の 距 離 分 布 か ら 等 誤 り 率 (pds=pds)
表 2 に示した分析を行い,2 つの音声資料における
となるようにしきい値を求め,このしきい値を同一人
話者間距離の算出方法として,従来から利用されてい
かどうかの判断基準とした.判断基準から得られた正
る DP マ ッ チ ン グ を 利 用 し た . 現 在 の 音 声 認 識 や 話 者
答率を照合実験における照合率とした.
認 識 の 研 究 で は ,メ ル ケ プ ス ト ラ ム や MFCC の よ う な
特 徴 量 が 多 く 使 わ れ , ま た VQ や GMM の よ う な 確 率
3. 狭 帯 域 雑 音 環 境 下 の 話 者 照 合
統計モデルを利用した分析手法が多く利用されている.
3.1. 狭 帯 域 雑 音
我々は既にこれらの特徴量や分析手法による研究を行
法科学の分野における雑音環境として扱う雑音に
っているが,本稿では特徴量や分析手法による照合精
は 狭 帯 域 (周 期 性 )雑 音 , 広 帯 域 雑 音 , 定 常 衝 撃 (パ ル ス
度の向上を目的とせず,明瞭化処理と照合精度の関係
性 )雑 音 な ど が 上 げ ら れ る が ,比 較 的 多 い の は ブ ザ ー や
を明らかにするため,従来からの研究で安定して利用
警報機,電源雑音のような1つあるいは複数の狭帯域
されている手法を利用した.
のスペクトル成分を持つ狭帯域雑音である.
2.3. 照 合 方 法
狭帯域雑音を加法的に含む音声に対する明瞭化処
テキスト依存型話者照合を行うため,同一の発声内
理を行う場合,雑音除去フィルタの作成に関してパラ
容の音声資料に対する話者間距離を求めた.同一人の
メータの設定は試行錯誤的に行う必要があるが,明瞭
組合せとして同時期の音声資料は使用せず,1 時期目
化処理はオフラインで行うことが可能であり,また雑
と 2 時期目及び 2 時期目と 3 時期目を比較して,1 人
音 の 聴 取 や 分 析 な ど か ら 経 験 的 に 最 適 な 処 理 手 法 (フ
表1 音声資料
話者数
300 人
発声時期差
3~ 4 ヶ 月
発声時期
3 時期
1 時期の発声回数
3回
5 母 音 ( ア ,イ ,ウ ,エ ,オ ),
発声内容
6 単 語( は い ,車 ,電 話 ,爆 弾 ,
銀 行 ,警 察 )
8 kHz
サンプリング周波数
16 bit
量子化精度
分析窓
フレーム長
フレーム周期
高域強調
分析方法
分析次数
特徴量
表2 分析条件
ハミング窓
32 ms
16 ms
1 次の適応型
LPC 分 析
12 次
LPC ケ プ ス ト ラ ム 係 数
ィ ル タ )を 選 択 す る こ と が で き る .
本稿では狭帯域雑音として,擬似的に作成したサイ
ン波と実在する電源雑音を取り上げ,これらの雑音を
含む音声に対する音声明瞭化処理と照合精度の関係を
調べた.
3.2. 擬 似 雑 音 下 で の 話 者 照 合
3.2.1. 音 声 資 料
実際に扱う狭帯域雑音は複数の狭帯域スペクトル
成 分 を 持 つ 雑 音 が 多 い が ,雑 音 の 特 性 で あ る 帯 域 (中 心
周 波 数 と 帯 域 幅 )と 明 瞭 化 処 理 ,話 者 照 合 の 関 係 を 明 ら
かにすることが目的であるため,1 つの周波数成分を
持ったサイン波を使用することにした.
音 声 信 号 s (t ) の 発 話 区 間 に お け る RMS(Root Mean
Square) を S RMS ,雑 音 信 号 n(t ) の RMS を N RMS と す る と ,
SNR [dB] と な る 雑 音 を 含 む 音 声 x(t ) は
x(t ) = s(t ) +
S RMS
n(t )
10 SNR / 20 N RMS
(1)
3.2.4. 対 照 資 料 に 処 理 を 行 わ な い 照 合 結 果
で得られる.各発話において雑音が重畳された音声を
求め,同一の発声内容で雑音成分の最大振幅が一定に
なるように規格化を行った.得られた音声資料を雑音
環境下における話者が未知の音声資料とした.
3.2.2. 帯 域 除 去 フ ィ ル タ
サイン波が重畳された音声の明瞭化処理には帯域
除 去 フ ィ ル タ (Band Elimination Filter:BEF) を 利 用 し た .
FIR の 設 計 に は カ イ ザ ー フ ィ ル タ な ど が 利 用 さ れ る こ
と が 多 い が , 本 稿 で は 汎 用 性 を 考 慮 し て sox(Sound
eXchange) に よ る カ イ ザ ー フ ィ ル タ を 利 用 し た .
f [Hz] サ イ ン 波 雑 音 に 対 し て BEF の 除 去 帯 域 幅 を
f D [Hz] と し た 場 合 , BEF
に示す.
の 帯 域 除 去 は
( f − f D 2) ~ ( f + f D 2) と な る よ う に し た .そ れ ぞ れ の カ
ッ ト オ フ 周 波 数 で の 利 得 は -6dB で あ り ,ま た 減 衰 率 は
雑音除去ができるように,適切にカイザー窓の窓幅や
β を調整した.
3.2.3. 対 照 資 料 に 処 理 を 行 わ な い 話 者 照 合
未 知 資 料 は 2kHz の サ イ ン 波 雑 音 が 重 畳 さ れ た 音 声
と し ,対 照 資 料 は 雑 音 の 重 畳 さ れ て い な い 音 声 と し た .
SNR は 10dB , 0dB , -10dB と し た . 未 知 資 料 の 雑 音 除 去
を BEF で 処 理 し ,対 照 資 料 と の 話 者 照 合 実 験 を 行 っ た .
照 合 実 験 の 流 れ を 図 2 に 示 す . BEF の 除 去 帯 域 幅 を 可
変とした照合結果に着目し,比較のために未知資料に
対 し て BEF 処 理 を 行 わ な い 条 件 (Noise) の 照 合 を 行 っ
た .ま た BEF 処 理 に よ る 照 合 率 へ の 影 響 を 調 べ る た め
に , 未 知 資 料 に 雑 音 が 重 畳 さ れ て い な い 条 件 (Clear) に
ついても実験を行った.本研究では明瞭化処理後の照
合 率 を 100% に 近 づ け る の が 目 的 で は な く , あ く ま で
雑 音 が 無 い 条 件 (Clear) の 照 合 精 度 ま で 改 善 さ せ る こ と
3 母音及び 3 単語における照合結果を図 4 に示す.
BEF の 帯 域 幅 が 同 一 で あ る 場 合 ,SNR の 違 い に よ る 照
合 率 の 差 は 見 ら れ な い .こ の 結 果 か ら 少 な く と も BEF
に よ る 処 理 に よ っ て 雑 音 除 去 可 能 で あ れ ば , SNR が
-10dB の よ う な 悪 い 環 境 に お い て も , 雑 音 の 少 な い 環
境と同等の照合精度が得られることがわかった.また
BEF の 除 去 帯 域 幅 f D に 着 目 す る と , f D =200Hz で あ れ
ば 雑 音 の な い 環 境 と 同 等 の 照 合 精 度 が 得 ら れ ,fD の 増
加 に 伴 い 照 合 率 は 低 下 し て い る . ま た f D が 1kHz 以 上
の 条 件 で は BEF 無 し (Noise) よ り も 照 合 率 が 低 下 し て
い る こ と か ら ,雑 音 除 去 の た め の BEF が 大 き な 帯 域 幅
を必要とする場合は明瞭化処理を行わないほうが高い
照合精度が得られるということがわかった.
3.2.5. 対 照 資 料 に 同 処 理 を 行 う 話 者 照 合 (1)
未 知 資 料 の み に 対 し て BEF 処 理 を 行 う 場 合 ,未 知 資
料 だ け が 狭 帯 域 に お け る 特 徴 量 (missing feature) が 失
わ れ ,対 照 資 料 に は 存 在 し て い る た め に ,帯 域 幅 f D に
関する頑健性が得られないことがわかった.そこでミ
ッ シ ン グ フ ィ ー チ ャ ー 理 論 (Missing Feature Theory) に
よ り ,対 照 資 料 に 対 し て 未 知 資 料 と 同 様 の BEF 処 理 ( ミ
ッ シ ン グ フ ィ ー チ ャ ー マ ス ク ) を 行 う こ と で ,照 合 精 度
がどのように変化するのかについての実験を行った.
照 合 実 験 の 流 れ を 図 3 に 示 す .SNR は 10dB , 0dB , -10dB
と し た .対 照 資 料 に 対 し て BEF 処 理 を 行 う 場 合 ,未 知
資料と同じ雑音の事前重畳は行っていない.比較のた
め の 条 件 と し て ,未 知 資 料 に BEF 処 理 を 行 わ な い 条 件
(Noise) で は ,対 照 資 料 に も 同 SNR と な る よ う に 雑 音 を
重 畳 し た . そ の 他 の 実 験 条 件 は 3.2.3. の 実 験 と 同 様 で
ある.照合条件を表 4 に示す.
が 目 的 で あ る た め ,Clear に お け る 照 合 率 が 改 善 に お け
る目標値となる.実験における資料の照合条件を表 3
Noise
200Hz~2kHz
Clear
表 3 照 合 条 件 (1)
BEF 無 し
BEF 処 理 , 帯 域 幅 は
200,400,600,1000,1400,2000[Hz]
SNR= ∞
Noise
200Hz~2kHz
Clear
表 4 照 合 条 件 (2)
BEF 無 し , 対 照 資 料 に 同 SNR の
Noise を 重 畳
BEF 処 理 , 帯 域 幅 は
200,400,600,1000,1400,2000[Hz] ,
対 照 資 料 に も 同 じ BEF 処 理
SNR= ∞
BEF 処 理
BEF 処 理
未知資料 2kHz サイン波雑音
未知資料 2kHz サイン波雑音
話者照合
BEF 処 理
対照資料
図 2 話 者 照 合 の 流 れ (1)
対照資料
図 3 話 者 照 合 の 流 れ (2)
話者照合
(a) /a/
(b) /i/
70
60
90
10dB
0dB
-10dB
80
verification rate (%)
10dB
0dB
-10dB
80
50
70
60
50
Noise
200Hz 400Hz 600Hz
1kHz
1.4kHz
2kHz
Clear
200Hz 400Hz 600Hz
(d) /連絡/
1kHz
1.4kHz
2kHz
60
Clear
Noise
(e) /爆弾/
80
70
60
50
1.4kHz
2kHz
10dB
0dB
-10dB
90
80
70
60
Clear
1.4kHz
2kHz
Clear
(f) /警察/
50
1kHz
1kHz
100
verification rate (%)
verification rate (%)
10dB
0dB
-10dB
90
200Hz 400Hz 600Hz
experimental condition
100
200Hz 400Hz 600Hz
70
experimental condition
100
Noise
10dB
0dB
-10dB
80
50
Noise
experimental condition
verification rate (%)
(c) /e/
90
verification rate (%)
verification rate (%)
90
10dB
0dB
-10dB
90
80
70
60
50
Noise
200Hz 400Hz 600Hz
experimental condition
1kHz 1.4kHz
2kHz
Clear
Noise
experimental condition
200Hz 400Hz 600Hz
1kHz
1.4kHz
2kHz
Clear
2kHz
Clear
2kHz
Clear
experimental condition
図4 対照資料に明瞭化処理を行わない話者照合結果
(a) /a/
(b) /i/
70
10dB
0dB
-10dB
60
90
verification rate (%)
80
50
80
70
10dB
0dB
-10dB
60
50
Noise
200Hz 400Hz 600Hz
1kHz
1.4kHz
2kHz
Clear
200Hz 400Hz 600Hz
(d) /連絡/
1kHz
1.4kHz
2kHz
Noise
70
10dB
0dB
-10dB
50
1.4kHz
2kHz
Clear
1.4kHz
(f) /警察/
90
80
70
10dB
0dB
-10dB
60
50
1kHz
1kHz
100
verification rate (%)
verification rate (%)
80
200Hz 400Hz 600Hz
experimental condition
(e) /爆弾/
90
200Hz 400Hz 600Hz
10dB
0dB
-10dB
60
Clear
100
Noise
70
experimental condition
100
60
80
50
Noise
experimental condition
verification rate (%)
(c) /e/
90
verification rate (%)
verification rate (%)
90
90
80
70
10dB
0dB
-10dB
60
50
Noise
200Hz 400Hz 600Hz
experimental condition
1kHz 1.4kHz
experimental condition
2kHz
Clear
Noise
200Hz 400Hz 600Hz
1kHz
1.4kHz
experimental condition
図 5 対 照 資 料 に 未 知 資 料 と 同 じ 処 理 を 行 う 話 者 照 合 結 果 (2kHz サ イ ン 波 )
3.2.6. 対 照 資 料 に 同 処 理 を 行 う 照 合 結 果 (1)
BEF の f D が 2kHz 程 度 に な る 場 合 は ,BEF の 影 響 が 照
3 母音及び 3 単語における照合結果を図 5 に示す.
合 精 度 に 大 き く 現 れ る が ,1kHz 以 下 で あ れ ば ミ ッ シ ン
図 4 の 照 合 結 果 と 比 較 す る と , BEF 処 理 あ り 及 び 無 し
グフィーチャーマスクとして対照資料に同条件の雑音
(Noise) い ず れ の 条 件 に お い て も 照 合 率 の 改 善 が 見 ら
れ , 特 に 帯 域 幅 f D が 1kHz の 場 合 に お い て 大 き く 改 善
を 付 加 す る よ り も , BEF に よ る 処 理 を 行 っ た 方 が 高 い
照合率が得られ,音声明瞭化処理の効果が非常に高い
600Hz 程 度 以 下 で あ れ ば , BEF 処 理 に よ る 照 合 精 度 へ
と い う こ と が わ か っ た . ま た 予 備 実 験 に お い て , BEF
の f D が 400kHz 以 下 の 条 件 で , BEF に よ る 雑 音 除 去 能
の影響は非常に小さく,未知資料に雑音のない条件と
力 が 低 く 雑 音 が 完 全 に 除 去 で き な い 状 況 で は , fD が
同程度の照合率が得られることがわかった.
600Hz ~ 1kHz の BEF に よ る 雑 音 除 去 が 成 功 し て い る 条
し て い る こ と が 確 認 さ れ た .こ れ ら の 結 果 か ら , f D が
また未知資料に含まれる雑音の帯域幅が大きく,
件よりも照合精度が低くなることがわかった.これら
(a) /a/
(c) /e/
(e) /爆弾/
80
70
1kHz
2kHz
3kHz
60
50
100
verification rate (%)
90
verification rate (%)
verification rate (%)
90
80
70
1kHz
2kHz
3kHz
60
50
Noise
200Hz 400Hz 600Hz
1kHz
1.4kHz
2kHz
Clear
90
80
1kHz
2kHz
3kHz
70
60
Noise
200Hz 400Hz 600Hz
experimental condition
1kHz
1.4kHz
2kHz
Clear
Noise
200Hz 400Hz 600Hz
experimental condition
1kHz
1.4kHz
2kHz
Clear
experimental condition
図 6 対 照 資 料 に 未 知 資 料 と 同 じ 処 理 を 行 う 話 者 照 合 結 果 (SNR=-10dB)
のことから,ミッシングフィーチャーマスクの条件を
明瞭化の効果は大きくなる.櫛型フィルタの設計は比
同一にすることが照合精度を改善するために最も効果
較 的 容 易 に 可 能 で あ る . 時 刻 t に お け る 信 号 x (t ) に 対 し
的な手法であり,雑音除去能力が低い状況では,対照
て周期 τ の基本波及び高調波成分を持つ雑音を軽減す
資 料 に 対 し て 雑 音 を 重 畳 し た 後 , BEF な ど の 明 瞭 化 処
る 櫛 型 フ ィ ル タ は , 処 理 後 の 信 号 を y (t ) と し た 場 合
y ( t ) = x (t ) − x (t − τ )
理を行うことが効果的であると考えられる.
3.2.7. 対 照 資 料 に 同 処 理 を 行 う 話 者 照 合 (2)
BEF の 帯 域 幅 f D 及 び f D の 存 在 す る 帯 域 と 照 合 精 度
の 関 係 を 調 べ る た め に ,3.2.5. で 行 っ た 話 者 照 合 に つ い
て ,SNR=-10dB の 場 合 に お い て サ イ ン 波 の 周 波 数 を 可
(2)
で実現できる.電源雑音が重畳された未知資料に対し
て櫛型フィルタを利用した明瞭化処理を行った.
3.3.3. 実 環 境 下 に お け る 話 者 照 合 結 果
電源雑音が重畳された未知資料と雑音のない対照
変とした話者照合実験を行った.実験に使用したサイ
資料に対して,表 5 に示す照合条件による明瞭化処理
ン 波 は 1kHz,2kHz,3kHz で あ る .
を 伴 う 話 者 照 合 実 験 を 行 っ た .照 合 結 果 を 図 7 に 示 す .
3.2.8. 対 照 資 料 に 同 処 理 を 行 う 照 合 結 果 (2)
櫛 型 フ ィ ル タ を 利 用 す る 場 合 3.2.6. の 実 験 結 果 と 同 様
2 母音及び 1 単語における照合結果を図 6 に示す.
こ の 結 果 か ら f D が 600Hz 以 下 の 条 件 で は 除 去 す る 帯
に,対照資料に対しても同じ櫛型フィルタによる処理
域がどの周波数領域に存在していても目標とする照合
精 度 ま で 改 善 で き る こ と が わ か っ た .一 方 f D が 大 き く
を行った方が,照合精度の改善が大きい場合が多く見
ら れ る .SNR=-10dB の 場 合 で も 照 合 精 度 の 低 下 は 発 声
内 容 に よ っ て 数 % か ら 10% 程 度 に 抑 え ら れ て お り , 単
なる場合は除去する帯域の存在する周波数領域に依存
し て , 照 合 精 度 が 変 化 す る こ と が 確 認 さ れ た . fD が
語 に よ る 照 合 率 も お お む ね 80% を 超 え て い る こ と か ら ,
2kHz の 条 件 を 除 け ば , f D が 低 い 周 波 数 領 域 よ り も 高
実環境においても十分有効であることが示された.
狭帯域雑音を含む音声の明瞭化処理を伴う話者照合は
い周波数領域に存在する場合,照合精度の低下が大き
く現れていると思われる.これは低い周波数領域より
4. 広 帯 域 雑 音 環 境 下 の 話 者 照 合
も高い周波数領域に個人性の特徴量が多く存在すると
4.1. 音 声 資 料 及 び 音 声 明 瞭 化
いうことに符合していると考えられる.
ホ ワ イ ト ノ イ ズ を SNR=15dB で 重 畳 し た 音 声 資 料 を
3.3. 実 環 境 雑 音 下 に お け る 話 者 照 合
作成し,広帯域雑音環境下の音声資料とした.音声資
3.3.1. 音 声 資 料
3.2. で は 擬 似 的 な 雑 音 を 取 り 上 げ た が , 実 環 境 下 で
の明瞭化処理と照合精度の関係を調べるため,雑音と
し て 50Hz の 電 源 雑 音 を 使 用 し た .3.2.1 と 同 様 に SNR
料 に 対 し て SS (Spectral Subtraction) を 利 用 し た 明 瞭 化
処理を行い,明瞭化前後の音声資料を作成した.
4.2. 話 者 照 合 及 び 実 験 結 果
表 6 に示した照合条件により話者照合実験を行った.
が 10dB,0dB,-10dB と な る よ う に 重 畳 し て 雑 音 環 境 下
3 母音及び 3 単語の実験結果を図 8 に示す.実験結果
の音声資料を作成した.
か ら SS 処 理 に よ る 照 合 精 度 の 改 善 は ほ と ん ど 見 ら れ
3.3.2. 周 波 数 櫛 型 フ ィ ル タ
な い こ と が わ か っ た . こ れ は ホ ワ イ ト ノ イ ズ の SS に
電 源 雑 音 は 50Hz の 周 波 数 構 造 を 持 つ が , サ イ ン 波
の よ う な 純 音 で は な い た め ,50Hz の 高 調 波 構 造 を 併 せ
持った狭帯域雑音である.このような特性を持つ雑音
は ,音 声 明 瞭 化 の た め に は BEF で は な く ,周 波 数 櫛 型
(comb) フ ィ ル タ が 有 効 で あ る . 基 本 周 波 数 と そ の 高 調
波成分を除去する周波数フィルタを利用することで,
Noise
Filter-F
Filter-C
Clear
表 5 照 合 条 件 (3)
未知資料
対 照 資 料 (雑 音 無 )
同雑音重畳
Filter 処 理 無 し
Filter 処 理 有 り
Filter 処 理 有 り
Filter 処 理 無 し
Filter 処 理 有 り
SNR= ∞
SNR= ∞
(a) /a/
(b) /i/
70
10dB
0dB
-10dB
60
90
80
70
10dB
0dB
-10dB
60
verification rate (%)
80
50
50
Noise
Filter-F
Filter-C
Noise
Filter-F
(d) /連絡/
Filter-C
10dB
0dB
-10dB
60
Clear
Noise
(e) /爆弾/
70
10dB
0dB
-10dB
60
50
Clear
(d) /連絡/
90
80
70
10dB
0dB
-10dB
60
50
Filter-C
Filter-C
100
verification rate (%)
80
verification rate (%)
90
Filter-F
experimental condition
100
Filter-F
70
experimental condition
100
Noise
80
50
Clear
experimental condition
verification rate (%)
(c) /e/
90
verification rate (%)
verification rate (%)
90
90
80
70
10dB
0dB
-10dB
60
50
Clear
Noise
experimental condition
Filter-F
Filter-C
Clear
Noise
experimental condition
Filter-F
Filter-C
Clear
experimental condition
図7 実環境雑音下における話者照合結果
verification rate (%)
条件
条件
条件
条件
条件
1
2
3
4
5
表 6 照 合 条 件 (3)
未知資料 (SNR=15dB) 対 照 資 料 ( 雑 音 無 )
SS 処 理 無 し
SS 処 理 無 し
SS 処 理 有 り
SS 処 理 無 し
SS 処 理 無 し
雑 音 重 畳 (SNR=10dB)
SS 処 理 無 し
雑 音 重 畳 (SNR=15dB)
SS 処 理 無 し
雑 音 重 畳 (SNR=20dB)
80
75
70
65
60
55
50
45
方法が有効であることがわかったが,狭帯域雑音では
照 合 精 度 が 改 善 さ れ た SNR が 0dB 以 下 の 広 帯 域 雑 音
環境下では,照合精度の改善が困難であることがわか
っている.今後は研究結果を実務にどのように適応し
ていくのかについて検討を行うとともに,照合精度を
改 善 さ せ る た め の 効 果 的 な 明 瞭 化 処 理 手 法 や ,特 徴 量 ,
照合手法などについて実験を行っていく予定である.
文
/a/
/i/
/e/
条件1
条件2
条件4
条件5
/連絡/
条件3
/爆弾/
/警察/
図8 広帯域雑音環境下における話者照合結果
よる明瞭化処理が困難であり,明瞭化の効果が低いこ
と が 原 因 で あ る と 考 え ら れ る .一 方 SS 処 理 を 行 わ ず ,
対照資料に対して同じ雑音を重畳することにより,照
合精度が大きく改善することがわかった.対照資料の
雑 音 の 重 畳 は 未 知 資 料 と 同 じ SNR と す る こ と で 照 合
精度の改善が最大になることが確認された.
5. ま と め
法科学に分野における雑音環境下での話者照合実
験を行い,音声明瞭化処理と照合精度の関係について
調べた結果,狭帯域雑音に対する明瞭化処理が照合精
度に及ぼす影響は小さく,明瞭化処理により照合精度
が大きく改善できることがわかった.また電源雑音を
使用した実験により,狭帯域雑音の明瞭化処理による
照合精度の改善は,実環境下でも有効であることが確
認された.広帯域雑音環境下では明瞭化処理の効果が
低いため,対照資料に未知資料と同じ雑音を重畳する
献
[1] 蒔 苗 久 則 , 長 内 隆 , 鎌 田 敏 明 , 谷 本 益 巳 ,“ 周 波
数 帯 域 を 考 慮 し た MFCC に よ る 話 者 特 徴 量 の 検
討 ,”日 本 音 響 学 会 2006 年 秋 季 研 究 発 表 会 講 演 論
文 集 , pp.75-76, Sep.2006.
[2] 長 内 隆 , 尾 関 和 彦 , 鎌 田 敏 明 , 蒔 苗 久 則 , 谷 本 益
巳 ,“ VQ に よ る テ キ ス ト 独 立 型 話 者 照 合 に お け
る 特 徴 量 変 換 ,”日 本 音 響 学 会 2006 年 春 季 研 究 発
表 会 講 演 論 文 集 , pp.57-58, Mar.2006.
[3] Kun-Youl Park, Hyung Soon Kim, “ Narrowband to
wideband conversion of speech using GMM based
transformation, ”Proc. ICASSP, vol.3, pp.1843-1846,
2000.
[4] So, S., Paliwal, K.K., “ Multi-Frame GMM-Based
Block Quantization of Line Spectral Frequencies for
Wideband Speech Coding, ” Proc. ICASSP, vol.1,
pp.121-124, 2005.
[5] Nishida, M., Kawahara, T.,“ Speaker model selection
based on the Bayesian information criterion applied
to unsupervised speaker indexing, ”Speech and Audio
Processing, IEEE Trans., vol.13, 4, pp.583-592,
2005.
[6] Shingo KUROIWA, Yoshiyuki UMEDA, Satoru
TSUGE and Fuji REN, “ Nonparametric Speaker
Recognition
Method
Using
Earth
Mover's
Distance. ” IEICE Trans. on Information and
Systems, E89-D(3), pp.1074-1081, 2006.
[7] 鎌 田 敏 明 , 長 内 隆 , 蒔 苗 久 則 , 谷 本 益 巳 ,“ 劣 悪
な 雑 音 環 境 下 に お け る 話 者 照 合 ,” 日 本 音 響 学 会
2005 年 秋 季 研 究 発 表 会 講 演 論 文 集 , pp.130-131,
Sep.2005.