「第 7 回音声ドキュメント処理 ワークショップ」に参加して

特集
学生の研究活動報告−国内学会大会・国際会議参加記 18
は削除誤り単語の重要度の合計を,VS は置換誤り
「第 7 回音声ドキュメント処理
ワークショップ」に参加して
古
谷
区間の単語重要度の合計を,VN は正解文の単語重
要度の合計を表す.
遼
Ryo FURUTANI
情報メディア学専攻修士課程
2. 2 ベイズリスク最小化音声認識
2012 年度修了
単語重要度に基づく音声認識は音声認識の枠組み
は式(2)のベイズリスク最小化(MBR)の枠組み
1.はじめに
で記述される.
私は,2012 年 3 月 2 日に名古屋大学で行われた
^
W
=arg min
w
!(l W, W ′)P(W ′, X )
λ1
λ2
W′
(2)
「第 7 回音声ドキュメント処理ワークショップ」に
ここで,l( W, W ′
)は損失関数を表し,P(W, X )
参加した.これは,音声データを文書として扱う技
は音声認識スコアを表す.WWER 最小化を実現す
術の開発を主な目的として開催されているワークシ
るには,式(1)の分子を損失関数として用いる.
ョップである.私は本ワークショップで「ベイズリ
スク最小化音声認識を用いた音声検索システムにお
けるクエリ生成方法の検討」という題目で発表を行
3.単語重要度の自動推定
3. 1
った.
単語重要度の自動推定のアルゴリズム
適切な単語重要度とは,音声認識誤りが引き起こ
本報告では,音声検索システムに関する研究につ
す検索性能の低下率を WWER から予測できるよう
いて述べる.音声検索システムは,1)音声認識,
な重要度である.本研究では,音声認識誤りが含ま
2)検索要求(クエリ)生成,3)情報検索の 3 つの
れることによってどの程度検索性能が低下したかを
モジュールを持つシステムである.このシステムで
表す,検索性能低下率(IRDR)を定義し,これと
は,音声認識誤りが発生すると検索性能が低下する
WWER が等しくなるように単語重要度を推定する.
ため,音声認識の性能が重要となる.このような背
具体的には,音声認識誤りが含まれない検索要求
景から,我々はこれまでに,情報検索の観点から重
と,音声認識誤りが含まれる検索要求を用いて実際
要となる単語の音声認識誤りを削減するための音声
に情報検索を行い,それぞれの検索結果を得る.次
認識である,WWER 最小化音声認識の研究を行っ
に,それぞれの検索結果を検索の正解集合を用いて
てきた.しかし,この音声認識を行った結果からの
評価し,IRDR を算出する.最後に,IRDR と WWER
検索要求生成手法の検討は十分でなかった.このよ
の平均二乗誤差が最小化されるよう,最急降下法を
うな背景に基づき,重要単語誤り最小化音声認識と
用いて単語重要度を推定する枠組みである.
その結果からの検索要求生成手法の組み合わせにつ
いて検討を行ったので報告を行う.
3. 2 単語重要度推定用の学習データの自動生成
本研究で提案する単語重要度推定の枠組みは,検
2.単語重要度に基づく音声認識の枠組み
2. 1
索要求の発話データ,その書き起こし,および検索
の正解集合を要求するため,学習データ整備のコス
重み付き単語誤り率
単語重要度に基づく音声認識の評価尺度である重
トが高い.そのため,単語重要度推定のための学習
み付き単語誤り率(WWER)は式(1)で定式化さ
データを自動生成する手法を提案する.まず,検索
れる.
の正解集合は書き起こしの検索要求での検索結果で
VI+VD+VS
WWER =
(1)
VN
ここで,VI は挿入誤り単語の重要度の合計を,VD
代用する.書き起こしの検索要求として,検索の特
徴語と検索要求のテンプレートから擬似検索要求を
― 33 ―
表1
重要度推定の実験結果
表2
音声検索システムの実験結果
単語重要度推定手法
WWER と IRDR の相関
重要度未使用
0.53
従来システム
検索性能
0.358
品詞
0.53
提案システム
0.362
提案法
0.59
自動で生成する.音声認識結果の検索要求は,擬似
5.音声検索システムの実験
検索要求に対してランダムに単語編集を行うことで
2 章の音声認識手法,3 章の単語重要度,4 章の
自動生成する.これらの枠組みを用いることで,単
検索要求生成手法を用いた音声検索システム(提案
語重要度の自動推定に必要な学習データを全て自動
システム)の実験を行った.また,通常の音声認識
生成できる.
の 1-Best を用いる音声検索システム(従来システ
ム)との比較を行った.実験結果を表 2 に示す.
3. 3
従来システムを用いた場合の検索性能は 0.358 と
単語重要度推定の結果
単語重要度推定の評価として,WWER から IRDR
なった.これに対して,提案システムを用いた場合
をどの程度予測できるかを調査するため,両者の相
の検索性能は 0.362 となり,検索性能の向上が見ら
関を計算した.提案法の比較対象として,単語重要
れた.なお,書き起こしを用いた場合,すなわち音
度を用いない場合と,単語重要度を品詞で決定した
声認識誤りが全く発生しない場合には,検索性能は
場合の結果も調査した.実験結果を表 1 に示す.
0.428 となる.このことから,従来システムで発生
単語重要度を使用しない場合および単語重要度を
する音声認識誤りに由来する検索性能の低下
品詞で 決 定 し た 場 合と 比 較 し , 提 案 法 の 結 果 は
(IRDR)のうち,6% を削減できることがわかっ
WWER と IRDR の相関 が 高 い . こ れ は ,WWER
た.結果を詳細に調査したところ,従来システムの
からの IRDR の予測精度が高く,適切な単語重要
検索性能が悪い場合に提案システムで検索性能の向
度が推定できたことを示す.
上が見られた.これらの結果は,提案システムを用
いることで,音声検索に対する音声認識誤りの影響
4.N-Best リストからの検索要求生成手法
を削減できることを示している.
WWER 最小化音声認識の結果を調査したところ,
通常の音声認識と比較して,N-Best リストの上位
6.おわりに
に音声認識誤りの少ない候補が多く出現することが
適切な単語重要度を設定する手法,重要単語の音
わかった.これは,N-Best リストの上位候補に正
声認識誤りを削減する音声認識を行う手法,N-Best
しい音声認識結果が出現しやすくなっていることを
リストを用いて検索要求を生成する手法を提案し
示している.したがって,本研究では N-Best リス
た.これらの 3 つを組み合わせた音声検索システム
トからの検索要求生成手法の検討を行う.具体的に
の評価を行ったところ,従来の音声検索システムと
は,まず N-Best リストの上位の候補から単語グラ
比較して,音声認識誤りに由来する検索性能の低下
フを生成する.次に,単語グラフのスコアに基づい
のうち 6% を削減できた.
て各単語の出現頻度を計算する.このとき,スコア
本ワークショップで発表を行い,多くの貴重な意
の低い単語は音声認識誤りの可能性が高いため,こ
見を頂くことができた.また,今後の研究を進める
れらの候補の枝狩りを行う.この手法を用いること
に当たって参考となる研究発表が多数あり,貴重な
で,正しく音声認識ができている単語を重視した情
体験をすることができた.
報検索を行うことができる.
― 34 ―