特集 学生の研究活動報告−国内学会大会・国際会議参加記 18 は削除誤り単語の重要度の合計を,VS は置換誤り 「第 7 回音声ドキュメント処理 ワークショップ」に参加して 古 谷 区間の単語重要度の合計を,VN は正解文の単語重 要度の合計を表す. 遼 Ryo FURUTANI 情報メディア学専攻修士課程 2. 2 ベイズリスク最小化音声認識 2012 年度修了 単語重要度に基づく音声認識は音声認識の枠組み は式(2)のベイズリスク最小化(MBR)の枠組み 1.はじめに で記述される. 私は,2012 年 3 月 2 日に名古屋大学で行われた ^ W =arg min w !(l W, W ′)P(W ′, X ) λ1 λ2 W′ (2) 「第 7 回音声ドキュメント処理ワークショップ」に ここで,l( W, W ′ )は損失関数を表し,P(W, X ) 参加した.これは,音声データを文書として扱う技 は音声認識スコアを表す.WWER 最小化を実現す 術の開発を主な目的として開催されているワークシ るには,式(1)の分子を損失関数として用いる. ョップである.私は本ワークショップで「ベイズリ スク最小化音声認識を用いた音声検索システムにお けるクエリ生成方法の検討」という題目で発表を行 3.単語重要度の自動推定 3. 1 った. 単語重要度の自動推定のアルゴリズム 適切な単語重要度とは,音声認識誤りが引き起こ 本報告では,音声検索システムに関する研究につ す検索性能の低下率を WWER から予測できるよう いて述べる.音声検索システムは,1)音声認識, な重要度である.本研究では,音声認識誤りが含ま 2)検索要求(クエリ)生成,3)情報検索の 3 つの れることによってどの程度検索性能が低下したかを モジュールを持つシステムである.このシステムで 表す,検索性能低下率(IRDR)を定義し,これと は,音声認識誤りが発生すると検索性能が低下する WWER が等しくなるように単語重要度を推定する. ため,音声認識の性能が重要となる.このような背 具体的には,音声認識誤りが含まれない検索要求 景から,我々はこれまでに,情報検索の観点から重 と,音声認識誤りが含まれる検索要求を用いて実際 要となる単語の音声認識誤りを削減するための音声 に情報検索を行い,それぞれの検索結果を得る.次 認識である,WWER 最小化音声認識の研究を行っ に,それぞれの検索結果を検索の正解集合を用いて てきた.しかし,この音声認識を行った結果からの 評価し,IRDR を算出する.最後に,IRDR と WWER 検索要求生成手法の検討は十分でなかった.このよ の平均二乗誤差が最小化されるよう,最急降下法を うな背景に基づき,重要単語誤り最小化音声認識と 用いて単語重要度を推定する枠組みである. その結果からの検索要求生成手法の組み合わせにつ いて検討を行ったので報告を行う. 3. 2 単語重要度推定用の学習データの自動生成 本研究で提案する単語重要度推定の枠組みは,検 2.単語重要度に基づく音声認識の枠組み 2. 1 索要求の発話データ,その書き起こし,および検索 の正解集合を要求するため,学習データ整備のコス 重み付き単語誤り率 単語重要度に基づく音声認識の評価尺度である重 トが高い.そのため,単語重要度推定のための学習 み付き単語誤り率(WWER)は式(1)で定式化さ データを自動生成する手法を提案する.まず,検索 れる. の正解集合は書き起こしの検索要求での検索結果で VI+VD+VS WWER = (1) VN ここで,VI は挿入誤り単語の重要度の合計を,VD 代用する.書き起こしの検索要求として,検索の特 徴語と検索要求のテンプレートから擬似検索要求を ― 33 ― 表1 重要度推定の実験結果 表2 音声検索システムの実験結果 単語重要度推定手法 WWER と IRDR の相関 重要度未使用 0.53 従来システム 検索性能 0.358 品詞 0.53 提案システム 0.362 提案法 0.59 自動で生成する.音声認識結果の検索要求は,擬似 5.音声検索システムの実験 検索要求に対してランダムに単語編集を行うことで 2 章の音声認識手法,3 章の単語重要度,4 章の 自動生成する.これらの枠組みを用いることで,単 検索要求生成手法を用いた音声検索システム(提案 語重要度の自動推定に必要な学習データを全て自動 システム)の実験を行った.また,通常の音声認識 生成できる. の 1-Best を用いる音声検索システム(従来システ ム)との比較を行った.実験結果を表 2 に示す. 3. 3 従来システムを用いた場合の検索性能は 0.358 と 単語重要度推定の結果 単語重要度推定の評価として,WWER から IRDR なった.これに対して,提案システムを用いた場合 をどの程度予測できるかを調査するため,両者の相 の検索性能は 0.362 となり,検索性能の向上が見ら 関を計算した.提案法の比較対象として,単語重要 れた.なお,書き起こしを用いた場合,すなわち音 度を用いない場合と,単語重要度を品詞で決定した 声認識誤りが全く発生しない場合には,検索性能は 場合の結果も調査した.実験結果を表 1 に示す. 0.428 となる.このことから,従来システムで発生 単語重要度を使用しない場合および単語重要度を する音声認識誤りに由来する検索性能の低下 品詞で 決 定 し た 場 合と 比 較 し , 提 案 法 の 結 果 は (IRDR)のうち,6% を削減できることがわかっ WWER と IRDR の相関 が 高 い . こ れ は ,WWER た.結果を詳細に調査したところ,従来システムの からの IRDR の予測精度が高く,適切な単語重要 検索性能が悪い場合に提案システムで検索性能の向 度が推定できたことを示す. 上が見られた.これらの結果は,提案システムを用 いることで,音声検索に対する音声認識誤りの影響 4.N-Best リストからの検索要求生成手法 を削減できることを示している. WWER 最小化音声認識の結果を調査したところ, 通常の音声認識と比較して,N-Best リストの上位 6.おわりに に音声認識誤りの少ない候補が多く出現することが 適切な単語重要度を設定する手法,重要単語の音 わかった.これは,N-Best リストの上位候補に正 声認識誤りを削減する音声認識を行う手法,N-Best しい音声認識結果が出現しやすくなっていることを リストを用いて検索要求を生成する手法を提案し 示している.したがって,本研究では N-Best リス た.これらの 3 つを組み合わせた音声検索システム トからの検索要求生成手法の検討を行う.具体的に の評価を行ったところ,従来の音声検索システムと は,まず N-Best リストの上位の候補から単語グラ 比較して,音声認識誤りに由来する検索性能の低下 フを生成する.次に,単語グラフのスコアに基づい のうち 6% を削減できた. て各単語の出現頻度を計算する.このとき,スコア 本ワークショップで発表を行い,多くの貴重な意 の低い単語は音声認識誤りの可能性が高いため,こ 見を頂くことができた.また,今後の研究を進める れらの候補の枝狩りを行う.この手法を用いること に当たって参考となる研究発表が多数あり,貴重な で,正しく音声認識ができている単語を重視した情 体験をすることができた. 報検索を行うことができる. ― 34 ―
© Copyright 2024 Paperzz