音声認識結果を利用した類似 TV ニュースの関連付け Finding relation between similar TV news by using speech recognition 0312003013 感性情報学講座指導教員：石亀昌明 1. はじめに伊藤慶明伊藤洋平小嶋和徳 3.1. 単語頻度を用いた文章比較単語頻度を用いた従来法は比較する二つの文章にビデオの大容量ハードディスク化により，録画したデータの中から見たい場面だけを視聴できる機能が必要になると考える．本研究では，ニュース番組に焦点を絞り，音声認識した結果を利用し，ニュースクリップの関連付けを行う方式を提案する．これにより，TV ニュース番組中の興味のあるニュース対し，同じ単語の数を加算していく手法である．N を Julius 辞書の単語数，辞書の i 番目の単語が文書１に出現する回数を w1i と表す．L を文章の単語数， min を二つの引数のうち，小さな方を選ぶ関数とすると，二つの文章の類似度 S は次の式のように一単 P 語当たりの平均重なり率となる． N (w1i w2i ) 2 S = i min L1 + L2 クリップに関連したニュースクリップを視聴できる．本論文では，ニュースクリップの構成に着目し，音声認識の性能が高い前半部分のみを文章比較の際に重視して利用することで，精度の高い関連付けを目指す．従来法と比較し，本手法の有効性を示す． 2. システム概要自動的に複数のニュース番組を録画し，連続音声認識ソフトウェア Julius を用いて，音声認識を行う．この音声認識で得られた文章を保存しておく．ユーザがあるニュースクリップに興味を示した場合，そのニュースクリップの音声認識結果と保存された文章群と比較を行う．各文章との類似度を求め，類似度の高い順にその文章に対応しているニュースクリップをユーザに提供する．また，今回は評価を簡単にするため，ニュースクリップは事前に切出した． 3. 提案手法 3.2. tf・idf を用いた文章比較 tf・idf とはある単語 wi がどれくらいその文章を特徴づけているか表す手法である．本研究では，単語頻度と同様に，tf・idf により重み付けした単語を加算する方法をとった．K を比較に使用した全ての文章数，dfi は wi が出現する文章数とすると，tf・ idf を用いた従来法の似度 S は次の式で表すように，単語 wi の tf・idf の重なり部分を加算し，平均した PNi min(w1i ものとなる． S= log dfK w2i log dfK ) L1 + L2 i i 3.3. 提案手法本論文では文章を先頭から可変的な単語数で区切り，tf・idf により重み付けを行う手法を提案する．大別することができる．アナウンサーの原稿読み上 L 単語までで二つの文章とも打ち切り，そこまでに 3.1 同様に w i1 ，w i2 とすると，提案手法の二つの文章の類似度 S は次の式で表すように，L 単語までの単語 w i の tf・idf の重げによる部分は背景の音が少なく，音声認識の認識なり部分を加算し，平均したものとなる．ニュースクリップは主にアナウンサーの原稿読み上げによる部分と生中継や現地での VTR の部分に率も高い傾向を示した．しかし，生中継や現地での VTR の部分は臨場感を出すためにわざと背景の音を含め音声を収録している．このため，音声認識の 0 0 S= PNi min(w i1 0 log dfK w i2 log dfK ) 2L 認識率が低くなる傾向にあった．また，ニュース番 4. 実験と考察組の基本的な構成として，前半にアナウンサーの原 4.1. 実験データと実験条件稿読み上げ，後半に生中継や現地での VTR という 0 出現した単語の出現回数を本論文では 0 i i 50 ペア 100 個のニュースクリップよ構成が多い．したがって，音声認識の性能が高い前り実験を行った．実験に使用したニュースクリップ半部分のみの音声認識結果を文章比較の際に利用すの単語数はることで精度の向上を目指す．以下，代表的な二つ本研究ではニュースクリップの音声認識結果から得の類似度算出手法と提案手法を述べる．られた文章を利用する．参考のため書き起こしから 54 個から 1258 個，平均 290 個だった．得られた文章との比較を行う．今回の実験では名詞だけを抽出し，Julius に含まれる単語のみを文章比較に用いる．提案手法の有効性を検証するために，従来法と提案手法との比較実験を行う． 4.2. 予備実験ニュースクリップの前半部分の音声認識結果を文章比較の際に利用するために，以下の予備実験を行い，文章比較に用いる先頭からの単語数（ L ）の適切な値を求めた．50 ペア 100 個のニュースクリップを 10 ペアずつそれぞれ A，B，C，D，E とし，クロスバリデーション法により評価する．学習用 40 ペアに対し，先頭から文章比較に用いる単語数（ L ）を変化させた際の正解ペア抽出性能を図 1 に示す．図 1 比較単語数（ L ）による正解の抽出性能 4.3. 評価実験と考察図 2 開始単語（ L ）による認識率の変化 4.4. 代表手法との比較実験単語頻度と tf・idf の両手法を用いて，提案手法と従来法の比較実験を行った．実験は音声認識結果から得られた文章と，書き起こしから得られた文章に対して行い，各々の正解率を図 3 に示す．図 3 正解ペア抽出性能の比較音声認識結果を用いた場合，提案手法は従来法よりも高い正解率が得られ，提案手法の有効性が検証 all は文章に含まれる全ての単語を用いたときの正できた．また，書き起こしを用いた場合，提案手法解率を示す．この学習結果から，全ての学習データは従来法より低い正解率となった．これは正確な情における正解率の最大値は比較単語数 60 から 150 の報ならば情報量の多い方が有利であるためである．間にあることが分かる．以上の学習結果と評価デー提案手法は音声認識の認識率が高い部分のみを利用タを用いて実験を行った．その結果を表 1 に示す．各学習セットで正解率が高い三つの単語数（ L ）における正解率を太字で示した． y 表 A B C D E 平均 1 評価実験結果（％） 60 (85) (80) 80 100 150 75 85 85 85 80 80 80 85 80 55 65 65 90 90 80 78 80 78 (80) (65) (75) 77 all 80 70 65 50 80 69 表 1 の正解率の平均より，ニュースクリップの全ての単語を用いるよりも，本方式により高い正解率が得られた．ニュースクリップの単語数（ L ）までの単語認識率を図 2 に示す．この図から，ニュースクリップの音声認識の単語認識率は 100 単語を境に大きく低下することが分かる．これは，中継放送等への切り替わりが原因だと考える．この結果から提案手法が有効に働く理由が分かる．し，誤認識による悪影響を受けにくいため，音声認識結果で正解率が高くなったと考える． 5. おわりに本論文ではニュースクリップの構成に着目し，音声認識の性能が高い前半部分のみを文章比較の際に重視して利用する文章比較手法を提案した．音声認識結果を用いた場合に従来法との比較により，高い正解率が得られ，本手法の有効性を検証した．今後は類似度の算出精度の向上と，ニュースクリップ毎の自動抽出法を検討したい．参考文献 1 ）川原達也，李晃伸：連続音声認識ソフトウェア Julius ，人工知能学会誌， Vol.20， No.1， pp.41{49， 2005. 2 ）石田英敬記号の知／メディアの知日常生活批判のた : めのレッスン，東京大学出版会 3 ）高橋伸弥，森元逞，入江由紀／ 2003 Web 年刊上の類似記事自動収集による音声認識用言語モデルの適応と学習用ニュース記事コーパスの分析，福岡大学工学集報，第 77 号，2006 年 9 月．