行動理解のための音声情報処理の研究 情報理工学研究科システム情報学専攻 修士課程2年 余傳 道彦 指導教官:舘 暲教授 飯田 一朗客員教授 Abstract – 個人の会話音声を活用した記憶支援システムを提案する.会話音声に意味情報を付加した形で保存すること により,e-mailのように様々な手がかり情報を元に記憶を喚起し,検索することで必要な会話をななめ聞きすることが できる.本研究では,個人の膨大な会話音声の中から会話区間と相手を特定し,会話中に発話されたキーワードを手が かりに会話に個人の行動に関連した情報を付加することで,個人の会話履歴をあとから検索し自由に再生できるシステ ムを実現した. 1. はじめに 本研究は,個人の会話音声を常時記録・解析すること により,会話にまつわる記憶を喚起するシステムを提案 し,その実現性について検討する.我々は過去の個人行 動を想起する際にe-mailを日常的に活用しているが,こ のような記憶支援機能を個人の行動履歴を表す意味情報 を豊富に含む対面会話に拡張することを目指す. 会話音声を後から閲覧・再生するためには,会話音声 より有用な個人の行動に関連した情報を抽出し,音声を インデキシングされた形で保存する必要がある.本研究 では,日常会話における個人の対話の特定およびキーワ ード抽出の2つのアプローチにより,会話音声を処理し た. これまでに会話の体験記録を取得する研究[1]や会話理 解を行う研究[2,3]は行われてきたが,会話音声を活用し た個人の体験記録の研究はほとんど報告されていない. 以下の項では,会話音声の取得方法,2者対話の特定 手法およびキーワード抽出の手法について論じ,実際の 日常会話音声に対する実験結果と,そこから得た知見か ら行った考察と将来性について論じる. 2. 会話音声の録音 図 2 ヘッドセットと骨伝導マイクの波形及び周波数成分 必要となる.本研究では,会話における発話の時間的構 造を活用することにより,独立に取得された発話を会話 する2者対話の特定に焦点を当てた. 3.1. アルゴリズムの設計 2者対話では,(1)お互いの発話は対になっている,(2)2 人の発話が継続して重複しない,(3)一般的な会話は6タ ーン以上からなることが知られている.この知見を活用 し,以下のアルゴリズム(図3)を元に2者対話を特定し た. 本研究では,各人が着用した骨伝導マイク(㈱ワイズギ ア社”話話”)(図1)で取得した音声をICレコーダ(ソニー㈱ 社ICD-SX55)で録音し,あとから会話参加者同士の音声 を再構成した.今回採用した骨伝導マイクは体内を伝わ る声帯振動を,頭蓋骨を介して圧電素子でセンシングす る.そのため,従来の会話音声処理における最大の課題 である環境雑音や周囲の発話者などのノイズに対して頑 健である(図2).骨伝導マイクを使用することにより, SN比の高いクリアな会話音声を取得することができる. 図 3 2者対話検出のアルゴリズム 35分の2者対話より作成した40組の擬似対話をコーパ スとして使用した評価実験の結果を図3,4に示す.検出精 度の評価には,検出漏れの少なさを表す指標である再現 率および誤検出の少なさを表す指標である適合率を用い る.評価関数Fの閾値Ft=0.08のとき検出精度は再現率 =100%,適合率=95.2%でピークを持つ.一方,Ft=0.08の ときにWindow幅Cwを増減させると,Cw=60secで再現 率・適合率ともに飽和することが判明した. 図 1骨伝導マイクの機構と外観 3.2. 3. 対話の特定 骨伝導マイクを使用することにより,個人の発話区間 はパワーフィルタの適用により容易に取得できるが,会 話として再生するためには会話の相手を認識することが 実証実験 上記より設計されたアルゴリズムを活用し,実際に録 音した日常会話音声に対して2者対話の特定を行った. 実験では被験者5名(男性5名,年齢:23-33歳)に対し,合計 15時間(3日間×5時間)の日常会話音声を取得した.録音 環境は研究室及び大学構内での移動時とした.総対話数 図 4 評価関数の閾値と検出率の関係 図 6 キーワード抽出の検出精度と音韻数の関係 の観点から評価した.その結果,音韻数の増加とともに 再現率,適合率が向上し,13音韻以上では再現率が90% 以上となることから,13音韻以上のキーワードセットを 使用することとする.また,本研究では検索の用途とし て,検索漏れを最小限にすることを優先したため,適合 率に関しては80%以下と低い値となっているが,検索結 果は実際に聞き直して取捨選択することを考慮すると, 現状の検出精度でも実用に耐えると判断した. 図 5 Window幅と検出率の関係 48回に対する2者対話の検出結果を表1に示す.日常会話 ではノイズの影響により,適合率が著しく低下してい る.原因を究明したところ,歩行時のノイズを骨伝導マ イクが発話として認識してしまうことが判明した.喉元 で声帯振動を集音するスロートマイクを使用することで 歩行時におけるノイズ成分を除去できることに着目し, 歩行ノイズを除去した結果,再現率・適合率ともに精度 が大幅に向上した(表1). 環境 再現率 適合率 骨伝導マイク 91.7%(44/48) 17.5%(44/252) 骨伝導マイク + スロートマイク 97.7%(42/43) 93.3%(42/45) 表 1 日常会話における2者対話の検出精度 4. キーワード抽出 会話音声をe-mailに近づける理想的な方策としては, 音声認識によるテキスト化が考えられる.しかし,日常 生活環境における会話音声は,ノイズや言語的な揺らぎ に対する脆弱性により,現状の技術では会話音声認識は 難しい.本研究では骨伝導マイクはノイズを軽減する反 面,高周波成分が減衰するため(図1),既存の音声認識技 術をそのまま適用することは難しいとされている.そこ で,本研究では事前に指定したキーワードを会話中に明 示的に発話し,各キーワードを音声ベースのテンプレー ト・マッチングで抽出することによる意味情報付加を試 みた.また,テンプレート・マッチングの手法として発 話の時間的な揺らぎを吸収するDPマッチングを採用し た. 4.1. アルゴリズムの設計 アルゴリズムの設計を行うため,新聞記事の読み上げ 文に対するキーワード抽出を行った.テンプレート・マ ッチングの性質上,テンプレートの長さに応じて検出精 度が変化することから,検出結果をキーワードの音韻数 4.2. 実証実験 上記のアルゴリズムを活用し,実際の会話音声に対す るキーワード抽出を行った.3章で述べた3日間の日常会 話音声を取得する際,被験者1名があらかじめ指定され たキーワード:「次回の打ち合わせ」,「今回の議題は」, 「話を要約すると」,「それは面白いですね」,「忘れない ようにしよう」を会話中に明示的に発話し,合計15時間 の会話音声中キーワードを72回発話した.これらキーワ ー ド を 抽 出 し た 結 果 , 再 現 率 =95.8%(69/72) , 適 合 率 =24.3%(69/284)であった.再現率が高いため,発話した キーワードを漏らさず検索することができる反面,適合 率が低く,必要な箇所を探し出すには実際の音声をなな め聞きして確認することが求められる.このようなコス トを軽減する方策としては,適合率をScoreとして提示す ることにより,信頼性の高い箇所から優先的に聞きなお すことが考えられる. 5. おわりに 本研究によって,記録された個人の日常会話音声を解 析することにより,日時や相手,キーワードなどを手が かりとして過去の会話を検索し,会話にまつわる個人の 体験記憶を喚起するシステムの実現可能性が示された. 今後は複数人対話の特定へと拡張する手法を確立するこ とが求められる.また,キーワードの認識精度を向上さ せることにより,短いキーワードを検出するための方策 が必要である.さらには,会話音声に含まれる非言語情 報の解析を行うことで,キーワード抽出による会話情報 取得を補完することは検討に値する.これらの発展によ り,日常会話における様々な記憶の問題を解決する外部 記憶システムへの応用が期待される. 参考文献 [1] 間瀬健二, “体験共有とインタラクションコーパス”, 第 13回VRシンポジウム関連研究論文別刷集, No.5, 2004. [2] Waibel, A., Bett, M., Finke, M., Stiefelhagen, R., “Meeting Browser: Tracking and Summarizing Meetings”, Proc. of the Broadcast News Transcription and Understanding Workshop, pp 281-286, 1998. [3] Eagle, N., Pentland, A., “Social Network Computing”, Proc. of the Fifth International Conference on Ubiquitous Computing (UbiComp), pp.289-296, 2003.
© Copyright 2024 Paperzz