行動理解のための音声情報処理の研究 - 東京大学 大学院 情報理工学

行動理解のための音声情報処理の研究
情報理工学研究科システム情報学専攻
修士課程2年 余傳 道彦
指導教官:舘 暲教授
飯田 一朗客員教授
Abstract – 個人の会話音声を活用した記憶支援システムを提案する.会話音声に意味情報を付加した形で保存すること
により,e-mailのように様々な手がかり情報を元に記憶を喚起し,検索することで必要な会話をななめ聞きすることが
できる.本研究では,個人の膨大な会話音声の中から会話区間と相手を特定し,会話中に発話されたキーワードを手が
かりに会話に個人の行動に関連した情報を付加することで,個人の会話履歴をあとから検索し自由に再生できるシステ
ムを実現した.
1.
はじめに
本研究は,個人の会話音声を常時記録・解析すること
により,会話にまつわる記憶を喚起するシステムを提案
し,その実現性について検討する.我々は過去の個人行
動を想起する際にe-mailを日常的に活用しているが,こ
のような記憶支援機能を個人の行動履歴を表す意味情報
を豊富に含む対面会話に拡張することを目指す.
会話音声を後から閲覧・再生するためには,会話音声
より有用な個人の行動に関連した情報を抽出し,音声を
インデキシングされた形で保存する必要がある.本研究
では,日常会話における個人の対話の特定およびキーワ
ード抽出の2つのアプローチにより,会話音声を処理し
た.
これまでに会話の体験記録を取得する研究[1]や会話理
解を行う研究[2,3]は行われてきたが,会話音声を活用し
た個人の体験記録の研究はほとんど報告されていない.
以下の項では,会話音声の取得方法,2者対話の特定
手法およびキーワード抽出の手法について論じ,実際の
日常会話音声に対する実験結果と,そこから得た知見か
ら行った考察と将来性について論じる.
2.
会話音声の録音
図 2 ヘッドセットと骨伝導マイクの波形及び周波数成分
必要となる.本研究では,会話における発話の時間的構
造を活用することにより,独立に取得された発話を会話
する2者対話の特定に焦点を当てた.
3.1.
アルゴリズムの設計
2者対話では,(1)お互いの発話は対になっている,(2)2
人の発話が継続して重複しない,(3)一般的な会話は6タ
ーン以上からなることが知られている.この知見を活用
し,以下のアルゴリズム(図3)を元に2者対話を特定し
た.
本研究では,各人が着用した骨伝導マイク(㈱ワイズギ
ア社”話話”)(図1)で取得した音声をICレコーダ(ソニー㈱
社ICD-SX55)で録音し,あとから会話参加者同士の音声
を再構成した.今回採用した骨伝導マイクは体内を伝わ
る声帯振動を,頭蓋骨を介して圧電素子でセンシングす
る.そのため,従来の会話音声処理における最大の課題
である環境雑音や周囲の発話者などのノイズに対して頑
健である(図2).骨伝導マイクを使用することにより,
SN比の高いクリアな会話音声を取得することができる.
図 3 2者対話検出のアルゴリズム
35分の2者対話より作成した40組の擬似対話をコーパ
スとして使用した評価実験の結果を図3,4に示す.検出精
度の評価には,検出漏れの少なさを表す指標である再現
率および誤検出の少なさを表す指標である適合率を用い
る.評価関数Fの閾値Ft=0.08のとき検出精度は再現率
=100%,適合率=95.2%でピークを持つ.一方,Ft=0.08の
ときにWindow幅Cwを増減させると,Cw=60secで再現
率・適合率ともに飽和することが判明した.
図 1骨伝導マイクの機構と外観
3.2.
3.
対話の特定
骨伝導マイクを使用することにより,個人の発話区間
はパワーフィルタの適用により容易に取得できるが,会
話として再生するためには会話の相手を認識することが
実証実験
上記より設計されたアルゴリズムを活用し,実際に録
音した日常会話音声に対して2者対話の特定を行った.
実験では被験者5名(男性5名,年齢:23-33歳)に対し,合計
15時間(3日間×5時間)の日常会話音声を取得した.録音
環境は研究室及び大学構内での移動時とした.総対話数
図 4 評価関数の閾値と検出率の関係
図 6 キーワード抽出の検出精度と音韻数の関係
の観点から評価した.その結果,音韻数の増加とともに
再現率,適合率が向上し,13音韻以上では再現率が90%
以上となることから,13音韻以上のキーワードセットを
使用することとする.また,本研究では検索の用途とし
て,検索漏れを最小限にすることを優先したため,適合
率に関しては80%以下と低い値となっているが,検索結
果は実際に聞き直して取捨選択することを考慮すると,
現状の検出精度でも実用に耐えると判断した.
図 5 Window幅と検出率の関係
48回に対する2者対話の検出結果を表1に示す.日常会話
ではノイズの影響により,適合率が著しく低下してい
る.原因を究明したところ,歩行時のノイズを骨伝導マ
イクが発話として認識してしまうことが判明した.喉元
で声帯振動を集音するスロートマイクを使用することで
歩行時におけるノイズ成分を除去できることに着目し,
歩行ノイズを除去した結果,再現率・適合率ともに精度
が大幅に向上した(表1).
環境
再現率
適合率
骨伝導マイク
91.7%(44/48)
17.5%(44/252)
骨伝導マイク
+
スロートマイク
97.7%(42/43)
93.3%(42/45)
表 1 日常会話における2者対話の検出精度
4.
キーワード抽出
会話音声をe-mailに近づける理想的な方策としては,
音声認識によるテキスト化が考えられる.しかし,日常
生活環境における会話音声は,ノイズや言語的な揺らぎ
に対する脆弱性により,現状の技術では会話音声認識は
難しい.本研究では骨伝導マイクはノイズを軽減する反
面,高周波成分が減衰するため(図1),既存の音声認識技
術をそのまま適用することは難しいとされている.そこ
で,本研究では事前に指定したキーワードを会話中に明
示的に発話し,各キーワードを音声ベースのテンプレー
ト・マッチングで抽出することによる意味情報付加を試
みた.また,テンプレート・マッチングの手法として発
話の時間的な揺らぎを吸収するDPマッチングを採用し
た.
4.1.
アルゴリズムの設計
アルゴリズムの設計を行うため,新聞記事の読み上げ
文に対するキーワード抽出を行った.テンプレート・マ
ッチングの性質上,テンプレートの長さに応じて検出精
度が変化することから,検出結果をキーワードの音韻数
4.2.
実証実験
上記のアルゴリズムを活用し,実際の会話音声に対す
るキーワード抽出を行った.3章で述べた3日間の日常会
話音声を取得する際,被験者1名があらかじめ指定され
たキーワード:「次回の打ち合わせ」,「今回の議題は」,
「話を要約すると」,「それは面白いですね」,「忘れない
ようにしよう」を会話中に明示的に発話し,合計15時間
の会話音声中キーワードを72回発話した.これらキーワ
ー ド を 抽 出 し た 結 果 , 再 現 率 =95.8%(69/72) , 適 合 率
=24.3%(69/284)であった.再現率が高いため,発話した
キーワードを漏らさず検索することができる反面,適合
率が低く,必要な箇所を探し出すには実際の音声をなな
め聞きして確認することが求められる.このようなコス
トを軽減する方策としては,適合率をScoreとして提示す
ることにより,信頼性の高い箇所から優先的に聞きなお
すことが考えられる.
5.
おわりに
本研究によって,記録された個人の日常会話音声を解
析することにより,日時や相手,キーワードなどを手が
かりとして過去の会話を検索し,会話にまつわる個人の
体験記憶を喚起するシステムの実現可能性が示された.
今後は複数人対話の特定へと拡張する手法を確立するこ
とが求められる.また,キーワードの認識精度を向上さ
せることにより,短いキーワードを検出するための方策
が必要である.さらには,会話音声に含まれる非言語情
報の解析を行うことで,キーワード抽出による会話情報
取得を補完することは検討に値する.これらの発展によ
り,日常会話における様々な記憶の問題を解決する外部
記憶システムへの応用が期待される.
参考文献
[1] 間瀬健二, “体験共有とインタラクションコーパス”, 第
13回VRシンポジウム関連研究論文別刷集, No.5, 2004.
[2] Waibel, A., Bett, M., Finke, M., Stiefelhagen, R., “Meeting
Browser: Tracking and Summarizing Meetings”, Proc. of the
Broadcast News Transcription and Understanding Workshop,
pp 281-286, 1998.
[3] Eagle, N., Pentland, A., “Social Network Computing”,
Proc. of the Fifth International Conference on Ubiquitous
Computing (UbiComp), pp.289-296, 2003.