行動理解のための音声情報処理の研究情報理工学研究科システム情報学専攻修士課程2年余傳道彦指導教官：舘暲教授飯田一朗客員教授 Abstract – 個人の会話音声を活用した記憶支援システムを提案する．会話音声に意味情報を付加した形で保存することにより，e-mailのように様々な手がかり情報を元に記憶を喚起し，検索することで必要な会話をななめ聞きすることができる．本研究では，個人の膨大な会話音声の中から会話区間と相手を特定し，会話中に発話されたキーワードを手がかりに会話に個人の行動に関連した情報を付加することで，個人の会話履歴をあとから検索し自由に再生できるシステムを実現した． 1. はじめに本研究は，個人の会話音声を常時記録・解析することにより，会話にまつわる記憶を喚起するシステムを提案し，その実現性について検討する．我々は過去の個人行動を想起する際にe-mailを日常的に活用しているが，このような記憶支援機能を個人の行動履歴を表す意味情報を豊富に含む対面会話に拡張することを目指す．会話音声を後から閲覧･再生するためには，会話音声より有用な個人の行動に関連した情報を抽出し，音声をインデキシングされた形で保存する必要がある．本研究では，日常会話における個人の対話の特定およびキーワード抽出の2つのアプローチにより，会話音声を処理した．これまでに会話の体験記録を取得する研究[1]や会話理解を行う研究[2,3]は行われてきたが，会話音声を活用した個人の体験記録の研究はほとんど報告されていない．以下の項では，会話音声の取得方法，2者対話の特定手法およびキーワード抽出の手法について論じ，実際の日常会話音声に対する実験結果と，そこから得た知見から行った考察と将来性について論じる． 2. 会話音声の録音図 2 ヘッドセットと骨伝導マイクの波形及び周波数成分必要となる．本研究では，会話における発話の時間的構造を活用することにより，独立に取得された発話を会話する2者対話の特定に焦点を当てた． 3.1. アルゴリズムの設計 2者対話では，(1)お互いの発話は対になっている，(2)2 人の発話が継続して重複しない，(3)一般的な会話は6ターン以上からなることが知られている．この知見を活用し，以下のアルゴリズム(図3)を元に2者対話を特定した．本研究では，各人が着用した骨伝導マイク(㈱ワイズギア社”話話”)(図1)で取得した音声をICレコーダ(ソニー㈱社ICD-SX55)で録音し，あとから会話参加者同士の音声を再構成した．今回採用した骨伝導マイクは体内を伝わる声帯振動を，頭蓋骨を介して圧電素子でセンシングする．そのため，従来の会話音声処理における最大の課題である環境雑音や周囲の発話者などのノイズに対して頑健である(図2)．骨伝導マイクを使用することにより， SN比の高いクリアな会話音声を取得することができる．図 3 ２者対話検出のアルゴリズム 35分の2者対話より作成した40組の擬似対話をコーパスとして使用した評価実験の結果を図3,4に示す．検出精度の評価には，検出漏れの少なさを表す指標である再現率および誤検出の少なさを表す指標である適合率を用いる．評価関数Fの閾値Ft=0.08のとき検出精度は再現率 =100%，適合率=95.2%でピークを持つ．一方，Ft=0.08のときにWindow幅Cwを増減させると，Cw=60secで再現率・適合率ともに飽和することが判明した．図 1骨伝導マイクの機構と外観 3.2. 3. 対話の特定骨伝導マイクを使用することにより，個人の発話区間はパワーフィルタの適用により容易に取得できるが，会話として再生するためには会話の相手を認識することが実証実験上記より設計されたアルゴリズムを活用し，実際に録音した日常会話音声に対して2者対話の特定を行った．実験では被験者5名(男性5名，年齢:23-33歳)に対し，合計 15時間(3日間×5時間)の日常会話音声を取得した．録音環境は研究室及び大学構内での移動時とした．総対話数図 4 評価関数の閾値と検出率の関係図 6 キーワード抽出の検出精度と音韻数の関係の観点から評価した．その結果，音韻数の増加とともに再現率，適合率が向上し，13音韻以上では再現率が90％以上となることから，13音韻以上のキーワードセットを使用することとする．また，本研究では検索の用途として，検索漏れを最小限にすることを優先したため，適合率に関しては80%以下と低い値となっているが，検索結果は実際に聞き直して取捨選択することを考慮すると，現状の検出精度でも実用に耐えると判断した．図 5 Window幅と検出率の関係 48回に対する2者対話の検出結果を表1に示す．日常会話ではノイズの影響により，適合率が著しく低下している．原因を究明したところ，歩行時のノイズを骨伝導マイクが発話として認識してしまうことが判明した．喉元で声帯振動を集音するスロートマイクを使用することで歩行時におけるノイズ成分を除去できることに着目し，歩行ノイズを除去した結果，再現率・適合率ともに精度が大幅に向上した(表1)．環境再現率適合率骨伝導マイク 91.7%(44/48) 17.5%(44/252) 骨伝導マイク＋スロートマイク 97.7%(42/43) 93.3%(42/45) 表 1 日常会話における2者対話の検出精度 4. キーワード抽出会話音声をe-mailに近づける理想的な方策としては，音声認識によるテキスト化が考えられる．しかし，日常生活環境における会話音声は，ノイズや言語的な揺らぎに対する脆弱性により，現状の技術では会話音声認識は難しい．本研究では骨伝導マイクはノイズを軽減する反面，高周波成分が減衰するため(図1)，既存の音声認識技術をそのまま適用することは難しいとされている．そこで，本研究では事前に指定したキーワードを会話中に明示的に発話し，各キーワードを音声ベースのテンプレート・マッチングで抽出することによる意味情報付加を試みた．また，テンプレート・マッチングの手法として発話の時間的な揺らぎを吸収するDPマッチングを採用した． 4.1. アルゴリズムの設計アルゴリズムの設計を行うため，新聞記事の読み上げ文に対するキーワード抽出を行った．テンプレート・マッチングの性質上，テンプレートの長さに応じて検出精度が変化することから，検出結果をキーワードの音韻数 4.2. 実証実験上記のアルゴリズムを活用し，実際の会話音声に対するキーワード抽出を行った．3章で述べた3日間の日常会話音声を取得する際，被験者1名があらかじめ指定されたキーワード：｢次回の打ち合わせ｣，｢今回の議題は｣，｢話を要約すると｣，｢それは面白いですね｣，｢忘れないようにしよう｣を会話中に明示的に発話し，合計15時間の会話音声中キーワードを72回発話した．これらキーワードを抽出した結果，再現率 =95.8%(69/72) ，適合率 =24.3%(69/284)であった．再現率が高いため，発話したキーワードを漏らさず検索することができる反面，適合率が低く，必要な箇所を探し出すには実際の音声をななめ聞きして確認することが求められる．このようなコストを軽減する方策としては，適合率をScoreとして提示することにより，信頼性の高い箇所から優先的に聞きなおすことが考えられる． 5. おわりに本研究によって，記録された個人の日常会話音声を解析することにより，日時や相手，キーワードなどを手がかりとして過去の会話を検索し，会話にまつわる個人の体験記憶を喚起するシステムの実現可能性が示された．今後は複数人対話の特定へと拡張する手法を確立することが求められる．また，キーワードの認識精度を向上させることにより，短いキーワードを検出するための方策が必要である．さらには，会話音声に含まれる非言語情報の解析を行うことで，キーワード抽出による会話情報取得を補完することは検討に値する．これらの発展により，日常会話における様々な記憶の問題を解決する外部記憶システムへの応用が期待される．参考文献 [1] 間瀬健二, “体験共有とインタラクションコーパス”, 第 13回VRシンポジウム関連研究論文別刷集, No.5, 2004. [2] Waibel, A., Bett, M., Finke, M., Stiefelhagen, R., “Meeting Browser: Tracking and Summarizing Meetings”, Proc. of the Broadcast News Transcription and Understanding Workshop, pp 281-286, 1998. [3] Eagle, N., Pentland, A., “Social Network Computing”, Proc. of the Fifth International Conference on Ubiquitous Computing (UbiComp), pp.289-296, 2003.