PDF

C2-10
簡単な手法による音環境の類似性を利用した会話場の認識
中蔵 聡哉1
Toshiya Nakakura
角 康之1
Yasuyuki Sumi
まえがき
1
我々は今までに, 人間のインタラクションを機械に認識
させるための第一歩として, 音場の類似度を利用した簡易
な手法による会話場の分布の推測を行うシステム NearMe
を開発してきた. NearMe は, 音環境の類似性のみを用い
て会話場のクラスタリングを行うことで, 距離や会話場の構
造に依存せず, 柔軟に会話場の検出を行うことを目標として
いる. 我々はこれまに,NearMe の会話判定の精度と, ミー
ティング環境における会話構造の変化について検討を行った
[中蔵 2008]. その結果, 音場の類似度を用いた手法は適合率
が高く, 再現率が低めであることと, 音場の入れ子構造につ
いては柔軟に対応し, 適切に会話場を区別できる可能性が示
された. 本論文では, 狭い空間内において, 複数の会話場が 1
つになったり, 逆に分離して複数になったりと構造が変化す
る際の検出が行えるかどうかの検証を行う. 本論文でいう会
話場とは, 現在会話が行われている場所のことを指し, 会話
場の分布の推測は会話に参加しているメンバを判定するこ
とにより行う. 会話が聞こえていて潜在的に参加する可能性
のあるメンバまでは含めないが, 会話に参加すると同時にそ
のメンバは会話場に加わることになる.
人々の様々な会話状況を記録・分析する研究は現在まで
に多数行われてきている. これらの研究は, 会話は直接扱わ
ないものの周辺の状況を理解することにより会話の概要や
構成を知るもの [Borovoy 1998][中村 2007] と, 直接音声情
報を用いて会話自体を分析するもの [岡本 2008] との大きく
2 つに分類することができる.
ユーザの相互位置から意味や意図を読み取ることを目的
とした研究として, RFID や赤外線タグを用い近接関係の測
定を行うものがあげられるが, これらの手法は会話以外のさ
まざまな用途に応用できる反面, この手法自体では会話が行
われたかどうかを検知する手段がなく, また複数対複数の会
話構造がどのように広がっているのかを検知するのは困難
である. この点を考慮し, 本研究は直接音声情報を用いる手
法をとっている.
また, 直接音声情報を利用することで会話そのものを検出
する検討も多数なされているが, これらの研究は, コミュニ
ケーションが距離的に近接した時のみ行われるものであると
いう前提に基づいたものである. Edward Hall[Hall 1966] が
定義するように, 会話は一般的に社会距離 (120cm∼360cm)
で行われることが確かに多いのではあるが, このような距離
ベースの考え方の元にシステムを開発すると, 検知できない
コミュニケーションの変化が存在すると我々は考える. 例え
ば, パーティーや展示会場であれば, 狭い場所にたくさんの
会話グループが存在している. 逆に, 物理的に広い部屋に人
が集まっていたとしても, 講演会場であれば, 会話空間は一
つになっていると考えるべきである. このような, 既存の手
法では困難な状況を認識することを目標としている.
以下本論文では,2 章で音場による会話場検出の手法を提
案し, 3 章で実装について, 4 章で試行実験, 5 章で利用例に
ついて述べ,6 章でまとめる.
1
京都大学情報学研究科
Graduate School of Informatics, Kyoto University
2
西田 豊明1
Toyoaki Nishida
音場による会話場の検出
今までに述べてきた考え方をもとに, 音場の類似度を用い
て会話場を判定することを考える. 概要は「同じ会話場に居
る人は同じ音を聞いている」という基本的なアイデアであ
る. 例えば図 1 のように会話場が 2 つある場合,A の発話は
A と B のみに聞こえる. すなわち A と B のマイクに A の
声が入力される. 一方別の会話場の C と D のマイクには D
の声が入力されていることになる.
図 1: 音声による会話場判定の基礎
ここで A と B のマイク入力,C と D のマイク入力を比
較すると, 両方とも同じ声が入っているため類似度は高くな
る.A と C のように他の会話場にいるメンバのマイクの入
力同士を比較すると, 違う声が入っているため類似度は低く
なる. この手法では, 会話場は特定の音に基づいてまとまる
ことになるので,1 つの大音量の音源があればその音を中心
にまとまり, 複数の音源があれば複数のグループにまとまる
ことになる. このことにより, 音源の数や位置の変化により
判定結果も柔軟に変化することが可能になる. 例えば, 講演
会場では発表者の声を中心に聴衆全員が 1 つのまとまりと
してとらえられることになるし,1 つの部屋であっても複数
の会話がなされていれば, そのそれぞれに関して分類するこ
とも可能となる.
他の手法とは異なり, 音声の場合はオーバーラップしてい
ることが考えられる. まず,BGM のかかった部屋の中での
会話のように入れ子構造になっていることが考えられる. こ
の場合は, 同じ部屋で BGM を聞いているというゆるやかな
コンテキストのもとで, 会話相手とのつながりを検出するこ
とが望ましい. 入れ子の内側ではより強い音が発生している
と考えられるので, パワーの強い周波数成分を比較すること
で簡単に分離可能であると考えられる. この点については前
述した論文内で検討を行い, 適切にグルーピングできること
を実験によって示した.
次に, 複数の会話グループが存在する場合が考えられる.
ある会話に参加していて, 隣の会話も聞こえる状態であれば
音が重なり合っていることになる. この場合は, 通常は別の
グループとして認識され, グループのメンバが別のグループ
に移ったり, 複数のグループが 1 つのグループにまとまった
りした際にはそれを検知することが望ましい. 本論文では,
この複数の会話グループの分離について実験を行った.
3
3.1
実装
構成
NearMe はモバイル端末上で動作し, 複数の端末間で相
互通信しあうことで会話場を検出する. 通信に際しては, 無
線 LAN によるアドホックネットワークを利用し P2P ネッ
トワークを構築するためインフラは不要である. また, ユー
ザはモバイル端末を持つだけでよいため, 操作や装着による
不可は少なく, 自由に行動することができる. システム構成
は図 2 の通りである.
比較に用いる周波数帯は人の声の周波数帯と言われる
100Hz∼4000Hz で, これを 3901 次元のベクトルととらえ
てコサイン類似度を求める. コサイン類似度は以下の式で求
めることができる.
3.3
時刻同期
同じ会話であっても比較する時刻が異なれば音はまったく
異なるので, マシン間の内蔵時計のズレの問題を解決しなけ
ればならない. これを解決するため簡易な NTP を実装し
た. 動作は以下の通りである.
受信側の処理
1. マシンの現在時刻を取得し,UDP により他のマシンへと
送信する
2. 受信時の時刻と送信された時刻情報との差 (t1 ) を求める
3. t1 とマシンの現在時刻を返信する
4. 受信した時刻情報と受信時刻の差 (t2 ) を求める
5. (t1 + t2 )/2 を時間差とする
6. 得られた時間差を相手のマシンにも送る
図 2: システム構成
3.2
このアルゴリズムは, 通信の上りと下りにかかる時間が理
論上一致することを前提としている. 各時点でのマシンの時
刻情報は 100ns 単位で取得する. この手法により得られる時
間差の誤差は 10ms 以下に抑えることができる. この程度の
差であればフーリエ変換を行う際の窓関数で吸収される.
会話場判定アルゴリズム
基本的な考え方は, 入力音声が似ていれば同じと判断する
という事である. また, 入力が無音であれば会話が行われて
いないのは自明であるため比較は行わない. 有音か無音か
はマイク入力の音量を用いて判断を行う. 詳細なアルゴリ
ズムは以下の通りである.
送信側の処理
1. 音声をバッファに蓄積しながら 3 秒待機する.
2. 1. で待った 3 秒の間に有音区間があれば 3. へ.
なければ 1. へ戻る
3. 有音区間を最も長く含む連続区間 (1 秒間) の音声をフー
リエ変換し, 時刻情報を付加してブロードキャストする.
送信後 1. へ戻る
受信側の処理
1. データ受信するまで待機する
2. 受信パケットのタイムスタンプを取得する.
3. スタンプと同時刻の受信側の音声が無音区間であれば
4. へ. 有音区間であれば 5. へ
4. 無音であれば話していない, すなわち異なると判断でき
る.1. へ
5. 受信周波数情報と自分の周波数情報を比較する
6. 類似度が閾値以上であれば同じ, 未満であれば異なると
判定する.1. へ
4
実験
大勢の人間が集まる場合, 複数の会話グループを形成した
り,1 つのグループにまとまったりというように会話場の形
は刻々と変化する.NearMe の主眼はこの変化に柔軟に対応
することである. 現在の構成でこのことが達成できているか
を検証するため, 会話グループの構成が何度も変化するよう
にタスクを設定して実験を行い, これらを正確に認識できる
か検証を行った.
4.1
構成
研究室の備品を 2 部屋にどう配分するかという議題で,2
名で 1 組のチームを 2 つつくり, 合計 4 人でディスカッショ
ンを行った. この備品の中にはあると便利なものや大型で邪
魔になるものが混在しているので, どちらの部屋に何を割
り当てるかが議論の対象になる. まず自分たちにどの備品が
必要なのかをチーム内で議論し, その後相手チームと交渉し
ながら備品を分け合うというタスクを行った. 実験には机と
ホワイトボードを利用し,1m の間隔をあけた 2 つの机に各
チームを配置した. 以下, 便宜的に 4 人の参加者を図 3 のよ
うに A1 ,A2 ,B1 ,B2 と呼ぶ. A1 と A2 ,B1 と B2 がそれぞれ
同じチームである.
この状態で, まず自分たちのチームにとって必要な備品と
不要な備品をチーム内で相談して決定してもらった. この際
に他のチームとの会話が発生しないように, チーム間には衝
立が設置されている. この段階では 2 つの会話場が存在する
ことになり,NearMe では A1 と A2 , B1 と B2 がグループ
化されて出力されることが想定される.
次に, 全員が自分の席に座った状態から, 各チーム 1 人ず
つ相手チームの前に出て交渉を行い,2 つの備品を手に入れ
てホワイトボードに書き込み確定させるという作業を 4 回
表 1: グループ内での会話時の出力
図 3: 実験環境
行った. このタスクでは, 交渉者が相手チームの 2 人と話す
ことになるので, 基本的には 3 人のグループとして認識され
るはずである. 更に, 交渉に参加していないメンバも自分の
席から適宜意見を述べることも許可している. このメンバが
発言した時は 4 人の会話グループと判定されることが想定
される.
この実験の様子は環境側に設置したビデオカメラによっ
て録画した. このビデオを見ればどの時間帯にどのような会
話場が形成されていたかが分かるので, これを用いて分析を
行った.
A1 の出力 (組み合わせ: 回数)
A2 ,B1 ,B2 : 1 A2 ,B1 : 0 A2 ,B2 : 3
A2 : 11
B1 : 0
B2 : 0
A2 の出力 (組み合わせ: 回数)
A1 ,B1 ,B2 : 1 A1 ,B1 : 0 A1 ,B2 : 1
A1 :21
B1 : 0
B2 : 0
B1 の出力 (組み合わせ: 回数)
A1 ,A2 ,B2 : 2 A1 ,A2 : 2 A1 ,B2 : 0
A1 : 0
A2 : 0
B2 : 19
B2 の出力 (組み合わせ: 回数)
A1 ,A2 ,B1 : 0 A1 ,A2 : 0 A1 ,B1 : 3
A1 : 0
A2 : 0
B1 : 14
B1 ,B2 : 0
B1 ,B2 : 0
A2 ,B2 : 0
A2 ,B1 : 1
この表は各行が各メンバの端末の NearMe の出力であり,
値は同じ会話場であると認識された回数である. チーム内で
の会話であるため, 同じアルファベットのメンバーに関する
出力が正解となる.
この表から分かるように, 基本的には同じグループのメン
バと同じ会話場であると認識できている. 例えば B2 の場合,
同じグループの B1 と同じ会話場と認識されたのが 14 回,
A1 , B1 と同じ会話場と認識されたのは 3 回, A2 , B1 とは
1 回であった. この判定の失敗は, 誰かが大きめの声を出し
た際に全員が 1 つのグループに分類されてしまったり, チー
ム全員が黙った瞬間に相手チームの声に影響されたりした
こと等により生じたものである. 大きな声を出す場合, 本当
に全員に呼びかけている可能性も考えられるため, 音量だけ
で判断することは難しい. これはその後の会話場の遷移まで
含めて判断するしか方法はないのではないかと考える. また
メンバ A1 は声が大きかったため, 同じ会話場に A1 がいる
と誤検出される頻度が他のメンバよりもかなり高い.
- 全員での議論時について
図 4: 実験の様子 (相談時)
全員で議論していた際について述べる.A2 が交渉をして
いる 5 分間に判定は 51 回行われた. その際の出力は表 2 の
通りである.
表 2: A2 の交渉時の出力
図 5: 実験の様子 (交渉時)
4.2
結果
A1 の出力 (組み合わせ: 回数)
A2 ,B1 ,B2 : 1
A2 ,B1 : 2
A2 : 16
B1 : 1
A2 の出力 (組み合わせ: 回数)
A1 ,B1 ,B2 : 11 A1 ,B1 : 11
A1 : 12
B1 : 14
B1 の出力 (組み合わせ: 回数)
A1 ,A2 ,B2 : 2
A1 ,A2 : 2
A1 : 1
A2 : 22
B2 の出力 (組み合わせ: 回数)
A1 ,A2 ,B1 : 7
A1 ,A2 : 10
A1 : 9
A2 : 24
A2 ,B2 : 8
B2 : 6
B1 ,B2 : 0
A1 ,B2 : 7
B2 : 20
B1 ,B2 : 0
A1 ,B2 : 0
B2 : 22
A2 ,B2 : 0
A1 ,B1 : 6
B1 : 16
A2 ,B1 : 20
- 2 グループでの会話時について
2 グループで会話が行われている際は A1 と A2 , B1 と
B2 がグループ化されて出力されることが想定される.5 分
間の会話のうち,52 回の判定が行われた. 実際の出力は表 1
の通りである.
A2 が交渉をしている際のデータでは, 綺麗には判断でき
ていない. おおまかには A2 と B1 と B2 が頻繁にグループ
化されていることが分かるが, A2 , B1 , B2 のように 3 人で
グループ化されたという出力は少ない.
この結果をもたらした原因は 2 つ確認された. まずは議
論が活発化した際の発話のオーバーラップの問題, 続いて距
離による減衰の問題である. これらの現象が起こらなかった
場合はほぼ正確に判定することができていた. オーバーラッ
プの問題は, 各メンバのマイク入力に対する影響は本人の装
着しているマイクが最も大きいため, 同時に発話すると大き
く波形が異なってしまうことにより生じている. この問題は,
周波数情報全体を用いるのではなく, 複数の山として認識し
山ごとに比較することにより緩和できると考える. 減衰の問
題は A1 の発話に関して顕著である. 表を見ればわかるよう
に,A1 の発話の及ぼす影響が相手によって全く異なってい
る.A1 は A2 と 2 人のグループであると判定されることが
多く, B1 と B2 は A1 の発話の影響をあまり受けなかった.
これは A1 と距離の近い A2 にはきちんと音が届いたが,A1
からの距離が遠い B1 や B2 の場合はマイクに入る前に減衰
してしまい非常に小さな音になってしまっているからであ
ると考えられる. 人間はある程度遠くの音でも補完して聞
き取ることができるが, 通常のマイクは減衰の影響を直接受
けるためこのような現象が起こると考える. 複数のマイク
を用いて補完することによりこの問題の緩和は可能であろ
う. また, 音が全く届かないのではなく小さな音ではあるが
届いてはいるので, オーバーラップの問題と同様に山の形を
判断することによっても緩和が可能であると考えられる.A2
以外のメンバが交渉しているときの値もほぼ同様の傾向が
見られた. より相手チームから遠い側のメンバが交渉する際
は, 全員が相対的に近くにいるため,4 人のまとまりで検出さ
れる回数が多くみられた.
以上の結果より, 複数グループを区別して認識することや,
複数のグループが 1 つのグループに変化したことは認識で
きているが, さまざまな距離のメンバが混在する際の会話や,
発話のオーバーラップが生じた際の会話場の認識に誤差が
生じることが明らかになった. この点に関しては, 類似度の
計算を周波数の山ごとに分けて行うことで改善できると考
えられるので, 今後の課題としたい.
5
利用例
このシステムは, マイクを持ち, 通信可能な端末上であれ
ば汎用的に利用できる. さまざまな用途が考えられるが, 現
在は PhotoChat[伊藤 2007] というシステムで利用されて
いる.
「誰と会話している状況で」撮った写真であるのか, という
タグを付与することができ, おおまかな状況を把握して検索
性を上げることができる.
6
おわりに
本論文では, 音環境の類似度を利用して会話場分布の推定
を行うシステム NearMe を用い, 動的な会話場の変化への
対応について検討した.
1m 程度の間隔があれば, 複数の会話場が存在しても区別
して認識できることや, 複数のグループが 1 つのグループに
変化したことが認識できるが, さまざまな距離のメンバが混
在する際の会話や, 発話のオーバーラップが生じた際の会話
場の認識には誤差が生じることが明らかになった. この点に
関しては, 類似度の計算を周波数の山ごとに分けて行うこと
で改善できると考えられるので, 今後の課題としたい.
謝辞 本研究の一部は情報処理推進機構 (IPA) の未踏ソフト
ウェア創造事業の補助を受けて行われた.
References
[中蔵 2008] [中蔵 2008] 中蔵聡哉, 角康之, 西田豊明: 音環
境の類似度に基づいた会話場の認識と利用, インタラ
クション 2008, (2008).
[Borovoy 1998] Richard Borovoy, Fred Martin, Sunil Vemuri, Mitchel Resnick, Brian Silverman, and Chris
Hancock: Meme Tags and Community Mirrors:
Moving from Conferences to Collaboration, Proceedings of the 1998 ACM conference on Computer
supported cooperative work (CSCW-98), pp. 159∼
168(1998).
[中村 2007] 中村 嘉志, 並松 祐子, 宮崎 伸夫, 松尾 豊, 西村
拓一:複数の赤外線タグを用いた相対位置関係からのト
ポロジカルな位置および方向の推定, 情報処理学会論
文誌, Vol.48, No.3, pp.1349-1360(2007).
[岡本 2008] 岡本 昌之, 池谷 直紀, 西村 圭亮, 菊池 匡晃, 長
健太, 服部 正典, 坪井 創吾, 芦川 平: 端末音声の相互
相関に基づくアドホック会話の検出, 日本データベース
学会論文誌, Vol. 7, No. 1, pp.163-168(2008).
[Hall 1966] E. T. Hall: Hidden Dimension, 1966.
[伊藤 2007] 伊藤 惇, 角 康之, 久保田 秀和, 西田 豊明: 写真
と書き込みの実時間共有による学会参加者間のコミュニ
ケーション支援, 人工知能学会第 21 回全国大会, 2B4-1,
2007 年 6 月宮崎.
図 6: PhotoChat の画面例
PhotoChat は写真撮影と手書きメモを融合させ,複数の
ユーザ間で共有することで,グループ内での各ユーザの興
味への「気づき」の共有を加速し,その上での会話を促す
ことを目的とするツールである. このシステムの抱える問
題点として, 写真が増えてきた際の整理の問題がある. 我々
のセンサを利用することで, 「近くに誰がいたか」ではなく