C2-10 簡単な手法による音環境の類似性を利用した会話場の認識 中蔵 聡哉1 Toshiya Nakakura 角 康之1 Yasuyuki Sumi まえがき 1 我々は今までに, 人間のインタラクションを機械に認識 させるための第一歩として, 音場の類似度を利用した簡易 な手法による会話場の分布の推測を行うシステム NearMe を開発してきた. NearMe は, 音環境の類似性のみを用い て会話場のクラスタリングを行うことで, 距離や会話場の構 造に依存せず, 柔軟に会話場の検出を行うことを目標として いる. 我々はこれまに,NearMe の会話判定の精度と, ミー ティング環境における会話構造の変化について検討を行った [中蔵 2008]. その結果, 音場の類似度を用いた手法は適合率 が高く, 再現率が低めであることと, 音場の入れ子構造につ いては柔軟に対応し, 適切に会話場を区別できる可能性が示 された. 本論文では, 狭い空間内において, 複数の会話場が 1 つになったり, 逆に分離して複数になったりと構造が変化す る際の検出が行えるかどうかの検証を行う. 本論文でいう会 話場とは, 現在会話が行われている場所のことを指し, 会話 場の分布の推測は会話に参加しているメンバを判定するこ とにより行う. 会話が聞こえていて潜在的に参加する可能性 のあるメンバまでは含めないが, 会話に参加すると同時にそ のメンバは会話場に加わることになる. 人々の様々な会話状況を記録・分析する研究は現在まで に多数行われてきている. これらの研究は, 会話は直接扱わ ないものの周辺の状況を理解することにより会話の概要や 構成を知るもの [Borovoy 1998][中村 2007] と, 直接音声情 報を用いて会話自体を分析するもの [岡本 2008] との大きく 2 つに分類することができる. ユーザの相互位置から意味や意図を読み取ることを目的 とした研究として, RFID や赤外線タグを用い近接関係の測 定を行うものがあげられるが, これらの手法は会話以外のさ まざまな用途に応用できる反面, この手法自体では会話が行 われたかどうかを検知する手段がなく, また複数対複数の会 話構造がどのように広がっているのかを検知するのは困難 である. この点を考慮し, 本研究は直接音声情報を用いる手 法をとっている. また, 直接音声情報を利用することで会話そのものを検出 する検討も多数なされているが, これらの研究は, コミュニ ケーションが距離的に近接した時のみ行われるものであると いう前提に基づいたものである. Edward Hall[Hall 1966] が 定義するように, 会話は一般的に社会距離 (120cm∼360cm) で行われることが確かに多いのではあるが, このような距離 ベースの考え方の元にシステムを開発すると, 検知できない コミュニケーションの変化が存在すると我々は考える. 例え ば, パーティーや展示会場であれば, 狭い場所にたくさんの 会話グループが存在している. 逆に, 物理的に広い部屋に人 が集まっていたとしても, 講演会場であれば, 会話空間は一 つになっていると考えるべきである. このような, 既存の手 法では困難な状況を認識することを目標としている. 以下本論文では,2 章で音場による会話場検出の手法を提 案し, 3 章で実装について, 4 章で試行実験, 5 章で利用例に ついて述べ,6 章でまとめる. 1 京都大学情報学研究科 Graduate School of Informatics, Kyoto University 2 西田 豊明1 Toyoaki Nishida 音場による会話場の検出 今までに述べてきた考え方をもとに, 音場の類似度を用い て会話場を判定することを考える. 概要は「同じ会話場に居 る人は同じ音を聞いている」という基本的なアイデアであ る. 例えば図 1 のように会話場が 2 つある場合,A の発話は A と B のみに聞こえる. すなわち A と B のマイクに A の 声が入力される. 一方別の会話場の C と D のマイクには D の声が入力されていることになる. 図 1: 音声による会話場判定の基礎 ここで A と B のマイク入力,C と D のマイク入力を比 較すると, 両方とも同じ声が入っているため類似度は高くな る.A と C のように他の会話場にいるメンバのマイクの入 力同士を比較すると, 違う声が入っているため類似度は低く なる. この手法では, 会話場は特定の音に基づいてまとまる ことになるので,1 つの大音量の音源があればその音を中心 にまとまり, 複数の音源があれば複数のグループにまとまる ことになる. このことにより, 音源の数や位置の変化により 判定結果も柔軟に変化することが可能になる. 例えば, 講演 会場では発表者の声を中心に聴衆全員が 1 つのまとまりと してとらえられることになるし,1 つの部屋であっても複数 の会話がなされていれば, そのそれぞれに関して分類するこ とも可能となる. 他の手法とは異なり, 音声の場合はオーバーラップしてい ることが考えられる. まず,BGM のかかった部屋の中での 会話のように入れ子構造になっていることが考えられる. こ の場合は, 同じ部屋で BGM を聞いているというゆるやかな コンテキストのもとで, 会話相手とのつながりを検出するこ とが望ましい. 入れ子の内側ではより強い音が発生している と考えられるので, パワーの強い周波数成分を比較すること で簡単に分離可能であると考えられる. この点については前 述した論文内で検討を行い, 適切にグルーピングできること を実験によって示した. 次に, 複数の会話グループが存在する場合が考えられる. ある会話に参加していて, 隣の会話も聞こえる状態であれば 音が重なり合っていることになる. この場合は, 通常は別の グループとして認識され, グループのメンバが別のグループ に移ったり, 複数のグループが 1 つのグループにまとまった りした際にはそれを検知することが望ましい. 本論文では, この複数の会話グループの分離について実験を行った. 3 3.1 実装 構成 NearMe はモバイル端末上で動作し, 複数の端末間で相 互通信しあうことで会話場を検出する. 通信に際しては, 無 線 LAN によるアドホックネットワークを利用し P2P ネッ トワークを構築するためインフラは不要である. また, ユー ザはモバイル端末を持つだけでよいため, 操作や装着による 不可は少なく, 自由に行動することができる. システム構成 は図 2 の通りである. 比較に用いる周波数帯は人の声の周波数帯と言われる 100Hz∼4000Hz で, これを 3901 次元のベクトルととらえ てコサイン類似度を求める. コサイン類似度は以下の式で求 めることができる. 3.3 時刻同期 同じ会話であっても比較する時刻が異なれば音はまったく 異なるので, マシン間の内蔵時計のズレの問題を解決しなけ ればならない. これを解決するため簡易な NTP を実装し た. 動作は以下の通りである. 受信側の処理 1. マシンの現在時刻を取得し,UDP により他のマシンへと 送信する 2. 受信時の時刻と送信された時刻情報との差 (t1 ) を求める 3. t1 とマシンの現在時刻を返信する 4. 受信した時刻情報と受信時刻の差 (t2 ) を求める 5. (t1 + t2 )/2 を時間差とする 6. 得られた時間差を相手のマシンにも送る 図 2: システム構成 3.2 このアルゴリズムは, 通信の上りと下りにかかる時間が理 論上一致することを前提としている. 各時点でのマシンの時 刻情報は 100ns 単位で取得する. この手法により得られる時 間差の誤差は 10ms 以下に抑えることができる. この程度の 差であればフーリエ変換を行う際の窓関数で吸収される. 会話場判定アルゴリズム 基本的な考え方は, 入力音声が似ていれば同じと判断する という事である. また, 入力が無音であれば会話が行われて いないのは自明であるため比較は行わない. 有音か無音か はマイク入力の音量を用いて判断を行う. 詳細なアルゴリ ズムは以下の通りである. 送信側の処理 1. 音声をバッファに蓄積しながら 3 秒待機する. 2. 1. で待った 3 秒の間に有音区間があれば 3. へ. なければ 1. へ戻る 3. 有音区間を最も長く含む連続区間 (1 秒間) の音声をフー リエ変換し, 時刻情報を付加してブロードキャストする. 送信後 1. へ戻る 受信側の処理 1. データ受信するまで待機する 2. 受信パケットのタイムスタンプを取得する. 3. スタンプと同時刻の受信側の音声が無音区間であれば 4. へ. 有音区間であれば 5. へ 4. 無音であれば話していない, すなわち異なると判断でき る.1. へ 5. 受信周波数情報と自分の周波数情報を比較する 6. 類似度が閾値以上であれば同じ, 未満であれば異なると 判定する.1. へ 4 実験 大勢の人間が集まる場合, 複数の会話グループを形成した り,1 つのグループにまとまったりというように会話場の形 は刻々と変化する.NearMe の主眼はこの変化に柔軟に対応 することである. 現在の構成でこのことが達成できているか を検証するため, 会話グループの構成が何度も変化するよう にタスクを設定して実験を行い, これらを正確に認識できる か検証を行った. 4.1 構成 研究室の備品を 2 部屋にどう配分するかという議題で,2 名で 1 組のチームを 2 つつくり, 合計 4 人でディスカッショ ンを行った. この備品の中にはあると便利なものや大型で邪 魔になるものが混在しているので, どちらの部屋に何を割 り当てるかが議論の対象になる. まず自分たちにどの備品が 必要なのかをチーム内で議論し, その後相手チームと交渉し ながら備品を分け合うというタスクを行った. 実験には机と ホワイトボードを利用し,1m の間隔をあけた 2 つの机に各 チームを配置した. 以下, 便宜的に 4 人の参加者を図 3 のよ うに A1 ,A2 ,B1 ,B2 と呼ぶ. A1 と A2 ,B1 と B2 がそれぞれ 同じチームである. この状態で, まず自分たちのチームにとって必要な備品と 不要な備品をチーム内で相談して決定してもらった. この際 に他のチームとの会話が発生しないように, チーム間には衝 立が設置されている. この段階では 2 つの会話場が存在する ことになり,NearMe では A1 と A2 , B1 と B2 がグループ 化されて出力されることが想定される. 次に, 全員が自分の席に座った状態から, 各チーム 1 人ず つ相手チームの前に出て交渉を行い,2 つの備品を手に入れ てホワイトボードに書き込み確定させるという作業を 4 回 表 1: グループ内での会話時の出力 図 3: 実験環境 行った. このタスクでは, 交渉者が相手チームの 2 人と話す ことになるので, 基本的には 3 人のグループとして認識され るはずである. 更に, 交渉に参加していないメンバも自分の 席から適宜意見を述べることも許可している. このメンバが 発言した時は 4 人の会話グループと判定されることが想定 される. この実験の様子は環境側に設置したビデオカメラによっ て録画した. このビデオを見ればどの時間帯にどのような会 話場が形成されていたかが分かるので, これを用いて分析を 行った. A1 の出力 (組み合わせ: 回数) A2 ,B1 ,B2 : 1 A2 ,B1 : 0 A2 ,B2 : 3 A2 : 11 B1 : 0 B2 : 0 A2 の出力 (組み合わせ: 回数) A1 ,B1 ,B2 : 1 A1 ,B1 : 0 A1 ,B2 : 1 A1 :21 B1 : 0 B2 : 0 B1 の出力 (組み合わせ: 回数) A1 ,A2 ,B2 : 2 A1 ,A2 : 2 A1 ,B2 : 0 A1 : 0 A2 : 0 B2 : 19 B2 の出力 (組み合わせ: 回数) A1 ,A2 ,B1 : 0 A1 ,A2 : 0 A1 ,B1 : 3 A1 : 0 A2 : 0 B1 : 14 B1 ,B2 : 0 B1 ,B2 : 0 A2 ,B2 : 0 A2 ,B1 : 1 この表は各行が各メンバの端末の NearMe の出力であり, 値は同じ会話場であると認識された回数である. チーム内で の会話であるため, 同じアルファベットのメンバーに関する 出力が正解となる. この表から分かるように, 基本的には同じグループのメン バと同じ会話場であると認識できている. 例えば B2 の場合, 同じグループの B1 と同じ会話場と認識されたのが 14 回, A1 , B1 と同じ会話場と認識されたのは 3 回, A2 , B1 とは 1 回であった. この判定の失敗は, 誰かが大きめの声を出し た際に全員が 1 つのグループに分類されてしまったり, チー ム全員が黙った瞬間に相手チームの声に影響されたりした こと等により生じたものである. 大きな声を出す場合, 本当 に全員に呼びかけている可能性も考えられるため, 音量だけ で判断することは難しい. これはその後の会話場の遷移まで 含めて判断するしか方法はないのではないかと考える. また メンバ A1 は声が大きかったため, 同じ会話場に A1 がいる と誤検出される頻度が他のメンバよりもかなり高い. - 全員での議論時について 図 4: 実験の様子 (相談時) 全員で議論していた際について述べる.A2 が交渉をして いる 5 分間に判定は 51 回行われた. その際の出力は表 2 の 通りである. 表 2: A2 の交渉時の出力 図 5: 実験の様子 (交渉時) 4.2 結果 A1 の出力 (組み合わせ: 回数) A2 ,B1 ,B2 : 1 A2 ,B1 : 2 A2 : 16 B1 : 1 A2 の出力 (組み合わせ: 回数) A1 ,B1 ,B2 : 11 A1 ,B1 : 11 A1 : 12 B1 : 14 B1 の出力 (組み合わせ: 回数) A1 ,A2 ,B2 : 2 A1 ,A2 : 2 A1 : 1 A2 : 22 B2 の出力 (組み合わせ: 回数) A1 ,A2 ,B1 : 7 A1 ,A2 : 10 A1 : 9 A2 : 24 A2 ,B2 : 8 B2 : 6 B1 ,B2 : 0 A1 ,B2 : 7 B2 : 20 B1 ,B2 : 0 A1 ,B2 : 0 B2 : 22 A2 ,B2 : 0 A1 ,B1 : 6 B1 : 16 A2 ,B1 : 20 - 2 グループでの会話時について 2 グループで会話が行われている際は A1 と A2 , B1 と B2 がグループ化されて出力されることが想定される.5 分 間の会話のうち,52 回の判定が行われた. 実際の出力は表 1 の通りである. A2 が交渉をしている際のデータでは, 綺麗には判断でき ていない. おおまかには A2 と B1 と B2 が頻繁にグループ 化されていることが分かるが, A2 , B1 , B2 のように 3 人で グループ化されたという出力は少ない. この結果をもたらした原因は 2 つ確認された. まずは議 論が活発化した際の発話のオーバーラップの問題, 続いて距 離による減衰の問題である. これらの現象が起こらなかった 場合はほぼ正確に判定することができていた. オーバーラッ プの問題は, 各メンバのマイク入力に対する影響は本人の装 着しているマイクが最も大きいため, 同時に発話すると大き く波形が異なってしまうことにより生じている. この問題は, 周波数情報全体を用いるのではなく, 複数の山として認識し 山ごとに比較することにより緩和できると考える. 減衰の問 題は A1 の発話に関して顕著である. 表を見ればわかるよう に,A1 の発話の及ぼす影響が相手によって全く異なってい る.A1 は A2 と 2 人のグループであると判定されることが 多く, B1 と B2 は A1 の発話の影響をあまり受けなかった. これは A1 と距離の近い A2 にはきちんと音が届いたが,A1 からの距離が遠い B1 や B2 の場合はマイクに入る前に減衰 してしまい非常に小さな音になってしまっているからであ ると考えられる. 人間はある程度遠くの音でも補完して聞 き取ることができるが, 通常のマイクは減衰の影響を直接受 けるためこのような現象が起こると考える. 複数のマイク を用いて補完することによりこの問題の緩和は可能であろ う. また, 音が全く届かないのではなく小さな音ではあるが 届いてはいるので, オーバーラップの問題と同様に山の形を 判断することによっても緩和が可能であると考えられる.A2 以外のメンバが交渉しているときの値もほぼ同様の傾向が 見られた. より相手チームから遠い側のメンバが交渉する際 は, 全員が相対的に近くにいるため,4 人のまとまりで検出さ れる回数が多くみられた. 以上の結果より, 複数グループを区別して認識することや, 複数のグループが 1 つのグループに変化したことは認識で きているが, さまざまな距離のメンバが混在する際の会話や, 発話のオーバーラップが生じた際の会話場の認識に誤差が 生じることが明らかになった. この点に関しては, 類似度の 計算を周波数の山ごとに分けて行うことで改善できると考 えられるので, 今後の課題としたい. 5 利用例 このシステムは, マイクを持ち, 通信可能な端末上であれ ば汎用的に利用できる. さまざまな用途が考えられるが, 現 在は PhotoChat[伊藤 2007] というシステムで利用されて いる. 「誰と会話している状況で」撮った写真であるのか, という タグを付与することができ, おおまかな状況を把握して検索 性を上げることができる. 6 おわりに 本論文では, 音環境の類似度を利用して会話場分布の推定 を行うシステム NearMe を用い, 動的な会話場の変化への 対応について検討した. 1m 程度の間隔があれば, 複数の会話場が存在しても区別 して認識できることや, 複数のグループが 1 つのグループに 変化したことが認識できるが, さまざまな距離のメンバが混 在する際の会話や, 発話のオーバーラップが生じた際の会話 場の認識には誤差が生じることが明らかになった. この点に 関しては, 類似度の計算を周波数の山ごとに分けて行うこと で改善できると考えられるので, 今後の課題としたい. 謝辞 本研究の一部は情報処理推進機構 (IPA) の未踏ソフト ウェア創造事業の補助を受けて行われた. References [中蔵 2008] [中蔵 2008] 中蔵聡哉, 角康之, 西田豊明: 音環 境の類似度に基づいた会話場の認識と利用, インタラ クション 2008, (2008). [Borovoy 1998] Richard Borovoy, Fred Martin, Sunil Vemuri, Mitchel Resnick, Brian Silverman, and Chris Hancock: Meme Tags and Community Mirrors: Moving from Conferences to Collaboration, Proceedings of the 1998 ACM conference on Computer supported cooperative work (CSCW-98), pp. 159∼ 168(1998). [中村 2007] 中村 嘉志, 並松 祐子, 宮崎 伸夫, 松尾 豊, 西村 拓一:複数の赤外線タグを用いた相対位置関係からのト ポロジカルな位置および方向の推定, 情報処理学会論 文誌, Vol.48, No.3, pp.1349-1360(2007). [岡本 2008] 岡本 昌之, 池谷 直紀, 西村 圭亮, 菊池 匡晃, 長 健太, 服部 正典, 坪井 創吾, 芦川 平: 端末音声の相互 相関に基づくアドホック会話の検出, 日本データベース 学会論文誌, Vol. 7, No. 1, pp.163-168(2008). [Hall 1966] E. T. Hall: Hidden Dimension, 1966. [伊藤 2007] 伊藤 惇, 角 康之, 久保田 秀和, 西田 豊明: 写真 と書き込みの実時間共有による学会参加者間のコミュニ ケーション支援, 人工知能学会第 21 回全国大会, 2B4-1, 2007 年 6 月宮崎. 図 6: PhotoChat の画面例 PhotoChat は写真撮影と手書きメモを融合させ,複数の ユーザ間で共有することで,グループ内での各ユーザの興 味への「気づき」の共有を加速し,その上での会話を促す ことを目的とするツールである. このシステムの抱える問 題点として, 写真が増えてきた際の整理の問題がある. 我々 のセンサを利用することで, 「近くに誰がいたか」ではなく
© Copyright 2026 Paperzz