Vol.2009-UBI-22 No.12 2009/5/15 情報処理学会研究報告 IPSJ SIG Technical Report 1. は じ め に 非言語マルチモーダルデータを用いた 会話構造の分析のための環境構築 人と人とが会話を行うとき,言葉の内容以外にも相手に情報を伝えるものはたくさんあ る.それには,ジェスチャや,視線を向き,会話中の間の取り方などが含まれる.これら の会話における非言語情報を分類,認識することは難しい.しかし,コンピュータが非言 矢 野 正 角 治†1 中 田 康 之†1 志†1 篤 福 間 良 西 田 豊 明†1 平†1,∗1 語情報を理解できるようになれば,人の動きから会話における重要な場面を自動的に抽出 することや,ロボットに応用して人がするのと同じようなコミュニケーションが可能とな ると考える.これを達成するために,我々の研究室ではインタラクションのデータを収録 し,分析するための環境構築に努めてきた.分析環境として,我々の研究室で開発してき 我々は.会話における人のインタラクションを理解するために,インタラクション 状況のデータを収録し,分析を行っている.今までの研究では,映像や音声などのデー タを同期して扱い,インタラクションを解釈する環境を構築してきた.本研究では, それらに加えてモーションデータや視線方向といった,コンピュータが値を処理でき るデータを取り扱い,インタラクションの状況を可視化するための機能を実装した. 加えて,収録したデータをその分析環境を用いて分析を行い,その分析環境が有効で あることを示した. た iCorpusStudio1) がある.この iCorpusStudio を用いることで,収録したデータを同期 して再生しつつデータの解釈をラベルとして記述でき,さらに解釈ラベルに演算を施して高 度な解釈を行える.今回,人の動きについて有用な情報を持つモーションデータをより人や コンピュータに分かりやすい形で提示することができ,そこからデータを抽出してインタラ クションの解釈に役立てるための環境を整えた. 2. 会話的インタラクションの計測と解釈 Environment for analysis of conversational structure with non-verbal multimodal data インタラクションを分析する上で必要な,データ計測の環境と,データの解釈のモデルに ついて述べる. ,†1 Masaharu Yano Atsushi Nakata Ryohei Fukuma ,†1,∗1 Yasuyuki Sumi and Toyoaki Nishida †1 ,†1 2.1 会話的インタラクションの計測 †1 我々の研究室ではインタラクション時における様々なモダリティデータを収集するための 環境である,IMADE(Interaction Measurement, Analysis and Design Environment) ルー ム2) を構築してきた. IMADE ルームは図 1 のような環境であり,以下のようなデータを To understand interactions in conversations, we record and analyze data of interaction state. We have been developing the environment for handling video and sound data in synchronization, and for annotating interactions. In this study, we implemented the functions for visualizing interaction states with handling such machine-readable data as motion data and sight data. In addition, We analyze some recorded data with the analysis environment to show that the environment is effective. 取得するための設備及び装置が備わっている. • 多方向からの環境カメラ • 被験者ごとの発話を取得するヘッドウォーンマイク • 被験者の体の動きや,環境内の対象物の位置を取得するモーションキャプチャ • 被験者の視線の動きをとらえる視線追跡装置 環境カメラによる映像は,インタラクション時における人の動きを実際に目で見てアノテー ションを人手で行ったり,計算によって求められたアノテーションが妥当であるかを確認す †1 京都大学 Kyoto University ∗1 現在,奈良先端科学技術大学院大学 Presently with Nara Institute of Science and Technology 1 c 2009 Information Processing Society of Japan ⃝ Vol.2009-UBI-22 No.12 2009/5/15 情報処理学会研究報告 IPSJ SIG Technical Report Conversation area transition leader leader timeline leader leader In te raction Dominant level transition Co n text層 text層 In te raction E ve nt層 nt 層 joint attention In te raction gaze talk about speech pointing Human Primitive層 Primitive 層 構造 的解 釈の 積み 上げ Raw D ata 層 Object Motion data Wave data 図 2 インタラクション・コーパスの分析モデル Fig. 2 Analysis model of Intercation Corpus 図 1 インタラクションデータ収録環境 (左) とモダリティ記録装置装着例 (右) Fig. 1 Left: The environment for recording interactions. Right: Example of equipment of sensors るなどの目的で用いられる.ヘッドウォーンマイクは,会話内容の確認に加えて,各人の発 データに対し共通部分取得などの演算を行うことで構築される.複数の者が同一の物を注視 話の有無の自動検出に用いられたりする.モーションキャプチャによる三次元データは,人 する共同注視や,同一のものについて発話し合っている状況などが含まれる.最上位層はさ の動きの推移を見たり,コンピュータに人の動きを計算させたりするために用いる.仕組み らにインタラクションの流れを考慮に入れたもので,会話場のリーダーの交代や,会話場へ としては,対象物にモーションマーカーを装着し,複数のカメラがマーカーを認識して計算 の参入,離脱などの会話状況の移り変わりの層である. によって空間座標を求めるというものである.視線追跡のデータは,主にモーションデータ 3. インタラクションデータの分析環境 と組み合わせて用いられ,視線の空間内の向きを求めることができる. 収録したインタラクションデータを閲覧し,インタラクションの分析を行う環境として, これらのセンサに加えて,必要に応じてセンサを持ち込んで利用することもできる. 2.2 インタラクション・コーパスに基づいた会話構造分析 我々の研究室で開発を行っている iCorpusStudio についてまず述べる.iCorpusStudio で インタラクション中の各モダリティデータを解析に用いる上で,記録されたデータを構造 は映像・音声・モーションデータなどの収録したデータを同期再生することができ,また, 化し,整理された形で活用できるように.我々の研究室では図 2 のようなデータ解釈の構 ラベル付けによるアノテーションが可能となっている.主にデータを閲覧しながら人手でラ 造化を行っている. ベル付けを行うものであるが,いくつかの自動化が行われていて,音声のパワーによる発話 データの構造は解釈のステップにより 4 層に分かれる.最下層はセンサにより収録され の有無の自動ラベル付けなどが可能となっている.加えて,作成されたラベルに対し組み合 たデータそのもので,データの解釈はなされていない.次の層は,生データからインタラク わせてより抽象的な解釈のラベルを生成したり,ノイズ除去や適合率・再現率の算出などの ションにおける行為を個別に切り出したプリミティブ層で,発話や注視などが分類される. 演算が可能となっている. iCorpusStudio には収録したモーションデータを点の集まりとして表示する機能がある 3 番目の層は,プリミティブデータを他者との関係の中で見たもので,複数のプリミティブ 2 c 2009 Information Processing Society of Japan ⃝ Vol.2009-UBI-22 No.12 2009/5/15 情報処理学会研究報告 IPSJ SIG Technical Report 多角形 作成したモデルの3D表示 ベクトルデータの表示 モーションデータ のモデル化 数値データ、 ラベルデータの 処理 頭部,首の 点から球 環境カメラの同期再生 データ 抽出 肩の点から 円筒 手の周り に球 図 4 モーションデータの読み込みとモデル化例 Fig. 4 View of loaded motion data and example of modeling 数値データや ラベルデータの同期表示 Fig. 3 視線映像の同期再生 音声の同期再生 の点のうちいくつかを基準として基本的なオブジェクトを作成することによって行われる. 図 3 インタラクション分析環境 The environment for analysis of interations オブジェクトとしては球,円筒,平面がある.オブジェクトの作成例としては,頭部に装着 したモーションマーカーから頭部を近似した球を作成したり,肩や背中のマーカーから胴部 を近似した円柱を作成したりなどがある.基準となる点が必要な位置にない場合は,複数 の点を基準点として比率を指定することで仮想点を作成できる.作成したモデルは動画な が,点から人の動きなどを見出すのは難しく,またモーションデータから特定の値を抽出す る機能に乏しい.そこで今回,モーションデータを分かりやすく可視化し,さらに値を抽出 どと同様に同期再生がなされる. モーションデータからモデル化を行った例を図 4 に示す. してラベルデータと同様に扱える環境を構築した.この環境は iCorpusStudio と協調して 左の図は収録したモーションマーカーの座標を 3D 空間内に配置したものを表示している. 動作する. 右の図はモデル化した例を示したものである.この例では,人の頭部,胴部および腕のモデ 3.1 構築した新しい環境 ル化に加え,環境内の対象物を面でモデル化している. 新しい環境の機能の分類としては以下の三つが挙げられる 3.1.1.1 視線データの可視化 • モーションセンサにより得られた点データから 3D モデルを作成. モーションデータに加えて,視線追跡装置から求めた視線ベクトルを 3D 空間上にオブ • 3D モデルから数値データ・ラベルデータを抽出. ジェクトとして追加することができる.これにより,視線情報を分かりやすく表示したり, • 数値データとラベルデータの同期表示・相互演算. 視線のベクトルから人が注視しているものを計算により求めたりすることができる. 図 5 図 3 に環境を表示した例を示す. 以下では機能ごとに詳しく述べる. は視線ベクトルを読み込んだ例で,左端は 3D 空間上に視線ベクトルが表示されている様子 3.1.1 モーションデータのモデル化 を示す.右の三つは,視線ベクトルを 3D 空間上のカメラとして投影したものと,視線追跡 この環境では,収録したモーションデータを人に分かりやすいように表示し,また,デー 装置が記録した一人称映像を並べたものである.これらを比較することで視線ベクトルの計 タの抽出に使えるようにモデル化を行うことができる.モーションデータは各部位に付けら 算の妥当性を量ることができる. れたモーションマーカーを表す点の集合として読み込まれる,データのモデル化は,これら 3 c 2009 Information Processing Society of Japan ⃝ Vol.2009-UBI-22 No.12 2009/5/15 情報処理学会研究報告 IPSJ SIG Technical Report で求めることができる. ベクトルの相対座標・長さの総和 ベクトルの長さを数値データ化できることにより,例え ば,2 点間のベクトル作成機能と組み合わせることで二人の被験者がどれだけ離れてい るかをグラフ化することができる. 二つのベクトルの角度 二つのベクトルデータに対して角度を算出することができる.これ により,2 者の体の向きの角度差を求めたり,人の関節の角度などを求めたりすること ができる. 一方,抽出できるラベルデータとしては,ベクトルの衝突先のラベルデータを作成でき る.あるベクトルがほかのオブジェクトに衝突する点を求めると同時に,どのオブジェクト に衝突したかをラベルデータとして抽出する.視線ベクトルにこれを用いることで,注視し 図 5 視線ベクトルと視線追跡の可視化 Fig. 5 Visualization of gaze vector and gaze trace ている対象をラベル化することができる. 3.1.3 数値・ラベルの演算 数値データとラベルデータに対して演算を行うことができる. 数値データに閾値とラベル名をいくつか定めることで,各範囲の値を持つ時区間にラベル が貼られ,ラベルデータとして扱うことができる. 数値データ単体もしくは複数の数値データ間で演算を行える.単体演算としては,データ の平滑化,微分,多次元数値データの絶対値取得および正規化がある.データの平滑化は. ノイズのあるデータに対してノイズを除去することができる.微分は主に座標データに用い られ,座標変化や角度変化を数値データとして求めることができる.絶対値取得は,座標変 化から速さを取得するといったことに用いられる.正規化は,ベクトルから向きのみを抽出 したい場合に用いる.複数データに対する演算としては,各時点の四則演算や最大・最小取 図 6 数値データとラベルデータの表示インターフェース Fig. 6 The visual interface for numeric data and label data 得などがある.これらの演算により.個々のデータを組み合わせてより複雑な数値データを 抽出することができる. 3.1.2 モーションデータから数値・ラベルを抽出 ラベルデータの演算としては,ラベル名の変更,ラベルデータ間の和・積など単純なもの モーションデータおよび作成したモデルから,さまざまな数値データやラベルデータを抽 のほか,一定長以下のラベルの除去,前後のラベルの結合,ラベル境界の抽出,ラベルの拡 出することができる.抽出した数値データは時間を横軸,値を縦軸としてグラフとして表 縮などが可能である. 示される.ラベルデータも時間を横軸として,各時点のラベルが表示される.数値データ・ 数値データとラベルデータを組み合わせた演算も提供している.あるラベルが付与された ラベルデータは,図 6 のように同一インターフェース上で同期して表示される. 部分の数値データを取り出すことにより,そのラベル下での数値データの平均を出すことが 抽出できる主な数値データには,以下のようなものがある. 可能となっている.また,ラベルごとの数値データのヒストグラムを取得することができ, 点の座標 各マーカーの座標をグラフとして見ることにより,被験者などが大きく動いた時 ラベル別の値の分布を確認し,数値データの閾値を設ける助けとなる. 点などを見つけだすことができる.また,座標変化などを微分演算と組み合わせること 4 c 2009 Information Processing Society of Japan ⃝ Vol.2009-UBI-22 No.12 2009/5/15 情報処理学会研究報告 IPSJ SIG Technical Report 図 7 収録環境のパネルとセンサの配置 Fig. 7 Layout of panels and sensors in the recording environment 図 8 立ち話時とパネル参照時の三者のなす角度の違い Fig. 8 Difference between the total angle in stand talking and that in viewing panels 4. 会話構造分析の例 4.2.1 状況の自動判別と状況ごとの角度差の算出 構築した環境がインタラクションの分析を行うのに有効であることを示すために.データ まず,各時間の状況が立ち話であるか,パネル参照であるかをモーションデータを用いて を収録して構築した環境を用いていくつかの分析を行った. 分類した.被験者は 3 名なので,立ち話時は三者がなす三角形の内側を見ることが多く,パ 4.1 分析対象データの収録 ネルを見るときは外側を見ることが多いと考えられる.三角形の内側を見るか外側を見るか 2.1 で述べた実験環境でデータ収録を行った. 実験内容としては,3 名の被験者が図が描 によって,三角形の各辺 (被験者間の頭部を結ぶベクトル) と各被験者の頭部方向の為す角 かれた 6 枚のパネルを動き回りながら自由に閲覧,会話を行うというものである.図 7 に の和が異なる (図 8).これによって立ち話であるかパネル参照時であるかの状況を分類し パネルとセンサ類の配置を示した.被験者には座標を取得するためのモーションマーカーを た.そして,求められた状況ごとに頭部と視線の角度の平均などを求めた. 4.2.2 角度算出過程 各部位に貼り付け,音声を収録するためのヘッドウォーンマイクと,視線方向を取得するた めの視線追跡装置を装着させた.6 枚のパネルは閲覧が容易なように,かつモーションデー 角度を求める過程をまとめると,図 9 のようになる.1 から 5 までのブロックが値を求め タが取得できるようにボード上に斜めに配置した.パネル内の図には洛中洛外図と呼ばれる る過程であり,各黒丸が分析環境で行う一つ一つの処理である.図 9 に沿って,処理の過程 京都市内の歴史絵図を用いた. を以下に示す. 4.2 頭部方向による視線方向の近似 (1) インタラクションの状況を把握する上で人の視線は多くの情報を持っていると考えられ 被験者ごとに頭部のモデルの球の中心を求め,それらを結ぶことによって被験者同士 のベクトルが作られる.そのベクトルと被験者ごとの頭部を選択して角度を求める. る.視線追跡装置によって人の視線を記録することができるが,据え置き型では人が自由に (2) 動き回る場合に対応できず,装着型は現状では装着の負担がかかるものである.そのため, それを 6 回 (3 被験者の頭部ベクトル × 残り 2 被験者へのベクトル) 繰り返し,各角 度の総和を求める. 装置を用いずに視線が推測できるならば負担を減らすことができる.視線は頭部の向きに伴 (3) うものであるから,頭部方向と視線方向がどれだけずれることがあるかを測ることで,頭部 グラフの値と実際の様子を比較して,閾値を定める.閾値は,360 度未満を立ち話時, それ以上をパネル参照時とした.閾値を定めると,同時にラベルが作成される. 方向を視線方向としてみなした時の有効性を推し量ることができる. そこで今回の分析では,状況ごとに視線の向きの近似がどの程度有効であるかを調べるた めに,被験者が立ち話をしている状況と,被験者がパネルを見ている状況とで頭部方向と視 (4) ラベルとは別に,被験者ごとに頭部ベクトルと視線ベクトルの角度を求める. (5) ブロック 3 で作成したラベルの内容ごとに,ブロック 4 で求めた角度のグラフを切 り出し,グラフごとに統計データを出力する. 線方向のずれを測った. 5 c 2009 Information Processing Society of Japan ⃝ Vol.2009-UBI-22 No.12 2009/5/15 情報処理学会研究報告 IPSJ SIG Technical Report 位置関係と頭部向きの角度 1 頭部ベクトル ●被験者同士を 結ぶベクトル ●角度算出 2 3 頭部方向と視線方向の角度 4 視線ベクトル 頭部ベクトル た グラフの値と実際の位置関係 ●角度算出 ●統計データの出力 ●数値データの切り出し ●各グラフの総和 ●閾値決定,ラベル化 立ち話 パネル参照 5 閾値 a) 視線を受ける指差し パネル参照 状況のラベル b) 指差しベクトルと視線ベクトル 図 10 指差しと視線 Fig. 10 Pointing and gazing 立ち話 4.3 視線を用いた指差し検出の精度向上 図 9 状況ごとの角度差の値の算出過程 Fig. 9 Processes of calculate angles of each situation 会話の中ではしばしば指差しが使われる.指差しは会話の中で指しているものの実体を示 すもので会話の内容の理解に役立つものである.場にないものに対する指さしや,広い範囲 を指す指差しは機械的に判別することは難しいが,実体を指す指差しはモーションデータか 4.2.3 状況ごとの角度差の比較 Table 1 ら自動的に検出できるのではないかと考えられる. 具体的には,指差しをある点からある方向を指すベクトルとみなして,そのベクトルの先 表 1 状況ごとの視線の頭部方向の近似による視線ベクトルとの角度誤差の比較 Comparison of errors of angle between head direction and gaze direction for each situation 被験者 Subject1 Subject2 Subject3 立ち話状況 平均 [度] 標準偏差 [度] 11.40 17.52 10.56 3.64 5.60 4.90 に何があるかを計算によって求めることができるだろう.けれども実際に求めてみると,そ のような単純な計算ではエラーを多く含むものとなった.これは,指差し以外にも人の腕は パネル参照の状況 平均 [度] 標準偏差 [度] 9.14 14.85 7.89 動くものであるし,指差し行為の途中でほかのものを指すこともあったためだと思われる. 3.99 7.05 3.95 そこで,指差しとは人に物を指し示すものであるから,指差しをされている対象は,図 10a) のように,指差しを行う人物もしくは周辺の人物に見られるものであると考えて,指差し先 の対象が注視されているかを指差し行為の検出精度向上に役立たせることを試みた. 4.3.1 指差し検出方法 被験者ごと・状況ごとに角度差の平均および標準偏差を求めたものを表 1 にまとめた.被 験者間を見ると,どちらの状況でも被験者ごとの角度差の平均や標準偏差のばらつきが大き まず,指差しをベクトルとみなして計算させるために指差しベクトルを求める.指差しベ く,人の目の動きは個人差があることが分かる. クトルは,腕の向きを用いたものと,目から指への向きを用いたものの両方を求めて比較し 状況別にみると,パネルを参照している状況下の方が立ち話を行っている状況と比べて角 た (図 10b).指差し先は,指差しベクトルと,モデル化された環境内の対象物との交点を指 度差の平均が小さくなっていることが分かる.これは,立ち話状況では,各被験者が残りの 差し先の点とした. 二人の被験者間で目線を移動させることが多く,一方で,パネルを見ている状況では,比較 次に,視線の対象の取得は,視線追跡装置から求めた視線ベクトルを用いた.指差し先が 的一定の物を注視したり.頭部とともに視線の移動をすることが多いことによるものだろう. 注視されているかの判定は,視線ベクトルと指差し先の距離が 500mm 以下である場合に注 視されているとした.検出された指差しの中で,指差している場所を注視しているに人数 6 c 2009 Information Processing Society of Japan ⃝ Vol.2009-UBI-22 No.12 2009/5/15 情報処理学会研究報告 IPSJ SIG Technical Report 表 2 被験者ごとの指差し回数 Table 2 The number of pointings 被験者 実際の指差しの回数 視点からの指差し検出の検出数 肘からの指差し検出の検出数 100 90 80 70 60 % 50 40 30 20 10 0 Subject1 24 32 50 Subject2 21 17 46 会話場 Subject3 15 31 20 受け手 話し手 傍参与者 図 12 参与役割 Fig. 12 Participation role 視点/再現率 肘/再現率 視点/適合率 肘/適合率 以上 0 以上 2以上 閾値とする注視数 1 図 13 発話量から話し手を定める Fig. 13 Determination of the speaker with the amount of speech は,適合率の上昇も抑え気味で,再現率が大きく下がっている. 図 11 をもとに肘の場合と視点の場合とを比較すると,適合率・再現率ともに視点の場合 の方が高いことが分かる.また,再現率を見ると,最大でも 60 %程度でしかないが,これ は対象物と離れている場合の指差しを検出できないことが多かったためである. 3 4.4 会話における役割の推定 会話参加者の会話における参与役割として,話し手,受け手,傍参与者とがある3) .話し 図 11 注視人数の閾値の変化による指差し検出の適合率・再現率の推移 Fig. 11 Transitions of precision and recall rate for pointing detection 手とは現在中心的に発話を行っている者であり,受け手は発話の主な対象として話し手に意 識されている者であり,傍参与者は会話の参加者としては認知されているが主対象でない者 である (図 12). が一定数以下のものを除去することで,指差し検出の精度がどのように変化するかを確認 した. この三つの役割の中で,受け手と傍参与者はどちらも聞き手側であるが,受け手は傍参与 4.3.2 検出した指差しと正解データとの比較 者と比べて発話がしやすいと言われている.以下では,発話と視線のデータから計算により 指差し検出の精度を求める上で,実際に指差しをしているかを環境カメラの映像と音声の 参与役割を推定し,さらに発話の頻度を役割ごとに求めた. 4.4.1 参与役割の推定 内容から確認し,正解データとした.今回の収録データでは総計 60 回の指差しが確認され た.指差し行為の実際の回数および手法ごとの検出数を被験者別に表 2 にまとめた. 表 2 まず,参与役割を近似的に求めた.ここでは,各被験者の発話の音のパワーから発話の有 を見ると,全体の傾向として肘からの指差し検出では比較的検出数が多くなっている.これ 無を求め,さらに有無を 1 と 0 の値とみてガウシアンにより時間平均をとり,そのなかで は,腕を上げたときに何かを指している状態になることが多いためだと考えられる. 時間当たりの発話量が 0.25 以上の者を話し手とした.複数の場合はもっとも発話量が多い さらに,注視人数の閾値の変化による検出した指差しの適合率・再現率の推移を図 11 に 者とした.受け手は,話し手から時間当たり一定以上の注視を受けているものを受け手とし まとめた.このデータは被験者を区別せずに集計したものである. た.その他を傍参与者とした. 4.4.2 参与役割ごとの時間と発話数 図 11 から,閾値 0 と閾値 1 を比べると,再現率がほとんど変わらないのに対し,適合率 は閾値 1 の方が大きく上がっていることが分かる.これは,指差し時には少なくとも一人以 被験者ごとに各役割であった時間の合計と,発話数を求めた (表 3).各役割の時間や発話 上が指差し先を注視することが多いためだと考えられる.閾値 1 と閾値 2 の間では,適合 の総数は被験者ごとに大きく異なった.注目すべき点として,時間当たりの発話数をみると 率は同様の傾向で上がっているが,再現率が多少大きく下がっている.閾値 2 と閾値 3 で いずれの被験者も受け手の場合のほうが傍参与者である場合と比べて時間当たりの発話数 7 c 2009 Information Processing Society of Japan ⃝ Vol.2009-UBI-22 No.12 2009/5/15 情報処理学会研究報告 IPSJ SIG Technical Report 表 3 被験者ごと・参与役割ごとの発話数の比較 Table 3 Comparison of speech counts by subject and participation role 被験者 参与役割 役割時間合計 [秒] 発話数 時間当たり発話数 Subject1 話し手 受け手 傍参与者 Subject2 話し手 受け手 傍参与者 Subject3 話し手 受け手 傍参与者 676.40 264.37 232.52 344.60 433.97 408.61 135.07 213.23 818.66 287 89 69 183 128 97 65 44 113 0.424 0.337 0.297 0.531 0.295 0.237 0.481 0.206 0.138 表 4 話者交替時に誰に視線を向けているか Table 4 Whom each subject gazes at when a speaker changes 視線元 視線先 現話者 次話者 非話者 現話者 次話者 非話者 誰も見ていない 38 14 45 34 9 54 25 15 57 5. お わ り に 本研究発表では,非言語マルチモーダルデータを分析し,会話的インタラクションを理解 が多いことが分かる.この結果から,受け手,すなわち話し手が視線を向ける相手は,視線 するための環境を提案した.最初に,インタラクションのデータを収録する環境と,分析す が向けられない相手より多く発話をし得るということが分かる. るための構造モデルについて述べた.次に,収録された会話における人の動き情報を可視化 4.5 話者交替時における視線の向き し,数値データやラベルデータを統合して扱いインタラクションの解釈を行うために構築し 三者会話においては,先行研究にて話者交替時や話者継続時の会話参加者の視線の動きに た環境について述べた.最後に,構築した新しい環境でいくつかの分析を行い,インタラク ついて述べられている4) .その中では,話し手と次の話し手は話者交替時にお互いに視線を ションの分析に有効であることを示した. 向けていることが多く,残った者は話し手か次の話し手かに同程度の割合で視線が向けられ 今後の発展としては,モーションデータのモデル化やデータの演算の過程を記録し,ほか ていることが多いという. の収録データに適用できるようにすることといった,分析作業の効率化を図りたいと考える. 4.4.1 で得られた話し手の分類の結果を用いて,会話参加者の視線が話者交替時の直前 300 謝辞 本研究は,文部科学省科学研究費補助金「情報爆発時代に向けた新しい IT 基盤技 ミリ秒時にどちらを向いているかを現話者・次話者・非話者ごとに数えた.現話者,次話者 術の研究」の一環で実施された.本研究を進める上で,会話分析について様々な助言を頂い はそれぞれある時間における現在の話者,話者交替後の話者を指す.非話者は,話者交替の た坊農真弓氏,およびデータ収録,分析に多大な助力を頂いた勝木弘氏,中沢拓磨氏に感謝 前後で発話を行っていない者を指す.それら話者であるかどうかの分類ごとに話者交替時の いたします. 視線の方向を数え上げた. 参 4.5.1 話者交替時の会話参加者の視線 考 文 献 1) 來嶋宏幸,坊農真弓,角 康之,西田豊明:マルチモーダルインタラクション分析の ためのコーパス環境構築,情報処理学会研究報告(ヒューマンコンピュータインタラク ション), Vol.2007, No.99 (2007). 2) 角 康之,西田豊明,坊農真弓,來嶋宏幸:IMADE: 会話 の 構造理解 とコンテンツ 化 のための実世界インタラクション研究基盤,情報処理, Vol.49, No.8, p.945 (2008). 3) 坊農真弓,鈴木紀子,片桐恭弘:多人数会話における参与構造分析,認知科学,Vol.11, No.3, pp.214–227 (2004). 4) 榎本美香,伝 康晴:人会話における参与役割の交替に関わる非言語行動の分析,技 術報告,人工知能学会研究会資料 SIG-SLUD-A301-02 (2003). 数え上げた結果は,表 4 のようになった. 結果を比較すると,誰も見ていない が多くなっ ているが,これは自動検出データを用いたために,注視対象があるにもかかわらず,データ がない場合やパネルを見ていると検出された場合が生じたためだと考えられる.それ以外の 結果は,先行研究と同様に,現話者と次話者に関してはやはりお互いを見ていることが多い という結果になっている.非話者に関しても,誰も見ていないことが多いが,現話者と次話 者のどちらをも見ているという結果になった. 8 c 2009 Information Processing Society of Japan ⃝
© Copyright 2026 Paperzz