映像シーンに対する視線パターンの依存性の 観察者間比較

社団法人 電子情報通信学会
THE INSTITUTE OF ELECTRONICS,
INFORMATION AND COMMUNICATION ENGINEERS
信学技報
TECHNICAL REPORT OF IEICE.
映像シーンに対する視線パターンの依存性の
観察者間比較に基づく熟練者特有の注視行動の抽出
∼ サッカー試合におけるコーチングを例として ∼
岩月
厚†
平山 高嗣†,†† 森田 純哉††† 間瀬
健二†
† 名古屋大学 大学院情報科学研究科
†† 名古屋大学 実世界データ循環学リーダー人材養成プログラム
††† 名古屋大学 未来社会創造機構
〒 464-8603 愛知県名古屋市千種区不老町
E-mail: {[email protected]., hirayama@, [email protected]., mase@}is.nagoya-u.ac.jp
あらまし
注視行動は,観察者の知識や経験により異なる.暗黙知といえる観察技能の経験則を形式化できれば,熟
練者の優れた見方を他人に伝承したり,無意識に体得した自身の見方を自覚させたりすることができる.本報告では,
映像シーンに対する視線パターンの依存性を熟練者と未熟者の間で比較することで,熟練者に特有な注視行動を抽出
する手法を提案する.注視行動がどのような状況変化の中で生じたかを定量的に分析するために,映像と視線データ
それぞれに,短時間のダイナミクスを考慮した教師なしクラスタリングを適用し,映像シーンと視線パターンを分類
する.そして,映像シーンごとに表出された視線パターンの独自性と表出頻度に注目することで,映像シーンに対す
る依存性を分析する.
キーワード
注視行動,熟練者,動的対象の観察,データ駆動型解析,階層型クラスタリング,逆文書頻度
Extraction of Skilled Gaze Behaviors Based on a Comparison
between Viewers in Dependency of Gaze Patterns on Video Scene
– In the Case of Coaching in a Soccer Game –
Atsushi IWATSUKI† , Takatsugu HIRAYAMA†,†† , Junya MORITA††† , and Kenji MASE†
† Graduate School of Information Science, Nagoya University
†† Graduate Program for Real-World Data Circulation Leaders, Nagoya University
††† Institute of Innovation for Future Society, Nagoya University
Furou-cho, Chikusa-ku, Nagoya-shi, Aichi, 464-8603 Japan
E-mail: {[email protected]., hirayama@, [email protected]., mase@}is.nagoya-u.ac.jp
Abstract Eye gaze behavior depends on knowledge and experience of video viewer. In this paper, we propose a method
to extract distinctive gaze behaviors of an expert based on a comparison between viewers in dependency of gaze patterns on
video scene. To quantitatively analyze how the expert shows the behaviors in the scene, video and gaze sequences are classified into video scenes and gaze patterns by an unsupervised clustering focusing on short-time dynamics. Then, we analyze the
dependency based on uniqueness and frequency of gaze pattens for each video scene.
Key words eye gaze behavior, expert, dynamic object observation, data-driven analysis, hierarchical clustering, IDF
1. は じ め に
観察対象が動的な場合,熟練者と未熟者の注視行動の違いはよ
り顕著に表れると考えられる.それは,時々刻々変化する状況
ものごとを観察する際,いつ,どこを,どのように注目する
を把握し,ときに予測しつつ効率的に観察する必要があるため
かといった注視行動は,観察者の知識や経験により異なる [1].
である.暗黙知といえる観察技能の経験則を形式化することが
—1—
できれば,熟練者の優れた見方を他人に伝承したり,無意識に
体得した自身の見方を自覚させたりすることができ,その視覚
的認知に伴う行動の熟達をも促すと考える.本報告では,映像
に対する観察において,熟練者のコツの表れと考えられる未熟
者にはない注視行動を抽出するデータ解析手法を提案する.
動的な対象の観察技能について,スポーツを対象として分析
が盛んに行われている.張ら [2] は,熟練したサッカー選手と
未熟者に,ボールが蹴り出される前からその直後までの映像を
視線パターン分類
映像シーン分類
移動フローの算出
映像の領域分割
部分領域ごとに
移動フローヒストグラム生成
視線座標時系列の分割
映像シーンの
切り替わり
全ての部分時系列を
移動フローヒストグラムを結合し
DTWクラスタリング
特徴ベクトルを算出
特徴ベクトルをクラスタリング
各部分時系列に
視線パターンID付与
各時区間に映像シーンのクラスID付与
見せてパス方向を予測させた.石垣ら [3] は,バレーボールの試
依存性の観察者間比較
合映像を,指導者と選手に観察させ,視線運動と映像の関連性
熟練者の独自性尺度と表出頻度尺度
が共に高い視線パターンを探す
を定性的に分析した.また我々も,指導熟練者と未熟者にサッ
熟練者に特有な注視行動として抽出
カーの試合映像を観察させ,映像上の動的対象の座標と視線座
標との関連性を分析してきた.まず,注視点の周辺に中心視領
図1
提案手法の概略
域を定義し,各対象が中心視領域に含まれる時間割合を,ボー
ルの位置に基づいて分類した試合のコンテキストごとに分析し
た [4].また,熟練者の視線が未熟者の視線から離れている時区
間に着目し,その直前に見ていた場所から区間中に最も長く見
ていた場所への変化を分析した [5].
これらの研究は,適用するデータに合わせ,
「観察者は基本的
にボールを見るだろう」「注視行動はボールの位置に依存する
コンテキストの影響を受けているだろう」というような仮説を
基に,ヒューリスティックな手法設計を行っている.仮説を基
にした分析手法では,仮説を確かめること以上の発見が得られ
にくい.熟練者特有の注視行動を網羅的に抽出するためには,
仮説に基づいたトップダウンな分析だけではなく,データに基
づいたボトムアップな分析が必要であると考えられる.
視線と映像の時系列データを人手で分割・分類することは困
難である.そこで,教師なしクラスタリングを導入し,映像
シーンと視線パターンそれぞれを分類する.動的な対象への観
察はその対象のコンテキストに対応して行われる [6] ため,長
時間の映像を複数人が観察したとき,外環境ダイナミクスと視
線ダイナミクスの多様な対応関係が膨大に発生することが予想
される.本研究では,熟練者に特有な注視行動として,熟練者
が頻繁に表出し未熟者はあまり表出しない視線パターンをデー
タマイニング的に特定する.このようなデータ駆動型アプロー
チを設計することでボトムアップな分析を実現する.
(b) 各観察者の映像上の視線座標時系列を,映像の分節点(映
像シーンの切り替わり時刻)で分割し,多数の部分時系列
を生成する.そして,全ての観察者の部分時系列をクラス
タリングする.
(視線パターン分類,2.2 節)
(c) 映像シーンごとに,視線パターン群の中で熟練者の表出頻
度と独自性が共に高い視線パターンを,熟練者に特有の注
視行動として抽出する.
(依存性の観察者間比較,2.3 節)
時系列データベースから特徴的な部分時系列パターンを抽出
する先行研究 [7] において,時系列データベース内の大多数の
時系列データに頻出する部分時系列が典型パターン,少数の時
系列データにのみ頻出するものが特徴パターンとみなされてい
る.本研究では,これに倣い,映像シーンごとに視線座標系列
から熟練者に特有とみなせる特徴的な部分時系列パターンを抽
出する.
2. 1 映像シーン分類
映像を短い時区間に分割し,その時区間単位で記号化された
シーンの系列として表現するために,各時刻における動的対
象の移動速度から算出する移動フローヒストグラムに基づい
て,各時区間を分類する.映像内に映る動的対象の集合を O と
し,各対象 o ∈ O に対して座標時系列 po を与える.時刻 t に
おける対象 o の座標を po (t) = (xo (t), yo (t)) とする.各対象につ
いて,時刻 t における速さ vo (t) および移動方向 θo (t) を,時刻 t
2. 提 案 手 法
と t − ∆t における座標の差から求める.
映像シーンに対する視線パターンの依存性を,熟練者と未熟
れの部分領域 s (s = 1, . . . , S ) において,領域内に存在する
次に,映像を空間的に S 個の部分領域に分割する.それぞ
者の間で比較することで,熟練者に特有な注視行動を抽出する
手法を提案する.注視行動がどのような状況変化の中で生じた
かを定量的に分析するために,映像と視線データそれぞれに短
時間のダイナミクスを考慮した教師なしクラスタリングを適用
し,映像シーンと視線パターンを分類する.そして,映像シー
ンごとに表出された視線パターンの独自性と表出頻度に注目す
ることで,映像シーンに対する依存性を分析する.提案手法は
以下の三つのパートから成る.全体の概略を図 1 に示す.
対象 o ∈ O s の速さ vo 及び移動方向 θo を用い,時刻 τi から
τi + L − 1 までの時区間 i についての移動フローヒストグラム
F s (i) = [ f s,1 (i), . . . , f s,D (i)] を生成する(τi = τi−1 + L).ヒストグ
ラムのビン d は,移動方向 θo (t) を D (偶数) 種類の方位に均等
に量子化した移動方向 Θo (t) = 1, . . . , D に対応する.ビン d が
持つ量は,式 (1) のように,方向 d = Θo (t) についての時刻 τ か
ら τ + L − 1 までの各対象の速さの総和が,その方向 d への移
動量として与えられる.
(a) 映像内の物体の移動情報を用いて,映像を分節化し,いく
つかのクラスに分類する.分類されたクラスを映像シーン
と呼ぶ.
(映像シーン分類,2.1 節)
f s,d (i) =
τi∑
+L−1
∑
t=τi
o∈O s ,d=Θo (t)
vo (t)
(1)
—2—
各部分領域で算出した移動フローヒストグラムを連結し,時区
Document Frequency,逆文書頻度)があり,特徴的な部分時系
間 i についての特徴ベクトル V i = [F1 (i), . . . , FS (i)] を得る.
列パターンを抽出する従来研究 [7] でも,これに出現頻度をか
このように算出した全ての時区間の特徴ベクトル集合に,
Ward 法によるクラスタの併合を行う凝集型の階層的クラスタ
けた TF*IDF が用いられている.IDF はテキストマイニング等
で用いられる尺度である.IDF が大きい単語ほど,その文書群
リングをクラスタ数 K scene になるまで適用する.クラスタリン
における特徴的な単語(例えば固有名詞)であり,逆に IDF の
グの結果として,各時区間 i (τi <
= ti < τi+1 ) にクラス ID が与え
られる.クラス ID が連続する時区間を一つの映像シーンとし,
小さい単語は,どのような文書にも出現する一般的な単語(例
クラス ID の切り替わる時刻を映像シーンの分節点とする.
えば助詞や接続詞)であることを意味する.
提案手法では,文書とみなす視線座標時系列の情報源である
映像シーンの分類数となるクラスタ数 K scene は以下のように
観察者が,熟練者と未熟者の 2 クラスに分かれていることを前
決定する.階層的クラスタリングの各階層における計算処理で,
提としている.IDF は,単語とみなす視線パターンがどの視線
各特徴ベクトルと,同じクラスタ内で最も遠い特徴ベクトルと
座標時系列に出現しているかを問わないため,熟練者と未熟者
の距離を計算し,全特徴ベクトルについての総和をとる.一つ
の二つのクラスを考慮した独自性を表現できない.また熟練者
下位の階層における総和との差分をとり,その増加量をその階
のクラスに属す視線座標時系列のみに出現する視線パターンを
層への併合コストとする.併合コストが極端に増大したときを,
考えても,多数の視線座標時系列に出現したときの方が,少数
非類似である二つのクラスタを併合したステップとし,その下
の視線座標時系列に出現したときよりも IDF の値は低くなり,
位階層をクラスタリングを停止する候補とする.候補の中から,
熟練者の視線座標時系列に共通して出現する視線パターンを高
映像が適度な長さに分割され,同じシーンに該当する時区間が
く評価するという目的に反している.
できるだけ類似したコンテキストを持つ尤もらしい階層を主観
この問題を解決するために,あるクラス A に属する文書のう
選択する.このようなコストを定義することで,Ward 法によ
ち単語 w を含むものが多いほど値が高くなり,もう一方のクラ
るコスト計算では発見しにくい,特異なクラスタとの併合に対
ス B に属する文書のうち単語 w を含むものが多いほど値が低
して敏感に反応する.なお,このコストを用いて直接クラスタ
くなる逆文書頻度を独自に提案する.クラス A に属する文書
リングを行うことは計算量的に困難である.
数を NA ,そのうち単語 w を含む文書数を nA ,クラス B につい
2. 2 視線パターン分類
全ての観察者の視線座標時系列を部分時系列に分割し,その
パターンをクラスタリングする.分割は映像シーンが切り替わ
ても同様に NB ,nB とするとき,単語 w についての DBC-IDFw
(Difference between classes in IDF,逆文書頻度のクラス間差分)
を式 (2) で定義する.
る時刻で行い,異なる長さの部分時系列に分割される.
クラスタリングの際,時系列間の類似性を評価するために
NA + 1
NB + 1
− logNB +1
NA + 1 − nA
NB + 1 − nB
)
(
)
(
nA
nB
− logNA +1 1 −
= logNB +1 1 −
NB + 1
NA + 1
(2)
DBC-IDFw = logNA +1
DTW(Dynamic Time Warping,動的時間伸縮法 [8]) を用いる.
分割された視線座標時系列は,類似した軌跡であっても,時間
的なずれがないものは稀であると考えられる.DTW は時系列
パターンの非線形な時間伸縮を許容するため,時間的には相違
DBC-IDF は,単語 w を含むクラス A の文書が多いほど 1 に,
のある類似パターンを同類とみなすことができる.つまり,異
単語 w を含むクラス B の文書が多いほど −1 に近づく.もし両
なる長さの時系列間に適用することもできる.
クラスの全ての文書に単語 w が出現する場合は 0 となる(注 1).
全ての部分時系列において任意の 2 系列に DTW を適用した
この DBC-IDF を用いて,映像シーンごとに表出された各
後,クラスタ数が Kgaze 個になるまで,Ward 法による凝集型の
視線パターンの独自性を評価する.映像全体において,あら
階層的クラスタリングを行う.クラスタ数の決定は,シーン分
ゆる視線パターンはどの被験者でも一度は表出すると想定さ
類と同様に行う.ただし,併合コストを計算するための距離も
れ,DBC-IDF の値は 0 となる場合が多いと考えられる.映像
DTW を用いて求める.
シーンの限定により,表出される視線パターンの種類も限られ,
2. 3 依存性の観察者間比較
分類された映像シーンに対する視線パターンの依存性を観察
DBC-IDF が独自性の評価値として機能すると考える.
2. 3. 2 表出頻度尺度:平均表出回数のクラス間差分
者間で比較する.具体的には映像シーンと熟練者の視線パター
分析する映像シーンにおける,ある視線パターンの表出回数
ンとの対応関係のうち,独自性尺度(2. 3. 1 節)と表出頻度尺
について,熟練者間での表出回数の平均を fexp ,未熟者間での
度(2. 3. 2 節)が共に高いものを,熟練者に特有な注視行動と
表出回数の平均を fnov とし,以下を表出頻度尺度とする.この
して 2. 3. 3 節に示す基準に基づいて抽出する.
評価値を平均表出回数のクラス間差分と呼ぶ.
2. 3. 1 独自性尺度:逆文書頻度のクラス間差分 DBC-IDF
平均表出回数のクラス間差分 = fexp − fnov
それぞれの映像シーンについて,各観察者の視線データ中に
出現した視線パターンの集合を考える.ある観察者の視線デー
タに出現した視線パターンは,他の観察者の視線データに出
現することが少ないほど,その観察者に特有な視線パターン
といえる.このような独自性を測る尺度として,IDF(Inverse
(3)
ある視線パターンがどれだけ表出されたかを示す指標も重要
(注 1):DBC-IDF は式 (2) の 2 段目で示すように,式の形はカルバック・ライブ
ラー情報量の計算に類似するが,第 1 項と第 2 項の log の底が異なることに注
意されたい.
—3—
である.なぜなら,たとえその視線パターンの独自性が高くて
4. 結
も,同じ映像シーンの中で表出されることが稀であれば,それ
果
は視覚環境に応じた注視行動とは言えず,その表出は偶然であ
映像全体が 29 種類の映像シーンの系列として,581 個の時
る可能性が高いからである.熟練者と未熟者の表出回数の差を
区間に分割された.また,各観察者の視線座標時系列は 64 種
考慮し,DBC-IDF では高く評価されない視線パターンも,熟練
類の視線パターンとして,観察者一人あたり 581 個,計 2,905
者の表出回数が未熟者よりも極めて多ければ,熟練者に特有な
個の部分時系列に分割された.ただし,分析対象外の時区間に
視線パターンの表出と判断する.
対して強制的に割り当てた映像シーン 0,視線パターン 0 を含
2. 3. 3 抽 出 基 準
む.クラスタ数決定の判断材料とした,クラスタ併合コストの
視線パターンの独自性尺度である DBC-IDF を x 軸 (−1 <
=
=x<
1),表出頻度尺度である平均表出回数のクラス間差分を y 軸と
グラフを,映像シーン分類について図 3,視線パターン分類に
し, x と y が共に高い以下の領域にある視線パターンを熟練者
各観察者の視線パターンの表出回数を図 5 に示す.視線パ
特有の注視行動として抽出する.
y>
=
ターン 1, 14, 15 は熟練者が表出する割合が大きく,この後の依
存性比較において熟練者特有の視線パターンとして抽出される
2k
x+1
(4)
ここで,k は,DBC-IDF(= x) が 1,つまり,最も独自性が高い
視線パターンであったとしても,平均表出回数のクラス間差
分 (= y) がこれを下回った場合は,偶然である可能性が高いと
して抽出しないとする表出回数の要求値(以後,最低表出要求
回数と呼ぶ)である. x が 1 より小さくなるほど,要求する表
出回数は多くなり, x = 0 のときは, x = 1 のときの 2 倍の表出
回数を要求する.
3. 実
ついて図 4 に示す.
ことが期待される.一方で,視線パターン 50 以降は,熟練者
による表出がなく,未熟者に特有な視線パターンといえる.ま
た,視線パターン 22,39,40,41,43,46,47,49,55,57,
58,61,62,63 は,表出回数が 10 回未満である.これらは例
外的な視線パターンとみなす.
映像シーンごとに行った依存性の観察者間比較の例(シーン
1)を図 6 に示す.グラフ右上の曲線は注視行動の抽出基準と
なる境界線である.境界線のパラメータである最低表出要求回
数 k は,分析を行う映像シーンの出現回数の 10 % と設定した.
験
図 6 のグラフの場合では,映像シーン 1 について,視線パター
提案手法をサッカー試合映像観察時の視線データおよびその
試合映像に対して適用する.試合映像はサッカーフィールド全
体が映るように,センターラインの延長線上の観覧席から広
角カメラで撮影されたものである.試合時間は 20 分間であり,
陣地の入れ替えは行われない.観察者は指導熟練者 1 名(日本
サッカー協会公認 S 級コーチライセンス認定者)と未熟者 4 名
の合計 5 名である.試合映像を,向かって右側から左側へ攻め
るチームの指導者として観察させ,その際の視線データを Tobii
X60 Eye Tracker を用いて画面上の座標として計測した [4].
ン 7 が熟練者に特有な注視行動として抽出される.
全映像シーンについての抽出結果を表 1 にまとめる.括弧
でくくられた視線パターンのクラス ID は,抽出条件を満たし
ているが,表出回数がごくわずかであるため破棄した.先述に
おいて予測した通り,熟練者による表出の割合が大きい視線パ
ターン 1, 14, 15 が抽出されている.特に視線パターン 15 は映
像シーン 2 と 20 の両方で抽出されている.また,下線付きの
視線パターンは,抽出基準を大きく上回り,熟練者の特有度が
大きい可能性がある.
映像シーン分類のための各パラメータを以下のように設定し
併合コスト ×109
ルおよび 22 名の選手であるとみなし,それらに対して全時刻
の映像上での座標を手動で付与した.図 2 中の白い線を領域分
10
28
8
6
Kscene=29
4
2
0
1
4
7
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
100
103
106
109
112
115
118
121
124
た.本研究では,観察者の注視行動に影響する動的対象がボー
割線とし,フィールドを短辺方向に 3 個,長辺方向に 6 個の,
計 S = 18 個の部分領域 A∼R に分割した.移動方向の量子化
併合コスト×106
7
6
5
4
3
2
1
0
60 63
Kgaze=64
88
119
1
4
7
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
100
103
106
109
112
115
118
121
124
とし,5 フレームを映像シーンを構成する最小単位とした.
下位階層→
図 3 映像シーン分類のクラスタ併合コスト
数は D = 8 とした.時刻 t における速度の算出を ∆t = 4 として
行った.映像の特徴ベクトルを算出する時区間の長さを L = 5
クラスタ数
←上位階層
クラスタ数
←上位階層
図4
下位階層→
視線パターン分類のクラスタ併合コスト
表 1 抽出された熟練者特有の注視行動
図2
映像シーン
1
視線パターン
7 15 1 8 25, (7) 14 (14) 36
2
4 7
8
9
11
12 13 20
3
15
領域分割
—4—
180
熟練者
未熟者A
未熟者B
未熟者C
未熟者D
160
140
表出回数
120
100
80
60
40
20
0
0 1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263
視線パターン
平均表出回数のクラスタ間差分
図 5 視線パターンの表出回数
映像シーン1 (33回)
きなベクトルを持つ部分領域ほど,活発な動きが起きているこ
6
とを意味している.多くの場合,右方向か左方向のベクトルが
5
大きく,上下の動きはほとんど無いことがわかる.
7
4
3
5. 1 先読み(図 7,図 8)
13
19
1
-1.2
-1
-0.8
-0.6
0
3060-0.26 12
32 0
59 35 31 -1 26
48 33
34
-0.4
53
38未熟者特有
37
-2
映像シーン 4 において,熟練者はチャンスを生みそうな味方
熟練者特有
2
0.2
2
28 45
21
0.4
10
4
1511
0.6
フォワードを注視しているが,ボールがゴールキーパーに近づ
13
14
5 36
0.8
1
くと,一瞬そこに視線を動かしてすぐ戻すという視線パターン
1.2
1 が表出された(図 7).このシーンは,全体的に動的対象の移
動量が小さく,相手に得点される危険性は少ないと考えられる.
9
熟練者は,味方の守備を確認するためにゴールキーパーを見た
-3
逆文書頻度のクラスタ間差分(DBC-IDF)
のではなく,攻守交代のコンテキストを先読みし,その後に起
こるであろうゴールキーパーからのパスが,その直前に見てい
図 6 依存性の観察者間比較の例
た味方フォワードに出されることを予測している可能性がある.
5. 考
同様の傾向が映像シーン 2 における視線パターン 15,映像シー
察
ン 12 における視線パターン 36 の注視行動にもみられた.
定性的な分析の結果,抽出された注視行動は表 2 のように分
類され,本実験の熟練者には以下の二つの性質があると考える.
また,映像シーン 7 において,熟練者は初め相手陣地で攻め
ている選手とボールを追従して見ていたが,ボールが相手ゴー
なお,映像シーン 13 における視線パターン 3 の注視行動は,表
出されている時区間が極めて短く,有意な評価ができなかった.
先読み:コンテキストの大きな変化を予測して,ボールや激し
映像シーン4
移動量
小(412)
く動いている選手などの誘目性が高い動的対象を見る
低依存:誘目性が高い動的対象への依存が少ない
それぞれについて,代表的な注視行動を例示して説明する.
以降に示す図中の円は,実線が熟練者の,破線が未熟者の,そ
の映像フレームでの注視箇所を表す.また, 各映像シーンにお
いて,動的対象がどの部分領域でどの方向にどの程度移動した
かを表すために,移動フローヒストグラムのビンごとの平均を
算出し,各部分領域について 8 方向のベクトルとして示す.大
表 2 熟練者特有の注視行動の分類
PP
傾向
PP
PP
注視行動
PP
先読み
低依存
映像シーン
2
20 1
9
視線パターン
15 1 36 8 25 15 7
14
4 12 7
8
図 7 先読みの例 1
—5—
映像シーン7
細な分析が必要であることを示唆する.従来研究 [3]∼[5] にお
移動量
いても,熟練者の注視行動における誘目性が高い動的対象への
小(469)
低依存性が示されているが,どのようなシーンでどのような視
線パターンが表出されたかを議論するには至っていない.本研
究では,その糸口を抽出した.
6. お わ り に
本報告では,映像と視線データを,類似するシーンと部分時
系列パターンに分類・分割し,映像シーンに対する視線パター
ンの依存性を観察者間で比較することで,熟練者に特有な注視
行動を抽出する手法を提案した.また,サッカーの試合指導時
における映像及び視線データへの適用を試みた.
映像シーン分類は,映像内の動的対象の移動フローを特徴量
としてヒストグラムを作成し,これを結合して得た特徴ベクト
ルを階層型クラスタリングすることで実現した.また,視線パ
図 8 先読みの例 2
ターン分類は,映像シーンの分節点で視線座標時系列を分割し,
それらをクラスタリングすることで実現した.独自に提案した
ルの手前まで来ると,視線を味方陣地側に移した(図 8).相
逆文書頻度のクラス間差分 DBC-IDF および平均表出回数のク
手のディフェンダーやゴールキーパーがボールを捕捉して反撃
ラス間差分が,共に高い視線パターンを映像シーンごとに探す
することを先読みして,味方の守備を確認している可能性があ
ことで,熟練者に特有な注視行動をデータ駆動で網羅的に抽出
る.同様の傾向が映像シーン 8 における視線パターン 25,映像
した.抽出された注視行動の分析により,本実験の指導熟練者
シーン 20 における視線パターン 15 の注視行動にもみられた.
の注視行動には,コンテキストの先読みと誘目性が高い動的対
5. 2 低依存(図 9)
象への低依存といった傾向があることが確認された.
映像シーン 1 は複数のコンテキストが混在して分類されてし
現状では,熟練者に特有な注視行動を完全なデータ駆動で抽
まったが,以下のような注視行動の傾向がみられた.プレーは
出できているわけではなく,部分領域の分割方法や,映像シー
次のようにフィールド上の広範囲で行われていた.
ン分類と視線パターン分類における,パタメータやクラスタ数
・画面手前側の相手陣地のコーナー(領域 M,N)で,ボール
のチューニングが課題である.注視行動を適切に抽出するため
を持っている相手選手に味方のフォワードが急接近している
には,視線パターンの時間粒度,つまり視線座標データの部分
・画面手前側の味方陣地(領域 P)では,パスを受けようとす
時系列への分割が,細かくなりすぎることも,逆に大まかにな
る味方のディフェンダーと相手のフォワードが,味方陣地に
りすぎることも避ける必要がある.
向かって激しく動いている
謝辞 本研究の一部は JSPS 科研費 26280074 (基盤研究 (B))
・残りの選手の多くはフィールドの中央(センターサークル周
辺,領域 I,J)に存在している
この中で誘目性が高いものは,画面手前の相手陣地コーナー
(領域 M,N)と画面手前の味方陣地(領域 P)でのプレーの二
つであると考えられるが,熟練者はどちらにも視線を向けるこ
となく,中央周辺の選手を観察し続けていた(図 9).周辺視を
使って,上述のプレーの情報を得ている可能性もあるが,動き
の少ないフィールド中央の選手の位置関係などに見どころが表
れている可能性がある.誘目性が高い視覚刺激をどう見たかを
分析する研究が多い [6] が,それを見なかった場合における詳
映像シーン1
移動量
中(719)
図9
及び 26730119 (若手研究 (B))の助成を受けたものである.
文
献
[1] 三浦利章,“視覚探索と鑑賞・技能・環境,
” 基礎心理学研究,vol.20,
no.1,pp.64–69,2001.
[2] 張剣,渡部和彦,馬淵麻衣,“サッカー熟練者と非熟練者の予測
正確性および視覚探索方略に関する研究―1 対 1 と 3 対 3 場面
についての比較―,
” 体育学研究,vol.53,no.1,pp.29–37,2008.
[3] 石垣尚男,川岸與志男,植田和次,後藤浩史,金子美由紀,平田
勝彦,上野敦史,“ゲーム場面を見る際の指導者と選手の視線比
較,
” バレーボール研究,vol.11,no.1,pp.7–11,2009.
[4] A. Iwatsuki, T. Hirayama, and K. Mase, “Analysis of soccer coach’s
eye gaze behavior,” The 2nd IAPR Asian Conference on Pattern
Recognition (ACPR), pp.793–797, 2013.
[5] 岩月厚,平山高嗣,森田純哉,間瀬健二,“サッカー指導におけ
る熟練者と未熟者の注視行動の違い,
” 日本認知科学会第 31 回大
会,pp.572–579,2014.
[6] 平山高嗣,“人間の内部状態を顕在化する視覚的インタラクショ
ン,
” 情報処理学会研究報告(CVIM188-27),pp.1–8,2013.
[7] 杉村博,松本一教,“時系列データベースにおける特徴パタンの
抽出,
” 人工知能学会第 25 回全国大会,pp.1–2,2011.
[8] H. Sakoe and S. Chiba, “Dynamic programming algorithm optimization for spoken word recognition,” IEEE Transactions on Acoustics,
Speech and Signal Processing, vol.26, no.1, pp.43–49, 1978.
低依存の例
—6—