アイコンタクトとジェスチャを用いた 人間とロボットの

ICS-04B-032
アイコンタクトとジェスチャを用いた
人間とロボットのコミュニケーション
指導教官
久野 義徳 教授
平成16年2月13日 提出 工学部情報システム工学科
50732
櫻井 有大
埼玉大学工学部情報システム工学科 久野研究室
埼玉県さいたま市桜区下大久保 255
論文概要
人間がロボットと自然なコミュニケーションを行う為のマンマシンインタフェ
フェースとして、ジェスチャの利用が考えられる。しかし、実際の生活環境下では意
味のない動作や、非意識的・非意図的なジェスチャも多く存在するため、ユーザーの
行う様々な動作の中からロボットへ向けられた、意図的・意識的なジェスチャのみを
認識することは困難である。そこで本研究では、擬人化した3次元 CG をロボットの
顔として用い、人間とロボットの間でアイコンタクトを通したインタラクションを行
うことで特定の人物とコミュニケーションチャネルを確立し、チャネルを確立した後
でジェスチャの認識を行うことで、この問題を解決するロボットを開発した。また、
実環境下でこのロボットの動作を検証し、アイコンタクトを用いることで、意味のな
い動作や、非意識的・非意図的なジェスチャの誤認識を防ぎ、ロボットに向けられた
意図的・意識的なジェスチャのみを認識できることを確認した。
Abstract
Gestures can be considered as a natural interface to communicate with a robot. However, it’s difficult for the robot to understand whether a gesture is intentional or not
because there are lots of nonsensical motions and unintentional gestures in our practical
life. In this research, We have developed a robot system that can be solved this problem
by using eye-contact system. This robot has the humanized 3D Computer Graphics face.
With the eye-contact between the robot and human, communicational channel can be established. After establishing, the robot starts gesture recognition. Then, We have done
some experimentes using the robot and confirmed that the robot could avoid incorrect
recognition of nonsensical motions or unintentional gestures.
–2–
目次
第1章
序論
8
1.1
背景と問題点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.2
目的と解決方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
人間とロボットのアイコンタクトシステム
12
2.1
アイコンタクトの定義 . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.2
ロボットと人間のアイコンタクトに要求されるもの . . . . . . . . .
13
2.3
使用したアイコンタクトシステム . . . . . . . . . . . . . . . . . . .
14
2.4
顔候補領域の検出と注視の方法
. . . . . . . . . . . . . . . . . . . .
17
2.4.1
カメラの焦点距離の設定 . . . . . . . . . . . . . . . . . . . . .
17
2.4.2
顔候補領域の検出方法 . . . . . . . . . . . . . . . . . . . . . .
18
2.4.3
顔候補領域の注視方法 . . . . . . . . . . . . . . . . . . . . . .
18
2.4.4
顔判別の方法 . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
CGを用いる際の問題点とその解決法 . . . . . . . . . . . . . . . . .
20
アイコンタクトロボット
22
3.1
ロボットのハードウェア構成 . . . . . . . . . . . . . . . . . . . . . .
22
3.2
システム構成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
3.3
ロボット全体の動作 . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
3.4
ジェスチャ認識 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
実験
28
第2章
2.5
第3章
第4章
4.1
意図的なジェスチャの識別実験
4.1.1
. . . . . . . . . . . . . . . . . . . .
28
目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
3
4.2
4.3
4.4
4.1.2
方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
4.1.3
結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
4.1.4
考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
ジェスチャの誤認識に関する実験 . . . . . . . . . . . . . . . . . . .
30
4.2.1
目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
4.2.2
方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
4.2.3
結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
4.2.4
考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
顔候補領域の注視の時間測定 . . . . . . . . . . . . . . . . . . . . . .
32
4.3.1
目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
4.3.2
方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
4.3.3
結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
4.3.4
考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
平面の CG を実ロボットに搭載したことによるロボットの視線方向
周知へ与える影響に関する実験
. . . . . . . . . . . . . . . . . . . .
33
4.4.1
目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
4.4.2
方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
4.4.3
結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
4.4.4
考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
ロボットの回転が視線方向周知へ与える影響に関する実験 . . . . . .
38
4.5.1
目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
4.5.2
方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
4.5.3
結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
4.5.4
考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
全体の考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
結論
43
5.1
まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
5.2
今後の課題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
参考文献
46
4.5
4.6
第5章
–4–
表目次
3.1
SONY EVI-D100 仕様 . . . . . . . . . . . . . . . . . . . . . . . . . .
23
4.1
ジェスチャが認識された回数
. . . . . . . . . . . . . . . . . . . . . .
29
4.2
ジェスチャが誤って認識された回数 . . . . . . . . . . . . . . . . . . .
30
4.3
実験1における 5 段階評価の結果 . . . . . . . . . . . . . . . . . . . .
35
4.4
実験2における 5 段階評価の結果 . . . . . . . . . . . . . . . . . . . .
35
4.5
符号検定による座席位置の組における有意差検定の結果 . . . . . . . .
37
4.6
実験 1 における 5 段階評価の結果 . . . . . . . . . . . . . . . . . . . .
39
4.7
実験 2 における 5 段階評価の結果 . . . . . . . . . . . . . . . . . . . .
39
4.8
符号検定による座席位置の組における有意差検定の結果 . . . . . . . .
41
5
図目次
1.1
非言語的コミュニケーションチャネルの分類 (文献 [8] 参照)
. . . . .
10
2.1
目鼻位置による顔方向の検出方法 . . . . . . . . . . . . . . . . . . . .
15
2.2
アイコンタクトシステムの動作 . . . . . . . . . . . . . . . . . . . . .
16
2.3
顔候補領域の検出と注視 . . . . . . . . . . . . . . . . . . . . . . . . .
17
2.4
カメラの焦点距離と一度に捕らえる範囲 . . . . . . . . . . . . . . . .
18
2.5
カメラの制御角 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
2.6
3 次元 CG が斜め方向を向いたときの人間の解釈 . . . . . . . . . . .
21
2.7
モナリザ視線効果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.1
Pionner2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
3.2
Sony EVI-D100 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.3
試作したアイコンタクトロボット . . . . . . . . . . . . . . . . . . . .
24
3.4
システムのモジュール図 . . . . . . . . . . . . . . . . . . . . . . . . .
25
3.5
ロボットの動作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
3.6
ジェスチャ認識の為のリサイズ . . . . . . . . . . . . . . . . . . . . .
27
3.7
登録した右手を振るジェスチャ . . . . . . . . . . . . . . . . . . . . .
27
4.1
被験者とロボットの位置 . . . . . . . . . . . . . . . . . . . . . . . . .
29
4.2
右手を振る動作として認識された動作
. . . . . . . . . . . . . . . . .
31
4.3
顔領域の注視までの時間 . . . . . . . . . . . . . . . . . . . . . . . . .
32
4.4
被験者の座席位置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
4.5
座席 A における評価 . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
4.6
座席 B における評価 . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
6
4.7
座席 C における評価 . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
4.8
座席 A における評価 . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
4.9
座席 B における評価 . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
4.10 座席 C における評価 . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
–7–
第1章
序論
この章では、本研究の背景とこれまでの関連研究を紹介し、問題点の整理と本研究
の目的と位置付けを明確にする.
1.1 背景と問題点
近年、人間の生活環境にロボットが介入を強め、既に SONY の “ AIBO”[1] などの
ペット型ロボットは実用化されて、人々の生活に潤いを与えている。今後は来るべき
少子高齢化に伴う労働人口の減少や要介護者の増加などによって、オフィスや家庭な
ど一般的な生活環境下で動く、実用的なサービスロボットに対する需要が高まってく
るものと予想される。
しかし、生活環境下で動くサービスロボットには工場などで働くロボットと比べ
て、大きな違いがある。まず、ロボットを使うユーザーが専門に教育されたオペレー
タではなく、一般の人々であるという点である。ロボットを利用する人間がその操作
方法や機能の利用方法を習得しなければならなければ、それだけで人間にとって大き
な負担になる。従ってサービスロボットには誰もがロボットの持つ機能を十分に扱
うことができる、普遍的なマンマシンインタフェースを備えていることが要求され
る。普遍的なマンマシンインタフェースとしては、我々が普段から人間同士で利用し
ている言語、ジェスチャ、表情などの人間主体のインタフェースを用いる。
現在、ロボットの高機能化に伴い、インタフェースは単なる直感的な入力の手段と
してではなく、人間とロボットがコミュニケーションを行うことでシステムが状況
を判断し、自らの持つ機能を人間に提供していく為の手段として研究されている。コ
8
ミュニケーションを行うロボットの研究としては、公共の場である博物館で、人間と
インタラクションを行いながらの展示品の案内をするロボット [2] や様々な相互作用
を通して人間とロボットが互いに意思疎通を行うことで人間がロボットの持つ機能
扱うことができることを目的とした ATR の擬人化エージェントロボット Robovie[3]
などがある。
コミュニケーションを重視したロボットにおいては、何らかの方法によりロボッ
トを擬人化することが人間がロボットをコミュニケーションの相手とみなすために
重要である。これにより、人間とロボットがインタラクションを円滑に行い、意思疎
通を図ることができるからである。ロボットを擬人化する研究についてはディスプ
レイにCGを用いた擬人化エージェントを表示することで視覚的に擬人化するソフ
トウェアロボット [4][5] や、ロボットがユーザーの行為に同調する動作を行わせた
り [6]、ユーザーにロボット同士が会話を観察させたり [7] することによって人間に
ロボットを人間と対等なコミュニケーションの相手と認識させる意識的な擬人化が
ある。
人間とロボットが自然なコミュニケーションを行う為には、人間同士が行うコミュ
ニケーションを模倣することが重要となる。人間同士が行うコミュニケーションには
大きく分けて非言語的コミュニケーションと言語的コミュニケーションがある。非
言語的コミュニケーションは言語以外のチャネルを介したコミュニケーションであ
り、人間同士の非言語的コミュニケーションチャネルは [8] によれば図 1.1のように
分類される。本研究では非言語的コミュニケーションに注目する。ロボットと人間
の間で非言語的コミュニケーションを用いることを考えた場合、最も実用的なコミュ
ニケーションチャネルはジェスチャや表情などの身体動作によるチャネルである。
ジェスチャや表情にも意識的・意図的なものと非意識的・非意図的なものが存在す
る。意識的・意図的なジェスチャはコンピュータに対する明示的な入力となり、コン
ピュータでこれらのジェスチャを認識するための研究が盛んに行われている。非意
識的・非意図的な行為にはコンピュータが状況を判断し、人間に対するロボットの行
動を選択するための判断材料となりうる。しかしながら、非意識的なジェスチャには
微妙な動作が多く、非意識的行為全般をロボットが正しく認識し、その意図を正確に
理解するには課題も多い。
意識的・意図的に行われたジェスチャをロボットに適用した例としては、実際に移
動ロボットをジェスチャにより操作するシステム [9] やロボットが複数の人物とジェ
スチャを用いて対話をするシステム [10] が提案されている。しかし、これらのシス
–9–
図 1.1
非言語的コミュニケーションチャネルの分類 (文献 [8] 参照)
テムでは予めユーザーが意識的・意図的な動作のみを行い、かつジェスチャはロボッ
トに向けて行われるということを前提にしている。実際の生活環境においては人間
が行う動作はその全てがロボットに向けて意図された動作であるとは限らず、非意識
的・非意図的に行われる動作も多く存在する。例えば歩行時の手の動きなどが非意識
的・非意図的な動作に含まれる。したがってロボットや機械を操作しようとする場面
意外でも、ロボットに意思伝達するためのジェスチャと同様の動作が起こりうる可能
性がある。動作が等しい人間の行為でもそれがロボットに対し意識的・意図的である
か、非意識的・非意図的であるかをロボットが判断する必要がある。
1.2 目的と解決方法
本研究ではロボットとのコミュニケーションの手段として意図的、意識的なジェス
チャを用いることを考え、日常に起こる様々な動作の中から、ロボットが意識的・意
図的なジェスチャを選択的に認識し、非意識的・非意図的に行われるジェスチャや意
味のない動作と区別することを目的とする。
しかし、意識的か非意識的か、意図的か非意図的かという判断を行うためには本質
的にジェスチャを行った人の心情や意図、その場の状況や文脈を理解しなければなら
ないという問題を解決せねばならず、ロボットの知覚センサから得られる限られた情
報からこのような高度な問題を解決することは難しい。
そこで本研究ではアイコンタクトのコミュニケーションの開始時の役割に着目し、
– 10 –
「人間がロボットに意識的・意図的に意思表示するときには、事前にロボットとアイ
コンタクトをする。」という仮定を導入する。社会心理学では、視線が相手とのつな
がりを求め、その要求を受諾するコミュニケーションの第一段階であるとされている
[12]。すなわち、アイコンタクトを他者との係わり合いを開始し、コミュニケーショ
ンチャネルを確立するためのプロセスと捉えることができ、これをロボットと人間の
関係に適用することを考える。人間とロボットの間でアイコンタクトをするために
は人間とロボットが相互に視線を認知できる必要があり、人間がロボットをコミュニ
ケーションの対象として認知していなければならない。また、コミュニケーション開
始時には微笑や眉挙げの顔面表情の変化を伴い、2.1で述べるようにアイコンタクト
には微妙な表情変化が重要な要素となる。さらに表情変化は遅延なくリアルタイム
で行われ、かつ動作として滑らかである必要がある。これらの点を考慮し、本研究で
はロボットの顔を実空間上に構築する方法ではなく、ディスプレイ上に顔の CG を表
示する方法をとる。実空間上にロボットの顔を構築する方法だと、人間の持つ微妙な
表情を表現することやリアルタイム性を実現することが難しくなる。
アイコンタクトを実ロボットに用いた研究としては、複数話者との対話を行う早稲
田大学の ROBITA[11] や前述の Robovie[3] が挙げられる。しかし、これらのロボッ
トはロボットの顔を話者に向けることでアイコンタクトを行っており、アイコンタク
トの意味合いとしては、新規にコミュニケーションを開始するためのものではなく、
対話時における人との関係性の促進、状況把握、意思伝達の意味合いが強い。
本研究では、視覚的に擬人化した顔の CG(以下顔 CG) を用いて人間とロボットが
アイコンタクトを行い、特定の人物とコミュニケーションチャネルを確立すること
で、ロボットに対し意識的・意図的なジェスチャのみを認識する手法提案する。本手
法においては擬人化した顔 CG を用いることでロボットをコミュニケーションの対
象とみなさせ、顔 CG の目により視線を人間に認識させる。また、ジェスチャなどの
身体動作のコミュニケーションチャネルにおいては、アイコンタクトもジェスチャも
共に視覚情報によって認知され、ジェスチャを認識する時は必ず相手の方を向くた
め、アイコンタクトとジェスチャの親和性が高く、特定の相手とのコネクションを限
定することが有効であると考えられる。
– 11 –
第2章
人間とロボットのアイコンタクト
システム
この章では本研究で用いると、ロボットと人間のアイコンタクトには何が必要であ
るのかを明確にし、それを実現するために利用したアイコンタクトシステムについて
述べる。
2.1 アイコンタクトの定義
クラーナックによると、人間同士でのアイコンタクトとは
二者間で相互に目を見ていて、しかも相互に凝視されていることに気付いて
いる
という状態である [13]。つまり、たとえ物理的に視線が合っていたとしても、そのこ
とにお互いが気づいていなければ、アイコンタクトは成立しない。又、ロードとヘイ
スは、目を見られていると人間が認識するのは、単に瞳の方向だけでなく、眉間や眉
の動きなど、顔面の表情の動きが何らかの手がかりとしてプラスされているからであ
るとしている [13]。
以上のことから、ロボットと人間がアイコンタクトを行うためにはお互いに顔面を
見つめている状態をつくり、かつロボットが人間に凝視されていることに気づいて、
さらにロボットが人間にそのことを気づかせる必要がある。
12
2.2 ロボットと人間のアイコンタクトに要求されるもの
生活環境で動くサービスロボットを想定した場合、ロボットに対しコミュニケー
ションの要求のある人物が常に定位置にいるという保障はなく、ロボットは環境内を
見渡し、要求のある人物がいないかどうか注意を払うことが要求される。
また、ユーザが意思表示をしようとしてロボットの方を見ても、ロボットがそのこ
とになかなか気づかなければ、ユーザーはいちいちアイコンタクトを取るのは億劫に
感じてしまい、自然なコミュニケーションを実現することは出来ない。[14] によれ
ば、アイコンタクトシステムにおいて人間が CG を見つめてから、顔 CG が反応を返
すまでの反応時間が1秒を超えると多くの人は反応が遅いと感じるとされる。この
時間には人間が顔 CG をどのくらい見つめていたらアイコンタクトが成立したとみ
なすか判定するための時間も含まれるため、システムにはユーザーに見つめられてい
ることをすばやく検出する機構が必要となる。
また、節で述べたように、顔 CG は微妙な表情を表現でき、表情変化をリアルタイ
ムで行える必要がある。
次に、ロボットが人間に見つめられていることに気づいたということを人間に知ら
せる行為をする必要がある。この行為についてはロボットの回転動作と顔 CG の表
情変化を用いる。顔 CG の表情についてはロボットがコミュニケーションの開始要
求を了承し、相手の意思表示を受理できるということを表すものである必要がある。
例えば、ロボットがこちらを向いたが顔 CG が無表情であったとすれば、人間はロ
ボットが意思表示を受け付けてくれるかどうか戸惑うことが考えられる。アイブル=
アイベスフェルト (1970) はいろいろな種族の行動を記録したフィルムから眉を少し
あげてから微笑んだり、うなずいたりする動作が少し離れたところから交わす、著し
く友好的な合図として共通していることを示している。ここでは顔 CG の表情とし
て笑顔を用いた。
また、ロボットが特定の相手とコミュニケーションチャネルが確立していているこ
とを周囲の人物に周知することも必要となる。このためにはロボットの視線方向や
体の向きが周囲の人物に認識できる必要がある。しかし、ロボットの顔として平面の
CG を用いた場合、モナリザ視線効果の問題が生じる。この問題および解決法につい
ては 2.5節で詳しく述べる。
次にロボットがアイコンタクトを行うべき範囲を考える。心理学的見地によれば人
– 13 –
間のアイコンタクトの頻度は相手との距離が近づくに従って減少し、距離が2フィー
トになると意図的にアイコンタクトを回避するようになり、逆に距離が遠くなるとア
イコンタクトの頻度は増加し、10フィートの距離では2フィートのときと比べ、ア
イコンタクトの回数が90%も増加することが報告されている [13]。
ではロボットはどのくらい遠くの相手とアイコンタクトができればよいのであろ
うか。[17] によれば、人間同士の対面対話では、心理学でいう公衆距離である4m
以上離れると、映像情報からの相手の視線方向の判断が不確かになり、他の情報に重
きを置く処理方略に自然に変化させているとされる。また、特定の相手とのコミュ
ニケーションには肉親や恋人などの特に親密な関係の場合を除いて通常、社会距離
(1.2m∼3.7m) を用い、これより遠い公衆距離は演説や講演の際に用いられる [18]。
ロボット側の視線情報は、顔 CG を大きく画面に表示することにより人間が映像か
ら視線方向を判断しやすくなる。又、ロボットが人間の視線方向を認識することもカ
メラによる拡大視で可能となる。従って、ロボットと人間が4メートル以上離れてい
る場合においても、お互いに相手の見つめられているかどうかの判断は可能であり、
アイコンタクトを行うことができる。しかし、4メートル以上の距離において人間同
士が普段アイコンタクトを行わないことを考えると、人間にとって慣れた対人距離
の関係をロボットとの関係においてのみ、変化させるということになり、ユーザーに
とってはシステムに慣れるという負担が生じ、自然なアイコンタクトができなくな
ると考えられる。したがって、ロボットとアイコンタクトを行うべき距離としては、
1.2m∼4m の範囲が妥当である。そこで本研究ではこの範囲内でアイコンタクトが出
来ることを条件とした。
2.3 使用したアイコンタクトシステム
本研究では、ロボットへアイコンタクト機能を付加するために、宮内氏が開発した
3次元の CG とアイコンタクトを行うシステム [14][15] を利用した。このシステム
は本研究で必要とされる 2.2節で述べた顔 CG による表情の表現力、顔 CG の表情変
化のリアルタイム性に優れる点と、アイコンタクトをロボットの顔を相手に向けるだ
けではなく、人間の視線方向も考慮して行っていることから、本研究におけるアイコ
ンタクトによる特定人物とのコミュニケーションチャネルの確立に適していると判
断した。このシステムの
このシステムではカメラから得られた入力画像に対し、肌色領域の検出を行い、顔
– 14 –
領域を検出する (図 2.2(a))。次にその顔領域を追跡し (図 2.2(b))、[16] の手法により
人間の目と鼻を検出すると、それらの位置関係により人間が正面を向いているかど
うかの判定を行う。検出された左右の瞳と鼻の穴の画像座標をそれぞれ次のように
する。
(
(
左の瞳 → (eye lx, eye ly)
右の瞳 → (eye rx, eye ry)
左の鼻の穴 → (nostril lx, nostril ly)
右の鼻の穴 → (nostril rx, nostril ry)
これより、左の瞳と左の鼻の穴の x 軸上の距離を dl、また、右の瞳と右の鼻の穴の
x 軸上の距離を dr とすれば、
(
dl =| eye lx − nostril lx |
dr =| eye rx − nostril rx |
となる。適当な閾値 dx を定義することにより、
| dl − dr |< dx
のとき、顔がカメラ方向に対して正面を向いていると判断する(図 2.1)。
図 2.1
目鼻位置による顔方向の検出方法
そして一定時間以上顔が正面を向いている判断されると、それまできょろきょろし
ていた顔 CG を静止させ、表情を笑顔にすることで、顔CGとのアイコンタクトを
行う (図 2.2(c))。ユーザーが視線をはずすと、顔CGの表情は元に戻り、再びきょろ
きょろし始める (図 2.2(d))。以後、ユーザーが CG の方を向くたびにアイコンタクト
を行う (図 2.2(d)(e)(f))。
– 15 –
顔 CG には東京工業大学大学院理工学研究科、像情報工学研究施設の長谷川修助教
授の開発された擬人化ソフトウェアロボットを用いている。
このシステムは最初に最も大きな肌色領域をカメラにより追跡し、目鼻が検出され
るまで徐々に拡大していくという手法をとっている。又、アイコンタクトは CG が正
面を向くことにより行っている。このため、このシステムには以下のような問題点が
あった。
• 顔領域以外の部分が誤って検出されてしまった場合、システムがうまく動作し
なくなってしまう。
• 顔を追跡、徐々に拡大していくためのカメラ操作の回数が多く、顔の注視まで
に時間がかかってしまう。
• モナリザ視線効果により、人が複数存在した場合ディスプレイの前方にいる人
すべてがCGの視線を感じてしまう。
これらの問題点の解決方法については 2.4節および 2.5節において述べる。
(a)
(b)
(c)
(d)
(e)
(f)
図 2.2
アイコンタクトシステムの動作
– 16 –
2.4 顔候補領域の検出と注視の方法
2.2節における考察を踏まえ、本研究では前述のアイコンタクトシステムの仕様を
見直し、まずズームダウンしたカメラで大域的に環境内を見渡し、目鼻が検出できな
い遠い位置にある視線も検出できるように、肌色領域の動きにより顔と思われる領域
(顔候補領域)を検出した後、その領域を中心視・拡大し、目鼻検出によって顔であ
るかどうかの判定を行う方法を採った。実際のこの方法による顔候補領域の検出と
注視の様子を図 2.3に示す。
(a) 顔候補領域の検出
(b) 顔候補領域の注視
図 2.3
2.4.1
顔候補領域の検出と注視
カメラの焦点距離の設定
カメラは焦点距離により、画面に写る被写体の範囲が変わってくる。焦点距離が大
きければ、一度に大きな範囲を画面に写すことができ、逆に小さければ、小さな範囲
しか画面に写らなくなる。従って、図 2.4に示すように、焦点距離が小さい場合には
焦点距離が大きな場合と同じ範囲を見るために、カメラの回転や移動といった操作を
何回も行う必要があり、効率が極端に低下する。従って、出来るだけ焦点距離は大き
くしたい。しかし、焦点距離を大きくしすぎると、画面中の被写体が小さくなり、明
度が低下するため、色相成分が不安定になり、遠くの顔の人間の顔候補領域を発見す
るのが難しくなる。したがって、4メートル先の人間の顔候補領域を安定して検出で
き、かつ出来るだけ大きな焦点距離を実験的に求めた。この時、カメラの画角を 30
度とした。
– 17 –
図 2.4
2.4.2
カメラの焦点距離と一度に捕らえる範囲
顔候補領域の検出方法
顔候補領域の検出には宮内氏によるプログラムを用いた。このプログラムは肌色
領域の動きにより、顔候補領域を検出する。このプログラムではまず.カメラによ
り得られた RGB 画像を HSV 系に変換し、色相成分による肌色領域の2値化を行う。
得られた一定以上の大きさを持つ肌色領域に対し、数回のクロージングとオープニ
ングを繰り返し、領域の連結部分を除去する。こうして求めた肌色領域に対し、次
のフレーム画像との RGB 成分の差分をとることで肌色領域の動きを検出し、差分
がある閾値以上でかつ最も大きい肌色領域を人間の顔の候補領域として抽出する (図
2.3(a))。
2.4.3
顔候補領域の注視方法
このプログラムにより求められた顔候補領域に外接する矩形の重心に位置する画
素を、中心視すべき画素とする。この画素が画像座標で (u, v) の位置にあるとし、画
像中心を (u0 , v0 ) とする。1 画素の横の大きさを ku , 縦の大きさを kv とすれば、カメ
ラ座標系における、この画素の xy 座標はそれぞれ
p x = ku (u − u0 )
(2.1)
py = kv (v − v0 )
(2.2)
と表せる。図 2.5より、この画素を中心視するためのカメラの水平方向の制御角、及
び垂直方向の制御角はそれぞれ、
θ x = tan−1
px
ku (u − u0 )
= tan−1
f
f
– 18 –
(2.3)
θy = tan−1
py
kv (v − v0 )
= tan−1
f
f
(2.4)
で与えられる。なお、本稿では光学的な画像中心は実際の画像中心を通り、直交して
いるものと仮定し、u0 = umax /2,v0 = vmax /2(ただし、umax ,vmax はそれぞれ画像の横
と縦のサイズを表す)とした。
以上により得られた制御角に従ってカメラのパンチルトを操作してその領域を中
心視し、あらかじめ実験的に求めておいたカメラのズームパラメータと焦点距離の関
係を記したテーブル (付録 A) を参照することで領域を目鼻検出に適当な大きさに拡
大する (図 2.3(b))。
図 2.5
2.4.4
カメラの制御角
顔判別の方法
注視した顔候補領域が顔であるかどうかの判断は、目鼻検出により行う。目鼻検出
は東芝画像処理ライブラリ [16] により行い、注視した顔候補領域において目鼻が全
て検出されれば、それは顔であると判定する。顔でなかった場合はデフォルトのズー
ム位置に戻る。
この方法を用いることでパン、チルト、ズーム制御を一度行えば、顔候補領域を注
視することが出来るようになり、仮に手などの顔領域以外を検出したとしても目鼻が
– 19 –
検出できなければデフォルトのズーム位置に戻るため、システム全体が正常に動作し
なくなることはない。従って、2.3節で述べたアイコンタクトシステムの問題点であ
るカメラパラメータの制御回数の多さ、顔以外が検出された際のシステムの不安定性
が解消できる。
2.5 CGを用いる際の問題点とその解決法
ロボットとのアイコンタクトに CG を用いた場合、CG を表示するディスプレイが
平面であるためその映像はどの人物にも同様に解釈される。例えば人間から見て CG
が斜め左の方向を向くとCGの前に居る全ての人物はその位置に関わらず、CGは斜
め左の方向を見ているように感じる (図 2.6)。また、CGが正面を向くとCGの前に
いる全ての人物はCGに見られている感じがしてしまうというモナリザ視線効果が
発生する (図 2.7)。したがって、CGと人間が視線が合うのは、CGが正面を向いる
ときのみである。しかし正面を向いたときにはモナリザ視線効果が発生してしまい、
複数の人物が存在する場合にアイコンタクトによって特定の人物とコネクションを
確立することができなくなる。これが 2.3節で述べたアイコンタクトシステムにおけ
る問題点のひとつである。
この問題は平面に 3 次元情報を表示するシステムにおいては共通した問題となり、
テレビ電話などの人間同士のビデオを介した対話システムにおける話者同定の問題
として研究されている。[19] ではビデオ映像の精度を意図的に落とすことで、視線
認知の多義的解釈領域を確保し、被話者同定の別情報との組み合わせによる解決す
る手法が提案されている。また、[17] では、ビデオ対話において話し手を写したスク
リーンの正面方向にいる聞き手は話し手の視線方向を8割程度正しく認識できたの
に対し、正面方向からずれると認識の正答率は 5 %に落ちることが報告されている。
これらの研究ではスクリーンに表示されるのは実際の顔映像であるが、平面に投影さ
れた顔 CG においても同様の傾向が予測できる。すなわち、顔 CG の正面にいる人物
にはCGの視線方向が認識できるが、正面方向以外の人物にはその視線方向を正しく
認識できず、右を見ているか、左を見ているかといった程度のおおよその方向しか判
断できないと考えられる。
本研究では、ロボット本体を実空間に構成し、平面の CG 以外の部分に方向性持た
せ、コミュニケーションをするユーザーに常にロボットの正面を向けることでこの問
題の解決を図る。これにより、ロボットの正面方向にいる特定の相手にのみ見られて
– 20 –
いるという意識を与え、その他の人物には見られていないという意識を与えることが
できる。この意識を与えることができなければ、複数の人物の中から、ロボット側か
ら相手を特定し、コミュニケーションを行う際に問題となる。例えば、ロボットが特
定の人間に伝えたいことがあった場合に、アイコンタクトをしても誰に対してアイコ
ンタクトをしているのかが周囲の人間に分からない為、特定の人物とコミュニケー
ションチャネルを確立することが出来ない。
図 2.6
3 次元 CG が斜め方向を向いたときの人間の解釈
図 2.7
モナリザ視線効果
– 21 –
第3章
アイコンタクトロボット
本研究では、2章で述べたのアイコンタクトを行うシステムを移動ロボットに搭載
し、特定の人物とコミュニケーションチャネルを確立した後、ジェスチャによる命令
を受け付け、実行するロボットを試作した。本章ではその詳細を記す。
3.1 ロボットのハードウェア構成
ロボット本体には ActiveMedia 社製の Pionner2(図 3.1) を用いた。Pionner2 はP
C側からシリアルポートを介してコマンドを送ることで移動させることが出来るほ
か、前方に備えられたソナーにより、障害物に衝突するのを防ぐことができる。こ
の Pionner2 の上にロボット制御と顔CG表示の為のノートパソコン(CPU pentium4
1.7GHz)を、0.7m の高さに取り付けた。
図 3.1
Pionner2
22
ロボットの上部にはパンチルトズーム機能を備えたアクティブカラーカメラ、
SONY 製 EVI-D100(図 3.2)を取り付けた。このカメラの仕様を表 3.1にまとめる。
図 3.2
表 3.1
Sony EVI-D100
SONY EVI-D100 仕様
撮像素子
1/4 型 IT 方式 CCD
有効画素数
768(H) × 494(V)
水平解像度
470TV 本
レンズ
10 倍ズームレンズ f = 3.1 ∼ 31mm,(F1.8 ∼ 2.9)
水平画角
6.6∼65 度
パンチルト機能
水平± 100 度(最大 300 度/ 秒) 垂直± 25 度(最大 125 度/ 秒)
コントロール端子
RS-232C, 8 ピンミニ DIN, 9600bps
カメラの向きをユーザに意識させずに、CGとアイコンタクトを行う為に、カメ
ラとカメラの後方には黒いスクリーンを取り付けた。試作したロボットの概観を図
3.3に示す。
– 23 –
図 3.3
試作したアイコンタクトロボット
– 24 –
3.2 システム構成
システムの開発には Visual C++ 6.0 を用いた。OS は windowsXP である。画像処
理及びジェスチャ認識は負荷分散のため外部に設けたデスクトップパソコン (CPU
pentium4 2.8GHz) により行い、Pionner2 の制御と顔 CG 制御及び表示はロボット本
体に搭載したノートパソコンにより行う。このノートパソコンとデスクトップパソ
コンをLANにより接続する。システムのモジュールとその関係を図 3.4に示す。
図 3.4
システムのモジュール図
3.3 ロボット全体の動作
このロボットの全体を動作は以下に示す。動作の様子を 3.5に示す。
1. カメラが動きながら、顔候補領域の検出を行う。このときカメラの動作と同期
して、カメラが向いている方向に顔 CG も動かす。(図 3.5(a))
2. 顔候補領域を発見し、目鼻検出によりユーザーがロボットを見つめていること
– 25 –
を確認する。目鼻を検出しなかったとき、またはユーザーがロボットを見てい
ないときは1に戻る。
3. アイコンタクトが成立すると、ロボット本体が回転し、ユーザの方向を向くと
同時にCGを正面にして、表情を笑顔にしてユーザに見られていることに気づ
いたということをユーザに知らせる (図 3.5(b)(c))。その後、ロボットは初めて
ジェスチャによる認識を受け付ける状態になる。
4. ユーザーがロボットに向けジェスチャを行う。(図 3.5(d))
5. ユーザのジェスチャを認識すると、CGはうなずいてユーザに命令を認識した
ことを伝え、ユーザの元に来る。(図 3.5(e)(f))
(a)
(b)
(c)
(d)
(e)
(f)
図 3.5
ロボットの動作
3.4 ジェスチャ認識
ジェスチャ認識には [20] に示す手法を用いたジェスチャ認識ソフトウェアを使用
した。このソフトウェアでは、連続DPによるスポッティング認識を可能にしてい
る。動画像から肌色領域の動きの特徴ベクトル列を求め、認識に用いるので、接触型
センサやマーカを使用せずにジェスチャを認識できる。認識対象とするジェスチャ
– 26 –
の登録はカメラの前でユーザがジェスチャを教示することにより行う。本研究にお
いては手招きのジェスチャ (図 3.7) を予め教示して登録しておく。ジェスチャの教示
画面を図に示す。ジェスチャ認識を正確に行うには教示画面と同様な画面内の位置
に人物が写る必要がある。従って、2.4 節で目鼻検出を経てアイコンタクトが成立し
た後、パンチルトを両目の中心位置に画像中心を再び合わせて顔の位置を微調整し、
ズームダウンしてジェスチャの認識が行えるようにする。この様子を図 3.6に示す。
(a) 目鼻検出時
(b) ジェスチャ認識時
図 3.6
ジェスチャ認識の為のリサイズ
図 3.7
登録した右手を振るジェスチャ
– 27 –
第4章
実験
本章では、試作したロボットに関する実験についてまとめる。実験 4.1, 実験 4.2は
アイコンタクトを行ったあとにジェスチャ認識を行うことの有効性を示すために行っ
た。実験 4.3は顔候補領域の注視にかかる時間の測定である。実験 4.4, 実験 4.5は
CG を用いた場合のロボットの視線方向の周知のための基礎実験である。
4.1 意図的なジェスチャの識別実験
4.1.1
目的
この実験は人間がロボットとアイコンタクトをした場合にのみ、ロボットに対して
なされたジェスチャのみを認識し、ロボット以外の人間に対しなされたジェスチャと
区別できるかどうかを確認するために行った。
4.1.2
方法
この実験ではまず、被験者がロボットの前方 2.5m の位置Aに立つ。2.5m は社会
距離遠接相にあたる。この距離は対人関係において「お互いは無関係であると感じる
ことはないが、通常の対面会話が難しい距離」であり、視覚により相手の全身を捕ら
えられる。本実験ではアイコンタクトをした後に、会話ではなくジェスチャによりコ
ミュニケーションを行う場面を想定しているため、この距離を設定した。この状態に
おいて被験者が次の動作を行う。
• ロボットの方向に視線を向けて、手招きのジェスチャを行う。(試行回数
28
20 回)
• 被験者はロボットから 0.5m 離れた位置Bにいる別の人物の方向に視線を向け
て、この人物に対し同様に手招きのジェスチャを行う。(試行回数 20 回)
上記のそれぞれについて、総試行回数のうち、ジャスチャを認識した回数を測定
する。
尚、図 4.1に示す距離を 0.5m としたのは、肉親など特に親しい関係を除いて人間
がとり得る対人距離の内、最も近い距離である個体距離近接相を想定した為である。
図 4.1
4.1.3
被験者とロボットの位置
結果
結果を表 4.1に示す。
表 4.1
認識回数(回〉
4.1.4
ジェスチャが認識された回数
ロボットの方に視線を向ける
人物 B に視線を向ける
20
0
考察
表 4.1より、ロボットに視線を向けてアイコンタクトを行った場合に正しくジェス
チャを認識したことが分かる。一方、人物 B に視線を向けてアイコンタクトを行う
– 29 –
と、ジェスチャは認識されない。従ってアイコンタクトを利用することでロボットに
対し、意図的なジェスチャと他人へのジェスチャを識別できたと考えられる。
4.2 ジェスチャの誤認識に関する実験
4.2.1
目的
一般的な環境下で動きからジェスチャを認識する方法を用いた場合、登録された動
作と動きが似た無意識な動作や意味のない動作を誤って意図されたジェスチャとし
て認識してしまうことがある。この問題に対するアイコンタクトの有用性を検証す
るため、以下の実験を行った。
4.2.2
方法
実験では既に被験者の顔候補領域が検出され、目鼻検出が可能なサイズに領域がリ
サイズされているとする。この状態において、被験者にロボットを注視せずにロボッ
トの視野内を左右に5往復する動作を20回行ってもらい、そのときにこの動作を、
登録されている右手を振る動作 (図 3.7) として誤って認識してしまった回数を測定す
る。ジェスチャ認識を開始する条件として
(a)
アイコンタクトが成立した時
(b)
目鼻が検出された時
(c)
なし(常にジェスチャを認識)
を設定する。
4.2.3
結果
結果は表 4.2のようになった。また、誤認識されてしまった動作の一例を図に示す。
表 4.2
認識回数 (回)
ジェスチャが誤って認識された回数
(a) アイコンタクト有り
(b) 目鼻検出のみ
(c) なし
0
5
7
– 30 –
図 4.2
4.2.4
右手を振る動作として認識された動作
考察
(c),(b) の場合に図から分かるように、被験者の振り返りの動作が右手を振る動作
として誤って認識された。これはジェスチャ認識が肌色領域の動きを元に行われ、
かつ細かい部分の動きを認識対象としないという仮定の元で行われて [20] いるため
であると考えられる。さらに画面の中心で動作者がジャスチャを行うことを想定し
ているため、実験のような想定外の動作では画面の右端で動いている肌色の領域が
顔なのか右手なのか識別できず、誤認識が起こったものと考えられる。(b) の場合に
は、被験者が振り返るときに、顔がロボットの方向に向いて、目鼻が検出されてしま
い、ジェスチャの認識を開始してしまった。一方、(a) ではジェスチャ認識のために
は「被験者の顔方向がロボットの方向を、一定時間以上向いている」ことが条件とな
り、ロボットを意識しない被験者の動作中にたとえ誤認識を生じるような動作が行わ
れたとしてもこの条件は成り立たず、誤認識がなくなったと考えられる。
以上の実験はアイコンタクトが生活環境において、ロボットがジェスチャ認識を行
うべき区間と、そうでない区間の区別に有効であることを示していると考えられる。
また、本システムにおいては人間にとっても CG の顔方向や目の向きによってロボッ
ト側の注視対象を汲み取ることで、「ロボットが自分に気づいていないときにジェス
チャを行っても意味はない」ということに気づくことができ、このことを利用すれば
ロボットがジェスチャ認識を行える最適な状態において人間に選択的にジェスチャ
を行わせることができると考えられる。
– 31 –
4.3 顔候補領域の注視の時間測定
4.3.1
目的
顔候補領域の注視にかかる時間を測定し、反応速度の改善余地を探る。
4.3.2
方法
ロボットの正面 2m の位置にいる人物の顔候補領域を発見してから、領域の注視に
至るまでの時間をカメラ制御時間、画像処理時間に分けて50回計測し、その平均を
算出する。
4.3.3
結果
結果を図 4.3に示す。
図 4.3
4.3.4
顔領域の注視までの時間
考察
表 4.3より、領域の注視にはカメラの制御時間に多く時間を費やしてしまうことが
分かった。これはパン、チルト制御、焦点距離の変更などのカメラのハードウェア的
な動作に時間がかかるためであると考えられる。注視までの合計時間は 2 秒近くか
– 32 –
かる。実際にはこの注視までの時間に加え、人間の視線を検出した後、ユーザーが
たまたまロボットの方を見たのではなくロボットを見つめているということを判断
するための時間 t が必要となり、CG が反応を示すまでの時間は領域を注視してから
さらに t 秒後ということになる。[15] によればアイコンタクトをする際に人間が CG
を見つめてから、CG が反応を返すまでの時間が 1 秒を超えると多くの人は反応が
遅いと感じてしまう。しかし現状ではカメラパラメータの制御だけで 1 秒を超える。
従って、カメラ制御速度の改善が必要であることが分かった。
4.4 平面の CG を実ロボットに搭載したことによるロ
ボットの視線方向周知へ与える影響に関する実験
4.4.1
目的
この実験は顔 CG が行うアイコンタクト時のロボット正面方向の相手への視線投
げかけ行動が、平面の CG を実ロボットに搭載したことにより、正面にいる相手にの
み伝わりやすくなるかどうかを確かめるために行った。
4.4.2
方法
実験は1回につき3人組で行い、被験者は合計9人である。図 4.4に示す D の位置
の前方 2.5m の位置に顔の高さを揃えて 0.5 m間隔で3人の座席 A,B,C に座って一列
に椅子に座ってもらう。本実験における 2.5m 及び 0.5m という距離の設定は 4.1節
で述べた指針に基づく。∠ADC は約 23◦ である。
実験 1
位置 D に大きな白い壁にプロジェクターで投影した顔 CG 画像を表示する。
実験 2
位置 D に実験1と同じ顔 CG を表示したロボットを座席 B の方向をむけて
配置する。ロボットは固定で動かないものとする。
実験1と実験2では壁に投影する顔 CG およびロボットに搭載された顔 CG はい
ずれも、大きさ、表示する高さは等しく、座席Bの正面方向に配置する。いずれの実
験においてもアイコンタクトが起こった状態を再現するため、顔 CG は最初はどの被
験者とも視線が合わないよう、座席 B から見て座席 A の方向に60度の角度を向け
ておく。この状態において、「ロボットを見てください」という合図とともに、3 人
いっせいに位置 D の方を向いてもらう。3 人が位置 D の方を向いたら、顔 CG の向
– 33 –
きを正面(座席 B の方向)にすると同時に、表情を笑顔にする。
その後、どのくらい見られている気がしたかという問いに「見られた感じがする」
を5で、「見られた感じがしない」を1とする5段階評価で答えてもらった。また、
各実験において被験者に座席の位置を変えた場合についても同様に実験を行った。
図 4.4
4.4.3
被験者の座席位置
結果
各実験における座席位置ごとの被験者の評価を図 4.3, 図 4.4に、評価の割合を図
4.5, 図 4.6, 図 4.7に示す。示す。また、符号検定による座席位置の組における有意差
検定の結果を図 4.8に示す。
– 34 –
表 4.3
実験1における 5 段階評価の結果
座席 A
座席 B
座席 C
被験者1
4
4
4
被験者2
3
4
4
被験者3
1
5
2
被験者4
5
5
4
被験者5
2
4
5
被験者6
1
5
2
被験者7
2
4
5
被験者8
3
5
5
被験者9
2
4
2
表 4.4
実験2における 5 段階評価の結果
座席 A
座席 B
座席 C
被験者1
3
4
2
被験者2
1
5
1
被験者3
2
5
3
被験者4
4
5
3
被験者5
4
5
2
被験者6
1
5
4
被験者7
1
5
1
被験者8
2
2
2
被験者9
1
3
2
– 35 –
図 4.5
座席 A における評価
図 4.6
座席 B における評価
図 4.7
座席 C における評価
– 36 –
表 4.5
符号検定による座席位置の組における有意差検定の結果
座席 A と座席 B
実験1
*
実験2
*
座席 B と座席 C
座席 C と座席 A
*
*
注:∗ 印は有意水準を 0.05 としたときの有意な差があったものを表す。
4.4.4
考察
実験1では、座席 B と座席 C の間で評価に有意差が見られず、この 2 つの席に
座った場合にモナリザ視線効果を発生すると考えられる。座席 A と座席 B の間で有
意差があり、座席 B での評価より座席 A での評価の方が低かった理由としては、顔
CG が常に被験者 A から被験者 B の方向へ振り向くので、その動作により、被験者
A が見られていないという感じがしたものと思われる。
また、実験2では、多くの被験者は座席 B の位置に座った場合にもっとも高い評価
を与えた。符号検定で、座席 A に座った場合と B に座った場合、座席 C に座った場
合と B に座った場合のそれぞれについて、有意な差が見られた。これは実験1で起
こったモナリザ視線効果が発生が抑えられたことを意味する。実験1との違いは CG
を実際にロボットに搭載した点だけであるのにもかかわらず、この差が表れた理由
は、多くの被験者がディスプレイに映し出される画像にだけに注目したのではなく、
ロボット全体に注目していたためであるためではないかと考えられる。すなわち、被
験者がロボットの立体的造形を見てロボットの向きを認識し、CGの画像情報だけで
はなくこの向き情報を用いて評価を行ったと考えられる。この実験の結果からはロ
ボットの向き情報を人間に強調することによって平面に映し出された CG であって
もモナリザ視線効果を防止でき、CG の視線方向が相手に伝わりやすくできることが
確認された。
– 37 –
4.5 ロボットの回転が視線方向周知へ与える影響に関す
る実験
4.5.1
目的
この実験はロボット本体が回転を行い、特定の相手が正面になった時に静止すると
いう動作によって、その相手にのみロボットの視線を感じさせることが出来るかどう
かを確かめるために行った。
4.5.2
方法
実験は1回につき3人組で行い、被験者は合計9人である。図 4.4に示す D の位
置の前方 2.5m の位置に顔の高さを揃えて 0.5 m間隔で3人の座席 A,B,C に座って
一列に椅子に座ってもらう。本実験における 2.5m および 0.5m という距離の設定は
4.1節で述べた指針に基づく。∠ADC は約 23◦ である。位置 D には顔 CG を表示した
ロボットを配置する。いずれの実験においてもアイコンタクトが起こった状態を再
現するため、顔 CG は最初はどの被験者とも視線が合わないよう、座席 B から見て
座席 A の方向に60度の角度を向けておく。
実験 1
最初はロボットを座席 B の方向に対し、左に60度の方向を向けておき、被
験者らがロボットの方を向いたらロボットが右へ回転を行い、座席 B の正面
で静止すると同時に、CG を正面(座席 B の方向)に向け、表情を笑顔にする。
実験 2
最初はロボットを座席 B の方向に対し、右に60度の方向を向けておき、被
験者らがロボットの方を向いたらロボットが左へ回転を行い、座席 B の正面
で静止すると同時に、CG を正面(座席 B の方向)に向け、表情を笑顔にする。
この状態において、「ロボットを見てください」という合図とともに、3 人いっせい
に位置 D の方を向いてもらう。3 人が位置 D の方を向いたら、顔 CG の向きを正面
(座席 B の方向)にすると同時に、表情を笑顔にする。
その後、どのくらい見られている気がしたかという問いに「見られた感じがする」
を5で、「見られた感じがしない」を1とする5段階評価で答えてもらった。また、
各実験において被験者に座席の位置を変えた場合についても同様に実験を行った。
4.4節における実験2(ロボットを回転しない場合)と結果を比較した。
– 38 –
4.5.3
結果
各実験における座席位置ごとの被験者の評価を図 4.6, 図 4.7に、評価の割合を図
4.8, 図 4.9, 図 4.10に示す。また、符号検定による座席位置の組における有意差検定
の結果を図 4.8に示す。
表 4.6
実験 1 における 5 段階評価の結果
座席 A
座席 B
座席 C
被験者1
1
5
1
被験者2
1
5
2
被験者3
2
5
4
被験者4
5
5
3
被験者5
1
5
1
被験者6
5
5
4
被験者7
1
5
4
被験者8
2
2
2
被験者9
1
3
2
表 4.7
実験 2 における 5 段階評価の結果
座席 A
座席 B
座席 C
被験者1
2
5
1
被験者2
2
5
1
被験者3
2
5
3
被験者4
4
5
4
被験者5
1
5
1
被験者6
4
5
5
被験者7
2
5
2
被験者8
2
2
2
被験者9
2
3
2
– 39 –
図 4.8
座席 A における評価
図 4.9
座席 B における評価
図 4.10
座席 C における評価
– 40 –
表 4.8
符号検定による座席位置の組における有意差検定の結果
座席 A と座席 B
座席 B と座席 C
実験 1
*
*
実験 2
*
*
座席 C と座席 A
注:∗ 印は有意水準を 0.05 としたときの有意な差があったものを表す。
4.5.4
考察
実験 1、実験 2 において表 4.8より、座席 A と座席 B、座席 C と座席 B のそれぞ
れの組について、有意な差が見られた。いずれの実験についても、座席 B に座った
ときに被験者がもっとも高い評価を与えた。これにより、ロボット自体が回転を行っ
た場合でも向き情報を利用していることが確かめられた。
しかし、図 4.8, 図 4.10より、回転を行うときにロボットが通り過ぎる座席の被験
者は低い評価を与えるものが多かったが、回転方向の先にいる被験者は評価が上がっ
てしまう傾向が見られた。これについては回転の惰性の影響が考えられる。実際、被
験者の意見の中に「A,C に座った場合、ロボットが回転し停止するときに、回転し
てきた方向から一瞬自分が見られたような気がするが、やはり座席 B の人だと思っ
た。」という意見もあることから、回転の動作により、ロボットが静止していた場合
に比べて、人間が行うロボットの向き情報の認識が不安定になることもあることが
わかる。これについてはロボットの方向の強調の度合いを変えることで、対応する方
法が考えられる。例えばロボットにアームがあれば、回転した場合はそのアームをコ
ミュニケーションをする相手の方向に向けるといったことが考えられる。
4.6 全体の考察
実験 4.1, 実験 4.2より、本システムにより、ロボットに対し意図的なジェスチャの
みを選択的に認識し、非意識的・非意図的な動作の認識を排除して誤認識をなくすこ
とができることがわかる。しかし、本システムではユーザーがロボットの方を一定時
間向いていたらコミュニケーションの意思があると判断しているが、単にぼんやり遠
くを見ているときなどはロボットが視界に入っていたとしてもコミュニケーション
の要求があるとは限らない。ロボットはユーザーの微妙な表情や状況を把握して本
– 41 –
当にコミュニケーションの要求があるかを確かめなければならない。例えば本シス
テムでは、ロボットがアイコンタクトの際、顔 CG の表情を笑顔にするが、人間にロ
ボットをコミュニケーションの相手として認知させることができれば、人間も表情変
化などの何らかの同調動作を示すはずであり、ロボットがこういった情報を読み取る
ことでコミュニケーションの要求の有無を確認する方法が考えられる。
また、実験 4.3より、カメラ制御がロボットと人間が実際にアイコンタクトを行う
までの時間に大きな影響を与えることが分かった。広範囲をパンチルト制御なしで
観察できる全方位カメラや、高速注視可能なカメラを導入するなどの対策を講じる
必要がある。また、本システムではカメラが肌色領域の動きにより顔候補領域を見つ
け、注視とズームダウンを繰り返すので、ロボットの方を向いていない人の顔や手で
も動いていれば何回も検出されてしまう。これについては正面を向いたときの平均
顔画像テンプレートを利用するなどして初めに大まかな顔方向を推定することで無
駄な注視を減らす方法が考えられる。
実験 4.4, 実験 4.5より、CGを用いた場合、ロボットが誰とアイコンタクトをして
いるのかを分かりやすくするためには実空間上のロボットの造形に人間が知覚でき
る方向性をもたせることが重要であることが分かったが、どのような方法により方向
性を持たせれば効果的なのかということについて調べる必要がある。また、ロボット
が回転をした場合に、ロボットが見ている方向の認識が不安定となる点も解決でき
ていない。この点を解決し、ロボット側からアイコンタクトを用いてのコミュニケー
ションチャネルの確立を行うことも問題である。
ロボットの正面にいる人物以外に、ロボットの視線方向が分からないということも
グループ対話や例えば、ロボットが集団に対し、会話をするような1対多のコミュニ
ケーションを想定した場合は問題となる。
– 42 –
第5章
結論
5.1 まとめ
ロボットが人間とアイコンタクトを通したインタラクションをすることによって
特定の相手とコミュニケーションチャネルを確立し、生活環境で起こるユーザーの
様々な動きの中から、ロボットに対し意図的・意識的なジェスチャのみを認識する方
法について述べた。
そして、この方法を表現力、リアルタイム性に優れる CG を用いて移動ロボットに
実装し、その有効性を確認した。また、このロボットを用いた実験により、CG を用
いた場合でも実空間上でロボットの造形に方向性を持たせることや、ロボットの回転
動作を利用することにより、特定の人にロボットの視線を認知させることができる可
能性を確認した。また、自然なアイコンタクトのためにはカメラの制御速度を向上さ
せる必要があることが分かった。
5.2 今後の課題
今後の課題を以下に記す。
• 人の顔の注視方法、ハードウェアの検討をすることで人間の視線の検出速度、
精度を向上させる。
• ロボットの視線を周囲の人間に周知し、ロボット側からアイコンタクトによっ
てコミュニケーションチャネルを確立させる。
• 言語的コミュニケーションの機能をロボットに持たせ、ジェスチャ認識と併用
43
したマルチモーダルなシステムを構築する。
• ロボットの身体動作ジェスチャ機能の追加、人間の表情読み取り機能の追加に
よってロボットと人間の非言語コミュニケーションを双方向化する。
– 44 –
謝辞
研究ならびに生活面においてご指導を賜りました久野義徳教授、研究の遂行にご協
力頂きました、中村明生助手、本当にありがとうございました。
また、ジェスチャ認識プログラムをご提供下さった産業技術総合研究所の西村拓一
様、顔のCGプログラムをご提供下さった東京工業大学大学院理工学研究科、像情報
工学研究施設の長谷川修助教授、さらには東芝顔認識ソフトウェアライブラリをご提
供下さった株式会社東芝の福井和広様、山口修様、深く感謝致します。
また、アイコンタクトプログラムをご提供いただき、快く相談にのってくださいま
した宮内氏をはじめ、先輩としていつもよきアドバイスをくださいました、森氏、山
崎氏、苦労を共にした、植田氏、岡村氏、中野氏、忙しい中実験に協力してください
ました皆様、そして同期学生の皆様、並びに私を暖かく見守って頂いた両親をはじめ
とする周囲のすべての皆様に深く感謝致します。
45
参考文献
[1] “AIBO ホームページ” http://www.jp.aibo.com/
[2] Thrun, S “Spontaneous, Short-term Interaction with Mobile Robots in Public
Places, ”In Proceedings of the IEEE International Conference on Robotics and
Automation (ICRA),1999.
[3] 西田豊明 “人間とロボットの意思疎通”, 特集「情報科学の総力をあげたロボット
技術」情報処理, 2003.
[4] 土肥 浩, 石塚 満 “WWW と連携する擬人化エージェントとの HAI”, 人工知
能学会誌, Vol.17, No.6, pp.693-700 ,2002.
[5] 長谷川 修 “マルチモーダル対話における視覚の役割とその応用”, 情報処理学
会研究報告 「ヒューマンインタフェース」 アブストラクト No.095 - 023,2001.
[6] 畠山誠,西田豊明 “同調動作に基づくロボットと人間のコミュニケーション”, 第
17 回人工知能学会全国大会, 1D1-05, 2003.
[7] 神田崇行,石黒浩,小野哲雄,今井倫太,中津良平 “人-ロボットの対話における
ロボット同士の対話観察の効果” , 電子情報通信学会論文誌D1,Vol. J85-D-I,
No. 7,pp. 691-700. 2002.
[8] 大坊 郁夫 “しぐさのコミュニケーションー人は親しみをどう伝えあうかー”, サ
イエンス社 ,1998.
[9] 田中 信也, 梅田和昇 “ジェスチャ認識を用いた移動ロボットの操作システム”, 電
気学会論文誌 C, Vol.121-C, No.9, pp.1457-1463, 2001.
[10] 岡 隆一, 西村 拓一, 遠藤 隆 “マルチモーダルインターフェイス”, 日本ロボッ
ト学会誌,vol.16,No.6,pp.749-753,1998.
[11] 松坂要佐, 東條剛史, 小林哲則,“グループ会話に参与する対話ロボットの構築”,
電子情報通信学会論文誌 Vol.J84-D-II No.6, pp.898-908, 2001.
[12] 大坊 郁夫 “対人コミュニケーションの社会性”, 対人社会心理学研究 第 1 号,
46
pp.1-16,2001.
[13] 福井康之 “まなざしの心理学 視線と人間関係”, 創元社, 1984.
[14] 宮内 大, 中村 明生, 久野 義徳 “機械とのアイコンタクトシステム”, 情報処理学会
研究報告 (2003-CVIM-138), pp.121-128,2003.
[15] 宮内 大 “メタコミュニケーションのためのアイコンタクトシステム”, 埼玉大学
卒業論文,2003.
[16] 福井和広 山口修 “形状抽出とパターン照合の組合せによる顔特徴点抽出”, 電
子情報通信学会論文誌 D-II Vol.J80-D-II No.8, pp2170-2177, 1997-08.
[17] 森川治 “対話における視線認知特性の対面対話とビデオ対話の違い”,Progress in
Human Interface,6,pp13-20,1997.
[18] Hall,E.T. 著 日高敏隆・佐藤信行訳 “かくれた次元”, みすず書房,pp.160181,1970.
[19] 森川 治, 山下樹里, 福井幸男, 佐藤 滋 “ビデオ対話における映像精度の視線認識
への影響−映像精度が高い程良い訳ではない−” 日本バーチャルリアリティ学
会論文誌, 6:1, 11-18, 2001.
[20] 西村 拓一, 向井 理朗, 野崎 俊輔, 岡 隆一 “動作者適応のためのオンライン教
示可能なジェスチャ動画 X 像のスポッティング認識システム”, 信学論 (D-II),
Vol.J81-D-II, No.8, pp.1822-1830, 1998.
– 47 –
付録 A:カラーパンチルトカメラ Sony EVI D-100 のズーム
パラメータと焦点距離の関係
本研究においては、カメラのズームパラメータと焦点距離の関係は被写体を2メー
トル離した時のマニュアルに記載値 (表 A-1) を線形補完した図 A-1 の関係を用い、
オートフォーカスによる焦点距離の微調整の影響は考慮していない。
図 A-1 本研究で用いたズームパラメータと焦点距離の関係
– 48 –
表 A-1 Sony EVI D-100 ズームパラメータと焦点距離 (マニュアル記載値)
ズーム値
焦点距離 (mm)
0x0000
3.1
0x0E6D
4.65
0x188E
6.2
0x2507
9.3
0x2B82
12.4
0x3130
15.5
0x352E
18.6
0x385D
21.7
0x3B48
24.8
0x3E01
27.9
0x4000
31
0x5000
41.3
0x6000
62
0x7000
124
– 49 –