９眼ステレオとデータグローブを用いたロボットによる人間行動の認識と再現小川原光一射場総司田貫富和木村浩池内克史東京大学生産技術研究所第３部〒 106-8558 東京都港区六本木 7-22-1 Tel：03-3401-1433 E-mail : fogawara,[email protected], [email protected], tomikazu [email protected], [email protected] あらまし注視点 (Attention Point: AP) 解析（以下 AP 解析）による人間行動モデルの構築法について述べる．AP 解析は２段階から成り，最初の段階では人間の行動を大まかに観察し，一連の行動の中からより詳しい解析を必要とする注視点 (AP) を発見する．第２段階では，同じ人間行動を再度観察し，今度は先程発見した注視点 (AP) 付近についてのみ時間をかけた重点的な解析を行う．こうすることで効率的に人間行動をモデル化することが可能となる．また本人間行動モデルは高度に抽象化されており、その抽象度を環境に応じて変化させることができるため，異なる環境への適用性が高い．本稿では，データグローブと９眼ステレオビジョンを用いた AP 解析手法及び人間行動モデルの構築法について述べる．また実ロボットを用いた人間行動の認識及び異なる環境における再現実験を行うことで，本人間行動モデルの適用性について検証を行った結果について述べる． Recognition and Performance of Human Task with 9-eye Stereo Vision and Data Gloves Koichi OGAWARA Soshi IBA Tomikazu TANUKI Hiroshi KIMURA Katsushi IKEUCHI Institute of Industrial Science University of Tokyo 7-22-1 Roppongi, Minato-ku, Tokyo JAPAN 106-8558 Tel：03-3401-1433 E-mail : fogawara,[email protected], [email protected], tomikazu [email protected], [email protected] Abstract This paper presents a novel method of constructing a human task model by attention point (AP) analysis. The AP analysis consists of two steps. At the first step, it broadly observes human task, constructs rough human task model and finds APs which require detailed analysis. Then at the second step, by applying time-consuming analysis on APs in the same human task, it can enhance the human task model. This human task model is highly abstracted and is able to change the degree of abstraction adapting to the environment so as to be applicable in a different environment. We describe this method and its implementation using data gloves and a stereo vision system. We also show an experimental result in which a real robot observed a human task and performed the same human task successfully in a different environment using this model. 1 行動の解析に利用できる場合には，センサの特徴に応じて第１段階と第２段階とでそれぞれ別のセンサを使い分けることもできる．このようにしてロボットが人間行動のうちの重要な部分だけを詳細に再解析することで，効率良く人間行動モデルを拡充していくことができる．以降の章では，上記の AP 解析について詳しく説明し，データグローブと９眼ステレオビジョンを用いた人間行動モデル構築の実装法について説明する．最後に，本人間行動モデルの適用性を検証するために，実ロボットによる人間行動の認識・再現実験を行った結果について述べる． 1 はじめにロボットが観察によって人間の行動を学習し，自動的に行動のレパートリーを増やすことができるようになれば，人間・ロボット共存社会においてロボットの適用範囲を大幅に拡大することが可能になる．人間行動を獲得するためには，ロボットは何らかの人間行動モデルを構築する必要がある．この人間行動モデルは，ロボットが人間と同じ行動を再現したり，人間との協調作業を行う際に利用される．これまで，視覚を用いたロボットによる人間行動学習の研究 [1, 2] や視覚に基づく人間・ロボット協調行動の研究 [3] が行われてきたが，これらの研究においては人間の行動観察は１回のみであった．つまり，１回の観察で人間行動モデルを構築した後に，再度人間行動の観察を繰り返し解析を重ねて人間行動モデルを拡充させようという試みは行われてこなかった．しかし１回の解析において，人間の行動全てに渡って詳細な解析を行うことは現実的ではなく，かといって全般におおまかな解析を行うのでは，詳細な解析を必要とする個所の解析が不十分となる．本研究では人間行動の解析を２段階に分け，注視点 (Attention Point: AP) 解析（以下 AP 解析）によって人間行動モデルを構築する手法を提案する (図 1)． Ts t-1 Step 1 Rough Analysis Te t-1 2 人間行動の認識本研究では，対象とするタスクをテーブル上における手作業に限定する．解析のための入力デバイスとして，データグローブ（ CyberGlove & Polhemus 位置センサ）と９眼ステレオビジョンを用いた．ロボットは，データグローブからの入力データに基づいて粗い人間行動モデルを構築し，同時にそのモデルから注視点 (AP) を抽出する．第２段階では，ロボットは人間行動を再び観察するが，今回は注視点付近の行動のみに着目する．ここでは９眼ステレオビジョンを入力デバイスとして用い，注視点付近の距離データの解析を行う．本研究においては，ステレオデータ解析はデータグローブのデータ解析と比較して処理に時間がかかるため，注視点付近の距離データのみ解析を行うことで，効率的に人間行動モデルを拡充していくことが可能となる． t Ts t AAt-1 t-1 At Step 2 Detailed Analysis Apply Close Observation At Ts t Te t Action Symbol Start Time Stop Time Attention Point 2.1 粗い人間行動モデルロボットは，人間の手作業における手の動きをデータグローブを使って解析することで，粗い人間行動モデルを構築する．本研究では，人間の手作業を単位動作である「手動作」の連続体であると定義し，「手動作」を表 1 に示す属性を持つものと定義する．解析には隠れマルコフモデル (HMM) によるジェスチャースポッティングを用い，人間の手作業全体が離散的に連続した “Action Symbol”(At ) からなるものとして “Action Symbol” のセグメンテーションを行う．これについては，第３章で詳しく述べる．このセグメンテーションされた “Action Symbol” を「手動作」として扱い，“Time Stamp(T st,T et )” と “Hand” と “Position” の３つの属性を付与する図 1: 注視点 (AP) を用いた２段階解析注視点 (AP) とは，人間行動を解析する上で，一連の行動中で注意深い解析を必要とする部分を指す．これは，人間の行う単位動作（つかむなど）の開始時点・終了時点や，ロボットが実際に獲得した行動を行ってみて失敗する個所などである．第１段階では，ロボットは人間行動の大まかな解析を行い，粗い人間行動モデルを構築し，時間軸に沿って注視点 (AP) を抽出する．第２段階では，同じ人間行動に対して，第１段階で発見された注視点付近を重点的に解析する．複数のセンサを人間 2 し，人間の行動を再び観察して，視覚により注視点付近の画像中の手の存在する場所を解析することで，対象物がなんであるかの認識を行う．この場合は，つかむことで手により物体が隠蔽されることが分かり，またつかんだ時点での手の位置も分かっているため，AP 解析の時には，つかむ直前の画像を視覚によって獲得し，すぐ後に手が来るであろう場所を解析することで，つかまれた物体を認識することが可能になる．表 1: 手動作の属性 Attributes Time Stamp Priority 1(low) Action Symbol 3(high) Hand Position 2 1 Object Model 3 value Absolute Time (start and stop time) Power Grasp Precision Grasp Release, Pour, Hand Over Right, Left, Both Absolute Position in 3D space Type of the Manipulated Object 2.3 注視点の詳細な解析（表 1 参照）．この抽象化された「手動作」列を粗い人間行動モデルとする（図 2 ）．このモデルを使うことで，人間行動時と全く同じ環境下においてはロボットは人間の手の動きと同等の動きを再現できるが，このモデルでは取り扱う対象物が何であるかという情報が欠落しているため，人間行動時と物体の配置が異なるようなより複雑な環境下においては，ロボットは簡単に作業を失敗してしまう． Rough Behaviour Model Ts t-1 Te t-1 Precision Grasp by the Left Hand Ts t Te t Power Grasp by the Right Hand t 1:Find Attention Point Stereo Vision 2:Selection by Model Syntax (Grasp) ... ... 3:Apply Close Observation Rough Behaviour Model ... Time Stamp Action Symbol Hand Position Object Model Ts,e At t Ts,e t+1 At+1 Ts,e t+2 At+2 ... 図 3: AP 解析例 Enhanced Behaviour Model t 本研究では AP 解析を行うための手段として，実際に２回人間の動作を観察する代わりに，一回の人間動作から粗い解析用と詳細な解析用の２種類図 2: 人間行動モデルの入力データを同時に獲得することを行った．ロボットは，人間の手作業をデータグローブからのデータ（粗い解析用）によって解析する間，平行してステレオビジョン装置から得られる距離データ 2.2 注視点 (Attention Point: AP) （詳細な解析用）を時系列に沿ってタイムスタンプと共に連続的に記録しておく．タイムスタンプは，本研究では，注視点 (AP) としてそれぞれの「手動作」の開始時点と終了時点 (T si ,T ei ) を選んだ．人間行動モデルの “Time Stamp” と同期しているため，注視点 (AP) に対応するデータを解析しようとこれは，この時点を境に人間はその行動を大きく変した場合，ロボットは対応する記録された距離デー化させるため，この時点において物体の取り扱われタを簡単に獲得することができる (図 3)．方が大きく変わる可能性が高いためである．後か対応する距離データに対して，３次元テンプレーらこの付近を視覚を用いて詳しく解析することで，トマッチング (3DTM) 法によって対象物体の認識ロボットはどの物体がどういう扱われ方をするかを行う．認識手法の詳細については第４章で詳しくについての情報を獲得し，人間行動モデルに物体述べる，の情報を付加することができる．例えば，人間が何かを “Power Grasp” したということが粗い人間行動モデルから分かったとする．しかし，この情報では人間がどこでどうつかんだかということは分かっても，何をつかんだかは不明である．そこで，つかむ動作の開始時点を注視点に設定 2.4 優先度「手動作」のそれぞれの属性は，優先度の項を持つ．優先度はタスクを遂行する上でのその属性 3 の重要度を示す．ロボットはまず人間行動モデルに記述されている通りにタスクを実行する．この時，表 2: ジェスチャーの定義人間行動時と物体の配置が異なるなどの理由でロ Gesture Primitives Action Power Grasp cls+sp Power-grasp from open ボットの行動が失敗すると，ロボットは優先度の低 position Precision Grasp prc+sp Precision-grasp from い属性を無視し，再度同じタスクを遂行しようと試 open position Pour cls+roll+sp Power-grasp, and roll みる．この場合，“Action Symbol” など同じタスク the wrist を遂行する上で変化してはいけない項目は高い優 Hand-over prc+forw+sp Precision-grasp, move forward, and back 先度を持ち，“Hand” や “Position” など，必ずしも Release opn+sp Open a grasp hand OK-sign ok+sp Make a circle with thumb 人間動作時と同じである必要のない項目について and index finger は優先度を低く割り振る．例を挙げると，「左手で Garbage gb A filler model for spotting Start,End sil Silence at the start & end 場所Ｘにある物体Ａをつかむ」という「手動作」をロボットが失敗したとすると，“Position”，“Hand” の順に対応する「手動作」から属性を取り去り，こ 3.1 HMM の場合最終的には「物体Ａをつかむ」という「手動作」に抽象化してもう１度動作を試みる．このよう HMM は不確定な時系列のデータをモデル化するに，タスクの遂行を中断する前に制約条件を少なために有効な統計的手法であり，音声認識におけるくすることで，タスクの継続性を高めている．重要な基礎技術の一つとなっている [4]．HMM の AP 解析によって構築された人間行動モデルは高特徴は，単純マルコフモデルの状態間の遷移と状態度に抽象化されており，また優先度項により実行時における出力がどちらも確率的であり，状態が出力に環境に応じて抽象度の度合いを変化させられる系列から一意に決まらないところにある．これがため，例えば物体の配置や数が異なる環境におけ「隠れ」マルコフモデルと呼ばれる所以である．出る適用性が高い．第５章でこの例を示す．力系列に含まれるノイズを確率的に処理出来る上，モデルのシンボルと時系列データを結びつける各状態の理論的展開が容易な事から，音声のみなら 3 ジェスチャースポッティングにずジェスチャー認識にも使われる事が多い [5]．よる粗い人間行動モデルの構築 3.2 ジェスチャースポッティング粗い人間行動モデルにおける “Action Symbol” を求めるために，人間がなんらかの手作業を行っている最中に，隠れマルコフモデル (HMM) を利用したジェスチャースポッティングによって一連の行動の中に離散的に現れる各 “Action Symbol” の切り出しを行った．本研究では，“Action Symbol” として次の６つの動作をジェスチャー（表 1 の Action Symbol に示す５つ＋トレーニング用の OK sign ）としてモデル化した．両手分のデータグローブからの入力データは左右独立にスポッティング処理され，両手を用いるジェスチャーは左右のスポッティング認識の結果を合わせることで認識し，“Action Symbol” の抽出を行っている．この章では HMM の概要，スポッティング認識，そして両手のデータグローブ (CyberGlove) を用いた実装レベルでのシステムの説明を行う．ジェスチャーのスポッティング認識とは，連続した動作の中から時間的位置が未知のジェスチャーの判別と時系列上のセグメンテーションを同時に行うものである．これにより，ジェスチャーを動作の開始と終了を意識することなく認識する事が可能となる．標準的な HMM によるスポッティング認識では，キーワードとなる HMM と Filler (Garbage) HMM を並列に繋げ，対象外の動きを Filler HMM 内の状態に落とし込む方法がとられる [6]．音声の場合， Filler HMM を全音素の HMM から用意する事が可能だが，ジェスチャーの場合明確な要素となる動作の定義は無い．そのため，アドホックに作成するか，閾値を出すための閾値モデルを作るなどの工夫が必要となる．本研究ではスポッティング対象の語彙数が少ないため，Filler HMM を独自に作成した． 4 3.3 データグローブを用いた認識本研究では左右のデータグローブ (CyberGlove) と三次元位置センサ (Polhemus) を入力として， HMM を用いてスポッティング認識を行った．なお，システムの一部は，Hidden Markov Model Toolkit(HTK)[7] に基づいている．出力データとして，片手につき 48 次元の特徴点を使用している．CyberGlove から得られる１８次元の手指の曲げ fr1 :::r18 gt ，Polhemus から得られ fx; y; z; ; ; gt ，それる６次元の手の姿勢 Pt におのおのの速度情報を加えて，計４８次元としている．Polhemus からの位置情報 Pt は，作業者の向きや位置に依存しない認識を可能とするため，常に１フレーム前の状態 Pt 1 を座標の起点とするフレーム間の速度 t 1 Pt に変換してから特徴点として使用している（図 4 ）． = 図 5: ジェスチャーの状態遷移表 3: ジェスチャの認識結果 % Accuracy N,D,S,I Left 98.89% 90,0,0,1 Right 95.56% 90,0,4,0 N DN S I 100% % Accuracy = (N)umber of gestures, (D)eletion error, (S)ubstitution error, (I)nsertion error ステムでは，左右のデータグローブそれぞれについて 30Hz のサンプリング周期でデータを取ることができ，サンプリング周期に同期して時間遅れ無くジェスチャースポッティングを行うことができる．モデルの学習は片手ずつ行われ，右腕は文法にそったトランスクリプト付き学習データを４パターン（並び方）各５回分とガベージモデル用データを１０回分，計 184 秒 (5520 フレーム，内ガベージ用は 1670 フレーム) 分を使用した．左腕についても同様である．ジェスチャーの単語認識は学習データとは別パターン（並び方）のテストセットで実験を行った．テストセットは３パターンのジェスチャ配列を５回ずつ，計 109 秒分使用した．結果を表 3 に示す．図 4: 特徴ベクトルの定義ジェスチャーの定義では各々に独立した HMM を割り当てず，構成要素の HMM を定義し，それらを繋げたものを使用した（表 2 ）．各ジェスチャが要素を共用する事により，学習データの不足を補い，学習効率を向上させる事が可能となっている． cls, tsu, roll, mae, opn, ok は 5-state left-right (初めから終りまで遷移が一方通行) HMM でモデル化されている．sil はトレーニングの際の開始＆終了状態， sp はジェスチャ終了時の短い静止状態，gb はジェスチャー間の動きを他の要素よりも高い確率で拾うガベージコレクタとして使用する． 4 ステレオビジョンを用いた人間行動解析本章では，人間行動モデルに物体の情報を付加するために，ステレオビジョンと３次元テンプレートマッチング法によって人間が扱った物体の種類を推定する方法について説明する．本研究では，コマツの製品である９眼のマルチベースラインステレオシステム [8] を高周期で距離データを生成する目的で使用した．カメラ配置については，図 6 に示す 3.4 解析結果図 5 に，本ジェスチャースポッティングで用いた HMM 上でのジェスチャーの状態遷移を示す．本シ 5 図 6: ステレオビジョンシステムように，ベースラインを大きく取り外周のカメラを内側に傾けることで，近距離の物体を見るロボットの視覚として適した形に設計した．測定範囲は可変であり，今回は最も近距離が測定可能なように測定範囲を設定した（ 510mm - 1010mm ）．以下，物体の認識に用いた３次元テンプレートマッチング (3DTM) 法について述べ，ステレオビジョンと 3DTM の組合わせによる人間行動の詳細な解析方法について述べる．図 7: 3DTM による物体認識 2. 物体は安定姿勢にあるとの仮定をおくと，セグメンテーションにより物体のおおまかな位置・姿勢が分かるため，それを初期位置とし，セグメンテーションされた物体について手持ちの全ての３次元モデルを使用して 3DTM をかける（図 7 ）． 3. それぞれの物体について，指標である重みつき距離の和の平均が最も小さくなるモデルを対象物のモデルであると推定する． 4.1 ３次元テンプレートマッチング３次元テンプレートマッチング (3D Template Matching: 3DTM) [9] とは，３次元距離データ中において，あらかじめ対象のおおまかな位置と３次元幾何モデルが既知であるという前提の下で，対象物の正確な位置と姿勢を推定する手法である． 3DTM では，対象物体の３次元モデルを，レンジデータなどによって得られた対象物体の３次元データ中に投影し，モデルの頂点とそれに最も近い周囲の３次元点との重みつき距離の和の平均を求める．この和を指標として，これが最小となる状態に収束するようにモデルの位置・姿勢を変化させていく．収束地点でのモデルの位置・姿勢が推定値となる． 3DTM は投影されたモデルの初期位置に敏感であり，また対象物体が隠蔽されていない程良い結果をもたらす．人間行動モデルから，“Action Symbol” 属性と “Time Stamp” 属性より手によって隠蔽されていない物体を解析するにはどの時点の距離データを解析すればよいかが分かり，“Position” 属性によって距離データ中の大体どの位置に物体があるのかが分かる．これと上記の物体のセグメンテーション結果を付き合わせて 3DTM をかけることで，精度良く対象物体の認識を行うことが可能になる．表 4: 3DTM の結果: Ｍ推定量（ローレンツ） Objects (in Depth Data) Pack Dish Bottle 4.2 3DTM を用いた人間行動解析ロボットは，次の手順で注視点における距離データの解析を行う． 1. 対象タスクはテーブル上での手作業であるという前提があるため，得られた距離データから平面フィッティングにより背景を抜きさり，その上にある物体をセグメンテーションする． Pack 0.25 2.08 0.92 Models Dish Bottle 1.30 0.55 0.65 1.43 1.20 0.37 表 4 に，今回の実験で用いた物体に対して 3DTM をかけた結果を示す．表中の数字は最小二乗法の一般形であるＭ推定量による重み付き距離を正規化 6 5.2 実ロボットによる認識・再現実験した値の和の平均を示し，下線の引いてある数字は最も高い一致度（小さい方が一致度が高い）を表す．この結果から，物体の認識が正確に行われていることが分かる． AP 解析によって構築した本人間行動モデルの有効性を検証するために，次に示すロボットによる人間行動の認識・再現実験を行った．この実験では，人間はロボットの前で容器Ａをつかみ，次に容器Ｂをつかんでその中身を容器Ａの中に注ぐ．ロボットはその作業を観察しており，人間行動モデルを構築する．次に，その行動モデルに従って，ロボットはその動作の再現を行う．再現時には，モデルの優先度の効果を確認するために，人間動作時とは若干異なる環境で再現動作を行い，モデルの適用性を検証した． 5 ロボットによる認識と再現 5.1 プラットフォーム 5.2.1 人間行動の認識解析の第１段階として，ロボットはデータグローブからの入力を用いて人間の作業の観察を行った．この時，ジェスチャースポッティングによって，ロボットは粗い人間行動モデルを構築した．同時に，図 8: 実験プラットフォームつかむ・注ぐ動作の開始点を注視点 (AP) として抽出した（図 9 の上段）．この解析によって，モデルに手の動作の情報が付加された．ロボットによる人間行動の学習及び人間・ロボッ解析の第２段階として，第１段階において平行ト協調作業のための実験プラットフォームとして，して記録しておいた距離データ群の中から，注視点図 8 に示すロボットを開発した．我々の研究では，人間行動のうちでも人間の手作業に着目しており， (AP) 付近の距離データをタイムスタンプを指標に読み込み，3DTM による対象物体の認識を行ったロボットによる人間の手作業の獲得およびその実（図 9 の中段）．この解析によって，モデルに物体行を実現することが目標である．そのための実験の情報が付加された．プラットフォームには，人間の上半身と同様の機能が求められ，特に人間と同等の眼の機能と手の機能及び上半身の機能を持たせることが重要になる． 5.2.2 人間行動の再現本ロボットの特徴は次の通りある．次にロボットは，構築された人間行動モデルに９眼ステレオビジョンにより環境の３次元認従って，同じ作業の再現を行った．識が可能である（眼の機能）．モデルの異なる環境における適用性を検証するために，人間作業時には存在しなかった新しい物体２台の７自由度ロボットアームを双腕として（皿）をテーブル上に追加し，また物体を人間作業持つ．右腕には４本指のハンドが，左腕には時とは異なるように配置し直した．再現時にテー３本指のハンドがついている．それぞれの指ブル上の物体を認識する手段として，第４章で説は３自由度であり，指先にはフォーストルクセ明した方法と同じ方法を用いた．ンサが装着されてる（腕の機能）．実験の結果は，ロボットが正しい物体を選択し作視点や腕を自由に動かすために，ロボット全業を遂行できたことを示している（図 9 の下段）．体が２次元平面上を自由に動くことができるロボットの再現した動作を検証すると，次の２点に（上半身の機能）．おいて優先度の効果が現れていることが分かった． CORBA [10] を基盤にしたソフトウェアアーキテクチャによって，データグローブなどの外部デバイスが容易に接続可能である．対象物体がモデルで記述されている位置に無い場合には，ロボットは優先度の低い “Position” 項を省略し，視界全体から対象物体を探して 7 図 9: 認識・再現実験いる．これは，特に似た形状の物体が複数ある場合には，正しい物体を効率よく探すために有効である． [3] H. Kimura and T. Horiuchi and K. Ikeuchi, “TaskModel Based Human Robot Cooperation Using Vision,” IROS, 2:701–706, 1999. 物体の配置が変わったため扱うべき物体が本来扱うべき腕の操作範囲の外にある場合には，ロボットは優先度の低い “Hand” 項が省略し，他の届く方の腕でつかみにいっている． [4] L. R. Rabiner, “A Tutorial on Hidden Markov Models and Selected, Applications in Speech Recognition,” In Proc. of the IEEE, vol. 77, no. 2, pp.257-285, February 1989. 優先度項により，「手動作」毎に抽象度を変更し，作業の遂行を優先した上でなるべくモデルに忠実に作業を再現することができた． [5] T. Starner and A. Pentland, “Real-time American Sign Language recognition from video,” IEEE International Symposium on Computer Vision, Coral Gables, FL. 265–270, 1995. 6 まとめ [6] K. M. Knill and S. J. Young, “Speaker Dependent Keyword Spotting for Accessing Stored Speech,” Cambridge University Engineering Dept., Tech. Report, No. CUED/F-INFENT/TR 193, 1994. 本論文では，データグローブと９眼ステレオビジョンを用いた AP 解析により，人間行動モデルを構築する手法について述べた．またこのモデルは，シンボル化と優先度項によって人間行動時とは異なる環境における適用性を高めており，実ロボットによる人間作業の認識・再現実験を行うことによって，その適用性の検証を行った． [7] S. J. Young, “Hidden Markov Model Toolkit V2.2.,” Entropic Research Lab Inc., Washington DC, January 1999. [8] http://www.komatsu.co.jp/research/study56.htm [9] M. D. Wheeler and K. Ikeuchi, “Sensor Modeling, Probabilistic Hypothesis Generation, and Robust Localization for Object Recognition”, IEEE Trans. PAMI, 17(3):252–265, 1995. 参考文献 [1] K. Ikeuchi and T. Suehiro, “Toward an Assembly Plan from Observation Part I: Task Recognition With Polyhedral Objects,” IEEE Trans. Robotics and Automation, 10(3):368–384, 1994. [10] Common Object Request Broker Archictecture, OMG, July, 1995. [2] Y. Kuniyoshi, et al., “Learning by watching,” IEEE Trans. Robotics and Automation, 10(6):799–822, 1994. 8