CG 学習サンプルによる人検出性能低下の要因調査 EP11001 青山祐斗

CG 学習サンプルによる人検出性能低下の要因調査
EP11001 青山祐斗
1. はじめに
統計的学習手法を用いた人検出では, 大量の学習データ
を収集する必要がある. 大量の学習データを人手で収集す
ることは容易ではないため, その解決策として, CG により
自動生成した学習サンプルの利用が検討されている[1]. し
かし, CG 学習サンプルは実画像と比較して識別精度が低
下するという問題がある. そこで, 本研究では人検出にお
ける CG 画像による識別精度低下の要因を明らかにするこ
とを目的とする.
2.CG 学習サンプルの生成方法と問題点
2.1.CG 学習サンプルの生成方法
CG 画像は子供, 成人女性, 成人男性, 肥満男性の 4 種類
のモデルを使用する. 各モデルに対して, 向きの変化が 360
度を 10 度毎に回転した 36 パターン存在し, 歩行動作が 50
フレームからなる. また服装が 8 種類, 荷物が 2 種類存在
する. CG 画像を用いた学習サンプルの生成方法の流れを
図 1 に示し, 以下にその詳細を述べる.
Step1:モデルの生成
4 種類のモデルに対して向きの変化や歩行動作等のパラメー
タを設定し, レンダリングにより CG 画像を生成する.
Step2:背景画像への合成と切り出し
背景画像の位置座標をランダムに決定する. 決定した位置
座標に CG 画像を合成する. このとき, CG 画像を背景画
像に調和させるため, ガウシアンフィルタによる平滑化処
理, コントラストによる階調変換を行う. 合成する際には
アルファブレンディングを行う.
Step3:切り出し
合成した画像からマージンをとり切り出した画像を学習サ
ンプルとする.
以上の処理を, 全てのモデル, 向き, 歩行動作に対して行
い, 生成した CG 画像 86,400 枚を学習に用いる.
図 1 : CG 画像を用いた学習サンプルの生成方法
指導教授:藤吉弘亘
いる. 一方, CG の平均勾配画像は頭部の位置や足の位置
に出ている勾配の領域が広い. この原因として, 本研究で
は以下の二つの要因が寄与したと考える.
1. CG 画像により生成した人体画像のアピアランス (姿勢)
が実画像と異なる.
2. 学習サンプルに用いた人体の各向き毎の分布 (サンプル
数) が異なる.
本研究では上記の 2 つの観点において, CG 学習サンプ
ルによる性能低下の要因を調査する.
3. 調査実験
ここでは, 姿勢の変動と学習サンプルとサポートベクト
ルに選択されたサンプルの分布について調査を行う.
3.1. 姿勢変動の調査
姿勢の変動の調査を行うために, 視覚的に比較が容易で
ある横を向いたサンプルを用いて実画像と CG 画像の比較
を行う. 図 3(a) に学習に使用した横向きのサンプル例を
示す. 実画像では頭部の位置が中心に分布している. 一方,
CG 画像では前に傾いているため, 頭部の位置は中心から
ずれていることがわかる. 図 3(b) に示す平均勾配画像に
おいても, CG 画像では頭部の位置が中心からずれており,
実画像の形状とは異なる. このような姿勢の違いが識別性
能低下の原因の一つであると考えられる.
図 3 : 姿勢の比較
3.2. 学習サンプルとサポートベクトルの分布の調査
学習サンプルに用いた人体の向きと属性の分布を比較す
る. 図 4(a) より, 実画像では前後左右の 4 方向の頻度が高
い. これは, 実環境と同様である. 一方, CG 画像では均一
であり全ての向きが同じ枚数存在する. また, 図 4(b) の属
性の分布から, 実画像と CG 画像では大きく異なることが
わかる. また, 図 5 に示すサポートベクトルの分布におい
ても, 実画像と CG 画像では分布が異なる. このような学
習サンプルの分布の違いが, 識別性能低下の要因の一つと
考えられる.
2.2. 人検出に CG 画像を用いた場合の問題点
CG 画像と実画像を学習サンプルに用いた際のサンプル
数を表 1 に示す. 特徴量には HOG, 統計的学習手法には
SVM を用いる.
表 1 : 学習サンプル [枚]
学習サンプル
ポジティブサンプル
ネガティブサンプル
CG 画像
86,400
432,690
実画像
53,700
432,690
(a) 人体の向き
(b) 属性
(a) 人体の向き
(b) 属性
図 4 : 学習サンプルの分布
Miss Rate
識別結果の DET カーブを図 2(a) に示す. CG 学習サン
プルを用いた際の識別性能は, 実画像よりも多いサンプル
数を学習に使用しているが大きく低下した.
4. おわりに
False Positive Per Window
(a)DETカーブ
実画像
CG画像
(b)平均勾配画像
図 2 : 実画像と CG 画像の比較
図 2(b) に各学習サンプルの平均勾配画像を示す. 実画
像の平均勾配画像では, 人のシルエット形状が表現されて
図 5 : サポートベクトルの分布
本稿では, 学習サンプルとして CG 画像を用いた場合と
実画像を用いた場合の識別精度の比較を行い, CG 画像の
問題点について調査をした. 今後は, 調査結果を反映させ
た評価実験を行うことにより, CG 画像を用いた人検出の
識別精度を向上させることを予定している.
参考文献
[1] J. Marin, et al., “ Learning Appearance in Virtual Scenarios for Pedestrian Detection, ”Computer Vision and Pattern
Recognition, pp.137-144, 2010.