2008 年度修士論文 Boosting に基づく共起表現 による人検出に関する研究 指導教授 藤吉 弘亘 中部大学大学院 情報工学専攻 工学研究科 博士前期課程 山内 悠嗣 ( / ) 修士論文題目 Boosting に 基 づ く 共 起 表 現 に よ る 人 検 出 に 関 す る 研 究 情報工学 専攻 氏名 山内 悠嗣 論 文 要 旨 特 徴 量 間 の 共 起 表 現 を 利 用 し た 物 体 検 出 法 と し て , Joint Haar-like 特 徴 量 が 提 案 さ れ ,高 い 検 出 性 能 を 示 す こ と が 報 告 さ れ て い る .Joint Haar-like 特 徴 量 は , Haar-like 特 徴 量 を 二 値 符 号 化 し , AdaBoost に よ り 複 数 組 み 合 わ せ る こ と で , 物 体 の 構 造 に 基 づ い た 特 徴 の 共 起 関 係 を 表 現 す る こ と が で き る .し か し ,入 力 特 徴が検出対象と非検出対象のどちらのクラスとも言い難い場合にも二値に識別 し ,共 起 を 表 現 す る こ と か ら ,間 違 え た 符 号 を 組 み 合 わ せ ,検 出 性 能 に 悪 影 響 を 及 ぼ す 可 能 性 が あ る . 本 論 文 で は , Boosting に よ り 最 適 な 共 起 を 表 現 し た 共 起 確 率 特 徴 量 に よ る 物 体 検 出 法 を 提 案 す る .提 案 手 法 で は ,物 体 ら し さ を 確 率 に よ っ て 表 現 し ,演 算 子 に よ り 確 率 を 結 合 す る こ と で 共 起 確 率 特 徴 量 を 生 成 す る .共 起 確 率 特 徴 量 は ,物 体 の 形 状 特 徴 の 他 に ,構 造 に 基 づ い た 特 徴 の 関 係 性 を 表 現 す る こ と が で き る た め ,高 精 度 な 検 出 が 可 能 と な る .ま た ,共 起 確 率 特 徴 量 の 生 成 の た め に 使 用 す る 演 算 子 を 複 数 の パ タ ー ン を 用 意 す る こ と に よ り ,異 な る 共 起 の 表 現 を 行 う こ と が 可 能 と な る .評 価 実 験 の 結 果 ,従 来 の 共 起 を 表 現 す る 手 法 と 比 較 し て 検 出 率 を 約 6.8%向 上 さ せ る こ と が で き た . ま た , 提 案 手 法 は 特 徴 量 間 の 共起の他に,異なる解像度より得られる特徴量間の共起や,異なる性質の特徴 量間の共起を表現することができ,高精度な検出が可能であることを確認した. 目次 第 1 章 序章 1 第 2 章 物体検出技術 3 2.1 2.2 2.3 Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.1.1 AdaBoost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.1.2 Real AdaBoost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 局所領域に着目した特徴量 . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Haar-like 特徴量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 6 2.2.2 EOH 特徴量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2.3 HOG 特徴量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.2.4 Edgelet 特徴量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2.5 特徴量算出の高速化 . . . . . . . . . . . . . . . . . . . . . . . . . . 11 関連性に着目した特徴量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.3.1 Joint Haar-like 特徴量 . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3.2 Shapelet 特徴量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 第 3 章 Boosting に基づく共起確率特徴量による人検出 3.1 16 従来の共起表現法の問題点 . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.2 共起確率特徴量を用いた Boosting による学習 . . . . . . . . . . . . . . . . 17 3.2.1 1 段階目の Real AdaBoost による特徴 Pool の作成 . . . . . . . . . . 17 3.2.2 Low level 特徴の組み合わせによる共起確率特徴の生成 . . . . . . . 18 3.2.3 2 段階目の Real AdaBoost による最終識別器の構築 . . . . . . . . . 20 3.3 N 個の特徴量を用いた共起確率特徴への拡張 . . . . . . . . . . . . . . . . . 20 3.3.1 3.4 最適な特徴量の組み合わせ探索 . . . . . . . . . . . . . . . . . . . . 20 3.3.2 結合させる特徴量の最適な個数の推定 . . . . . . . . . . . . . . . . 21 評価実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.4.1 評価方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.4.2 データベース . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.4.3 実験 1 : 提案手法と従来法の比較実験 . . . . . . . . . . . . . . . . . 25 3.4.4 実験 2 : 特徴量の最適な個数の推定 . . . . . . . . . . . . . . . . . . 25 i 3.4.5 実験 3 : 共起表現の有効性の検証 . . . . . . . . . . . . . . . . . . . 27 3.4.6 考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.4.7 人検出実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 第 4 章 多重解像度間の共起に基づく人検出 4.1 4.2 32 多重解像度間の共起表現 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.1.1 多重解像度 HOG 特徴量 . . . . . . . . . . . . . . . . . . . . . . . . 32 4.1.2 多重解像度 HOG 特徴量を用いた共起表現 . . . . . . . . . . . . . . 33 評価実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.2.1 データベース . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.2.2 実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.2.3 考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 第 5 章 アピアランスと時空間特徴の共起に基づく人検出 5.1 40 時空間特徴量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.1.1 動きのモデル化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.1.2 ピクセル状態分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 5.1.3 時空間特徴量の抽出 . . . . . . . . . . . . . . . . . . . . . . . . . . 42 5.2 アピアランスと時空間特徴量の共起 . . . . . . . . . . . . . . . . . . . . . . 43 5.3 評価実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 5.3.1 データベース . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 5.3.2 実験 1 : 提案手法と従来法の比較実験 . . . . . . . . . . . . . . . . . 44 5.3.3 5.3.4 実験 2 : 時空間特徴量の有効性の評価 . . . . . . . . . . . . . . . . . 46 人検出実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 第 6 章 むすび 49 謝 辞 50 参考文献 51 研究業績一覧 54 付 録 A 発表原稿 56 付 録 B 新聞記事 57 ii 図目次 2.1 統計的学習手法の進化に合わせた特徴量の分類 . . . . . . . . . . . . . . . . 4 2.2 AdaBoost のアルゴリズム . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.3 Real AdaBoost のアルゴリズム . . . . . . . . . . . . . . . . . . . . . . . . 7 2.4 Haar-like 特徴量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.5 2.6 EOH 特徴量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . HOG 特徴量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 9 2.7 Edgelet 特徴量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.8 エッジ方向の量子化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.9 積分画像 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.10 Joint Haar-like 特徴量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.11 同時確率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.12 Shapelet 特徴量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.13 Shapelet 特徴量の生成と検出器構築の流れ . . . . . . . . . . . . . . . . . . 15 3.1 提案手法による学習の流れ . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.2 演算子の効果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.3 共起確率特徴量の生成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.4 Sony HDR FX1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.5 画像の切り出し例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.6 データベースの例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.7 実験 1 の結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.8 正識別可能となったサンプルの例 . . . . . . . . . . . . . . . . . . . . . . . 26 3.9 誤識別率の比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.10 結合された特徴量の数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.11 平均勾配画像と選択された HOG 特徴量の可視化 . . . . . . . . . . . . . . . 29 3.12 各演算子を用いた場合の検出精度の比較 . . . . . . . . . . . . . . . . . . . 29 3.13 学習によって選択された各演算子の割合 . . . . . . . . . . . . . . . . . . . 30 3.14 検出の流れ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.15 提案手法による人検出例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 iii 4.1 解像度の変化に伴う HOG 特徴量の変化 . . . . . . . . . . . . . . . . . . . . 33 4.2 多重解像度 HOG 特徴量による共起表現 . . . . . . . . . . . . . . . . . . . . 34 4.3 ポジティブクラスの上半身画像データベースの例 . . . . . . . . . . . . . . 35 4.4 DET による比較結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.5 提案手法による人検出例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.6 学習によって選択された HOG 特徴量の可視化 . . . . . . . . . . . . . . . . 38 4.7 学習によって選択された HOG 特徴量の解像度 . . . . . . . . . . . . . . . . 39 5.1 歩行者の動き . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 5.2 ピクセルの状態遷移図 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 5.3 ピクセル状態分析アルゴリズム . . . . . . . . . . . . . . . . . . . . . . . . 42 5.4 ピクセル状態分析例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 5.5 学習の流れ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 5.6 データベースの例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 5.7 DET による比較結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.8 BS と TD,PSA の検出 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.9 DET による動きの特徴量の比較結果 . . . . . . . . . . . . . . . . . . . . . 47 5.10 人検出例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 B.1 日刊工業新聞 2007 年 (平成 20 年 10 月 1 日) . . . . . . . . . . . . . . . . . . 57 iv 表目次 3.1 ビデオカメラ SONY HDR FX-1 の性能表 . . . . . . . . . . . . . . . . . . . 23 3.2 識別に用いる特徴量の数と学習回数 . . . . . . . . . . . . . . . . . . . . . . 26 3.3 誤検出率 5.0%における検出率 . . . . . . . . . . . . . . . . . . . . . . . . . 27 v 第1章 序章 画像中から自動的に物体を検出する技術は,監視システムや ITS など多岐に渡る分野で 実現が期待されている.また,物体の追跡や姿勢認識の前処理としても必要な技術であるた め,近年最も盛んに行われている研究のひとつである.近年の物体検出法は,Viola と Jones が提案した顔検出法 [1][2] に代表されるように Low level な特徴と統計的学習の組み合わせ からなる手法が多い.物体検出に有効な Low level な局所特徴量として,領域の累積エッ ジ強度の比を特徴量とする Edge Orientation Histograms(EOH)[3] や,局所領域における 勾配方向をヒストグラム化した特徴量である Histograms of Oriented Gradients(HOG)[4], エッジ同士をつなげた短い線,カーブを特徴量として表現する Edgelet[5] など,エッジに 着目した特徴量が多数提案されている. 検出精度を向上させるために,アピアランスとは異なる特徴量の併用 [6][7] などが提案 されている.しかし,これらの手法は,背景画像や複数枚の連続した画像が必要などの条 件がある.近年では,さらに高精度な検出を行うために,特徴量の関係をどのように捉 えるかが重要視されている.関係性を捉えるための手法として,複数の Low level な局所 特徴量を Boosting によって組み合わせることにより,特徴量間の関連性を捉える Middle level な特徴量を自動生成する手法が多数提案されている.Sabzmeydani et al. は,局所領 域内の 4 方向のエッジ特徴を 1 回目の AdaBoost により組み合わせ,局所領域内の形状を 表現する Shapelet 特徴 [8] を生成し,2 回目の AdaBoost により人検出器を構築する手法 を提案した.しかし,人を検出するために多数の弱識別器による識別が必要であるため, 処理コストが非常に大きい.Mita et al. は,複数の Haar-like 特徴を用いて 2 値に識別し, これらの符号を組み合わせる Joint Haar-like 特徴 [9] を提案した.この手法は,特徴量間 の関係性を表現できるため,Viola と Jones の顔検出法 [1][2] と比較して,大きく検出性 能を向上させることができた.しかし,学習によって選択された特徴量が,オクルージョ ンなどの影響からどちらのクラスとも言い難い場合にも二値に識別するため,間違えた 2 値符号を組み合わせる問題がある. そこで,本論文では Real AdaBoost[10] の弱識別器の出力を演算子によって結合する新 しい特徴量間の共起表現による人検出法を提案する.Real AdaBoost の弱識別器の出力 は,大量の学習サンプルを用いることで統計的な信頼度を出力する.信頼度は,プラスの 方向へ大きい場合は検出対象である信頼性が高く,マイナスの方向へ大きい場合は検出対 象である信頼性が低いことを表す.そこで,弱識別器の出力を演算子によって結合するこ 1 とで共起確率特徴を生成する.提案する共起確率特徴は,複数の特徴量を演算子により多 様な捉え方で表現することができるため高精度な物体検出が可能である.また,提案手法 は異なる性質を持つ特徴量間においても有効である.本論文では,同一の特徴量間の共起 表現だけでなく,多重解像度間の共起表現,アピアランスと時空間特徴量の共起表現へ応 用し,その有効性について述べる. 各章の構成 本論文は 6 つの章から構成される.1 章は本研究の背景と,提案手法の概要を述べ,2 章は提案されている物体検出手法について述べる.3 章では Boosting に基づく共起確率 特徴量による人検出について述べる.4 章は本手法を異なる解像度間へ適応させた手法に ついて述べ,5 章では異なる特徴量間へ適応させた手法について述べる.最後の 6 章を本 論文のまとめとする. 2 第2章 物体検出技術 物体検出は,検出対象物体を自動的に見つけ,その位置と大きさを出力する問題であ り,監視システムや ITS など多くの分野で実現が望まれている.物体検出の一般的なアプ ローチは,入力画像中に一定の位置,大きさを持つ検出ウィンドウを切り出し,検出対象 物体の判別を行うことで対象物体の検出を行う.最も典型的な手法として,参照用画像を 用いたテンプレートマッチング [11] があり,濃淡画像をベクトルとみなし,相関やユーク リッド距離の類似度に基づいて参照用画像と類似した領域を見つけることができる.しか し,この方法は検出対象物体の色や形状の変化などに対応することができないため,多数 のサンプル群から検出対象物体に共通する色 [12] やエッジ [13][14] などの特徴量を抽出す ることが考えられた.これらの手法は得られた特徴量を用いて,研究者の経験則に基づい て作成されたルールにより検出対象であるか判別する知識ベースに基づいた手法である. そのため,比較的小規模なデータセットの場合や一定の環境下,研究者の熟練した経験が ある場合でしか有効でない.そこで,近年では大量の学習サンプルを用いた統計学習手法 に基づく手法が一般的である.統計学習手法に基づくことにより,人が経験的に選んだも のでないため,より一般性の高い特徴量と識別器が得られる. 物体検出に用いられる特徴量と学習手法は非常に密接な関係があり.文献 [15] では,図 2.1 に示すように統計的学習手法の進化に合わせて特徴量を下記の 3 つの世代に分類して いる.第一世代の特徴量は,対象物体全体から得られる情報に着目した特徴量として分類 している.wavelet[16] や輝度分布等の特徴量は,知識ベースの学習手法や統計的学習手 法であるニューラルネットワーク [17],線形判別分析法 (LDA),サポートベクターマシン (SVM) と組み合わされ物体検出に用いられた.第二世代の特徴量は,検出対象の局所的 な領域の情報に着目する特徴量であり,Boosting[18] や SVM 等の学習手法が用いられた. 第三世代の特徴量は,第二世代で提案された特徴量間の関連性を表現するために,学習手 法である Boosting が利用されている.Boosting は,高速かつ高精度に識別することが可 能であるため,近年提案された物体検出法では最も頻繁に用いられている. 本章では,まず物体検出に用いられる学習手法である Boosting について述べる.次に, Boosting と密接な関係にある局所領域に着目した特徴量と関連性に着目した特徴量につ いて述べる. 3 図 2.1: 統計的学習手法の進化に合わせた特徴量の分類 2.1 Boosting Boosting とは,複数の弱識別器を組み合わせることで,高精度かつ高速な強識別器 を構築する手法である.代表的な手法として AdaBoost(Discrete AdaBoost)[18] や Real AdaBoost[10],Logit Boost[19],Float boost[20] などがある.ここでは,弱識別器の出力 が二値である Discrete AdaBoost と,弱識別器の出力が連続値である Real AdaBoost につ いて述べる. 2.1.1 AdaBoost AdaBoost は,二値を出力する弱識別器を複数組み合わせ,識別精度の良い強識別器を 構築する学習アルゴリズムである.弱識別器の出力は,検出対象クラスと非検出対象クラ スを表す二値となるため,Discrete AdaBoost とも呼ばれている. 図 2.2 に AdaBoost の学習アルゴリズムを示す.AdaBoost の学習アルゴリズムの特徴 として,学習サンプルに対して重み付けを行っている.この重み付きサンプルを用いて, 多数ある弱識別器候補から誤識別するサンプルの重みの和を最小とする弱識別器を選択 している.選択された弱識別器を用いて学習サンプルを識別し,間違えたサンプルに対し て高い重みを与える.これにより,次の弱識別器を選択する際には,識別が難しいサンプ ルを正識別する弱識別器が選択される.この弱識別器の選択とサンプルに対する重みの更 新を繰り返す. 弱識別器には,どのような識別器を用いても良いが,Viola と Jones の顔検出法 [6] では 次式で示すような,ある特徴量の 1 次元ヒストグラムをしきい値により判別する弱識別器 4 図 2.2: AdaBoost のアルゴリズム が使用された. ht (x) = 1 p · v(x) > p · θ 0 otherwise (2.1) ここで,θ はしきい値,p は不等号の向きを決定する符合であり,-1 もしくは+1 をとる. v は,サンプル x を入力した際に得られる特徴量である. このような非常に簡単な弱識別器を用いた場合においても,次式に示すように複数の弱 識別器から強識別器を構築するため,非常に複雑な識別関数 (非線形な識別境界) となる. T H(x) = sign( αt ht (x)) t=1 5 (2.2) 2.1.2 Real AdaBoost AdaBoost の弱識別器の出力は二値である.それに対して,弱識別器が連続値を出力する ように拡張した学習アルゴリズムを Real AdaBoost と呼ぶ.Real AdaBoost は,AdaBoost よりも少ない弱識別器数においても同程度の精度を得ることができるため,非常に高速な 識別が可能である.図 2.3 に Real AdaBoost の学習アルゴリズムを示す. Real AdaBoost の弱識別器は,どのような識別器を用いても良いが,Wu et al. は,次 式に示すような確率密度分布 W± を用いた手法 [21] を提案している. 1 W+j + h(x) = ln j 2 W− + (2.3) この確率密度分布を用いた場合の弱識別器は,学習サンプルから確率密度分布を作成し, 検出対象と非検出対象の確率に応じた出力を行うため,サンプルの分布がガウス分布以 外の場合でも性能の良い識別器を構築することが可能となる.また,Real AdaBoost の弱 識別器は確率に応じて出力が決定されるため,弱識別器に対する重みが必要ない.そのた め,強識別器は次式で表される. T H(x) = sign( ht (x)) (2.4) t=1 2.2 局所領域に着目した特徴量 Boosting による学習は,高精度かつ高精度な識別器が得られる他に,識別に有効な特徴 量を自動的に選択するメリットがある.そのため,ニューラルネットワークや SVM では, 学習が難しかった膨大な数の特徴量に対しても容易に学習ができることから,Boosting に よる学習が提案された以降は,非常に膨大な数となる特徴量が提案された.そのほとんど は.入力画像の部分的な領域から得られる局所領域に着目した特徴量である. 局所領域に着目した特徴量は,輝度ベースの特徴量とエッジベースの特徴量に分類す ることができる.輝度ベースの特徴量としては Haar-like 特徴量 [2],エッジベースの特 徴量としては Edge of Orientation Histograms(EOH) 特徴量 [3],Histograms of Oriented Gradients(HOG) 特徴量 [4],Edgelet 特徴量 [5] が提案されている. 2.2.1 Haar-like 特徴量 Haar-like 特徴量は,図 2.4 に示すように,白の領域 r1 と黒の領域 r2 の 2 つの領域の輝 度差を式 (2.5) より算出し Haar-like 特徴量としている. H(r1, r2) = S(r1) − S(r2) 6 (2.5) 図 2.3: Real AdaBoost のアルゴリズム ここで,S(r) は,領域 r の輝度和を算出する関数である.2 つの領域のパターンは多数あ り,図 2.4 に示すようなパターンが一般的に用いられる.これらのパターンは,縦方向の 明暗差,横方向の明暗差,斜め方向の明暗差,3 つの領域に着目することで線分を捉える パターンがある.他にも,これらのパターンをベースとして様々な形状が提案されている [22].Haar-like 特徴量は Viola らが顔検出に用いて以降,多くの物体認識手法に用いられ ている. 2.2.2 EOH 特徴量 EOH 特徴量は,1 つの局所領域内におけるエッジ勾配の関係に着目した特徴量である. EOH 特徴量の算出には,図 2.5 の頬の領域のようにソーベルフィルタによりエッジ画像 を作成し,式 (2.6),(2.7) のように各画素のエッジ強度 G(x, y) とエッジ方向 θ(x, y) を算 7 図 2.4: Haar-like 特徴量 出する. G(x, y) = Gx (x, y)2 + Gy (x, y)2 (2.6) Gx (x, y) は,x 方向のエッジ画像,Gy (x, y) は y 方向のエッジ画像である. θ(x, y) = arctan( Gx (x, y) ) Gy (x, y) (2.7) 式 (2.8) より,エッジ方向 θ を k 段階に量子化し,各方向のエッジ強度画像を作成する. ψk (x, y) = G(x, y) if θ(x, y) ∈ bink 0 otherwise (2.8) 領域 R における方向 k の累積エッジ強度は式 (2.9) のように算出する. Ek (R) = ψk (x, y) (2.9) (x,y)∈R EOH 特徴量は,式 (2.10) のように方向 k1 に対する累積エッジ強度と方向 k2 に対する累 積エッジ強度の累計の比を算出する. Ak1,k2 (R) = Ek1 (R) + Ek2 (R) + (2.10) ここで,Ek (R) は,R 領域における k 方向の勾配を求める関数, は 0 による除算を防ぐ ための係数である.エッジ方向は 4 から 8 方向に量子化している. 2.2.3 HOG 特徴量 HOG 特徴量は 1 つの局所領域内におけるエッジ方向ごとのエッジ強度に着目した特徴 量である.局所領域は図 2.6 に示すように,ブロックとして表現され,ブロックには複数 8 図 2.5: EOH 特徴量 のセルと呼ばれるさらに小さな局所領域から構成される.特徴量は,画像のマッチングで 多く用いられることが多い SIFT 特徴量 [23] と似ており,セルのエッジ方向毎のエッジ強 度ヒストグラムを結合した多次元ベクトルで表現される.Dalal らはセルサイズを 8×8 画 素,エッジ方向を 9 方向とし,ブロックは 2×2 セルで構成される 36 次元ベクトルとして いる.HOG 特徴量はブロックに対して,L1 ノルムまたは L2 ノルムにより,ブロックを 正規化している.そのため,照明変動によりエッジ強度がばらつく場合でも特徴量が大き く変化しない. 図 2.6: HOG 特徴量 2.2.4 Edgelet 特徴量 EOH 特徴量や HOG 特徴量は局所領域内におけるエッジの分布に着目しているが,Edgelet 特徴量は図 2.7 のように,エッジの部分的な繋がりを捉える特徴量である.特徴量の形状 9 は,直線的な繋がり (図 2.7(a)) や,円弧 (図 2.7(b)) およびそれらの対称性 (図 2.7(c)) を 捉えるものである. 図 2.7: Edgelet 特徴量 Edgelet 特徴量は,K 個の画素から構成されており,各画素は位置 ui とエッジ方向 ViE からなる.エッジ方向 ViE は図 2.8 のように 6 方向に量子化された値である.入力画像 I の 注目領域 p における Edgelet 特徴量 S(p) は,式 (2.11) に示すように,i 番目の要素のエッ ジの強度 E I (ui + p) と近似類似度関数 l[·] の内積を K 個の要素位置について,累積し正 規化した値である. 1 I S(p) = ( ) E (ui + p)l[V I (ui + p) − ViE ] K i=1 K (2.11) ここで,ui + p は注目領域 p における Edgelet 特徴量の i 番目の要素位置である. エッ ジ強度 E I はソーベルフィルタを用いて作成したエッジ画像 E の画素値から得ることがで きる.また,近似類似度関数 l[·] は式 (2.12) に示すように,入力画像 I の注目領域 p にお ける i 番目の要素のエッジ方向 V I (ui + p) と Edgelet 特徴量の i 番目の要素のエッジ方向 ViE との差をもとに算出される. 1 0.8 l[·] = 0.5 0 x=0 x = ±1, ±5 x = ±2, ±4 (2.12) x = ±3 ここで,V I (ui + p) は ViE と同様に,6 段階に量子化しており,x はエッジ方向 V I (ui + p) と ViE の差である.x は −5 から 5 までの範囲の値であり,それぞれの値に応じて,式 (2.12) のような値をとる. 10 図 2.8: エッジ方向の量子化 2.2.5 特徴量算出の高速化 物体検出は,入力画像中から検出ウィンドウをラスタスキャンし,検出ウィンドウより 得られる特徴量を用いて物体検出を行う.そのため,非常に多くの検出ウィンドウから特 徴量を算出する必要があり,高速に特徴量を算出する方法が求められている.高速に特徴 量を算出するために,積分画像 [2] または積分ヒストグラム画像 [24] を用いることが一般 的である.積分画像は画素の値が画像の左上からの輝度値を累積した値であり,入力画像 I(x,y) から求められる積分画像 ii(x, y) は式 (2.13),(2.14) から算出できる. s(x,y) = s(x,y − 1) + i(x,y) (2.13) ii(x,y) = ii(x − 1,y) + s(x,y) (2.14) s(x,y) は行の画素の総和,ii(x,y) は列の s の総和を表す.ただし,s(x,− 1) = 0,ii(−1 ,y) = 0 とする.図 2.9 の D の領域から輝度値の和を求める場合,式 (2.15) より算出する ことができる. D = (ii(x,y) + ii(x − W ,y − L)) − (ii(x − W ,y) + ii(x,y − L)) (2.15) エッジに着目した特徴量の場合,積分画像を勾配方向ごとに作成することで同様に特徴量 を高速に算出することができる [24]. 2.3 関連性に着目した特徴量 局所領域に着目した特徴量が提案された以降,局所特徴量間の関連性に着目した特徴量 が提案された.関連性に着目した特徴量として,Joint Haar-like 特徴量 [9] や Shapelet 特 11 図 2.9: 積分画像 徴量 [8] が提案されている.これらの特徴量は,複数の局所特徴量を組み合わせ,Boosting により識別に有効な関連性を捉えている. 2.3.1 Joint Haar-like 特徴量 Joint Haar-like 特徴量は,複数の Haar-like 特徴量の関係性に着目した特徴量である.例 えば,図 2.10 に示すように,複数の Haar-like 特徴を組み合わせて,検出対象物体の構造 に基づいた特徴の共起関係を表現することが可能である.そのため,単一の特徴だけでは 捉えることができない関係性を捉えることができるため,検出性能を大きく向上させるこ とができる. 図 2.10: Joint Haar-like 特徴量 特徴の共起を表現するためには,同時確率を用いる.同時確率を求めるために,1 つ 1 つの Haar-like 特徴量が検出対象物か否かの 2 値化を行う.検出対象クラスと非検出対象 クラスに対応する 1 と 0 の符号 s により特徴量を表現する.符号 s は,サンプル x から, 12 式 (2.16) により算出する. s(x) = 1 p · z(x) > p · θ (2.16) 0 otherwise ここで,z は,1 つの Haar-like 特徴から算出された特徴量であり,θ はしきい値,p は不 等号の向きを決定する符号であり,+1 もしくは-1 をとる.θ 及び p は,Boosting により, 学習サンプルに対する識別エラーが最小となるように自動的に決定される. 次に,この 2 値化符号を多数組み合わせ,Joint Haar-like 特徴を生成する.図 2.10 は, 3 つの Haar-like 特徴を組み合わせて,Joint Haar-like 特徴 j を算出した例である. 最後に,AdaBoost により,共起を表現した Joint Haar-like 特徴を用いて学習を行う. AdaBoost の弱識別器には,複数の Haar-like 特徴の同時確率を表現することが可能な Joint Haar-like 特徴の確率を用いる.弱識別器 ht (x) において,入力画像 x から Joint Haar-like 特徴を観測する処理を関数 Jt (x) と表わす.x から特徴量 Jt (x) = j を観測したとき,ht (x) は式 (2.17) のようになる. ht (x) = +1 Pt (y = +1|j) > Pt (y = −1|j) −1 otherwise (2.17) ここで,y は正解ラベル y ∈ {+1,− 1} である.Pt (y = +1 | j) 及び Pt (y = −1 | j) は,そ れぞれ Haar-like 特徴量の共起を表現した特徴 j を観測したときの確率であり,学習サン プル i の重み Dt (i) に基づき式 (2.18)(2.19) より算出される. Pt (y = +1|j) = Dt (i) (2.18) Dt (i) (2.19) p:Jt (xp )=j∧yi =+1 Pt (y = −1|j) = p:Jt (xp )=j∧yi =−1 図 2.11 に,3 つの Haar-like を組み合わせた際の Pt (y = +1|j) と Pt (y = −1|j) の分布を 示す. 2.3.2 Shapelet 特徴量 Shapelet 特徴量は,図 2.12 に示すように,各画素のエッジ情報を Low level な特徴量と し,複数画素のエッジ情報の関連性に着目した Middle level な特徴量である.これにより, 局所領域内で人に共起するエッジと共起しないエッジを同時に捉えることができる. 図 2.13 に,Shapelet 特徴量をブースティングにより選択する処理について示す.まず, 入力画像から 4 方向のエッジ画像を求める.各画素の値を Low level な特徴量 g(π; x, y, d) 13 図 2.11: 同時確率 とする.ここで,x および y は位置,d はエッジ方向である.Shapelet 特徴量を作成する ために,これらの Low level な特徴量を局所領域 wi ∈ W に分割する.局所領域 wi ごとに, Shapelet 特徴量を学習するために Low level な特徴量を AdaBoost により選択する.Low level な特徴量は弱識別器として,式 (2.20) のように算出される. gt (x) = 1 pt · ft (x) > pt · θ 0 otherwise (2.20) ここで,ft (x) はエッジ強度,θ はしきい値,p は不等号の向きを決定する符合であり,1 もしくは0をとる.θ 及び p は,AdaBoost での学習課程において,学習サンプルに対す る識別エラーが最小となるように決定される.Low level 特徴量を AdaBoost により複数 選択することで,局所領域 wi における Shapelet 特徴量は式 (2.21) のように算出される. Hi (x) = 1 T t=1 αti gti (x) > 0 0 otherwise (2.21) ここで,α は弱識別器の重み,i は局所領域の番号を表わす.このように,局所領域内 wi で検出対象とそれ以外を判別するのに有効な Low level 特徴量 g(x) を複数含む Shapelet 特徴量を学習する.Sabzmeydani らは Shapelet 特徴量に含まれる Low level 特徴量の個数 T を,局所領域 wi のサイズにより 10 から 30 個と定義している. 局所領域ごとに構築された識別器は,図 2.13 に表わすように,検出対象の物体の形状 を捉えるような特徴量として学習されている.局所領域ごとに算出した Shapelet 特徴量 を 2 回目の AdaBoost を用いて最終識別器 C(s) を式 (2.22) により構築する. C(s) = T 1 t=1 αt ht (s) > λ 0 otherwise (2.22) ここで,C(s) は 2 回目の AdaBoost の弱識別器を表わし,T 個の Shapelet 特徴量 ht か 14 図 2.12: Shapelet 特徴量 ら構成される.2 回の AdaBoost を通して,検出対象を判別するのに有効な Low level な 特徴量が Middle level な特徴量として選択されている. 図 2.13: Shapelet 特徴量の生成と検出器構築の流れ 15 第3章 Boosting に基づく共起確率特徴量による 人検出 本章では,本研究の主題である Boosting に基づく共起表現法について述べる. 3.1 従来の共起表現法の問題点 2 章で述べた Joint Haar-like 特徴量や Shapelet 特徴量などの関連性に着目する特徴量 は,従来の局所領域に着目する特徴量と比較して,高精度な検出性能を持つことが報告さ れている.しかし,さらに高精度かつ高速な検出を行うためには問題点がある. Sabzmeydani et al. によって提案された Shapelet 特徴は,局所領域内において人を識別 するために必要な複数のエッジ特徴が共起表現される.しかし,膨大なエッジ特徴から Middle level な特徴を生成するには非現実的な学習時間が必要である.そのため,局所領 域内のみの特徴量の組み合わせに限定しており,離れた領域の特徴量の組み合わせを行う ことができない.また,1 回目と 2 回目の AdaBoost による学習は完全に独立しているた め,2 回目の AdaBoost による学習時にサンプルの重みを用いて Shapelet 特徴量を新たに 生成していない.そのため,学習ラウンド毎に適した Shapelet 特徴を用意することが困 難であり,AdaBoost による学習が非効率である. Mita et al. によって提案された Joint Haar-like 特徴量は,複数の Haar-like 特徴量を用 いることにより,顔の構造に基づいた特徴量の関係性を捉えることができる.これは,単 一の Haar-like 特徴では捉えられない,Haar-like 特徴量間の共起性を捉えることで高精度 な顔検出を実現している.しかし,Haar-like 特徴量を顔と非顔の二値に識別しているた め,組み合わせる特徴量の中に誤った二値符号が含まれていた場合,Joint Haar-like 特徴 量にも影響する.そのため,最終的な判定に用いられる同時確率の確率分布によっては誤 識別する問題がある.特に,検出対象が人など形状変化の激しいものや画像中の重なりに よるオクルージョンが発生した場合,これらの問題が多く発生することが考えられる. そこで,本論文では Boosting に基づく特徴量の共起表現による人検出法を提案する.本 研究では,弱識別器の出力が連続値である Real AdaBoost を利用し,弱識別器の出力を 演算子によって結合することで共起確率特徴を生成する.そのため,オクルージョンなど の影響によって Low level な特徴量を用いた識別が間違った場合においても,それ以外の 16 Low level な特徴量が正しい識別を行うことにより,最終的に識別を正しく行うことがで きる. 3.2 共起確率特徴量を用いた Boosting による学習 提案手法による学習の流れを図 3.1 に示す.提案手法では,Boosting に基づいて共起確 率特徴を生成し,人とそれ以外を判別する最終識別器の構築を行う.共起確率特徴量を生 成するためには,複数の Low level 特徴量を組み合わせる必要がある.本論文では物体検 出に有効であることが確認されている Histograms of Oriented Gradients(HOG) 特徴量を 用いる. 本節では,提案手法による学習を 3 つに分けて述べる.1 つ目は,1 段階目の Real Ad- aBoost による特徴 Pool の作成 (図 3.1(a)),2 つ目は Low level 特徴の組み合わせによる共 起確率特徴の生成 (図 3.1(b)),3 つ目は 2 段階目の Real AdaBoost による最終識別器の構 築 (図 3.1(c)) である. 図 3.1: 提案手法による学習の流れ 3.2.1 1 段階目の Real AdaBoost による特徴 Pool の作成 共起確率特徴は,複数 Low level 特徴量を結合させて生成する.Low level 特徴量は,ど のような特徴量を用いても良いが,物体検出に有効であることが確認されている HOG 特 徴量を用いる.また,ここでは 2 個の Low level 特徴量の結合について説明するが,提案 手法では N 個の Low level 特徴量の結合についても容易に拡張可能である. 入力画像から 3,240 個の HOG 特徴量が得られるとする.この場合,HOG 特徴量の全 組み合わせから,Real AdaBoost により最もエラーの少ない 2 個の特徴量の組み合わせを 探索した場合,共起確率特徴の弱識別器候補が 3240 C2 = 5, 247, 180 個となるため膨大な 学習時間が必要となる.そこで,効率的な学習を行うために 3,240 個の HOG 特徴量から, Real AdaBoost のアルゴリズムを用いて特徴選択を行い,識別に有効な N 個の HOG 特 徴量のみを組み合わせる.これにより,検出精度を維持したまま学習時間の削減すること が可能となる. 17 まず,HOG 特徴量からポジティブクラス (検出対象クラス) とネガティブクラス (非検 出対象クラス) の確率密度分布 W+ ,W− を作成する.確率密度分布 W± は,1 次元のヒス トグラムにより表現され,学習サンプルの重み Dt に基づいて次式より作成する. W+j = Dt (i) (3.1) Dt (i) (3.2) i:j ∈J∧yi =+1 W−j = i:j ∈J∧yi =−1 ここで,t は学習回数,i は学習サンプルの番号,j は 1 次元ヒストグラムの BIN の番号, yi はクラスのラベル y ∈ {+1, −1} を表す.学習サンプル i から特徴量を算出し,特徴量 の値に対応する 1 次元ヒストグラムの BIN の番号 j へ学習サンプルの重み Dt (i) を加算す ることで,確率密度分布 W± を作成することができる.1 次元ヒストグラムの BIN 数は, 学習サンプルの数に応じて適切な値にする必要がある.本研究では,実験より 1 次元ヒス トグラムの BIN の数を 64 とした.作成した確率密度分布 W± は,クラス毎の確率密度分 布の総和が 1 となるように正規化する. 次に確率密度分布 W± を用いて,分布の分離度を表す評価値 α を次式より算出する. j j α=1− W+ W− (3.3) j この評価値 α が大きいほどポジティブクラスとネガティブクラスの分布が分離している ことを意味する.最後に,全ての HOG 特徴量から得られる確率密度分布の分離度を表す 評価値 α を用いて,大きい順にソートを行い,α の大きい方から N 個を特徴 Pool とする. 本論文では,特徴 Pool を 200 個とした. 3.2.2 Low level 特徴の組み合わせによる共起確率特徴の生成 提案する共起確率特徴量は,Real AdaBoost の複数の弱識別器から得られる出力と評価 値を演算子によって結合した特徴量である.そのため,複数の特徴量を演算子により多様 な捉え方で観測することが可能であるため,単一の特徴のみでは識別困難なパターンに対 しても高精度な検出が可能となる. 共起確率特徴量の生成について述べる.まず,作成したポジティブクラスとネガティブ クラスの確率密度分布 W+ ,W− を用いて,弱識別器の出力 h(x) を算出する.学習サンプ ルより得られる特徴量 x の値から,1 次元ヒストグラムの BIN の番号 j を算出し,それに 対応した確率密度分布 W± から弱識別器の出力 h(x) を次式より算出する. h(x) = 1 W+ + ln 2 W− + 18 (3.4) ここで, は分母が 0 の場合に計算不能になることを防ぐための係数である.本研究では, 実験より = 0.0000001 とした.学習サンプルより得られる特徴量 x の値から,1 次元ヒ ストグラムの BIN の番号 j より確率密度分布 W± の値が得られる. 算出した Real AdaBoost の弱識別器の出力 h(x) を用いて共起確率特徴を算出する.検 出ウィンドウから得られた 3,240 個の HOG 特徴量を x,弱識別器の出力を h1(x),h2(x) とした場合,下記の 2 パターンの結合により共起確率特徴 C1,C2 を次式より表現する. C1 = h1(x) + h2(x) (3.5) C2 = h1(x) × h2(x) (3.6) まず,共起確率特徴量 C1 は,弱識別器の出力の和であるため,2 つの特徴量を総合的に 捉える特徴量となる.そのため,片方の特徴量が隠れやノイズ等の外乱の影響を受けた場 合でも,もう 1 つの特徴量がクラスをよく表現していればそのクラスを反映した特徴量と なる.次に,共起確率特徴量 C2 は,弱識別器の出力の積をとるため,両方の重みつき出 力が高いときは高い共起確率特徴量の値,それ以外は小さい共起確率特徴量の値となる. 図 3.2 に弱識別器の出力を 0∼1 とし,和と積の演算子を用いた場合の共起確率特徴量の 変化を可視化した.図 3.2 からもわかるように,和と積の演算子の効果が異なることがわ かる. 図 3.2: 演算子の効果 検出時には,検出ウィンドウから得られる HOG 特徴 x から弱識別器の出力を h1(x), h2(x) を求め,共起確率特徴量 C1 もしくは C2 を算出する.2 個の HOG 特徴量から共起確 率特徴量を生成する概念図を図 3.3 に示す.特徴 Pool が 200 個の場合,弱識別器の候補は 200 個 ×200 個 ×2 演算子 = 80, 000 個となる.これらの弱識別器候補は,Real AdaBoost を用いた識別器構築の特徴選択時に自動的に選択される. 19 図 3.3: 共起確率特徴量の生成 3.2.3 2 段階目の Real AdaBoost による最終識別器の構築 生成した共起確率特徴を用いて 2 段階目の Real AdaBoost により最終識別器の構築を 行う.3.2.1 にて説明した共起確率特徴の算出のために作成する特徴 Pool は,更新される 学習サンプルの重みに従い学習ラウンド毎に作成し直す.これにより,前の学習ラウンド で誤識別した学習サンプルに対して重みが高くなるため,このサンプルを正識別するよう な特徴 Pool が各ラウンド毎に作成される. 3.3 N 個の特徴量を用いた共起確率特徴への拡張 3.2 では,共起確率特徴を算出するために 2 個の HOG 特徴量の結合を行ったが,提案 手法は N 個の HOG 特徴量についても容易に拡張することが可能である.ここでは,N 個の HOG 特徴量の結合を行い,共起確率特徴を算出する. 3.3.1 最適な特徴量の組み合わせ探索 3.2 で示した共起確率特徴の生成法を用いて多数の HOG 特徴量の組み合わせを行った場 合,特徴 Pool のサイズを小さくしても膨大な学習時間が必要となる.そこで,特徴量の効 率的な組み合わせの探索を行う.効率の良い組み合わせを探索することは,効率的な特徴選 択が必要である.特徴選択法として,Sequential Forward Selection(SFS)[25] や Sequential Backward Selection(SBS)[26],Sequential Floating Forward Selection(SFFS)[27] など様々 な手法が提案されているが,本研究では最も特徴選択で用いられることが多い SFS を用 いる.SFS を用いた特徴選択では,はじめに最も評価値 α が高い HOG 特徴量を 1 個選択 する.次に,共起確率特徴の評価値 α が最も高くなるように別の特徴量を 1 個追加する. これを N 回繰り返すことにより,N 個の HOG 特徴量を効率的に組み合わせ,共起確率 特徴量を生成する. 20 結合させる特徴量の最適な個数の推定 3.3.2 結合する HOG 特徴量の個数 N を増やすことにより,より強力な弱識別器を作成する ことができる.しかし,共起の関係を強くするほど過学習となる等の問題が考えられるた め,結合させる特徴量の最適な個数を各学習ラウンド毎に決定する必要がある.そこで, 文献 [9] と同様の手法により,結合させる特徴量の最適な個数を推定する.文献 [9] では, 学習用サンプルとは別に N 個の検証用サンプルを用いて評価を行う hold-out 法により結 合させる特徴量の個数を推定している.hold-out 法とは,サンプルを学習用と評価用に分 割し,未知のサンプルに対する識別器の性能を評価する手法である.結合させる特徴量の 個数 N を予め決めた上限値 Nmax まで増加させ,各 N に対する弱識別器を学習し,Nmax 通りの弱識別器候補を得る.この中から,その学習ラウンド T までの強識別器により検 証用サンプル (xi , yi ) に対する識別誤り率 ET を最小とする N を選択している.識別誤り 率 ET は,次式より識別誤りとなった検証用サンプルの数を計数することにより求めら れる. ET M 1 = I(HT (xi = yi )) M n=1 (3.7) ここで,HT (x) は,それまでの学習ラウンドにおける強識別器として式 (3.8) で表され る.なお.I(HT (xi = yi )) は,HT (x) による識別結果が誤りならば 1,正しい場合には 0 となる. T HT (x) = sign ht (x) (3.8) t=1 3.4 評価実験 提案手法の有効性を示すために下記に示す 3 つの実験を行う. 実験 1 : 提案手法と従来法の比較実験 実験 2 : 特徴量の最適な個数の推定 実験 3 : 共起表現の有効性の検証 3.4.1 評価方法 評価を行うために,予め切り出された評価用サンプルを用いて評価を行う.一般的に, 画像中から人を検出するためには,検出器のスケールを変化させながらラスタスキャン走 査を行い,人と人以外に判別する.そして,人として検出されたウィンドウに対して近傍 21 の領域を統合する.この処理した結果を用いて比較を行った場合,ウィンドウの統合処理 の結果に依存する.そのため,今回は切り出した画像に対する識別を行うことによって比 較を行う.評価には切り出した画像サンプルを用いて識別の実験を行い,Dection Error Tradeoff(DET) カーブ [28] により比較を行う.DET とは,横軸に誤識別率,縦軸に未識 別率を両対数グラフによって表したものである.識別器のしきい値を変化させることに よって,誤識別率に対する未識別率の比較を行うことが可能である.原点に近いほど検出 性能が良いことを表す. 3.4.2 データベース 実験に使用する人画像データベースは,屋外で撮影した映像から人の全身を切り出すこ とで作成する.映像は,図 3.4 に示す Sony HDR FX1(表 3.1) を用いて背景や照明などの 多様な環境下で撮影した.切り出し方法は,検出対象を人とした場合,人を最小の矩形に よって囲うことのできる矩形を決定し,矩形の両端に人が存在しない領域 (マージン) を 加える.マージンの大きさは,矩形の縦幅と横幅それぞれ 10% とする.そのため,最小の 矩形の大きさを 100%とした場合,切り出される画像は 120%となる.そして,Low level 特徴量を算出するために,切り出した画像を一定のパッチサイズに正規化する.実際に屋 外にて撮影した映像から人の画像を切り出す例を図 3.5 に示す. 図 3.4: Sony HDR FX1 複数の環境下で撮影した映像を学習用と評価用の映像に分類し,学習用サンプルと評 価用サンプルを切り出した.学習用はポジティブサンプルは 2,053 枚,ネガティブサンプ ルは 6,253 枚用いる.評価も学習と同様に切り出された画像を用いて行う.評価用はポジ ティブサンプルは 1,023 枚,ネガティブサンプルは 1,233 枚用いる.また,hold-out 法に より結合する特徴量の個数を推定する実験 2 では検証用サンプルも必要となるため,新た に検証用としてポジティブ,ネガティブサンプル共に 1,000 枚用意した.図 3.6 に学習用 22 表 3.1: ビデオカメラ SONY HDR FX-1 の性能表 総画素数 112 万画素 有効画素数 107 万画素 3CCD F値 F1.6∼2.8 フィルター径 7mm フォーカス 自動 アイリス 自動 ホワイトバランス 自動 図 3.5: 画像の切り出し例 サンプルの一部を示す. 切り出されたデータベースから特徴量を算出し,検出対象物体と非検出対象物体を判別 する.切り出された画像は,サイズが統一されていないため,バイリニア補間により画像 サイズをダウンサンプリングし,一定のパッチサイズとする.HOG 特徴量を用いる際に 必要なパッチサイズ,セルサイズ,ブロックサイズは,下記に示す実験より得られた最適 なパラメータを使用する. • パッチサイズ 30 × 60 ピクセル • セルサイズ 5 × 5 ピクセル • ブロックサイズ 3 × 3 セル 上記のパラメータを使用し,HOG 特徴量を算出した場合,3,240 個の特徴量が得られる. 23 図 3.6: データベースの例 24 3.4.3 実験 1 : 提案手法と従来法の比較実験 実験 1 では,提案手法の共起表現の有効性を確認するために,共起を表現しない方法 (HOG+Real AdaBoost),従来の共起表現法 [9](HOG+従来の共起表現法) との比較実験 を行う.提案手法は,3.2 節で記述した方法によって検出器を構築する.学習は,性能評 価を平等にするために,結合する特徴量数 N = 2 としたときの共起確率特徴を用いる.そ の際の強識別器に使用する特徴量は,計 500 個とする. 図 3.7 に実験結果を示す.まず,提案手法と共起を表現しない方法との比較を行う.誤 検出率 5.0% の未検出率を比較した場合,提案手法は従来の共起表現法よりも検出率が 27.8% 向上した.次に,提案手法と従来の共起表現法の比較を行う.誤検出率 5.0% の未 検出率を比較した場合,提案手法は従来の共起表現法よりも検出率が 6.8% 向上した.こ れは,提案手法では複数の演算子により弱識別器の出力を結合するため,従来法よりも多 様な結合の表現が可能になったと考えられる. 図 3.7: 実験 1 の結果 次に,従来の共起表現法では正しい識別ができないが,提案手法では識別できるように なった例を図 3.8 に示す.図 3.8(a) は,オクルージョンが発生している場合や人の形状変 化が激しい場合においても正しい識別が可能になった.図 3.8(b) は,縦方向の強い勾配 が人の形状に似ているため,従来法では誤検出していたが,提案手法では人に似た背景に 対しても頑健に検出が可能となった. 3.4.4 実験 2 : 特徴量の最適な個数の推定 HOG 特徴量の結合数による検出性能の違いを比較する.識別に用いる HOG 特徴量の 数が検出精度に影響を与えないように,強識別器に使用する HOG 特徴量の数は 500 個に 25 図 3.8: 正識別可能となったサンプルの例 固定する.表 3.2 に,学習回数と 1 個の弱識別器に用いる特徴量の数,強識別器に用いる 特徴量の数を示す.弱識別器に用いる特徴量が 1 個の場合は共起表現できないため,HOG 特徴量と Real AdaBoost を組み合わせた手法となる.また,弱識別器に用いる特徴量数 として最適な数を推定するために hold-out 法により求める手法は,1 個の弱識別器におけ る HOG 特徴量の最大結合数 Nmax = 7 とする. 表 3.2: 識別に用いる特徴量の数と学習回数 弱識別器に用いる特徴量数 学習回数 全特徴量数 1 500 500 2 250 500 3 167 501 5 100 500 7 72 504 Nmax = 7 110 500 表 3.3 に実験結果を示す.実験結果より,全体的に共起表現した手法が良い結果が得ら れていることがわかる.例えば,Nmax = 7 とした hold-out 法により最適な結合数を推定 した識別器は,共起を表現しない方法よりも,誤検出率 5% において検出率が 37.1% 向上 している.中でも,hold-out 法により結合させる特徴量の最適な個数を推定する方法が最 も精度が高い.結合させる特徴量の個数による違いは,増やすほど検出率が向上するが, 7 個結合させると検出率が低下している.この理由は,多数の特徴量を結合させた結果, 学習サンプルに対して必要以上に適応したため汎化性能が低下したことが考えられる.そ のため,hold-out 法によって最適な結合させる特徴量の個数を推定することが有効であ 26 り,提案する共起確率特徴に対しても適応できていることがわかる. 表 3.3: 誤検出率 5.0%における検出率 弱識別器に用いる特徴量数 検出率 [%] 3.4.5 1 50.2 2 78.6 3 84.0 5 84.6 7 81.6 Nmax = 7 87.3 実験 3 : 共起表現の有効性の検証 ここまでの実験により,同数の Low level 特徴量の共起を表現することにより,検出性 能が向上したことを確認した.しかし,使用する Low level 特徴量数が変化した場合の有 効性を確認していない.例えば,大量の Low level 特徴量を使用し,少数の Low level 特 徴量を使用した共起確率特徴量と同程度の検出性能が得られれば良い場合においては共 起を表現する必要が無い.そのため,ここでは共起を表現することにより,使用する Low level 特徴量数を変化させた場合に,検出精度がどのように変化するかを確認する.その ために,共起を表現しない方法 (HOG 特徴量+Real AdaBoost) と提案手法の比較を行う. 図 3.9 に,実験結果を示す.実験結果から,共起確率特徴量の方が,全体的に検出性能 が高いことがわかる.使用する特徴量数 (学習回数) が増加した場合においても,検出性 能が両手法とも同程度に収束することはない.そのため,HOG 特徴量のみでは,捉える ことができない情報も,特徴量間の共起を表現することにより,捉えることができている と考えられる. また,同じ誤識別率で特徴量数を比較した場合,共起確率特徴量の方が少ない特徴量数 で良いことがわかる.そのため,同程度の識別精度で比較した場合,共起確率特徴量の方 が高速に識別することができることがわかる. 3.4.6 考察 hold-out 法を用いて結合させる特徴量の最適な個数を推定した手法において,学習時 に選択された HOG 特徴量から考察を行う.hold-out 法によって結合させる特徴量の最適 な個数が,各学習ラウンドにおいてどのように変化しているかに着目する.図 3.10 に, Nmax = 7 としたときの学習回数 30 ラウンド毎の選択された HOG 特徴量の結合した個数 27 図 3.9: 誤識別率の比較 の分布を示す.図 3.10 から学習ラウンドの初期では,6 個や 7 個といった多数の HOG 特 徴量が結合され,学習ラウンドが進むにつれて HOG 特徴量の結合数が減少していること がわかる. 図 3.10: 結合された特徴量の数 次に,各学習ラウンドにおいてどのような HOG 特徴量が選択されているかに着目する. 図 3.11 に学習サンプルの平均勾配画像と学習ラウンドの初期に選択された HOG 特徴量 を可視化した例を示す.学習ラウンドの初期では,人の輪郭に沿った HOG 特徴量が多数 選択されている.例えば,学習ラウンド 1 回目では,人の頭部,手,足部の形状を捉える HOG 特徴量が選択されている.さらに,2 回目では人の左半身,3 回目では右半身のシ ルエットを捉えるような HOG 特徴量が選択されている.これは,学習ラウンドの初期で は,多数の HOG 特徴量を用いて人の形状を捉えていることから,人の大まかなシルエッ ト形状の情報を捉えることができると考えられる. 最後に,Low level 特徴量を結合する各演算子の効果について考察する.本手法では,共 28 図 3.11: 平均勾配画像と選択された HOG 特徴量の可視化 起確率特徴量の生成のために和演算子 (+) と積演算子 (×) の 2 種類を使用し,Boosing に より自動的に演算子選択している.そのため,2 種類の演算子が異なる性質を持っていた 場合,各学習ラウンドにおいて有効な共起の表現を行う演算子が選択される.図 3.12 は, 各演算子を用いた場合の検出精度である.結果より和演算子の方が検出性能が高く,両方 を用いることによりさらに検出性能が向上している.そのため,和と積の単一の演算子だ けでは表現不可能な共起表現があり,表現方法が異なる演算子を複数使用することで検出 性能が向上したと考えられる. また,和と積の演算子の両方を使用した場合において,学習ラウンド毎に各演算子が選 択された割合を図 3.13 に示す.学習の初期では,和演算子の方が多く選択され,学習の 中盤は積演算子,後半は同程度の割合であることが分かった.これは,学習初期では多く の学習サンプルを正識別するために和演算子が多く選択され,中盤以降は,学習サンプル の重みが変化し,間違えやすい学習サンプルが重みが高くなっているため,これらのサン プルを中心に正識別させるように積演算子が選択されていると考えられる. 図 3.12: 各演算子を用いた場合の検出精度の比較 29 図 3.13: 学習によって選択された各演算子の割合 3.4.7 人検出実験 提案手法により構築した検出器を用いて人検出の実験を行う.人検出を行うには,図 3.14 の検出の流れに示すように,検出ウィンドウを画像左上からスケールを変化させて複 数回ラスタスキャンする.これにより,人のスケールが異なる場合でも検出可能となる. 人として検出されたウィンドウは,最後に Mean Shift クラスタリング [29] による検出ウィ ンドウの統合処理を行う.図 3.15 に複数の場所において撮影した映像に対する人検出例 を示す.人の大きさや画像中の人同士の重なりによるオクルージョンに対して頑健な検出 ができていることがわかる. 図 3.14: 検出の流れ 30 図 3.15: 提案手法による人検出例 31 第4章 多重解像度間の共起に基づく人検出 3 章では,一枚の画像から得られる Low level 特徴量の空間的な共起を表現し,人検出 において提案する共起確率特徴の有効性を確認した.組み合わされる Low level 特徴量は, 異なる空間的位置から得られる特徴量であった.提案手法では,空間位置が異なるだけで なく,その他の特徴量の共起へも展開可能である.そこで,本章では多重解像度から得ら れる HOG 特徴量の共起を表現し高精度な人検出を行うことを目的とする. 4.1 多重解像度間の共起表現 本章では,検出対象を人の上半身とし,形状に特徴がある頭部と上半身 (頭部から肩に かけての Ω の形状) に分ける.頭部と上半身の画像を多重解像度により表現し,これら の画像から得られる HOG 特徴量を頭部と上半身から 1 個ずつ選択することで共起を表現 する. 4.1.1 多重解像度 HOG 特徴量 検出対象である上半身画像の中で,特に形状に特徴がある頭部領域と上半身領域は,特 徴を最も表現する解像度が同一であるとは限らない.そこで,本手法では多重解像度画像 から HOG 特徴量を抽出し,頭部らしい特徴と上半身らしい特徴を共起確率特徴により同 時に捉えることを考える.図 4.1 は,128 × 128 ピクセルの上半身画像と 64 × 64 ピクセ ルの頭部画像を入力し,半分の大きさまで 0.125 ずつ倍率を縮小した場合の HOG 特徴量 を可視化したものである.本手法では,下記のパラメータにより多重解像度画像からの HOG 特徴量を抽出する.上記のパラメータから HOG 特徴量を算出した場合,頭部と上 半身の領域からそれぞれ 4,860 個の HOG 特徴量が得られる. • パッチサイズ – 頭部:64 × 64,56 × 56,48 × 48,40 × 40,32 × 32 ピクセル – 上半身:128 × 128,112 × 112,96 × 96,80 × 80,64 × 64 ピクセル • セルサイズ 32 図 4.1: 解像度の変化に伴う HOG 特徴量の変化 – 頭部:8 × 8 ピクセル – 上半身:16 × 16 ピクセル • ブロックサイズ – 頭部:2 × 2 セル – 上半身:2 × 2 セル 4.1.2 多重解像度 HOG 特徴量を用いた共起表現 多重解像度画像から得られた HOG 特徴量を用いて,3 章にて述べた手法により多重解 像度間の共起を表現する.図 4.2 に多重解像度間の共起表現の流れを示す.まず,入力画 像から頭部の画像と上半身の画像に分けて切り出し,各画像を段階的にダウンサンプリン グすることで頭部と上半身の多重解像度画像を作成する.得られた多重解像度画像から HOG 特徴量を抽出し,3 章にて述べた手法により共起を表現する.これにより,異なる 解像度間の共起を表現した共起確率特徴を生成することが可能となる. 33 図 4.2: 多重解像度 HOG 特徴量による共起表現 4.2 評価実験 提案手法の有効性を示すために従来法との比較実験を行う. 4.2.1 データベース 学習と評価実験を行うための画像を収集した.学習と評価のサンプルには,多重解像度 の有効性を評価するために,検出対象である人の上半身が高解像度となるように撮影し た.データベースのポジティブサンプルには,明るさ,人の向き,画像に対する人の大き さが異なる場所で撮影した映像から,人の頭部と上半身を切り出した.ネガティブサンプ ルには,Caltech 256 database[30] の clutter クラスからランダムに切り出した.学習用の ポジティブサンプルは 4,585 枚,ネガティブサンプルは 3,738 枚用意した.同様に,評価 用のポジティブサンプルは 3,920 枚,ネガティブサンプルは 10,000 枚用意した.学習に用 いたデータベースの一部を図 4.3 に示す. 4.2.2 実験 評価用データベースを用いて提案手法と多重解像度 HOG+Real AdaBoost,多重解像 度 HOG+従来共起法 [9] との比較を行う.比較には DET カーブを用いて提案手法の有効 34 図 4.3: ポジティブクラスの上半身画像データベースの例 性を評価する. によって評価を行う. 図 4.4 に実験結果を示す.図 4.4 では,提案手法が他の手法と比べ,全体的に原点に近 いことから検出性能が高いことがわかる.誤検出率 0.1%の未検出率を比較した場合,提 案手法は HOG 特徴量の共起と比較して検出率が約 15.0%向上している.これは,Real AdaBoost を用いることで弱識別器の出力が連続値で表現され,演算子で多様な特徴量の 捉え方が可能となったため検出率が向上したと考えられる. 図 4.5 に複数の場所において撮影した映像に対する人検出例を示す.人同士の重なりに よる隠れが発生しても,精度良く検出できていることがわかる.さらに,頭部と上半身の 形状を同時に捉えることで,向きに依存せず人の検出を行うことができている. 4.2.3 考察 学習時に選択された特徴量から提案手法の考察を行う.図 4.6 に学習時に選択された HOG 特徴量を可視化した結果を示す.HOG 特徴の勾配方向を 9 方向で表現しており,輝 度が高いほど Real AdaBoost における識別に有効な特徴量として選択されたことを表す. 図 4.6(e) に示すように,形状に沿った勾配に対応する HOG 特徴が選択されていることが わかる.また,図 4.6(a),(b),(c),(d) に最終識別器の各ラウンドにおいて選択された HOG 特徴量を示す.特徴選択の傾向が出やすい学習の初めでは,頭部は高解像度の HOG 特徴が選択され,上半身は低解像度の HOG 特徴量が選択されていることがわかる.この ことから頭部は高い解像度の方が特徴を表現しやすく,上半身は低解像度の方が特徴を表 35 図 4.4: DET による比較結果 図 4.5: 提案手法による人検出例 現しやすいと考えられる. これを確かめるために学習によって選択された HOG 特徴量を解像度毎にヒストグラム で表現した図 4.7 に注目する.頭部は,比較的解像度の高い画像から得られる HOG 特徴が 選択される傾向があり,上半身は高解像度の HOG 特徴量が最も選択されているが,頭部 に比べ低解像度の HOG 特徴量が選択される傾向がある.これは,学習サンプルの平均勾 配画像からもわかるように,頭部のように勾配にばらつきが少ないと,高解像度の HOG 特徴量が選択され,上半身のように勾配が分散していると,低解像度の HOG 特徴量が選 択されている.今回作成したデータベースの上半身画像は,肩のラインが性別,衣服,年 齢によって差異があったため,肩のラインの勾配の分布にばらつきがあった.低解像度画 像からの HOG 特徴量は,広い範囲でヒストグラムをまとめることになるため,このばら つきを吸収することができたと考えられる.一方,頭部画像は勾配のばらつきが小さいた め,局所領域でも頭部のラインを捉えることが可能であり,高解像度の HOG 特徴量が選 36 択されたと考えられる. 37 図 4.6: 学習によって選択された HOG 特徴量の可視化 38 図 4.7: 学習によって選択された HOG 特徴量の解像度 39 第5章 アピアランスと時空間特徴の共起に基づく 人検出 3 章では異なる空間的位置の特徴量間の共起,4 章では異なる解像度から得られる特徴 量間の共起を表現した.本章では,異なる性質の特徴量として,人の形状を表現すること が可能なアピアランス特徴量と,人の動きを表現することが可能な時空間特徴量を用い て,異なる性質の特徴量間の共起を表現し高精度な人検出を行うことを目的とする. 5.1 時空間特徴量 HOG 特徴量などのアピアランスベースの特徴量は,物体の形状を表現することが可能 であるが,検出対象物体の形状に似た背景が存在した場合,誤検出する可能性がある.こ の誤検出を防ぐためには,物体の形状を表現するアピアランス特徴量以外に,検出対象物 体と非検出対象を判別できる要素が必要である.その一つとして検出対象物体の動きの 情報がある.ここでは,人独特の動きを捉えることが可能な時空間特徴量の抽出を行い, アピアランスと時空間特徴量の共起表現について述べる. 5.1.1 動きのモデル化 動きの情報は,大きく 2 つに分けられる.一つ目は背景差分法に代表されるように空間 的な情報を表す動き,二つ目はフレーム間差分法やオプティカルフロー [31] に代表される ように物体が移動したかを表す動きである.固定カメラを想定し,検出対象物体を図 5.1 に示すような歩行している人を考える.歩行中の人の動きは非常に独特な動きであり,軸 足以外の動きは小さく,軸足は非常に動きが大きい.そのため,動いている部分と動いて いない部分の動きを同時に捉える必要がある.背景差分法のみでは人の動きを捉えるこ とができず,フレーム間差分法のみでは動いている領域以外が捉えられない.また,オプ ティカルフローでは,画素の移動量と移動方向を求めることができるが,物体検出では必 要以上の情報であり,これらの情報を有効活用することは難しい.さらに,一般的にノイ ズに弱いことや処理コストが大きいなどの問題もある. そこで,本手法では背景差分とフレーム間差分より得られる両方の動きを捉えることが 40 可能なピクセル状態分析 [32] を利用する. 図 5.1: 歩行者の動き 5.1.2 ピクセル状態分析 ピクセル状態分析は,ピクセル状態の時間変化をモデル化することにより,図 5.2 の状態 遷移図のように,各ピクセルを背景 (Background),静状態 (Stationary),動状態 (Transient) の三状態に判別する手法である. 図 5.2: ピクセルの状態遷移図 これらの状態遷移を捉えるには,輝度値の急激な変化 (Motion Trigger) と輝度値の安定 度 (Stability Measure) に着目する.まず最初に,輝度値の急激な変化の検出を行う.ここ で,現在のフレームから k フレーム前の輝度値を It とする.輝度値の変化量 T を求める には,It と t よりも前フレームの It−j の差分の絶対値を算出する.変化量 T は次式より算 出する. T = max{|It − I(t−j) |, ∀j ∈ [1, 5]} (5.1) 急激な輝度値の変化がピクセル上に生じたとき,変化量 T の値は大きくなる.次に,ピ クセルの安定度 S について考える.安定状態の検出には,t より後の k フレームに着目す 41 る.安定度 S は次式より算出する. k S= k 2 I (t + j) − j=0 k I(t + j) 2 j=0 k(k − 1) (5.2) 安定度は,フレーム t から t + k までの輝度値の分散であり,安定した状態では安定度 S は小さくなる.ここで,各ピクセルの状態を表す M は,背景のとき bg,動状態のとき に tr,静状態のときに st をとるように,図 5.3 に示すアルゴリズムによって決定される. 図 5.3: ピクセル状態分析アルゴリズム ここで,I は時刻 t における輝度値,th t は急激な輝度の変化を判定するしきい値,th s は安定性を判定するしきい値とする.本研究では,急激な輝度の変化を判定するしきい値 に,照明変動の影響が少ない変動しきい値 [32] を用いる.background intensity は,予め 用意した背景画像の輝度値を表し,IIR フィルタ [33] により自動的に更新する.これによ り,環境変化に追従するよう適応的な背景画像の更新が可能となる. 図 5.4 にピクセル状態分析例を示す.背景差分を用いているため,背景領域は背景とし て判別され,画面左の歩行者は動状態,画面右の静止している人は静状態として判別され ている.そのため,例えば人が静止している場合であっても,その状態を特徴として捉え ることで,立ち止まっている人からも識別に有効な特徴量を得ることが可能となる. 5.1.3 時空間特徴量の抽出 ピクセル状態分析を行うことにより,人独特の動きを捉えることができる.しかし, Boosting により学習するためには,ピクセル状態分析の結果を特徴量として得る必要が ある.そこで,本手法では HOG 特徴量と同様のアプローチにより,時空間特徴量を抽出 42 図 5.4: ピクセル状態分析例 する.ピクセル状態分析結果をセル領域によってヒストグラム化することにより,時空間 特徴を抽出する.まず,HOG 特徴量算出の際に用いた領域の構造を用いて,HOG と同 様にピクセル状態ヒストグラムを作成する.ヒストグラム化することで,局所領域におけ る,動 / 静状態の分布を得ることができる.その際には,多少の誤った判定が生じたピ クセルがあっても,ヒストグラム化した特徴量への影響は少ない.ピクセルは 3 状態に判 別されるので,1 つのヒストグラムから 3 つの特徴量が算出される.最後に,HOG 特徴 量と同様にブロック領域により正規化を行う.入力画像を 30 × 60 ピクセルとした場合, 時空間特徴から得られる特徴ベクトルは 40 ブロック ×27 次元 = 1, 080 次元となる. 5.2 アピアランスと時空間特徴量の共起 3 章にて述べた共起表現法により,アピアランスと時空間特徴量の共起を表現する.図 5.5 に学習の流れを示す.まず入力画像を用いてアピアランス特徴量と時空間特徴量を抽 出し,特徴 POOL を作成する.次に,この特徴 POOL から共起確率特徴量を生成し,Real AdaBoost により学習を行う.そのため,共起確率特徴量は同一の特徴量間の共起の場合 と異なる特徴量間の共起の場合があり,これらは Boosting により自動的に選択される. 図 5.5: 学習の流れ 43 5.3 評価実験 提案手法の有効性を示すために下記に示す 2 つの実験を行う. 実験 1 : 提案手法と従来法の比較実験 実験 2 : 時空間特徴量の有効性の評価 5.3.1 データベース データベースは,3 章で使用したデータベースを利用する.本手法は,ピクセル状態分 析を行うために連続した数フレームの画像が必要である.今回は,ピクセル状態分析を 行った結果を切り出すことでデータベースとした.サンプル数は 3 章と同様に,学習用の ポジティブサンプルは 2,053 枚,ネガティブサンプルは 6,253 枚,評価用のポジティブサ ンプルは 1,023 枚,ネガティブサンプルは 1,233 枚用いる. 図 5.6 に,データベースの一部と各特徴量を画像により可視化した例を示す.例えば, 図 5.6(A) の (f) は,図 5.1 と同一の人物であるが,原画像と HOG 特徴に注目すると人が 立ち止まっているように見える.しかし,ピクセル状態分析に注目すると,右足が静状態 であることから歩いている最中の軸足,左足が動状態であることから前に動かしているこ とがわかる.このように,ピクセル状態分析から人が歩行している動きと HOG 特徴量か らアピアランスを同時に捉えることで,検出性能の向上が期待できる. 5.3.2 実験 1 : 提案手法と従来法の比較実験 提案手法の有効性を検証するために従来法との比較実験を行う.実験は,ピクセル状態 分析の結果 (PSA)+Real AdaBoost,HOG 特徴量のみ (HOG)[4] + Real AdaBoost,HOG 特徴量とピクセル状態分析の結果 (HOG+PSA) + Real AdaBoost,HOG 特徴量とピクセ ル状態分析の共起表現 (HOG+PSA(共起) + Real AdaBoost を比較する. 図 5.7 に DET による検出結果を示す.提案手法である HOG 特徴量とピクセル状態分 析の共起を表現した手法は,アピアランス特徴のみである HOG 特徴量と比べ,検出性能 が大幅に向上していることがわかる.これは,アピアランス特徴のみを使用した場合で は,複雑なテクスチャや人に似た形状を持つ物体に対して誤検出するが,提案手法では時 空間特徴によって,背景と前景を判別することができるピクセル状態分析の結果を用いて いるため誤検出を減少させることができたためである.また,提案手法は人の見えと動き を同時に観測し,共起を表現することにより,人の検出精度を向上させることができた. 44 図 5.6: データベースの例 45 図 5.7: DET による比較結果 5.3.3 実験 2 : 時空間特徴量の有効性の評価 提案手法に用いている時空間特徴の有効性を実験により検証する.提案手法は,人独特 の動きを表現することができるピクセル状態分析を用いている.この他の動きを表現する ことが可能な手法として,背景差分法とフレーム間差分法が考えられる.これらの手法と ピクセル状態分析を用いた場合の検出性能を比較することで,時空間特徴量の有効性を確 認する. 実験は,動きを表現する特徴量のみでは,人の検出が難しいため,HOG 特徴量と動き を表現する特徴量を併用する.比較する手法は,HOG 特徴量+空間的な情報を表す背景 差分 (BS),HOG 特徴量+動きを表すフレーム間差分 (TD),HOG 特徴量+ピクセル状態 分析の結果 (PSA) を比較する.BS は,移動物体全体の領域が検出 (図 5.8(c)) され,TD は移動した領域のみの領域 (図 5.8(d)) が検出される.BS,TD は,得られた差分画像か ら移動体領域をセル領域内において算出される割合を特徴量とする. 図 5.8: BS と TD,PSA の検出 図 5.9 に DET を示す.誤検出率 10.0% 時において,HOG 特徴量と背景差分より得ら 46 れる空間情報を用いることにより,HOG 特徴量のみを用いた手法より検出率が約 28.7% 向上している.同様に,HOG 特徴量とフレーム間差分より得られる動きの特徴を用いた 場合,HOG 特徴量のみを用いた手法より検出率が約 27.0% 向上している.背景差分から 得られる空間的な情報とフレーム間差分から得られる動きの特徴は,人検出に有効な特徴 であるといえる. 図 5.9: DET による動きの特徴量の比較結果 5.3.4 人検出実験 提案手法により人検出実験を行う.3.4.7 と同様に検出ウィンドウをラスタスキャンし, 検出ウィンドウの画像が人であるかの判定を繰り返す.図 5.10 に提案手法により,人検 出を行った例を示す.アピアランス特徴のみを用いた場合では,人の形状に類似した物体 に対して誤検出が発生しているが,時空間特徴量を加えることにより,誤検出の発生を抑 制していることがわかる.また,アピアランス特徴のみでは検出できないデータに対して も,時空間特徴量を加えることにより,検出精度が向上していることがわかる.この理由 は,ピクセル状態分析の結果を用いることにより,人の動きの輪郭からアピアランス特徴 量のみでは正確に得られない人の形状を補うことができるためだと考えられる.この他に も,ピクセル状態分析の結果は,背景差分のように動きの空間的な情報も表現することが 可能なため,人の領域と領域外を表現することが可能である.そのため,非常に高精度な 人検出が実現できたと考えられる. 47 図 5.10: 人検出例 48 第6章 むすび 本論文では,画像から物体を検出する手法として,Boositng に基づく共起表現による 物体検出法とその応用について述べた.また,同一の特徴量間の共起表現の他に,共起表 現法の応用として,異なる解像度間の共起と異なる特徴量間の共起について述べた.各章 毎のまとめは以下の通りである. 3 章では,Boosting により最適な共起を表現した共起確率特徴量による物体検出法を提 案した.提案手法では,弱識別器の出力が連続値である Real AdaBoost を利用し,弱識 別器の出力を演算子によって結合することで共起確率特徴量を生成した.共起確率特徴量 は,特徴量間の共起性を表現するため,物体の構造に基づいた関係性を捉えることができ る.また,演算子を複数用意することにより,異なる共起の表現を可能とした.評価実験 の結果,従来の共起を表現する手法と比較して検出率を約 6.8% 向上させることができた. 4 章では,異なる解像度から得られる特徴量間の共起表現について述べた.多重解像度 から得られる特徴量の共起を表現することにより,物体の部分毎に識別に有効な解像度の 自動選択が可能となった.評価実験の結果,提案手法は単一の特徴量の共起と比較して検 出率を約 15.0%向上させることができた. 5 章では,異なる性質の特徴量間の共起表現について述べた.時空間特徴量として,物 体の動きを表現することが可能なピクセル状態分析の結果から,局所領域毎に動きのヒス トグラムを抽出した.そのため,アピアランス特徴量のみでは誤検出していた人に似た物 体や,複雑な背景の誤検出を抑制することができた.その結果,アピアラス特徴量のみを 用いた手法よりも,大幅に検出精度を向上させることができた. 今後の課題として,一般物体認識への拡張が挙げられる.本論文では,検出対象物体を 特定の物体に制限していたが,一般的な画像には非常に多くの物体が存在する.提案した 共起表現法を一般物体認識へ応用することにより,複数の物体間の関係性や物体とシーン の関係性を表現し,一般的物体へ拡張する予定である. 49 謝 辞 本研究を行うにあたり,指導教授として終始懇切なご指導を頂きました中部大学 藤吉 弘亘准教授に謹んで深謝します. 終始懇切なご指導を頂きました 同学岩堀祐之教授,平田豊教授に謹んで深謝します. 本研究を進めるにあたり,カーネギーメロン大学 金出武雄教授とオムロン株式会社,中 部大学大学院 山下隆義氏に心から厚く御礼申し上げます. 最後に,本研究の相談など協力して頂いた藤吉研究室の皆様に感謝致します. 50 参考文献 [1] P. Viola and M. Jones: “Rapid object detection using a boosted cascade of simple features”, IEEE Computer Vision and Pattern Recognition, 1, pp. 511–518 (2001). [2] P. Viola and M. Jones: “Robust real-time face detection”, International Journal of Computer Vision, 57(2), pp. 137–154 (2004). [3] K. Levi and Y. Weiss: “Learning object detection from a small number of examples: the importance of good features”, IEEE Computer Vision and Pattern Recognition, 2, pp. 53–60 (2004). [4] N. Dalal and B. Triggs: “Histograms of oriented gradients for human detection”, IEEE Computer Vision and Pattern Recognition, 1, pp. 886–893 (2005). [5] B. Wu and R. Nevatia: “Detection of multiple, partially occluded humans in a single image by bayesian combination of edgelet part detectors”, IEEE Computer Vision and Pattern Recognition, 1, pp. 90–97 (2005). [6] P. Viola, M. Jones and D. Snow: “Detecting pedestrians using patterns of motion and appearance”, IEEE International Conference on Computer Vision, pp. 734–741 (2003). [7] N. Dalal, B. Triggs and C. Schmid: “Human detection using oriented histograms of flow and appearance”, IEEE European Conference on Computer Vision, 2, pp. 428–441 (2006). [8] P. Sabzmeydani and G. Mori: “Detecting pedestrians by learning shapelet features”, IEEE Computer Vision and Pattern Recognition, pp. 1–8 (2007). [9] T. Mita, T. Kaneko, B. Stenger and O. Hori: “Discriminative feature co-occurrence selection for object detection”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 30, 7, pp. 1257–1269 (2008). [10] R. E. Schapire and Y. Singer: “Improved boosting algorithms using confidence-rated predictions”, Machine Learning, 37, pp. 297–336 (1999). 51 [11] R. O. Duda and P. E. Hart: “Pattern classification and scene analysis”, John Wiley & Sons (1973). [12] M. J. Swain and D. H. Ballard: “Color indexing”, International Journal of Computer Vision, 7, 1, pp. 11–32 (1991). [13] T. Sakai, M. Nagao and S. Fujibayashi: “Line extraction and pattern recognition in a photograph”, Pattern Recognition, 1, pp. 233–248 (1969). [14] V. Govindaraju, S. N. Srihari and D. B. Sher: “Acomputational model for face location”, IEEE International Conference on Computer Vision, pp. 718–721 (1990). [15] 山下隆義, 藤吉弘亘:“特定物体認識に有効な特徴量”, 情報処理学会 研究報告 CVIM 165, pp. 221–236 (2008). [16] L. Wiskotto, J. M. Fellous, N. Kruger and C. von der Malsburg: “Face recognition by elastic bunch graph matching”, IEEE Trans. on Pattern Analysis and Machine Intelligence, 19, 7, pp. 775–779 (1997). [17] N. J. Nilsson: “Learning machines”, McGraw-Hill (1965). [18] Y. Freund and R. E. Schapire: “A decision-theoretic generalization of on-line learning and an application to boosting”, Journal of Computer and System Sciences, pp. 119– 139 (1997). [19] J. Friedman, T. Hastie and R. Tibshirani: “Additive logistic regression: a statistical view of boosting”, Annals of statistics, pp. 337–374 (2000). [20] S. Li, Z. Zhang, H. Shum and H. Zhang: “Floatboost learning for classification” (2002). [21] B. Wu, H. Ai, C. Huang and S. Lao: “Fast rotation invariant multi-view face detection based on real adaboost”, Automatic Face and Gesture Recognition, pp. 79–84 (2004). [22] R. Lienhart and J. Maydt: “An extended set of haar-like features for rapid object detection”, International Conference on Pattern Recognition, pp. 900–903 (2002). [23] D. G. Lowe: “Distinctive image features from scale-invariant keypoints”, International Journal of Computer Vision, 60, 2, pp. 91–110 (2004). [24] F. Porikli: “Integral histogram: A fast way to extract histograms in cartesian spaces”, IEEE Computer Vision and Pattern Recognition, 1, pp. 829–836 (2005). 52 [25] S. D. Strearns: “On selecting features for pattern classifiers”, International Conference on Pattern Recognition, pp. 71–75 (1976). [26] T. Marill and D. M. Green: “On the effectiveness of receptors in recognition system”, IEEE Trans. Inf. Theory, 9, 1, pp. 11–17 (1963). [27] P. Pudil, F. J. Ferri, J. Novovicova and J. Kittler: “Floating search methods in feature selection”, Pattern Recognition Lett., 15, 11, pp. 279–283 (1994). [28] 鷲見和彦, 関真規人, 波部斉:“物体検出 - 背景と検出対象のモデリング -”, 情報処理 学会研究会 研究報告 (CVIM), 88, pp. 79–98 (2005). [29] D.Comaniciu, P.Meer:“Mean shift analysis and applications”, IEEE International Conference on Computer Vision, pp. 1197–1203 (1999). [30] Caltech256: http://www.vision.caltech.edu/Image_Datasets/Caltech256/. [31] B. Lucas and T. Kanade: “An iterative image registration technique with an application to stereo vision”, Processing of Image Understanding Workshop, pp. 121–130 (1981). [32] H. Fujiyoshi and T. Kanade: “Layered detection for multiple overlapping objects”, IEICE Transactions on Information and systems, pp. 2821–2827 (2004). [33] A. Lipton, H. Fujiyoshi and R. Patil: “Moving target classification and tracking from real-time video”, IEEE Workshop on Application of Computer Vision, pp. 8–14 (1998). 53 研究業績一覧 国際会議論文 [1] Y. Yamauchi and H. Fujiyoshi, “People Detection Based on Co-occurrence of Appearance and Spatiotemporal Features”, International Conference on Pattern Recognition, 2008. 研究会技術報告 [1] 山内悠嗣, 藤吉弘亘, Hwang Bon-Woo, 金出武雄. “アピアランスと時空間特徴の共起 に基づく人検出”, 第 10 回画像の認識・理解シンポジウム (MIRU2007), pp1492–1497, 2007. [2] 尾崎貴洋, 山内悠嗣, 藤吉弘亘, “Joint HOG 特徴を用いた 2 段階 AdaBoost による車 両検出”, 動的画像処理実利用化ワークショップ (DIA2008), pp.101–106, 2008. [3] 三井相和, 山内悠嗣, 藤吉弘亘, “Joint HOG 特徴を用いた 2 段階 AdaBoost による人 検出”, 第 14 回画像センシングシンポジウム (SSII08), IN1–06, 2008. [4] 山内悠嗣, 藤吉弘亘, 山下隆義, “Boosting に基づく共起表現による人検出”, 第 11 回 画像の認識・理解シンポジウム (MIRU2008), pp180–187, 2008. [5] 山内悠嗣, 藤吉弘亘, 山下隆義, “複数の特徴量間の関連性に着目した Boosting による 物体検出”, 精密工学会サマーセミナー 2008, pp.85–88, 2008. [6] 藤吉弘亘, 山内悠嗣, 三井相和, 池村翔, 山下隆義, “複数の特徴量間の関連性に着目し た Joint-HOG による物体検出”, 電気学会 一般産業研究会 (GID), pp.51–56, 2008. 54 学会口頭発表 [1] 三井相和, 山内悠嗣, 藤吉弘亘, “アピアランスと時空間特徴を用いた Joint 特徴によ る人検出”, 電気関係学会東海支部連合大会, O–135, 2008. 学術誌記事 [1] 篠木雄大, 山内悠嗣, “フレッシュアイズ ∼映像研究現場紹介∼ 中部大学 藤吉研究 室”, 映像情報メディア学会誌, Vol. 63, No. 2, pp.199–202, 2009. 受賞 [1] MIRU2007 インタラクティブセッション優秀賞 [2] サマーセミナー 2008 優秀発表賞 解説記事 [1] 山内悠嗣, 藤吉弘亘, “屋外映像からの高精度な人検出”, 日刊工業新聞 画像ラボ Vol. 19, no 6, pp. 17–20, 2008. 新聞記事 [1] 映像から人間抽出, 日刊工業新聞,2007. 10. 1. 1 面. 55 付 録A 発表原稿 国際会議論文 [1] Y. Yamauchi and H. Fujiyoshi, “People Detection Based on Co-occurrence of Appearance and Spatiotemporal Features”, International Conference on Pattern Recognition, 2008. 研究会技術報告 [1] 山内悠嗣, 藤吉弘亘, Hwang Bon-Woo, 金出武雄. “アピアランスと時空間特徴の共起 に基づく人検出”, 第 10 回画像の認識・理解シンポジウム (MIRU2007), pp1492–1497, 2007. [2] 尾崎貴洋, 山内悠嗣, 藤吉弘亘, “Joint HOG 特徴を用いた 2 段階 AdaBoost による車 両検出”, 動的画像処理実利用化ワークショップ (DIA2008), pp.101–106, 2008. [3] 三井相和, 山内悠嗣, 藤吉弘亘, “Joint HOG 特徴を用いた 2 段階 AdaBoost による人 検出”, 第 14 回画像センシングシンポジウム (SSII08), IN1–06, 2008. [4] 山内悠嗣, 藤吉弘亘, 山下隆義, “Boosting に基づく共起表現による人検出”, 第 11 回 画像の認識・理解シンポジウム (MIRU2008), pp180–187, 2008. [5] 山内悠嗣, 藤吉弘亘, 山下隆義, “複数の特徴量間の関連性に着目した Boosting による 物体検出”, 精密工学会サマーセミナー 2008, pp.85–88, 2008. [6] 藤吉弘亘, 山内悠嗣, 三井相和, 池村翔, 山下隆義, “複数の特徴量間の関連性に着目し た Joint-HOG による物体検出”, 電気学会 一般産業研究会 (GID), pp.51–56, 2008. 学会口頭発表 [1] 三井相和, 山内悠嗣, 藤吉弘亘, “アピアランスと時空間特徴を用いた Joint 特徴によ る人検出”, 電気関係学会東海支部連合大会, O–135, 2008. 56 People Detection Based on Co-occurrence of Appearance and Spatiotemporal Features Yuji Yamauchi, Hironobu Fujiyoshi Dept. of Computer Science, Chubu Univ. Aichi, 487-8501 Japan {yuu,hf}@vision.cs.chubu.ac.jp Abstract This paper presents a method for detecting people based on the co-occurrence of appearance and spatiotemporal features. Histograms of oriented gradients(HOG) are used as appearance features, and the results of pixel state analysis are used as spatiotemporal features. The pixel state analysis classifies foreground pixels as either stationary or transient. The appearance and spatiotemporal features are projected into subspaces in order to reduce the dimensions of the vectors by principal component analysis(PCA). The cascade AdaBoost classifier is used to represent the cooccurrence of the appearance and spatiotemporal features. The use of feature co-occurrence, which captures the similarity of appearance, motion, and spatial information within the people class, makes it an effective detector. Experimental results show that the performance of our method is about 29% better than that of the conventional method. 1 Introduction Automatic people detection is a key enabler for applications in robotics, visual surveillance, and ITS. In visual surveillance, fixed cameras are generally used to reduce costs. This has led to the development of a number of methods[3] based on background subtraction for detecting motion from images captured by fixed cameras. One of the successful approaches to modeling the background uses a Gaussian mixture model[3]. Since methods based on background subtraction use a topdown approach, object classification at next step becomes impossible if the object’s region is not segmented correctly. A window-scanning approach has been proposed for solving this problem. It was made possible by the improvements in computer speed in recent years. Recently, Dalal et al. [1] presented a human detection algorithm that has excellent detection ability. Each detection window is divided into cells of size 8 × 8 pixels, and each group of 2 × 2 cells is integrated into a block in a sliding fashion, so the blocks overlap. Each cell consists of a 9-bin histogram of oriented gradients(HOG), and each block contains a concatenated vector of all its cells. This representation has been proven to be powerful enough to classify people using a linear support vector machine(SVM). People detection systems using appearance and motion features have been proposed that have improved detection accuracy [6]. The availability of motion information makes it possible to improve the detection performance. One problem with this methods based on appearance and motion is that they cannot obtain any features besides appearance when the object is stationary, such as when people are standing still. We have investigated the problem of detecting people using images captured by a fixed camera and propose a method for people detection based on the cooccurrence of appearance and spatiotemporal features. HOG are used as appearance features, and the results of pixel state analysis(PSA) are used as spatiotemporal features. The PSA classifies foreground pixels as either stationary or transient. The appearance and spatiotemporal features are projected into subspaces in order to reduce the dimensions of the vectors by principal component analysis(PCA). The cascade AdaBoost classifier is used to represent the co-occurrence of the appearance and spatiotemporal features. The use of spatiotemporal features reduce the number of false object detections, i.e., detection of objects that appear similar to people. 2 Feature Extraction Our method for using the co-occurrence of appearance and spatiotemporal features is diagramed in Figure 1. This section describes the feature extraction and how the co-occurrence between appearance and spatiotemporal features is represented. Figure 1. Flow of the proposed method. 2.1 Histograms of Oriented Gradients(HOG) HOG representation [1] has several advantages. It captures the gradient structure that is characteristic of the human shape. First, magnitude and orientation of the gradients are computed. Each detection window is divided into cells of size 5 × 5 pixels and each group of 3 × 3 cells is integrated into a block in a sliding fashion, as shown in Figure 2, so that the blocks overlap with each other. Each cell consists of a 9-bin histogram of HOG features.Each block contains a concatenated vector of all its cells. The feature of one block (81 feature vectors) of block can represent feature vectors that are normalized to an L2 unit length using the following equation. Each detection window (30 × 60pixels) is represented by 4 × 10 blocks, giving a total of 3, 240 features per detection window. Figure 3. Diagram of state transition for a pixel. t to the present. The motion trigger is simply the maximum absolute difference between the pixel’s intensity It and its value in the previous five frames: (1) T = max{|It − I(t−j) |, ∀j ∈ [1, 5]}. The stability measure is the variance of the intensity profile from time t to the present: k S= k j=0 2 I(t+j) k I(t+j) j=0 k(k − 1) 2 . (2) Transient map M is defined by the algorithm below (Figure 4) for each pixel, using three possible values : background = (bg); transient = (tr) and stationary = (st). The background intensity is prepared in advance as a background image. Figure 2. Cells and blocks. 2.2 Pixel State Analysis(PSA) Objects similar to human are done false detection when only appearance feature is used. Therefore, we use feature vectors obtained from the result of pixel state analysis(Figure 3)[2] that represent object motion and spatial information. To capture the nature of changes in pixel intensity profiles, two factors are important: the existence of a significant step change in intensity, and the intensity value to which the profile stabilizes after passing through a period of instability. Let It be some pixel’s intensity at a time t occurring k frames in the past. Two functions are computed: a motion trigger T just prior to the frame of interest t, and a stability measure S computed over k frames from time Figure 4. Algorithm for pixel state analysis. We extract spatiotemporal feature from result of PSA. For each detection window, a 3-bin histogram (background/stationary/transient) is computed by counting the number of each state. This histogram is normalized by the same procedure of HOG. If the detection window is 30 × 60 pixels, the dimension of PSA feature is 1,080 feature vectors. 2.3 Principal Component Analysis Appearance features (3,240 dimensions) and spatiotemporal features (1,080 dimensions) have very high dimensionality. Because the histogram for a cell is used many times for the normalization, the correlation between feature vectors is strong. Therefore, feature vectors of each feature and each class was reduced by Principal Component Analysis(PCA). Figure5 shows flow of PCA. spatiotemporal feature v P SA described in 3.3. c representing the co-occurrence between the appearance and spatiotemporal features is described by feature s using each feature one by one. As a result, the feature is described by a value of a total of four patterns. For example, if the appearance feature is 1, and if the spatiotemporal feature is 0, feature c is computed by c = (10)2 = 2. 3 Construction of classifier This section describes the construction of the classifier for people detection. The final strong classifier, H(x), is a linear combination of T weak classifiers, ht (x): T H(x) = sign( αt ht (x)), (5) t=1 where αt is the weight of the training data, and t is number of round. The cascade AdaBoost classifier is used to reduce the number of false positives [5]. The Ct is a function used to observe feature c, which is used to describe the co-occurrence between feature vectors. A weak classifier, ht (x), is described by Ct in the following equation for the discriminate function based on conditional probability. +1 Pt (y = +1|c) > Pt (y = −1|c) (6) ht (x) −1 otherwise , Figure 5. Projection into subspaces. 2.4 Co-occurrence of Features The features that are newly obtained from PCA are expressed as the co-occurrence of appearance and spatiotemporal features. Our method uses the representation method proposed by Mita et al. [4] to express the co-occurrence between different kinds of features. Feature cooccurrence makes it possible to classify difficult examples that are misclassified by weak classifiers using a single feature. We represent the statistics of feature co-occurrence using their joint probability. To calculate the joint probability, we quantize the feature value, vi , to two levels. As a result, each feature value is represented by a binary variable, s, which is 1 or 0, specifying people or nonpeople respectively. The variable s for an example vi is calculated using 1 P (Cp |vi ) > P (Cn |vi ) s= (3) 0 otherwise , where s is classified by Bayes theorem: P (Ck |vi ) = P (vi |Ck )P (Ck ) P (vi ) (k = p, n), (4) where P (vi |Ck ), is approximated using a smoothed 1D histogram of the ith subspace coefficients that were obtained from the training images. Features c is represented by combining the binary variables computed from appearance feature v HOG and where Pt (y = +1|c) and Pt (y = −1|c) are joint probabilities of feature co-occurrence represented by feature c and class label yi ∈ {+1, −1}. They are evaluated with respect to weights Dt (i) of the training image: Pt (y = ±1|c) = Dt (i). (7) i:Ct (xi )=c∧yi =±1 The weak classifier, ht (x), is put into the positive and negative classes by equation 6. 4 Experimental results This section describes the experimental results of our method compared with those of the conventional method. 4.1 Experimental overview We collected video sequences of street scenes for training and testing. The training data consisted of 2,053 positive images and 6,253 negative images, and the test data consisted of 1,023 positive images and 1,233 negative images. Figure 6 shows some examples of each feature in the training data. We performed comparative experiments of people classification using test images. We compared 4 combinations of features, HOG [1], PSA, HOG and PSA, and the co-occurrence of HOG and PSA features. The experiment results were evaluated using the Detection Error Tradeoff(DET). Figure 8. Examples of people detection. video images taken in multiple locations. Our method clearly had better detection accuracy, even when images of people overlapped. PSA can output more accurate spatial information for people, including motion information, our method works better for cluttered backgrounds and occlusion situations. 5 Figure 6. Some examples of HOG and PSA in the training data of positive class. 4.2 Experimental result Figure 7 shows the experimental results. We can see that our method(co-occurrence of HOG + PSA) has better accuracy compared to HOG of the conventional method(HOG [1]). With a false positive rate of 10%, our method has a 26.5% lower false negative rate than the HOG. This means that the appearance and spatiotemporal features are suitable for people detection. Compared to HOG + PSA, our method can improve detection performance by 2.8% by representing the cooccurrence of appearance and spatiotemporal features. Figure 8 shows examples of people detection using Figure 7. DET Conclusion This paper presented a method of people detection based on co-occurrence of appearance and spatiotemporal features. The results of PSA are the features that can express inside/outside of people, the information on spatial relations, and the information on motion of people. Therefore, our method can detect people in a complicated background and with high precision. Future work involves creating a corresponding method for active cameras and camera motion. References [1] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. IEEE Computer Vision and Pattern Recognition, pp 886–893, 2005. [2] H. Fujiyoshi and T. Kanade. Layered detection for multiple overlapping objects. IEICE Transactions on Information and systems, pp 2821–2827, 2004. [3] W. E. L. Grimson, C. Stauffer, R. Romano, and L. Lee. Using adaptive tracking to classify and monitor activities in a site. IEEE Computer Vision and Pattern Recognition, pp 22–31, 1998. [4] T. Mita, T. Kaneko, and O. Hori. Joint haar-like features for face detection. IEEE International Conference on Computer Vision, pp 1619–1626, 2005. [5] P. Viola and M. Jones. Rapid object detection using a boosted cascade of simple features. IEEE Computer Vision and Pattern Recognition, pp 511–518, 2001. [6] P. Viola, M. Jones, and D. Snow. Detecting pedestrians using patterns of motion and appearance. IEEE International Conference on Computer Vision, pp 734–741, 2003. 「画像の認識・理解シンポジウム (MIRU2007)」 2007 年 7 月 アピアランスと時空間特徴の共起に基づく人検出 山内 悠嗣† 藤吉 弘亘† Hwang Bon-Woo†† 金出 武雄†† † 中部大学 大学院 工学研究科 〒 487–8501 愛知県春日井市松本町 1200 †† カーネギーメロン大学 ロボティクス研究所 〒 15213 米国ペンシルバニア州ピッツバーグ市 E-mail: †{yuu,hf}@vision.cs.chubu.ac.jp, ††{bwhwang,tk}@cs.cmu.edu あらまし 本稿では,アピアランスと時空間特徴の共起に基づく人検出法を提案する.本手法では,アピアランスに 基づく特徴として物体の形状を表すことが可能な Histograms of Oriented Gradients(HOG),時空間特徴に基づく特 徴として各ピクセルを静/動状態に判別するピクセル状態分析の結果を特徴ベクトルとして算出する.次に,これらの 特徴ベクトルを主成分分析により次元圧縮を行う.アピアランスと時空間特徴の異なる特徴量間の共起を表現し,カ スケード型 AdaBoost を用いて人と人以外に判別する.これにより,従来法では誤識別していた人に似たアピアラン ス特徴を持つ物体に対して, 時空間特徴を用いることで誤識別を抑制させることが可能となる.従来法である HOG に 基づく人検出法と提案手法による比較実験の結果,誤識別率 10.0% において,提案手法は従来法より約 28.1% 識別率 を向上させることができた. キーワード 人検出,Histograms of Oriented Gradients,ピクセル状態分析,主成分分析,共起,AdaBoost People Detection Based on Co-occurrence of Appearance and Spatiotemporal Features Yuji YAMAUCHI† , Hironobu FUJIYOSHI† , Bon-Woo HWANG†† , and Takeo KANADE†† † Dept. of Computer Science, Chubu Univ. 1200 Matsumoto, Kasugai, Aichi, 487–8501 Japan †† Robotics Institute, Carnegie Mellon Univ. Pittsburgh Pennsylvania, 15213 USA E-mail: †{yuu,hf}@vision.cs.chubu.ac.jp, ††{bwhwang,tk}@cs.cmu.edu Abstract This paper presents a method for people detection based on the co-occurrence of appearance and spatiotemporal features. Our approach uses Histograms of Oriented Gradients(HOG) as appearance features and the results of pixel state analysis as spatiotemporal features. Pixel state analysis can classify a foreground pixel into stationary or transient. Both the appearance and spatiotemporal features are projected into subspace in order to reduce the dimensions of vectors by principal component analysis. Our approach uses the cascade Adaboost classifier for detecting people using the co-occurrence of appearance and spatiotemporal features. Feature co-occurrence, which captures the similarity of appearance, motion, and spatial information within the people class, makes it possible to construct an effective detector. Experimental results show that our method has about 28.1% higher performance than that of the conventional method. Key words People Detection,Histograms of Oriented Gradients,Pixel State Analysis,Principal Component Analysis,Co-occurrence,AdaBoost 1. は じ め に して,人の形状の変化,複雑な背景,照明の変動,人同士の重 なりによるオクルージョンなどが挙げられる. 近年,監視映像からの不審者の発見や,ITS における歩行者 従来,人検出に用いられるアピアランス特徴としては,近接 の安全のため,カメラ画像からの人検出の実現が期待されてい する矩形領域の勾配を表す Haar-like 特徴を用いた手法 [1],ガ る.人検出は,従来盛んに研究されてきた顔検出と比較して, ボール変換によって得られる人の画像パターンがもつ方向性の 顔における目,鼻,口のように,人を顕著に表す特徴が少ない 情報を利用した手法 [2],局所領域における輝度の勾配方向をヒ ため検出が困難とされている.さらに検出が困難となる要因と ストグラム化した特徴ベクトルである Histograms of Oriented 図 1 提案手法の流れ Gradients(HOG) を用いた手法 [3] が提案されている.中でも HOG は,照明変動や影の影響を受けにくく,局所的な幾何学 的変化に頑健であるため,HOG を用いた人検出手法が多く提 案されている [4] [5] [6]. また,検出精度を向上させるために,アピアランス特徴と 3. 特徴量抽出 アピアランスに基づく特徴として HOG,時空間特徴に基づ く特徴としてピクセル状態分析の結果を特徴ベクトルとして算 出する.本章では,HOG とピクセル状態分析について述べる. モーション特徴を併用する手法が提案されている.Viola らは, また,算出された各特徴ベクトルを,各クラスごとの部分空間 顔や人検出に用いられていた Haar-like 特徴 [1] に,モーション に射影することによって,新たに得られる特徴量と,得られた に基づく特徴を加えることによって検出精度を向上させた [7]. 各特徴量から特徴量間の共起によって表現される特徴量につい Dalal らは,オプティカルフローから得られるモーション特徴 て述べる. である IMH(Internal Motion Histograms) と,HOG を併用す 3. 1 Histograms of Oriented Gradients ることによって検出精度を向上させた [8].Dalal らの提案した Histograms of Oriented Gradients(HOG) とは,局所領域に 手法は,カメラの動きに依存しないため,移動カメラにおける おける輝度の勾配方向をヒストグラム化した特徴ベクトルであ 人検出が可能である.しかし,これらのモーションを併用する り,物体の形状を表すことが可能である.近接画素の勾配を局 手法は,物体の動きに着目するため,静止状態では得られる特 所領域によってヒストグラム化するため,照明や影の影響を受 徴が減少することにより検出精度が低下する場合がある. けにくく,局所的な幾何学変化に頑健という特徴がある.以下 そこで,本研究では,アピアランスに基づく特徴として物体 に HOG 特徴ベクトルの算出法を示す. の形状を表現可能な HOG,時空間特徴に基づく特徴として各 3. 1. 1 輝度勾配算出 ピクセルを静/動状態に判別するピクセル状態分析の結果を特 各ピクセルの輝度 L から勾配強度 m と勾配方向 θ を次式よ 徴ベクトルとして用いる.これにより,従来法では誤識別して いた人に似たアピアランス特徴を持つ物体に対して, 時空間特 徴を用いることで誤識別を抑制させることが可能となる.また, 単一の特徴だけでは識別困難な画像に対しても,アピアランス 特徴と時空間特徴の異なる特徴量間の共起を表現することに よって識別を可能とする. り算出する (図 2(b)). m(x, y) = fx (x, y)2 + fy (x, y)2 θ(x, y) = tan−1 fy (x, y) fx (x, y) fx (x, y) = L(x + 1, y) − L(x − 1, y) fy (x, y) = L(x, y + 1) − L(x, y − 1) (1) (2) (3) 2. アピアランスと時空間特徴の共起に基づく人 検出 提案手法は,従来のアピアランスに基づく特徴である His- tograms of Oriented Gradients(HOG) [3] に,時空間特徴を加 え,特徴量間の共起を表現することで,人検出精度の向上を目 指す.図 1 に提案手法の流れを示す.まず,アピアランスに基 づく特徴として HOG 特徴ベクトルを算出し,人 (Positive) ク ラス,人以外 (Negative) クラスのクラスごとに主成分分析によ り次元圧縮を行い,各クラスの部分空間に射影することによっ て得られる特徴量をアピアランスに基づく特徴量とする.同様 の処理を時空間特徴であるピクセル状態分析 [9] の結果につい ても行い,各クラスの部分空間に射影することによって得られ る特徴量を時空間特徴に基づく特徴量とする.次に,アピアラ ンスと時空間特徴から得られる各特徴量を二値化し,特徴量を 組み合わせることにより,アピアランスと時空間特徴の特徴量 間の共起を表現する.最後に,共起を表現した特徴量を用いて, 学習したカスケード型 AdaBoost によって人を検出する. 図 2 提案手法で用いる領域の構造 3. 1. 2 セルによるヒストグラム化 算出された勾配強度 m と勾配方向 θ を用いて,5 × 5 ピクセ ルをセルとした領域において,輝度の勾配方向ヒストグラムを 作成する.ただし,算出された勾配方向は,0◦ − 360◦ となる が,今回は勾配方向の向きを考慮する必要がないため 0◦ − 180◦ とする.方向を 20◦ ずつに分割するため,9 方向の勾配方向ヒ ストグラムとなる. 3. 1. 3 ブロックによる正規化 決定される.ここで,I は時刻 t における輝度値,th t は急激 各セルで作成した輝度の勾配方向ヒストグラムを 3 × 3 セル な輝度の変化を判定するしきい値,th s は安定性を判定するし を 1 ブロックとして正規化を行う.i 行 j 列のセル (i,j) の特徴 きい値とする.background は背景画像として,IIR フィルタ 量 (9 次元) を ij = [f1 ,f2 ,· · · ,f9 ] とすると,k 番目のブロッ クの特徴量 (81 次元) は k = [ i j , i+1 j , i+2 j , i i+1 j+1 , i+2 j+1 , i j+2 , i+1 j+2 , i+2 j+2 ] により環境変化に対応可能となるように更新する [10]. j+1 , と表すことが できる.正規化後の特徴ベクトルを v としたとき,次式より正 規化する. f v= ( = 1) || k ||22 + 2 (4) 正規化は,図 2(c) のようにブロックを 1 セルずつ移動させるこ とによって正規化を行う.そのため,特徴量 f は異なるブロッ クの領域によって何度も正規化される.入力画像を 30 × 60 ピ 図 4 ピクセル状態分析アルゴリズム クセルとした場合,横方向に 4 ブロック,縦方向に 10 ブロッ ク,合計 40 ブロックに対して正規化を行う.各ブロックごと 図 5 にピクセル状態分析例を示す.画面左の歩行者は動状態 に正規化された HOG 特徴ベクトルは,40 ブロック × 81 次 によって表され,画面右の静止している人は静状態によって表 元 = 3, 240 次元となる. されている.オプティカルフローなどの物体の動きを表す特徴 3. 2 ピクセル状態分析 量では,静止状態にある物体の情報を得ることは困難だが,ピ ピクセル状態分析 (Pixel State Analysis:PSA) とは,ピク クセル状態分析を用いることにより静止状態である物体の情報 セル状態の時間変化をモデル化することにより,各ピクセルを を得ることが可能である. 背景 (Background),静状態 (Stationary),動状態 (Transient) の三状態に判別する手法である (図 3). 図3 図 5 ピクセル状態分析例 ピクセルの状態遷移図 これらの状態遷移を捉えるには,輝度値の急激な変化 (Mo- tion Trigger) と輝度値の安定度 (Stability Measure) に着目す 3. 2. 1 特徴ベクトル算出 ピクセル状態分析結果をセル領域によってヒストグラム化す る.まず最初に,輝度値の急激な変化の検出を行う.ここで, ることにより,時空間特徴となる特徴ベクトルを算出する.ま 現在のフレームから k フレーム前の輝度値を It とする.輝度 ず最初に,HOG で用いた領域の構造を用いて,HOG と同様 値の変化量 T を求めるには,It と t よりも前フレームの It−j にピクセル状態ヒストグラムを作成する.ピクセルは三状態 の差分の絶対値を算出する.変化量 T は次式より算出する. に判別されるので,一つのヒストグラムから三つの特徴ベク T = max{|It − I(t−j) |,∀j ∈ [1,n]} (5) 急激な輝度値の変化がピクセル上に生じたとき,変化量 T の 値は大きくなる.次に,ピクセルの安定度 S について考える. 安定状態の検出には,t より後の k フレームに着目する.安定 度 S は次式より算出する. k S= k j=0 I 2 (t + j) − k j=0 k(k − 1) I(t + j) トルが算出される.最後に,3.1.3 で述べた HOG と同様の手 順でブロックによる正規化を行う.入力画像を 30 × 60 ピクセ ルとした場合,時空間特徴から得られる特徴ベクトルは 40 ブ ロック × 27 次元 = 1, 080 次元となる. 3. 3 主成分分析による次元圧縮 アピアランス (3,240 次元) と時空間特徴 (1,080 次元) の特徴 2 ベクトルは,同じセルに対して何度も正規化を行うため,同一 (6) 安定度は,フレーム t から t + k までの輝度値の分散であり, 安定した状態では安定度 S は小さくなる.ここで,各ピクセル の状態を表す M は,背景のとき bg,動状態のときに tr,静状 態のときに st をとるように,図 4 に示すアルゴリズムによって 特徴ベクトル間の相関が高いと考えられる.そこで,本研究で は,各クラスごと,各特徴ごとに主成分分析により次元圧縮す る.主成分分析を行うために,まず最初に分散共分散行列 を 式 (8) より算出する.このとき,N 個のデータの特徴ベクトル が K 個とした場合,特徴ベクトル n = (xn1 , xn2 , · · · , xnK )T , n = 1, 2, · · · , N となる. = N1 = N1 N n (7) n=1 N (n − )(n − )T (8) n=1 れる. s= 1 P (Cp |vi ) > P (Cn |vi ) 0 otherwise P (Ck |vi ) = (14) P (vi |Ck )P (Ck ) (k = p,n) P (vi ) (15) を用いて,j = λj j を満たす固有値 λj と固有ベクトル j を算出し,累積寄与率 ηK を次式より求 確率,P (vi ) は出現確率,C はクラスを表す.事前確率は両ク める. ラス共に 0.5 を与える.確率密度分布は,全学習サンプルより 分散共分散行列 m ηK = 得られる特徴量をヒストグラム化したものを用いる. λi i=1 K P (vi |Ck ) は確率密度分布から得られる確率,P (Ck ) は事前 (9) λi 次に特徴の共起を表現するために,二値化された符号を組み 合わせて特徴量 c を算出する.特徴量 c は,二進表現された特 徴の組み合わせによって表現される.本研究では,アピアラン i=1 本研究では,累積寄与率 99% となる次元までの成分を用い る.学習サンプルを用いて,上記より各特徴の各クラスへの射 スと時空間特徴の特徴量間の共起を表現するために,特徴量 c は各特徴量から一つずつ用いる.そのため,合計四通りの値に よって表現される.例として,アピアランスに基づく特徴量か 影行列を求める. 次に,部分空間へ射影し,特徴抽出を行う (図 6).未知入 力パターンが入力されたとき,HOG の特徴 ル状態分析の結果から得られる特徴 P SA HOG とピクセ を求める.その 後,HOG ,P SA は,Positive クラス,Negative クラスの二 ら 1,時空間特徴に基づく特徴量から 0 という符号 s が観測さ れたとき,次式から特徴量 c を算出する. c = (10)2 = 2 (16) 4. 識別器の構築 クラス,アピアランス,時空間特徴の二特徴から得られる射 HOG , HOG , Pp SA , Pn SA を用いて部分空間へ射影 p n HOG ], され,新たに得られる特徴量 HOG = [v1HOG , · · · , vm1+m2 P SA P SA P SA = [v1 , · · · , vm3+m4 ] は次式より算出される. 影行列 HOG [v1HOG , · · · , vm1 ] = HOG T HOG HOG , · · · , vm1+m2 ] [vm1+1 P SA ] [v1P SA , · · · , vm3 (10) (11) = HOGT = P SAT P SA P SA , · · · , vm3+m4 ] [vm3+1 HOG p = HOG n P SA p (12) (13) P SAT P SA n 3. 章で述べた特徴量 c を用いて,人検出を行うための識別器 の構築について述べる. 4. 1 カスケード型 AdaBoost による識別器の構築 AdaBoost によって,最終的に構築される識別器は,T 個の 弱識別器 ht (x) の線形結合として,次式により表される. H(x) = sign( T αt ht (x)) (17) t=1 カスケード型に識別器を構築することによって,検出率を低 下させることなく,誤検出率を抑制させる [12]. 4. 2 弱 識 別 器 弱識別器 ht (x) において,共起を表現する特徴 c を観測する 関数を Ct として表す.x から特徴量 Ct = c を観測したとき, 弱識別器を次式によって表す. ht (x) +1 Pt (y = +1, c) > Pt (y = −1, c) −1 otherwise (18) ここで,同時確率 Pt (y = +1|c) 及び Pt (y = −1|c) は,学習 サンプルの重み Dt (i) に基づき算出することによって,誤識別 した学習サンプルを重視した学習が可能である. 図 6 部分空間への射影 Pt (y = +1, c) = Dt (i) (19) Dt (i) (20) i:Ct (xi )=c∧yi =+1 3. 4 特徴ベクトル間の共起の表現 Pt (y = −1, c) = i:Ct (xi )=c∧yi =−1 主成分分析により新たに得られる特徴量は,同一特徴量間の 共起を表現した特徴である.本研究では,異なる特徴量間の共 図 8 に実測した各クラスの同時確率を示す.このとき,式 起を表現するために,Mita らが提案したの共起の表現方法 [11] (18) によって,弱識別器 ht (x) が Positive クラス,Negative を用いることによって,識別に有効なアピアランスと時空間特 クラスの判別を行う. 徴の共起の表現を行う.まず最初に,同時確率を用いるために, t 個目の弱識別器は,アピアランスに基づく特徴と時空間特 特徴量 vi を簡単化のために二値化を行う.二値化は,式 (14) 徴に基づく特徴の全組合せ ((m1 + m2) × (m3 + m4)) の同時 により 1 と 0 によって特徴量を表現する.符号 s は,ベイズの 確率を算出し,識別エラーが最小となるように自動的に選択さ 定理 (式 15) より算出される事後確率によって次式より決定さ れる. 図 7 学習サンプルに使用した一部の HOG 特徴ベクトルとピクセル状態分析結果 から得られる特徴は,Positive クラスのほうが圧縮率が低い. Negative クラスには,学習用サンプルとして,静止物体のみの 画像が多数含まれているため,データの分散が低いことを表し ている. 5. 3 実 験 概 要 評価用画像を用いて人識別の比較実験を行う.比較する手法 として,従来手法である HOG のみを用いる手法 [3] と,ピク 図 8 各クラスの同時確率 セル状態分析の結果を用いる手法,HOG とピクセル状態分析 の結果を用いて,式 (14) を弱識別器とする共起を表現しない 5. 評 価 実 験 手法と,共起を表現する手法について比較する.実験には,本 本章では,提案手法の有効性を示すために,従来法との比較 来ならば,映像からの人検出を行った結果から比較を行うこと が最適だが,検出されたウィンドウの統合処理 [13] の影響が結 実験について示す. 果として反映されるため,今回は事前に切り出した画像を用い 5. 1 データベース 主成分分析とカスケード型 AdaBoost による学習のための学 習用サンプル画像と,評価実験を行うための評価用画像を収集 する.撮影した映像から画像を切り出すことにより学習用サン プル画像と評価用画像を作成した.撮影条件として,固定カメ ラを用いて,照明,背景,人の歩行方向,人の運動状態,画像 に対する歩行者の大きさが異なる複数の場所で撮影した.評価 用画像は,学習用サンプル画像とは異なる撮影環境において撮 影した.Positive 学習用画像サンプルは 2,053 枚,Negative 学 習用サンプル画像は 6,253 枚用意した.同じ要領で,Positive 評価用画像は 1,023 枚,Negative 評価用画像は 1,233 枚用意し た.学習に用いたデータベースの一部を各特徴を画像によって て比較実験を行う. 比較には Detection Error Tradeoff(DET) [14] によって評価 を行う.DET とは,横軸に誤識別率,縦軸に未識別率を両対 数グラフによって表したものである.識別器のしきい値を変化 させることによって,誤識別率に対する未識別率の比較を行う ことが可能である. 5. 4 識別実験結果 図 9 に DET による識別結果を示す.提案手法は,従来法で ある HOG と比べて,識別精度が大幅に向上していることがわ かる.これは,アピアランスだけでは識別困難なテスト用画像 が,時空間特徴を併用することによって識別が可能になったこ とを表している. 表現したものを図 7 に示す. 5. 2 主成分分析による次元圧縮 学習用サンプル画像を用いて主成分分析による次元の圧縮を 行う.各特徴,各クラスの圧縮した次元数を表 1 に示す. 表1 主成分分析による次元の圧縮 特徴量 (クラス) 圧縮前の次元数 HOG(Positive) 3,240 圧縮後の次元数 圧縮率 [%] 678 20.9 HOG(Negative) 3,240 1,231 37.9 PSA(Positive) 1,080 124 11.0 PSA(Negative) 1,080 109 10.0 表 1 から,HOG の Negative クラスの圧縮率が最も低いこ 図9 DET とがわかる.これは,Negative クラスのほうが複雑なデータで あることを表している.それに対してピクセル状態分析の結果 また,特徴量間の共起性を利用することによって,精度が向 図 10 人検出例 上していることが分かる.共起を利用しない方法と比較した場 対応する方法を検討する予定である. 文 合,誤識別率 10.0% 時において,識別率を約 2.0% 向上,HOG のみの従来法と比較した場合,約 28.1% 向上させることがで work for object detection”, IEEE Computer Vision and Pattern きた.アピアランスと時空間特徴の特徴量間の共起を利用し, 識別に有効な組み合わせを行うことによって,識別性能が向上 Recognition, pp. 511-562, 1998. [2] ム (MIRU2002) ,Vol. II, pp. 303-310, Jul, 2002. [3] 構築した検出器による人検出の実験を行う.人検出を行なう ために,検出ウィンドウを画像左上からスケールを変化させ複 nition, pp. 886-893,2005. [4] sium on Intelligent Vehicule, pp. 206-212, Jun,2006. [5] IEEE Computer Vision and Pattern Recognition, Vol. 2, pp. 1491-1498, Jun, 2006. 撮影した映像に対する人検出例を示す.提案手法は他の手法と [6] Mar, 2007. [7] Conference on Computer Vision,pp734,Oct,2003. [8] pean Conference on Computer Vision, vol. 2, pp. 428-441, May, の内部/外部,空間的な情報と動きの情報を同時に捉えること 2006. [9] systems, vol. E87-D, pp. 2821-2827, 2004. [10] cation and Tracking From Realtime Video”IEEE Workshop on [11] Vision, pp. 1619-1626, 2005. [12] and Pattern Recognition, vol. 1, pp. 511-518, Dec,2001. [13] D.Comaniciu and P.Meer,“Mean shift analysis and applications”, IEEE International Conference on Computer Vision, 能な特徴である.そのため,背景が複雑なテクスチャを持つ画 ることができた.今後は,アクティブカメラやカメラワークに P. Viola and M. Jones,“Rapid Object Detection Using a Boosted Cascade of Simple Features”, IEEE Computer Vision した.ピクセル状態分析から得られる結果は,人の輪郭情報だ 像であっても,人検出が可能であり,高精度な人検出を実現す T. Mita, T. Kaneko and O.Hori, “Joint Haar-like Features for Face Detection”, IEEE International Conference on Computer り各特徴ごと,各クラスごとに次元圧縮し,二特徴から得られ けではなく,人の内部/外部,人の動きの情報を表すことが可 A. Lipton, H. Fujiyoshi and R. Patil, “Moving Target ClassifiApplication of Computer Vision, pp. 8-14, Oct, 1988. セルの時間的変化を表す時空間特徴を用いて,主成分分析によ る特徴量から共起を表す特徴を用いて人検出を行う手法を提案 H. Fujiyoshi and T. Kanade, “Layered Detection for Multiple Overlapping Objects”, IEICE Transactions on Information and 検出が可能となったと考えられる. 本稿では,従来人検出に用いられてきた HOG 特徴と,ピク N. Dalal, B. Triggs and C. Schmid,“Human Detection Using Oriented Histograms of Flow and Appearance”, IEEE Euro- 法は,HOG による輪郭情報に加え,ピクセル状態分析から人 6. お わ り に P.Viola,M.Jones and D.Snow,“Detecting Pedestrians Using Patterns of Motion and Appearance”, IEEE International る.これは,人の輪郭情報を得ることができないことや,人の ができるため,複雑な背景やオクルージョンに対して頑健に人 小林拓也, 日高章理, 栗田多喜夫,“Histograms of Oriented Gradients を用いた対象識別での特徴選択”, 信学技報, Vol. 106,pp. 119-124, 手法である HOG を用いた人検出は,背景が複雑なテクスチャ 輪郭情報のみを用いて検出しているためである.一方,提案手 Q.Zhu,S.Avidan,M.Yeh and K.Cheng,“Fast Human Detection Using a Cascade of Histograms of Oriented Gradients”, ウィンドウの統合処理を行う [13].図 10 に複数の場所において を持つ場合や,人に似た形状をもつ物体に対して誤検出してい F.Suard and A.Broggi,“Pedestrian Detection using Infrared images and Histograms of Oriented Gradients”, IEEE Sympo- ウィンドウを入力として人であるかを識別する.人として識別 比較して,未検出と誤検出が少ないことがわかる.特に,従来 N. Dalal and B. Triggs,“Histograms of Oriented Gradients for Human Detection”, IEEE Computer Vision and Pattern Recog- 数回ラスタスキャンを行い,1 枚の画像から約 10,000 の検出 されたウィンドウは,最後に MeanShift クラスタリングによる 堀田一弘,本田康展,栗田多喜夫,“コントラストガボール特徴を用いた 人検出と特徴選択による凡化能力の改善”,画像の認識・理解シンポジウ したと考えられる. 5. 5 人検出実験 献 [1] C. P. Papageorgiou, M. Oren, and T. Poggio, “A general frame- pp.1197-1203,1999. [14] 鷲見和彦, 関真規人, 波部斉,“物体検出 - 背景と検出対象のモデリング - ”, 情報処理学会研究会 研究報告 (CVIM2005), Vol.2005, No.88,pp. 79-98, 2005. Joint HOG 特徴を用いた 2 段階 AdaBoost による車両検出 尾崎貴洋†、山内悠嗣†、藤吉弘亘† 中部大学工学部情報工学科† 車載カメラの映像から後方車両を検出するための新しい手法として、複数の Histograms of Oriented Gradients(HOG)[6]特徴を組み合わせた Joint HOG 特徴と、2 段階に構築した AdaBoost[9]による学習法を提案 する。Joint HOG 特徴は、複数の HOG 特徴を同時に観測するため、従来の単一の HOG 特徴のみでは捉える ことのできない、車両特有の左右や上下の対称的な形状特徴や連続的なエッジを自動的に捉えることが可能 となる。提案手法の有効性を確認するため、車載カメラの映像から構築したデータベースを用いて、従来法 である単一の HOG 特徴のみを用いた手法と比較し、DET カーブにより評価した。評価実験の結果、誤識別 率 2.0%において、提案手法は従来法より約 7.0%の識別率向上を実現した。 1.はじめに 現在、交通量の増加による交通事故の増加が深刻 な問題となっている。この問題を対処するため、 ITS(Intelligent Transport System:高度道路交通システ ム)に関する研究が行われており、近年では、車載カ メラの映像中から画像処理技術を用いて車両検出を 行い、運転者の視覚支援に役立てる研究が多く取り 組まれている。本研究では、車載カメラから後方車 両を検出することを目的とする。車両は人工物特有 の直線的なエッジを多く含み、その形状には左右や 上下の対称性や連続性といった特徴がある。この特 徴を捉えるための手法として、Sabzmeydani らによ り Shapelet 特徴を自動生成する手法が提案されてい る[12]。この手法は、low-level な各ピクセルの勾配 情報を組み合わせて新たな特徴量を選択することに より、識別に有効な特徴量を自動生成するものであ る。しかしこの手法は、検出ウィンドウをいくつか の局所領域に分割し、局所領域内の low-level 特徴を 組み合わせて特徴量を生成するため、局所領域を越 えた組み合わせの特徴量を生成することはできない。 そこで、本手法では、位置の異なる領域における、 車両の対称性や連続性を自動的に選択する Joint HOG 特徴と 2 段階 AdaBoost による後方車両検出法 を提案し、その有効性を示す。 2.従来の車両検出法 車両は、同一車両における形状の変化は少ないが、 車種、車両の向き、積載物等により、エッジの方向 や強度が大きく変化する。また、屋外を走行するた め、天候や時間、季節の変化による影響を受けやす いという問題がある。このような問題に対し、形状 モデルを用いた手法、特徴抽出による手法等の車両 検出法が提案されている。 2.1 形状モデルによる車両検出 形状モデルを用いるアプローチとして、Sullivan らはワイヤーフレームモデルで車両の形状を記述し て、マッチングを行う手法[1]を提案している。しか し、形状モデルを用いる手法は事例の収集にコスト がかかるため、実用的ではない。 2.2 特徴抽出による車両検出 特徴抽出による車両検出には、時間的特徴と、空 間的特徴を用いた手法が提案されている。時間的特 徴を用いたアプローチとして、Iketani らはオプティ カルフローを用いて複雑に運動する背景の中から移 動対象を検出する手法[4]を提案している。しかし、 オプティカルフローは移動中の車両の検出は可能で あるが、静止状態の車両においては得られる特徴が 減少し、検出精度が低下するという問題がある。 空間的特徴を用いるアプローチとして、三谷らは ガボール変換を用いて車両の画像パターンの方向性 を反映したモデルを構築する手法[3]を提案してい る。これは照明の変化を受けにくく優れた特徴量で あるが、計算コストが非常に高いという問題がある。 Hasegawa らは、背景差分により得られたシルエット のモーメントや、面積等を特徴量とすることで車両 検出を行い、その車種も判別可能とする手法[2]を提 案している。しかし、背景が常に変動する車載カメ ラの映像等には、背景差分を用いることはできない。 2.3 特徴抽出と識別器の選択による車両検出 複数の low-level な特徴と識別器の組み合わせによ り車両検出を行うアプローチとして、Haselhoff らは、 白領域の輝度値の和と黒領域の輝度値の和の差を特 徴とした Haar-like 特徴を用い、AdaBoost により学習 した車両の検出法[5]を提案している。また Han らは Histograms of Oriented Gradients (HOG)を用いて、 SVM により学習した車両の検出法[8]を提案してい る。Haar-like 特徴や HOG 特徴は、車両の勾配を用 いており、ノイズや照明変動に頑健である。特に HOG 特徴は局所領域における輝度の勾配をヒスト グラム化するため、照明変動や影の影響を受けにく く局所的な幾何学変化に頑健である。HOG 特徴や Haar-like 特徴等の low-level な特徴は、単一の特徴の みでは識別に困難なパターンが存在する場合がある。 そのため、大量な low-level 特徴から有効な特徴をど のように選択するかは重要な課題である。 そこで本手法では、位置の異なる領域における、 車両の対称性や連続性を自動的に選択する Joint HOG 特徴と 2 段階 AdaBoost による後方車両検出を 行う。 3.Joint HOG 特徴を用いた 2 段階 AdaBoost 本手法は、2 段階に AdaBoost を構築することによ り、位置の異なる 2 つの Low-level な特徴を組み合 わせた Joint HOG 特徴の POOL を作成し、最終識別 器により、POOL から自動的に車両検出に最適な Joint HOG 特徴を選択する。提案手法の概要を図 1 に示す。 した HOG 特徴を用いる。 HOG は図 2 に示すように、 セル(9×9 ピクセル)における勾配方向をヒストグ ラム化した特徴 (V = [ v1 , v 2 , v3 ,⋅ ⋅ ⋅, v9 ]) であり、物体 の形状を表すことが可能である。隣接画素の勾配を 局所領域毎にヒストグラム化して正規化するため、 照明の変化を受けにくく、局所的な幾何学変化に頑 健な特徴となる。以下に HOG 特徴の算出法を示す。 3.1.1 輝度勾配の算出 画像 L の輝度の勾配強度を m、勾配方向を θ とし、 次式より算出する。 m( x, y ) = f x ( x, y ) 2 + f y ( x, y ) 2 θ ( x, y ) = tan −1 (1) f y ( x, y ) f x ( x, y ) f x ( x, y ) = L( x + 1, y ) − L( x − 1, y ) f y ( x, y ) = L( x, y + 1) − L( x, y − 1) (2) (3) 3.1.2 セル領域におけるヒストグラムの作成 算出した輝度の勾配強度 m と、勾配方向 θ よりセ ル(9×9 ピクセル)ごとに輝度の勾配方向ヒストグラ ムを作成する。勾配方向 θ は 0°~360°の値となる が、勾配の向きを考慮する必要がないため 0°~ 180°となる。勾配方向を 20°ずつに分割するため、 9 方向の勾配方向ヒストグラムとなる。 3.1.3 正規化 各セルより算出した勾配方向ヒストグラムを正規 化する。本手法では検出ウィンドウ全体で正規化を 行う。 図 2:HOG 特徴 図 1:提案手法の概要 3.1 low-level 特徴 本手法では、low-level 特徴として Dalal らが提案 3.2 Joint HOG 特徴 車両の対称的な形状特徴や連続的なエッジを捉え るため、位置の異なる 2 つのセル ci と cj 内の HOG 特徴を組み合わせた Joint HOG 特徴を算出する。同 時に 2 つの特徴量を観測することにより、単一の特 徴量のみでは識別困難なパターンの識別精度を向上 させる。 3.2.1 Joint HOG 特徴の算出 Joint HOG 特徴を算出するために、各セル ci と cj から 1 つずつ HOG 特徴を選択し、次式から車か車 以外を表す 2 値化符号 s を算出する。 p ⋅ vo > p ⋅ θ 1 (4) s (V ) = 0 otherwise ここで、θ は閾値である。p は不等号の向きを決定す る符号であり、+1 もしくは-1 をとる。o は勾配方向 を表す。これにより、得られた 2 値化符号を 2 つ組 み合わせることで共起[7]を表現した Joint HOG 特徴 k を得る。例えばある学習サンプルにおいて、位置 の異なる 2 つのセル ci と cj から HOG 特徴を 2 値化 した符号 vci =1、vcj =0 を観測したとき、Joint HOG 特徴 k は k =(10)2 = 2 となる(図 3)。Joint HOG 特 徴 k は 2 進表現された特徴の組み合わせのインデッ クス番号であり、本手法では 2 つの HOG 特徴の組 み合わせとなるため、4 通りの値をとる。 図 3:Joint HOG 特徴 3.2.2 1 段目の AdaBoost による特徴選択 位置の異なる 2 つのセル ci と cj において、算出し た Joint HOG 特徴の中から、AdaBoost により識別に 有効な特徴を選択する。入力画像 x から Joint HOG を観測する関数を Jt(x)で表す。x からの特徴量 Jt(x)=k を観測したとき、1 段目の AdaBoost の弱識別器 h t(x) を次式により表す。 +1 ht ( x) = −1 Pt ( y = +1 | k ) > Pt ( y = −1 | k ) otherwise (5) ここで、y は正解ラベル y∈{+1、-1}を表し、Pt(y=+1|k) 及び Pt(y=-1|k)は、それぞれ Joint HOG 特徴 k を観測 した際の車または車以外である条件付き確率であり、 学習サンプル f の重み Dt(f)に基づいて次式により算 出される。 Pt ( y = +1 | k ) = Pt ( y = −1 | k ) = ∑D (f) (6) ∑D ( f ) (7) t f : J t ( x f ) = k ^ y f = +1 t f : J t ( x f ) = k ^ y f = −1 図 4 に 2 つの HOG 特徴を選択した際の Pt(y=+1|k)及 び Pt(y=-1|k)の分布を示す。 上記の過程をすべてのセルの組み合わせにおいて 行う。本手法では、検出ウィンドウ(90×72 ピクセ ル)に対して 80 個のセルが存在するため、2 つのセ 図 4:各クラスの同時確率 ルの組み合わせは 80C2=3160 となり、次式に示すよ うな 3160 個の強識別器 Hci、cj (x)を構築する。 1 H ci , c j ( x ) = 0 T ∑α t =1 ci , c j t c ,c ⋅ ht i j ( x) > 0 (8) otherwise ここで、T は学習回数、αtci、cj は 1 段目の弱識別器 htci、cj(x)の重み、ci、cj はセルの組み合わせである。 1 段目の AdaBoost により、2 つのセル間における Joint HOG 特徴が選択される。その組み合わせはセ ルの位置関係からエッジの対称性や連続性を自動的 に捉えたものとなる。 3.3 最終識別器 2 段目の AdaBoost では、Joint HOG 特徴で構築し た強識別器 Hci、cj (x)の POOL の中から、最も識別に 有効なものを選択して学習を行う。これは、車両の 識別に有効なセルの位置関係を自動的に選択するこ とになる。2 段目の AdaBoost により得られる最終的 な強識別器 G(c)を次式に示す。 1 G (c ) = 0 T ∑α t =1 t ⋅ g t (c ) > λ (9) otherwise ここで gt(c)は 1 段目の AdaBoost より得られる強識 別器、c={ci、cj:1<i<80、1<j<80}、λは検出器の閾値 である。 4.評価実験 本手法の有効性を示すため評価実験を行う。 4.1 データベース 2 段階 AdaBoost により学習するための学習用デー タベースと、評価実験を行うための評価用データベ ースを構築する。車載カメラの映像から後方車両領 域を切り出したものを用いる。データベースは車両 クラス(Positive クラス)と車両以外クラス(Negative クラス)をもつ。車両は捉える位置や角度により、形 状が大きく変化する。そこで車両の位置や角度が変 化しても、形状に変化の少ない車両の正面部分のみ を用いて、車両クラスのデータベースを構築する。 切り出しを行う基準として、車両のライトを中心に とり、上下左右に切り出す領域の 15%をマージンと した。また両隣 1 車線を走行中の車両のみを対象と する。一方、車両以外のクラスは、背景領域をラン ダムに切り出すことにより構築した。学習用データ ベースとして、車両クラス 2464 枚、車両以外クラス 2415 枚、評価用データベースとして、車両クラス 1899 枚、車両以外クラス 2413 枚を構築した。図 5 にデータベースの一部を示す。 検出率が 1.0%となり、約 7.0%識別性能を向上させ ることができた。これは、HOG 特徴のみでは識別困 難なパターンにおいても、位置の異なる 2 つのセル 内の HOG 特徴を組み合わせることにより、新たに 識別に有効な特徴量を自動的に捉えることができた ためである。 図 6:DET による比較結果 図 5:構築したデータベースの一部 4.2 実験概要 評価用データベースを用いて、車両の識別実験を 行う。提案手法(Joint HOG + Two Stage AdaBoost) と HOG 特徴のみを用いた検出法(HOG)[6]、Joint HOG 特徴のみを用いた検出法(Joint HOG)との比較 を行う。評価には Detection Error Tradeoff(DET)[10] を用いる。DET とは、横軸に誤検出率、縦軸に未検 出率をとり、両対数グラフにより表したものである。 原点に近いほど性能が良い。 4.3 車両識別実験結果 図 6 に各手法の DET を示す。提案手法(Joint HOG + Two Stage AdaBoost)は、従来法である HOG 特徴 のみを用いた手法と比較して、識別性能が大幅に向 上していることがわかる。誤検出率 2.0%の場合、未 提案手法により、未検出したパターン (図 7(a))は、 高速に走行していることにより、カメラのピントを 合わせることができずにぼけた画像や、太陽光の反 射等により、テクスチャ情報(勾配)を得ることがで きない部分である。一方、誤検出をしたパターン(図 7(b))は背景領域であるにもかかわらず、車両のエッ ジと似た直線的なエッジをもつものであり、主に建 物や標識等の人工物である。未検出は、現状の車載 カメラの性能では限界があるため、高性能なカメラ で撮影する必要がある。誤検出は、提案手法に時系 列データを組み合わせることにより、背景をリジェ クトし、誤検出を減少させることが期待できる。 図 7:未検出と誤検出例 4.4 車両検出実験 構築した識別器を用いて、車載カメラの映像から 車両の検出実験を行う。車両検出を行うために、検 出ウィンドウのサイズを固定して、画像サイズを少 しずつ拡大縮小しながら車両/車両以外の判別を行 い、画像全体を複数回ラスタスキャンする。これに より車両のスケールが異なる場合でも検出可能とな る。同一車両に対して、複数のウィンドウが車両と して識別された場合、MeanShift クラスタリング[11] 図 8:後方車両検出結果 によるウィンドウの統合処理を行う。図 8 に車載カ メラの映像から車両を検出した例を示す。提案手法 は従来法と比較して、誤検出と未検出が少ないこと がわかる。 5.考察 車両の特徴である、形状の対称性や連続性が提案 した Joint HOG 特徴に表現されているか考察する。 5.1 2 段階による特徴選択 図 9(a)に 1 段目の AdaBoost において、Joint HOG 特徴により選択された HOG 特徴を可視化した結果 を示す。また、 図 9(b)に 2 段目の AdaBoost において、 最終識別器により選択された HOG 特徴を可視化し た結果を示す。HOG 特徴の勾配方向を 9 方向で表現 しており、白いほど各 AdaBoost により選択された頻 度が高いことを示す。図 9(a)において、1 段目の AdaBoost の Joint HOG 特徴により、車両内部の水平 方向のエッジ、車両の輪郭部分に沿ったエッジが多 く選択されている。図 9(b)では、図 9(a)で選択され た HOG 特徴の中から、2 段目の AdaBoost により得 られる最終識別器により、車両の輪郭部分に沿った Joint HOG 特徴が選択されていることがわかる。こ れにより、車両の輪郭部分に沿った HOG 特徴が車 両と背景を識別するのに有効な特徴であることがわ かる。図 9(a)で多く選択されていた水平方向のエッ ジは一部しか選択されていない。これは、水平方向 のエッジは車両に多く存在するが、背景領域の建物 や看板、高架橋等にも多く存在するため、車両と背 景を識別するのに有効ではないと判断され、選択さ れていないためである。以上から、2 段階に AdaBoost を構築することにより、車両識別に有効な特徴が自 動的に選択されていることがわかる。 図 9:選択された HOG 特徴の可視化結果 5.2 車両検出に有効な特徴 次に、最終識別器の各弱識別器において、どのよ うな位置関係のセルや Joint HOG 特徴が選択されて いるか考察する。図 10(a),(b),(c),(d)に最終識別器 G(c) の第 1,第 2,第 3,第 15 ラウンドの弱識別器において選 択された 2 つのセルの組み合わせを示す。また、図 10(e),(f),(g),(h)に最終識別器の各ラウンドにおける それぞれのセルの組み合わせにおいて、Joint HOG により選択された勾配方向と勾配強度を示す。第 1 ラウンドと第 2 ラウンドには図 10(e),(f)に示すよう に、垂直エッジと水平エッジの位置関係が選択され ている。また第 3 ラウンドでは図 10(c)のように左右 対称となる位置関係のセルが選択されている。さら に図 10(g)に注目すると、Joint HOG においても、そ れぞれのセルから左右対称となる勾配方向が選択さ れていることがわかる。第 15 ラウンドで選択された 図 10(d)は連続性を捉えた位置関係のセルが選択さ れ、図 10(h)より水平方向の特徴が選択されているこ とがわかる。提案した Joint HOG 特徴は、車両形状 の対称性や連続性を捉える特徴量を予め用意しなく ても、学習により自動的に対称性や連続性を表現し たセルの位置関係を選択し、車両の識別に有効な特 徴セットを得ることができる。 図 10:各弱識別器において選択された特徴 6.おわりに 本稿では、Joint HOG 特徴と 2 段階の AdaBoost によ る学習法を用いた車両検出する手法を提案し、その有 効性を確認した。2 段階に AdaBoost を構築することで 車両の対称的な勾配や連続的な勾配を自動的に選択 し、識別に有効な特徴を得ることができた。今後は、時 系列データの利用による高精度化を実現するとともに、 今回提案した手法を利用し、車両領域のセグメンテー ションを行う予定である。 and Vehicle Detection with HOG-Based SVM'', PerMIS, pp. 133-140, 2006. [9] Y. Freund and R. E. Schapire: ``Experiments with a New Boosting Algorithm'', ICML, pp. 148-156, 1996. [10] 鷲見和彦, 関真規人, 波部斉, ``物体検出- 背景と検出対象の モデリング-'', CVIM, pp. 79-98, 2005. [11] D. Comaniciu and P. Meer: ``Mean shift analysis and applications'', ICCV, pp. 1197-1203, 1999. [12] P. Sabzmeydani and G. Mori: ``Detecting Pedestrians by Learning Shapelet Feature'', CVPR, pp. 511-518, 2007. 文 献 [1] G. Sullivan, A. Worrall, and J. Ferryman: ``Visual Object Recognition Using Deformable Models of Vehicles'', Context95, pp. 75–86, 1995. [2] O. Hasegawa and T. Kanade: ``Type classification, color estimation, and specific target detection of moving targets on public streets'', MVA, pp. 116–121. 2005. [3] 三谷重知, 海元, 塩山忠義: ``ガボール変換による自動車検出 '', 信学論, pp. 2641–2651, 2000. [4] A. Iketani, A. Nagai, Y. Kuno, and Y, Shirai: ``Real-Time Surveillance System Detecting Persons in Complex Scenes'', IAPR, pp. 1112-1115, 1999. [5] A. Haselhoff, A. Kummert, and G. Schneider: ``Radar-Vision Fusion with an Application to Car-Following using an Improved AdaBoost Detection Algorithm'', ITSC, pp. 854-858, 2007. [6] N. Dalal and B. Triggs: ``Histograms of Oriented Gradients for Human Detection'', CVPR, pp. 886-893, 2005. [7] T. Mita, T. Kaneko and O.Hori: ``Joint Haar-like Features for Face Detection'', ICCV, pp. 1619-1626, 2005. [8] F. Han, Y. Shan, R. Cekander: ``A Two-Stage Approach to People 特徴を用いた 段階 による人検出 三井 相和 Ý 山内 悠嗣 Ý 藤吉 弘亘 Ý Ý, Ý, Ý Ý 中部大学 工学部情報工学科 Ý "#$% ! , ては,エッジベースの特徴量 ()(-) が多く提案されて いる.これらは高い検出性能を示すことから,人の形 近年,統計的学習方法と局所領域の な特徴 量を用いた人検出等の物体検出法に関する研究が多く 取り組まれている.本稿では,複数の 特徴量を組み合わせた 状を捉えることができるエッジベースの特徴量は,人 を検出する際に有効な特徴であるといえる. 本研究の検出対象である人は,大きく分けて つの 形状の特徴がある. 特徴と, 段階に構築した による学習 法を提案する.本研究では,複数の 特徴であ 頭から肩にかけての . に似た形状や上半身から下 半身にかけての連続的な形状 る 特徴を により組み合わせることで る. な特徴である 特徴を自動生成す 特徴は, つのセル間の 特徴量 頭部や肩,胴,足などの左右対称的な形状 .に対しては,局所領域内の 方向のエッジ特徴を の共起を表現し, 段目の によって組み合わ せる.このため, 特徴のみでは捉えることのでき の情報を表現した "/' 特徴 (*) がある..に対し ない,人の対称的な形状や連続的なエッジを捉えるこ ては, の弱識別器が複数の特徴量を同時に観 特徴を 測し,共起を表現する 0 特徴 ($) が提案さ 入力とした 段階目の によって最終識別器 れている.両手法は,非常に高い検出性能を示すこと を構築する これにより識別に有効な から, により とが可能となる.次に,生成された 特徴 により組み合わせることにより局所領域の面 な特徴量を組み合わせ のみを選択するため,高精度な検出が可能となる.提 て な特徴量を得ることは,物体の検出に適し 案手法の有効性を確認するため,屋外で撮影した映像 た特徴量の生成が可能だと考えられる.そのため,特 から作成したデータベースを用いて従来法との比較実 徴をどのように捉えるかが重要である.しかし,1.と 験を行った結果,誤検出率 において,提案手法は 2.の両方の形状特徴を捉えることができる手法は提 従来法より約 検出率を向上させることができた. 案されていない. また,本手法で用いる な特徴は, 特徴 そこで,本研究では,物体形状の対称性や連続性を自 量以外にも利用することが可能である. 特徴量と 動的に捉えることが可能である な特徴量とし 時空間特徴に基づく て ! " # " 特徴を 特徴と 段階 による人検出法 併用した結果,誤検出率 において,約 $$の検出 を提案する. 率を達成することができた. 特徴は,異なる つの領域の 特徴量を により組み合わせることで, 単一の特徴量では表現が困難な対称性や連続的なエッジ を 段階目の により生成する.生成された はじめに 近年,セキュリティや %&"% &' "# ,マーケティングなどの分野で人検出の実現が期 待され,多くの手法が提案されている ()(*).近年提案 された人検出法は,+ と の顔検出法 (,) と同 様に, 特徴と による統計学習からな る手法が多い.人検出に用いられる 特徴とし 特徴量を入力とした 段階目の によって最終識別器を構築し,人の検出を行う. 特徴 提案手法の概要を図 に示す.本手法は, 段階に を構築する.まず, 段階目の に より位置の異なる つの 特徴を組み合わせた な特徴である 特徴 1 を作成す る.これにより,複数の 特徴を同時に観測するた め,従来の単一の 特徴のみでは捉えることのでき ない,対称性や連続的なエッジを表現する 特徴を自動生成することが可能となる.次に, 段階目 の により 的に人検出に最適な 特徴 1 から自動 特徴を選択し,最終識 別器により人の検出を行う. 図 提案手法で用いる領域の構造 究の検出対象である人の場合には,勾配の向きを考慮 する必要がないため °∼, °とする.勾配方向を °ずつに分割することにより,$ 方向の勾配方向ヒスト グラムを得る. 最後に,次式によりブロック領域毎 図 6 に特徴 量を正規化する. 4 5 4 ここで, は 特徴量, はブロック内の 特 徴量の数,ε は分母が の場合に計算不能になること を防ぐ係数である. 図 提案手法の流れ 特徴量の共起 特徴を生成するために,複数の 特 徴量により共起 ($) を表現する.まず,次式から人もし くは人以外を表す 値化符号 を算出する. 特徴: 本研究では, な特徴として 2 らが提案 した () 4 を用 いる. 特徴はセル 図 3 における勾配方向を ヒストグラム化した特徴であり,物体の形状を表すこと ここで, はしきい値, は不等号の向きを決定する符 ) は が可能である. 特徴は照明の変化を受けにくく, 号であり, もしくは をとる. 局所的な幾何学変化に頑健な特徴となる.下記に 特徴算出の手順を示す. す.これにより,得られた 値化符号を つ組み合わせ 各ピクセルの輝度 から勾配強度 と勾配方向 を 次式より算出する. 4 4 4 5 4 5 つのセルから算出される特徴量, は勾配の方向を表 ることで共起 ($) を表現した特徴 を得る.例えば,図 - 5 のような入力画像において, 特徴を 値化した 符号 4 ( 4 特徴 は , 4 4 を観測したとき,共起を表現した 4 - となる.共起を表現した特徴 は 進表現された特徴の組み合わせのインデックス番 号であり,今回は つの特徴の組み合わせとなるため, - 通りの値をとる. 特徴: 特徴 ここまでに算出した 特徴量の共起を表現した特 算出した勾配強度 と,勾配方向 よりセル ピクセル ごとに輝度の勾配方向ヒストグラムを作成す る.ただし,勾配方向 は °∼- °となるが,本研 徴量を組合わせて な特徴量として表現する. にて算出した 特徴の共起を用いて, つのセ ルの 特徴から算出した共起を表現した特徴量 図 特徴量の共起 と 段階目 により 特徴を生成す る.これにより,物体形状の対称性やエッジの連続性 だけでなく,セルとセルの関係を捉えることが可能と なる. まず,位置の異なる つのセル , において,共 図 起を表現した特徴の中から,識別に有効な特徴を選択 特徴 する.入力画像 から 特徴の共起を観測する関数 を で表す.入力画像 からの特徴量 を 観測したとき, 段階目の の弱識別器 4 を次式により表す. 4 4 5 4 5 ここで, は正解ラベル 5 及び 4 段階目の による最終識別器の構築 段階目の では, 段階目の に より生成した 4 4 4 段階目の強識別器である 4 , 4 * は 特徴 , $ 1 4 となり,7 個の が作成される.この ピクセル に対し 特徴 特徴 1 か ら,後述する 段階目の により最終識別器 を構築する 図 . ここで は 段階目の より得られる強 セルの組み合わせを表し, である. * 特徴 1 4 , 段階目の 8 * により, から識別に有効な特徴量のみを 特徴を用いた人検出実験 本手法の有効性を示すため評価実験を行う. 個のセルがあるため, つのセルの組み合わせ 識別器であり, は検出器の閾値である. と は ここで, は学習回数, , は 段階目の弱識別 器 , の重みを表す. 上記の処理を全てのセルの組み合わせにおいて行う. て 特徴 選択して,検出器を構築する. , 本手法では,検出ウィンドウ - により得られる最終的な強識別器 を得る. , * , を次式より構築する. を の に有効なセルとセルの関係を表現した である.条件付確率は,学習サンプル の重み に 4 5 1 を自動的に選択することになる. 段階目の 共起を表現した特徴 を観測したときの条件付き確率 特徴 入力として最終識別器を構築する.これにより,識別 5, を表し, 4 は,それぞれ 特徴の 基づき次式により算出される. データベース データベースには () で用いたデータベースを利用す る.データベースに含まれる画像は,固定カメラによ り撮影された多様な照明,背景,人の歩行方向など,異 なる複数の場所で撮影された画像である.() と同様に, 学習用ポジティブサンプルは 7 枚,学習用ネガティ ブサンプルは 7 7, 枚,評価用ポジティブサンプルは 枚,評価用ネガティブサンプルは 7- 枚用いる. 学習に用いたデータベースの一部を図 に示す. のセルと 特徴をラウンド毎に示す. 特徴の勾配方向を $ 方向で表現しており,輝度が高い ほど における弱識別器の重み が高いこと を表す.図 * では,全てのセル領域において 特徴が選択されるが,特に人の形状に沿った勾配が高 い弱識別器の重みであることがわかる.次に図 *3 に 注目する.図 * で選択された 特徴量であって も人の輪郭以外は選択されにくい傾向がある.これは, 図 段階目の の特徴選択において,識別に有 効ではないと判断されたためである.そのため, 段 学習に用いたデータベース 階の は有効だと考える.最後に図 *6 に注 目する. 段階目の により選択された 実験概要 評価用データベースを用いて,人の検出実験を行う. 提案手法( )と, 特徴 5 ()() との比較を行う.評価には 26 &:29& 9 を用いる.29& とは,横軸に誤検出率, 特徴は,人の輪郭に沿ったセルが選択される傾向 があることがわかる. と時空間特徴を用いた人検出 実験 縦軸に未検出率をとり,両対数グラフにより表したも のであり誤検出率に対する未検出率の比較を行うこと 本手法に用いる 特徴は, 特徴量以外 ができる.また,29& は原点に近いほど性能が良い. にも利用可能である.本章では, 特徴と () によ 実験結果 り有効性が確認された時空間特徴に基づくピクセル状 図 に 29& による検出結果を示す.提案手法は従来 態分析 ! : " # 法と比較し,検出精度が向上しているのがわかる.誤 法について述べる. 検出率 の場合,約 検出率を向上させるこ 時空間特徴の併用 とができた.これは 特徴量のみでは識別困難な パターンに対しても, 特徴を用いることに " を併用した人検出 文献 () により有効性が確認された時空間特徴に基づ く特徴としてピクセル状態分析( )() を用いる. " より識別困難なパターンを捉えることが可能となった ピクセル状態分析とは,ピクセル状態の時間変化をモデ ためである. ル化することにより,各ピクセルを背景 60 ;, 静状態 "#,動状態 & の三状態に判 別する手法である 図 ,. 図 図 三状態に判別するためには,前後数フレームを用いて カーブ 急激な輝度の変化 < & と安定度 "3 # <; 考察 を用いる 図 $. ピクセル状態分析結果をセル領域によってヒストグ 段階の により選択された 徴量について考察を行う.図 ピクセルの状態遷移図 * に 特 ラム化することにより,時空間特徴となる特徴量を算 出する. で用いた領域の構造を用いて, と 段階目の により,選択された 特徴を可視化した結 同様にピクセル状態ヒストグラムを作成する.ピクセ 果,図 *3 に 段階目の により,選択され ルは三状態に判別されるので,一つのヒストグラムか た ら三つの特徴量が算出される. 特徴量に 特徴を可視化した結果を示す.また,図 *6 において, 段階目の により選択された つ " 特 徴を加えることにより, セルあたり 個の特徴量が 図 図 特徴の可視化 ピクセル状態分析例 得られる. 特徴と " 特徴を併用した人検出法 を図 に示す. 実験概要 - で述べたデータベースを用いて評価実験を行う. 実験はピクセル状態分析の結果を特徴量として抽出する. 学習で使用するデータベースの一部を図 に示す.実験 は,提案手法( " 5 と,従来法として, 特徴と 5 段階 ) " 特徴の共起 5 共起() との比較を行う. " 図 実験結果 図 に 29& による検出結果を示す.提案手法は,従 来法である 特徴と " 特徴と 特徴を併用した人検 出法 特徴の共起と比較して, 検出性能が向上している.誤検出率 の場合,約 検出率が向上し,検出率約 $$ を得ることがで たものを示す.図 - は,輝度が高いほど勾配が強い, きた. もしくは頻度が高いことを表す.図 -3 の背景の状態 考察 の平均画像に注目したとき,人のシルエットを表現し 学習時に選択された特徴量から提案手法の考察を行 う.図 - に,学習用ポジティブサンプルを用いた ときの平均勾配画像,図 -3,6, に学習用ポジ ティブサンプルのピクセル状態分析の結果の画像を用 いて,各状態毎の出現する頻度を画像として可視化し ていることがわかる.これは,ピクセル状態分析が背 景と前景を明示的に区別していないが,背景とそれ以 外の クラス問題として扱うことにより,背景と前景 を区別することが可能となっていることを表す.また, 図 -6 から,静状態のピクセルは人の上半身部分 の頻度が高く,動状態のピクセルは人の足の頻度が高 図 図 各状態の出現頻度の可視化画像 図 学習によって選択された特徴量 学習に用いたデータベース 量が選択されたと考えられる. 図 カーブ いことがわかる. 実際に により選択された特徴量の可視化 を図 に示す.学習の初期に多く選択されている特徴 量として,ピクセル状態分析の背景から得られる特徴 が用いられている.これは,背景の状態を占めるピク セルが多い=少ないによって,人を判別していることを 表す. また,可視化結果から,学習のはじめでは, " 特 徴が選択され,学習の後半では 特徴が選択される 傾向があることがわかる.この詳細を調べるために, 段階目の において学習ラウンド毎に選択さ れた 特徴と " 選択された特徴の割合 人検出による人数のカウント実験 構築した検出器による人検出の実験を行い,その結 果から画像中に存在する人数のカウントを行う. 特徴の割合を図 に示す.学 習の始めでは,非常に高い割合で 図 " 特徴が選択され, 実験概要 ラウンドを越えた辺りから 特徴量が多く選択さ れることがわかる.これは,識別時において,まず物 人検出を行うシーケンスは,- 箇所で撮影した映像を 特徴により,おおま 用いる.人検出を行うために,検出ウィンドウを画像 かに人と人以外を判別し,この後より詳細に識別境界 左上からスケールを変化させて複数回ラスタスキャン を形成するためにアピアランス情報である する.これにより,人のスケールが異なる場合であって 体の動きを表すことが可能な " 特徴 も検出が可能となる.人として検出されたウィンドウ 図 は,最後に < "/ 人検出例 次に,人検出の結果から,人数のカウントを行う.人 クラスタリングによるウィンド 数カウントの結果を表 に示す. ウの統合処理を行う (). 人検出した結果から,人数のカウントを行う.なお, 人数のカウントで使用する人検出結果の画像は,- シー 表 人数カウント結果 ケンスの中から合計 フレームを使用する.画像中 真値 人 検出数 人 誤検出数 人 に人が存在する人数の真値は,目視により計測した値 -7 7*,- -- 検出性能 $-* を真値とする.基準としては,画像外に人がはみ出し ている場合は検出対象としない.また,画像上で人同 提案手法による人数のカウントは,検出性能 $-* 士の重なりが発生した場合,人の体が半分隠れてしま う場合も検出対象としない.評価は,次式で表される 数カウントの精度は約 $ と言われている.提案手法 検出性能によって評価する. 検出性能 4 正識別数 誤検出数 真値 では,自動的に人数のカウントを高精度に行うことが できるため,マーケティングの分野等での利用が期待 できる. 実験結果 図 に を得た.通常,マーケティングにおいて,人による人 と時空間特徴を用いた人検出例 を示す.提案手法は,時空間特徴を用いているため,人 に似た形状を持つ物体や複雑な背景に対して高精度な 検出ができていることがわかる. おわりに 本稿では,複数の 特徴を組み合わせた 特徴と, 段階に構築した による学習 法を提案した. 特徴は,物体形状の対称性 やエッジの連続性だけでなく,セルとセルの関係を特 徴として捉えることが可能となるため,識別に有効な 特徴を得ることができた.また,時空間特徴に基づく " 特徴を併用することにより,さらに高精度な検出 を実現することができた.今後は,提案した検出法を 利用した,人領域のセグメンテーションを行う予定で ある. 参考文献 “ 1 3 A6 26 () > 1 ? @7 " B;3 9!' 8 6 C; / %' ”7 %999 D'; + E6 7 7 '' -7 () B 2 & , “ ; 26 + ”7 %999 D'; E6 7 7 '' ,, , ,$- “ 26 (-) @; E B7 <; ' 7 # 66 ; ; " % 3# # D3 9 %999 % 26 ”7 D6 D'; + 7 7 '' $$*7 () .+ ,<. F 6 ”7 .", “ 26 2 < '' %999 % ,'' '; + D6 D ,-. *-* , “ ; () B 2 7 & D "6/ 2 6 F C ''6 ”7 %999 9;' D6 D'; +7 7 '' ,7 () 山内悠嗣7 藤吉弘亘, ,金出武雄, @ “アピアランスと時空間特徴の共起に基づく人検出”7 画像の認識・理解シンポジウム ,'' <%EF* ,*. $$* (*) "3G# <8 “ 26 3# 1 "/' C; '; + ”7 %999 D E6 7 '' ,7 * (,) , “ E' + < 3 A6 26 F D6 "' C; %999 D'; + 7 '' , ”7 E6 7 , ($) & <7 & >0 8 C; C6 26 ”7 “ 0 %999 % D6 D'; +7 '' $7 “ 1# 26 () C;A#/ & >7 <; ' '' 3 A6 ”7 %9%D9 & 6 % #7 9,*27 '' ,,*7 () 2 .D6; .<, “ < "/ # '' 6 ”7%999 % 6 D'; + D ,''.$*-,$$$. 「画像の認識・理解シンポジウム (MIRU2008)」 2008 年 7 月 Boosting に基づく特徴量の共起表現による人検出 山内 悠嗣† 藤吉 弘亘† 山下隆義 †,†† † 中部大学大学院工学研究科 〒 487-8501 愛知県春日井市松本町 1200 †† オムロン株式会社 技術本部 〒 619-0283 京都府相楽郡木津町木津川台 9-1 E-mail: †{yuu,hf}@vision.cs.chubu.ac.jp, ††[email protected] あらまし 本稿では,Boosting に基づく特徴量の共起表現法とこれによる人検出法を提案する.既に特徴量間の共起 を表現する手法として AdaBoost により 2 値に識別した符号を複数組み合わせる手法が提案され,顔検出においてそ の有効性が確認されている.しかし,入力特徴がどちらのクラスとも言い難い場合にも 2 値に識別して共起を表現す るため,間違えた符号を組み合わせる問題がある.そこで,提案手法では Real AdaBoost の弱識別器の連続値である 出力と評価値を,演算子によって結合した共起特徴から Real AdaBoost を用いて人と人以外に判別する.共起特徴は, 複数の特徴を演算子により多様な捉え方で観測することが可能な特徴量であるため,従来の共起を表現する方法より も高精度な検出が可能となる.評価実験より,従来法と比較して誤検出率 5.0%において約 6.8%検出率を向上させる ことができた. キーワード 人検出,共起,Real AdaBoost,多重解像度,Histograms of Oriented Gradients Human Detection by Boosting-based Co-occurrence Feature Representation Yuji YAMAUCHI† , Hironobu FUJIYOSHI† , and Takayoshi YAMASHITA †, †† † Dept. of Computer Science, Chubu Univ. 1200, Matsumoto, Kasugai, Aichi, 487-8501 Japan †† OMRON Corporation. 9-1, Kizugawadai, Kizu-cho, Soraku-gum, Kyoto, Japan 619-0283 E-mail: †{yuu,hf}@vision.cs.chubu.ac.jp, ††[email protected] Abstract This paper presents a novel method for representing co-occurrence of low-level features and a method for detecting human using the co-occurrence representation. Our approach uses output of weak classifier and evaluated value of Real AdaBoost to obtain the co-occurrence feature. Therefore, our method can apprehend more than the conventional method of co-occurrence representation. Capturing the co-occurrence feature of Histograms of Oriented Gradients(HOG) feature makes it possible to construct an effective human detector. Experimental results show that our method has about 6.8% higher performance than that of the conventional method. Key words Human Detection,Co-occurrence,Real AdaBoost, Multi Resolution,Histograms of Oriented Gradients 1. は じ め に 画像中から自動的に人を検出する技術は,監視システムや ITS など多岐に渡る分野で実現が期待され,近年最も盛んに行 ある Histograms of Oriented Gradients(HOG) [3],エッジ同 士をつなげた短い線,カーブを特徴量として表現する Edgelet Feature [4] などがあり,高い検出精度を達成している. さらに,検出精度の向上として,アピアランスとは異なる特 われている研究のひとつである.近年の人検出法は,Viola と 徴量の併用 [5] [6] [7] や特徴量自体の改良 [8],Boosting 手法の Jones が提案した顔検出に代表されるように low-level な特徴と 改良 [9] などが提案されている.また,高精度な検出には特徴 統計的学習による Boosting の組み合わせによる手法 [1] が多い. 量をどのように捉えるかが重要である.Mita et al. は,複数の 人検出に有効な low-level な特徴量として,領域の累積エッジ強 Haar-like 特徴を用いて 2 値に識別し,これらの符号を組み合わ 度の比を特徴量とする Edge Orientation Histograms(EOH) [2] せる Joint Haar-like 特徴 [11] を提案した.この手法は,Viola や,局所領域における勾配方向をヒストグラム化した特徴量で と Jones の顔検出法 [1] と比較して,大きく検出性能を向上さ 図 2 提案手法の流れ かし,選択された特徴量からはどちらのクラスとも言い難い場 合にも 2 値に識別するため,間違えた符号を組み合わせた場合, Joint Haar-like 特徴にも影響する.また,検出対象を人とした 場合,人同士の画像中での重なりによる隠れが生じることが多 い.そのため,隠れが生じている部分の特徴量を組み合わせる 図1 Joint Haar-like 特徴 j ことも考えられる. そこで,我々は弱識別器の出力が連続値である Real Ad- せた.しかし,弱識別器において選択された特徴量からはどち aBoost を利用する.Real AdaBoost の弱識別器の出力は,大 らのクラスとも言い難い場合にも 2 値に識別するため,間違え 量の学習サンプルを用いることで統計的な信頼度を出力する. た符号を組み合わせる問題がある. 信頼度は,プラスの方向へ大きい場合は検出対象である信頼性 そこで,本研究では Real AdaBoost [10] の弱識別器の出力 が高く,マイナスの方向へ大きい場合は検出対象である信頼性 と評価値を演算子によって結合した新しい特徴量間の共起表現 が低いことを表す.我々は,弱識別器の出力を演算子によって 法と共起特徴による人検出法を提案する.提案する共起特徴は, 組み合わせることで共起特徴を生成する.演算子には,和 (+) 複数の特徴量を演算子により多様な捉え方で観測することが可 と積 (×) を用いることにより,組み合わせによる表現のバリ 能であるため高精度な検出が期待できる. エーションを増やすことで,識別に有効な共起特徴を生成する. 本稿では,2. 章において,従来の物体検出法と特徴量の共 3. 共起特徴による人検出 起表現法について説明した後,3. 章にて low-level 特徴として HOG 特徴量を用いた共起特徴による人検出法について説明 Real AdaBoost の複数の弱識別器から得られる出力と評価 し,4. 章では提案手法の有効性を示す.また,文献 [7] にて,文 値を演算子により結合した共起特徴を提案する.図 2 に提案手 献 [11] の共起表現法を用いて異なる特徴量間の共起を表現した 法の流れを示す.本研究は,画像中から検出ウィンドウをラス ように,提案手法も同一の特徴量以外の共起表現が可能である. タスキャンし,検出ウィンドウから得られる HOG 特徴量から そこで,本研究では,異なる解像度間から得られる HOG 特徴 共起特徴を生成し,この特徴により人 (ポジティブクラス) とそ 量から共起の表現を行う.これについては,5. 章にて説明する. れ以外 (ネガティブクラス) の判別を行う.本章では,low-level 特徴として用いる HOG 特徴量について説明した後,提案する 2. 従来の物体検出法 mid-level な特徴である共起特徴と Real AdaBoost による識別 Viola と Jones の顔検出法 [1] が提案された以降,low-level 器構築について説明する. な特徴量と統計的学習の組み合わせによる物体検出法が多く提 3. 1 low-level 特徴:HOG 特徴量 案されている.提案されている人検出法としては,局所領域に Histograms of Oriented Gradients(HOG) 特徴量 [3] とは, おける勾配方向をヒストグラム化した Histograms of Oriented 局所領域における輝度の勾配方向をヒストグラム化した特徴ベ Gradients(HOG) と SVM を用いた人検出法 [3] がある.HOG クトルである.近接画素の勾配を局所領域によってヒストグラ 特徴量は照明変動に頑健であり,僅かな局所的変化ならば吸収 ム化するため,照明の影響を受けにくく,局所的な幾何学変化 できるため,高精度な人検出が可能である.近年では,検出性 に頑健という特徴がある.まず最初に,各ピクセルの輝度 L か 能を向上させるため,low-level 特徴を Boosting により組み合 ら勾配強度 m と勾配方向 θ を次式より算出する. わせることで,識別に有効な mid-level な特徴量を生成する手 法 [11] [12] が提案されている. Mita et al. は,AdaBoost によって選択された 1 個の弱識別 器が,複数の Haar-like 特徴量を同時に観測することで共起を m(x, y) = fx (x, y)2 + fy (x, y)2 θ(x, y) = tan−1 fy (x, y) fx (x, y) 表現する Joint Haar-like 特徴 [11] を提案した.Joint Haar-like fx (x, y) = L(x + 1, y) − L(x − 1, y) 特徴は,2 値に識別した符号を組み合わせることにより表現さ fy (x, y) = L(x, y + 1) − L(x, y − 1) (1) (2) (3) れ,組み合わされた Joint Haar-like 特徴の同時確率に基づき 次に,算出された勾配強度 m と勾配方向 θ を用いて,セル 識別を行う.図 1 に 3 つの符号を組み合わせて Joint Haar-like 領域 (5 × 5 ピクセル) において,輝度の勾配方向ヒストグラム 特徴を算出する例を示す.この手法は,Viola と Jones の顔検 を作成する.ただし,算出された勾配方向は,0◦ − 360◦ とな 出法と比較して,高精度かつ高速に識別することができる.し るが,0◦ − 180◦ に変換する.これにより,人の服装に対して 図 4 最終識別器の構築の流れ 組み合わせから,Real AdaBoost により最もエラーの少ない 2 個の特徴量の組み合わせを探索した場合,膨大な学習時間が必 要となる.本研究では,効率的な学習を行うために 3,240 個の HOG 特徴量から,Real AdaBoost のアルゴリズムを用いて特 徴選択を行い,識別に有効な N 個の HOG 特徴量のみの組み 合わせを行う.これにより,検出精度を維持しながら,学習時 間の削減することができる. まず,HOG 特徴量から確率密度分布 W+ ,W− を作成する. 確率密度分布 W± は,1 次元のヒストグラムにより表現され, 学習サンプルの重み Dt に基づいて次式より作成する. 図3 HOG 特徴量算出に用いる領域の構造 影響されない勾配方向が得られる.今回は勾配方向を 20 ずつ に分割することにより 9 方向の勾配方向ヒストグラムを得る. 最後に,次式によりブロック領域 (3 × 3 セル) 毎に特徴量を正 規化して抽出する. v k ( v(i))2 + ε Dt (i) (5) Dt (i) (6) i:j ∈J∧yi =+1 ◦ v= W+j = j = W− i:j ∈J∧yi =−1 ここで,t は学習回数,i は学習サンプルの番号,j は 1 次元ヒ ストグラムの BIN の番号,yi はクラスのラベル y ∈ {1, −1} を表す.学習サンプル i から特徴量を算出し,特徴量の値に対 (ε = 1) (4) i=0 ここで,v は HOG 特徴量,k はブロック内の HOG 特徴量の 数,ε は分母が 0 の場合に計算不能になることを防ぐ係数であ る.ブロックは 1 セルずつ移動させながら HOG 特徴量の抽出 を行う.検出ウィンドウを 30 × 60 ピクセルに正規化した場合, 3,240 個の特徴量が得られる. 3. 2 共起特徴と Real AdaBoost による識別器構築 提案する共起特徴を算出し,人とそれ以外の判別する最終識 別器の構築を行う.共起特徴を用いた学習の流れを図 4 に示 応する 1 次元ヒストグラムの BIN の番号 j へ学習サンプルの 重み Dt (i) を加算することで,確率密度分布 W± を作成するこ とができる.1 次元ヒストグラムの BIN 数は,学習サンプルの 数に応じて適切な値にする必要がある.本研究では,実験より 1 次元ヒストグラムの BIN の数を 64 とした.作成した確率密 度分布 W± は,クラス毎の確率密度分布の総和が 1 となるよう に正規化する. 次に確率密度分布 W± を用いて,分布の分離度を表す評価値 α を次式より算出する. α=1− j W+j W− (7) j す.ここでは,学習部を 3 つに分けて説明する.1 つ目は,1 この評価値 α が大きいほどポジティブクラスとネガティブクラ 段階目の Real AdaBoost による特徴選択 (図 4(a)),2 つ目は スの分布が分離していることを意味する.最後に,全ての HOG low-level 特徴の組み合わせによる共起特徴の算出 (図 4(b)),3 特徴量から得られる確率密度分布の分離度を表す評価値 α を用 つ目は 2 段階目の Real AdaBoost による最終識別器の構築 (図 いて,大きい順にソートを行い,α の大きい方から N 個を特 4(c)) である. 徴 Pool とする.本研究では,特徴 Pool を 200 個とした. 3. 2. 1 1 段階目の Real AdaBoost による特徴選択 3. 2. 2 low-level 特徴の組み合わせによる共起特徴の算出 共起特徴は,複数の HOG 特徴量を組み合わせて算出する. 提案する共起特徴は,Real AdaBoost の複数の弱識別器か ここでは,2 個の特徴量の組み合わせについて説明するが,提 ら得られる出力と評価値を演算子によって結合した特徴量であ 案手法では M 個の特徴量の組み合わせについても容易に拡張 る.そのため,複数の特徴量を演算子により多様な捉え方で観 することが可能である.得られた 3,240 個の HOG 特徴量の全 測することが可能であるため,単一の特徴のみでは識別困難な 3. 2. 1 にて説明した共起特徴算出のために作成する特徴 Pool は,更新される学習サンプルの重みに従い学習ラウンド毎に作 成し直す.これにより,前の学習ラウンドで誤識別した学習サ ンプルに対して重みが高くなるため,このサンプルを正識別す るような特徴 Pool が各ラウンド毎に作成される. 図 5 HOG 特徴量による共起特徴 パターンに対しても高精度な検出が可能となる. 共起特徴算出の方法について説明する.まず,作成したポジ ティブクラスとネガティブクラスの確率密度分布 W+ ,W− を 用いて,弱識別器の出力 h(Ü) を算出する.学習サンプルより 得られる特徴量 Ü の値から,1 次元ヒストグラムの BIN の番 号 j を算出し,それに対応した確率密度分布 W± から弱識別器 の出力 h(Ü) を次式より算出する. h(Ü) = 1 W+ + ln 2 W− + (8) ここで, は分母が 0 の場合に計算不能になることを防ぐため の係数である.本研究では,実験より = 0.0000001 とした. 学習サンプルより得られる特徴量 Ü の値から,1 次元ヒストグ ラムの BIN の番号 j より確率密度分布 W± の値が得られる. 算出した Real AdaBoost の弱識別器の出力 h(Ü) と評価値 α を用いて共起特徴を算出する.検出ウィンドウから得られた HOG 特徴量を Ü,弱識別器の出力を h1(Ü1),h2(Ü2),評価値 を α1,α2 とした場合,下記の 2 パターンの組み合わせより共 起特徴 C1,C2 を次式より表現する. C1 = h1(Ü)α1 + h2(Ü)α2 (9) C2 = h1(Ü)α1 × h2(Ü)α2 (10) まず,共起特徴 C1 は,評価値により弱識別器の出力を重み付け した値の和であるため,2 つの特徴量を総合的に捉える特徴量 図 6 Real AdaBoost のアルゴリズム となる.そのため,片方の特徴量が隠れやノイズ等の外乱の影 響を受けた場合でも,もう 1 つの特徴量がクラスをよく表現し ていればそのクラスを反映した特徴量となる.次に,共起特徴 C2 は,弱識別器の出力に評価値を重み付けした値の積をとる ため,両方の重みつき出力が高いときは高い共起特徴の値,そ れ以外は小さい共起特徴の値となる.検出時には,検出ウィン ドウから得られる HOG 特徴 Ü から弱識別器の出力を h1(Ü1), h2(Ü2) を求め,学習の際に算出した評価値を α1,α2 から共起 特徴 C1 もしくは C2 を算出する.2 個の HOG 特徴量から共 起特徴を生成する概念図を図 5 に示す.特徴 Pool が 200 個の 場合,弱識別器の候補は 200 個 ×200 個 ×2 演算子 = 80, 000 個となる.これらの弱識別器候補は,Real AdaBoost を用いた 識別器構築の特徴選択時に自動的に選択される. 3. 2. 3 2 段階目の Real AdaBoost による最終識別器の構築 生成した共起特徴を用いて 2 段階目の Real AdaBoost に より最終識別器の構築を行う.図 6 に共起特徴を用いた Real AdaBoost のアルゴリズムを示す. 4. 評 価 実 験 本章では,提案する共起特徴の有効性を示すために,歩行者 検出実験により従来法との比較を行う. 4. 1 データベース 文献 [7] で用いられているデータベースを利用して実験を行 う.このデータベースには,屋外で撮影された映像から,人の 全身を切り出すことで作成されている.背景や照明,人の向き, 人同士による画像中の重なりによる部分的な隠れ,切り出す際 の位置ずれなどを含んでいる.学習用のポジティブサンプルは 2,053 枚,ネガティブサンプルは 6,253 枚,評価用のポジティ ブサンプルは 1,023 枚,ネガティブサンプルは 1,233 枚用意さ れている.図 7 に学習に用いたサンプルの一部を示す. 4. 2 実 験 概 要 文 献 [7] の 評 価 用 デ ー タ ベ ー ス を 用 い て ,提 案 手 法 と HOG+Real AdaBoost,特徴量として HOG 特徴量を用いた従 図 9 提案手法による人検出例 4. 3 実 験 図 8 に実験結果を示す.DET カーブでは,原点に近いほど 検出性能が高いことを意味するため,提案手法が他の手法と比 べ,全体的に検出性能が高いことがわかる.誤検出率 5.0% の 未検出率を比較した場合,提案手法は従来の共起表現法よりも 検出率が 6.8% 向上している.これは,Real AdaBoost を用い ることで弱識別器の出力が連続値で表現することが可能となり, 演算子で多様な特徴量の捉え方が可能となったため,検出率が 向上したと考えられる. 4. 4 検 出 実 験 構築した検出器により人検出の実験を行う.人検出を行うた めに,検出ウィンドウを画像左上からスケールを変化させて複 図7 学習用サンプルの一部 数回ラスタスキャンする.これにより,人のスケールが異なる 場合でも検出可能となる.人として検出されたウィンドウは, 最後に Mean Shift クラスタリングによる検出ウィンドウの統 合処理を行う [14].図 9 に複数の場所において撮影した映像に 対する人検出例を示す.図 9 から高精度な人検出を行っている ことがわかる.図 9(a),(b),(c) は各結果において未検出が多 少あるが,人同士の画像中における重なりによる隠れや人の 素早い動きによるぶれの影響だと考えられる.また,図 9(d), (e),(f) では,幾つか誤検出がみられる.これは,low-level な 特徴量として HOG 特徴量を用いているため,人に似た背景を 人として誤検出してしまうためである. 4. 5 処 理 時 間 図 8 DET カーブ 提案手法による学習と検出に必要な処理時間を計測する.使 用した PC は,Intel Xeon 2.66GHz,メモリ 3.00GB である. 来の共起表現法 [11] の比較を行う. 比較には Detection Error Tradeoff(DET) [13] によって評価 学習には,4. 1 節で示したデータベースを使用し,学習回数 は 200 回として,約 2 時間を要した. を行う.DET とは,横軸に誤識別率,縦軸に未識別率を両対 次に,識別に用いる特徴量の数と精度の関係を提案手法と 数グラフによって表したものである.識別器のしきい値を変化 従来法の比較を行う.4. 3 節の実験では,HOG 特徴量+Real させることによって,誤識別率に対する未識別率の比較を行う AdaBoost では 500 回の学習回数で 500 個の特徴量を使用し, ことが可能である.原点に近いほど検出性能が良いことを表す. HOG 特徴量+従来の共起表現法と提案手法では 200 回の学習 回数で 400 個の特徴量を使用した.提案手法は,HOG 特徴 量+Real AdaBoost と比べて,特徴量の数が少ないにも関わら ず検出性能が向上している.また,従来の共起表現法と比較し て,同数の特徴量の数を使用しているが,検出精度が向上して いる.このことから提案手法は,共起特徴として HOG 特徴量 を組み合わせることにより,より識別に適した少数の共起特徴 が生成され,高速,高精度に識別を行うことが可能となったと 考えられる. 人検出の実験では,HOG 特徴量を高速に算出するために Inte- gral Histograms [15] を用いた.検出する画像サイズが 320×240 ピクセルの場合,12,014 個の検出ウィンドウをポジティブクラ スとネガティブクラスに判別する.その結果,1 枚の入力画像 を処理するために必要な時間は約 170msec であった.効率良く 識別することにより処理時間を削減する Viola と Jones が提案 したカスケード型 AdaBoost [1] をすることにより,さらなる 高速な人検出が期待できる. 図 10 HOG 特徴量の変化 5. 多重解像度間の共起による人検出 4. 章では,一枚の画像から得られる HOG 特徴量の空間的な 共起を表現し,人検出における提案する共起特徴の有効性を確 認した.組み合わされる HOG 特徴量は,異なる空間的位置か ら得られる特徴量であった.提案手法では,空間位置が異なる だけでなく,異なる解像度間から得られる HOG 特徴量の共起 の表現も可能である.そこで,本章では多重解像度から得られ る HOG 特徴量の共起を表現し,共起特徴により人検出を行う. 本章では,検出対象を人の上半身とし,形状に特徴がある頭 部と上半身 (頭部から肩にかけての Ω の形状) に分ける.頭部 と上半身の画像を多重解像度により表現し,これらの画像から 得られる HOG 特徴量を頭部と上半身から 1 個ずつ特徴量を選 択することで共起を表現する. 5. 1 多重解像度間の共起表現 図 11 検出対象である上半身画像の中で,特に形状に特徴がある頭 多重解像度 HOG 特徴量による共起特徴 部領域と上半身領域は,特徴を最も表現する解像度が同一であ るとは限らない.そこで,本研究では多重解像度から HOG 特 徴量を抽出し,頭部らしい特徴と上半身らしい特徴を共起特徴 – 上半身:2 × 2 セル 上記のパラメータから HOG 特徴量を算出した場合,頭部と により同時に捉えることを考える.図 10 は,128 × 128 ピクセ 上半身の領域から各 4,860 個得られる.これらの HOG 特徴量 ルの上半身画像と 64 × 64 ピクセルの頭部画像を入力し,半分 を用いて 3. 2 節にて述べた共起表現法により多重解像度間の共 の大きさまで 0.125 ずつ倍率を縮小した場合の HOG 特徴量を 起を表現を行い人の検出を行う.図 11 に多重解像度間の共起 可視化したものである.本研究では,下記のパラメータにより 表現の流れを示す.まず,入力画像から頭部と上半身に分け, 多重解像度画像からの HOG 特徴量を抽出する. それぞれダウンサンプリングすることで多重解像度画像を作成 • パッチサイズ – 頭部:64 × 64,56 × 56,48 × 48,40 × 40,32 × 32 ピク – 上半身:128 × 128,112 × 112,96 × 96,80 × 80,64 × 64 ピクセル セルサイズ – 頭部:8 × 8 ピクセル – 上半身:16 × 16 ピクセル • る HOG 特徴量を 1 個ずつ用いることにより式 (9),式 (10) よ り共起特徴を生成する.これにより,解像度間の共起を表現し セル • し,HOG 特徴量を抽出する.次に,頭部と上半身から得られ ブロックサイズ – 頭部:2 × 2 セル た共起特徴を生成することが可能となる. 5. 2 評 価 実 験 提案手法の有効性を示すために従来法との比較実験について 示す. 5. 2. 1 データベース 学習と評価実験を行うための画像を収集した.データベー スのポジティブサンプルには,明るさ,人の向き,画像に対す る人の大きさが異なる場所で撮影した映像から,人の頭部と 時に捉えることで,向きに依存せず人の検出を行うことができ 上半身を切り出した.ネガティブサンプルには,Caltech 256 ている. database [16] の clutter クラスからランダムに切り出した.学 5. 3 考 察 習用のポジティブサンプルは 4,585 枚,ネガティブサンプル 学習時に選択された特徴量から提案手法の考察を行う.図 15 は 3,738 枚用意した.同様に,評価用のポジティブサンプルは に学習時に選択された HOG 特徴量を可視化した結果を示す. 3,920 枚,ネガティブサンプルは 10,000 枚用意した.学習に用 HOG 特徴の勾配方向を 9 方向で表現しており,輝度が高いほ いたデータベースの一部を図 12 に示す. ど Real AdaBoost における識別に有効な特徴量として選択さ れたことを表す.図 15(e) に示すように,形状に沿った勾配に 対応する HOG 特徴が選択されていることがわかる.また,図 15(a),(b),(c),(d) に最終識別器の各ラウンドにおいて選択 された HOG 特徴量を示す.特徴選択の傾向が出やすい学習の 初めでは,頭部は高解像度の HOG 特徴が選択され,上半身は 低解像度の HOG 特徴量が選択されていることがわかる.この ことから頭部は高い解像度の方が特徴を表現しやすく,上半身 は低解像度の方が特徴を表現しやすいと考えられる.これを確 かめるために学習によって選択された HOG 特徴量を解像度毎 にヒストグラムで表現した図 16 に注目する.頭部は,比較的解 像度の高い画像から得られる HOG 特徴が選択される傾向があ り,上半身は高解像度の HOG 特徴量が最も選択されているが, 図 12 ポジティブクラスの上半身画像データベース例 頭部に比べ低解像度の HOG 特徴量が選択される傾向がある. これは,学習サンプルの平均勾配画像からもわかるように,頭 5. 2. 2 実 部のように勾配にばらつきが少ないと,高解像度の HOG 特徴 験 評価用データベースを用いて提案手法と多重解像度 HOG [3]+Real AdaBoost,多重解像度 HOG の共起 [11] との比較を 行う.比較には Detection Error Tradeoff(DET) カーブ [13] に 量が選択され,上半身のように勾配が分散していると,低解像 度の HOG 特徴量が選択されている.今回作成したデータベー スの上半身画像は,肩のラインが性別,衣服,年齢によって差 異があったため,肩のラインの勾配の分布にばらつきがあった. よって評価を行う. 図 13 に実験結果を示す.図 13 では,提案手法が他の手法と 比べ,全体的に原点に近いことから検出性能が高いことわかる. 誤検出率 0.1%の未検出率を比較した場合,提案手法は従来法 である HOG の共起と比較して未検出率が約 15.0%向上してい る.これは,Real AdaBoost を用いることで弱識別器の出力が 連続値で表現することが可能となり,演算子で多様な特徴量の 低解像度画像からの HOG 特徴量は,広い範囲でヒストグラム をまとめることになるため,このばらつきを吸収することがで きたと考えられる.一方,頭部画像は勾配のばらつきが小さい ため,局所領域でも頭部のラインを捉えることができるため, 高解像度の HOG 特徴量が選択されたと考えられる. 6. お わ り に 捉え方が可能となったため検出率が向上したと考えられる. 本稿では,Boosting に基づく特徴量の共起表現法とそれを 用いた人検出法を提案した.提案手法は,low-level 特徴として HOG 特徴量を入力とした Real AdaBoost の弱識別器の出力で ある連続値と評価値を,演算子によって結合した共起特徴から Real AdaBoost を用いて人と人以外に判別する.共起特徴は, 複数の特徴を演算子により多様な捉え方で観測することが可能 な特徴量であるため,従来の共起を表現する方法よりも高精度 な検出が可能となった. 今後は,共起特徴に用いる演算子に差 (−) を加え,多クラス の識別に拡張する予定である. 文 図 13 DET による比較結果 図 14 に複数の場所において撮影した映像に対する人検出例 を示す.人同士の重なりによる隠れが発生しても,精度良く検 出できていることがわかる.さらに,頭部と上半身の形状を同 献 [1] P. Viola and M. Jones,“Robust Real-Time Face Detection”, International Journal of Computer Vision, 57(2), pp. 137154, 2004. [2] K. Levi and Y. Weiss,“Learning Object Detection from a Small Number of Examples: the Importance of Good Features.”,IEEE Computer Vision and Pattern Recognition, vol. 2, pp. 53-60, 2004. [3] N. Dalal and B. Triggs,“Histograms of Oriented Gradients 図 14 提案手法による人検出例 図 16 図 15 学習によって選択された HOG 特徴量の可視化 for Human Detection”, IEEE Computer Vision and Pattern Recognition, vol.1, pp. 886-893,2005. [4] B. Wu and R. Nevatia,“Detection of multiple, partially occluded humans in a single image by Bayesian combination of edgelet part detectors”, IEEE International Conference on Computer Vision, vol. 1, pp. 90-97, 2005. [5] P.Viola,M.Jones and D.Snow,“Detecting Pedestrians Using Patterns of Motion and Appearance”, IEEE Interna- 学習によって選択された HOG 特徴量の解像度 tional Conference on Computer Vision,pp. 734-741,2003. [6] N. Dalal, B. Triggs and C. Schmid,“Human Detection Using Oriented Histograms of Flow and Appearance”, IEEE European Conference on Computer Vision, vol. 2, pp. 428441, 2006. [7] 山内悠嗣, 藤吉弘亘,Hwang Bon-Woo,金出武雄,“アピアラ ンスと時空間特徴の共起に基づく人検出”, 画像の認識・理解シ ンポジウム (MIRU2007),pp. 1492-1497,2007. [8] C. Hou, H. Ai and S. Lao,“Multiview Pedestrian Detection Based on Vector Boosting”, Eighth Asian Conference on Computer Vision, vol. 1, pp. 220-229,2007. [9] T.Hastie, R.Tibshirani and J.Friedman, “The Elements of Statistical Learning - Data Mining, Inference, and Prediction”, Springer-Verlag, 2001. [10] R. E. Schapire and Y. Singer,“Improved Boosting Algorithms Using Confidence-rated Predictions”, Machine Learning, No. 37, pp. 297-336, 1999. [11] T. Mita, T. Kaneko, B. Stenger, O. Hori,“Discriminative Feature Co-occurrence Selection for Object Detection”, IEEE Pattern Analysis and Machine Intelligence,vol. 30, no.7,pp.1257-1269,2008. [12] P. Sabzmeydani and G. Mori :“Detecting Pedestrians by Learning Shapelet Features”,IEEE Computer Vision and Pattern Recognition ,pp1-8,2007. [13] 鷲見和彦, 関真規人, 波部斉,“物体検出 - 背景と検出対象の モデリング - ”, 情報処理学会研究会 研究報告 (CVIM2005), Vol.2005, No.88,pp. 79-98, 2005. [14] D.Comaniciu and P.Meer,“Mean shift analysis and applications”, IEEE International Conference on Computer Vision,pp.1197-1203,1999. [15] F. Porikli, “Integral Histogram: A Fast Way to Extract Histograms in Cartesian Spaces”, IEEE Computer Vision and Pattern Recognition,pp829-836,2005. [16] Caltech256,“http://www.vision.caltech.edu/ Image_Datasets/Caltech256/” 複数の特徴量間の関連性に着目した Boosting による物体検出 山内 悠嗣 † 藤吉 弘亘 † 山下 隆義 †,†† † 中部大学大学院 工学研究科 情報工学専攻 †† オムロン株式会社 技術本部 E-mail: †{yuu, hf}@vision.cs.chubu.ac.jp ,††[email protected] あらまし 本稿では,Boosting に基づく特徴量の共起表現法と共起特徴による人検出法を提案する.既に特徴量間の 共起を表現する手法として AdaBoost により 2 値に識別した符号を複数組み合わせる手法が提案され,顔検出において その有効性が確認されている.しかし,入力特徴がどちらのクラスとも言い難い場合にも 2 値に識別して共起を表現す るため,間違えた符号を組み合わせる問題がある.そこで,提案手法では Real AdaBoost の弱識別器が連続値である出 力を,演算子によって結合した共起特徴から Real AdaBoost を用いて人と人以外に判別する.共起特徴は,複数の特徴 を演算子により多様な捉え方で観測することが可能な特徴量であるため,従来の共起を表現する方法よりも高精度な検 出が可能となる.評価実験より,従来法と比較して誤検出率 5.0%において約 12.1%検出率を向上させることができた. キーワード 1 人検出,共起,Real AdaBoost,Histograms of Oriented Gradients はじめに へ大きい場合は検出対象である信頼性が低いことを表す. 画像中から自動的に人を検出する技術は,監視システム 我々は,弱識別器の出力を演算子によって組み合わせるこ や ITS など多岐に渡る分野で実現が期待され,近年最も とで共起特徴を生成する.提案する共起特徴は,複数の特 盛んに行われている研究のひとつである.近年の人検出法 徴量を演算子により多様な捉え方で観測することが可能で は,Viola と Jones が提案した顔検出 [1] に代表されるよ あるため高精度な検出が期待できる. うに low-level な特徴と統計的学習の組み合わせによる手 2 共起特徴による人検出 法が多い.人検出に有効な low-level な特徴量として,領 域の累積エッジ強度の比を特徴量とする Edge Orientation Histograms(EOH)[2] や,局所領域における勾配方向をヒ ストグラム化した特徴量である Histograms of Oriented Gradients(HOG)[3],エッジ同士をつなげた短い線,カー ブを特徴量として表現する Edgelet Feature[4] などがあり, 高い検出精度を達成している. さらに,検出精度を向上させるため,アピアランスとは 異なる特徴量の併用 [5][6] や特徴量の改良 [7],Boosting 手 法の改良 [8] などが提案されている.また,高精度な検出 には特徴量をどのように捉えるかが重要である.Mita et al. は,複数の Haar-like 特徴を用いて 2 値に識別し,2 値 の符号を組み合わせる Joint Haar-like 特徴 [10] を提案し た.この手法は,Viola と Jones の顔検出法 [1] と比較し て,大きく検出性能を向上させたが,選択された特徴量か らはどちらのクラスとも言い難い場合にも 2 値に識別する ため,間違えた符号を組み合わせる問題がある. Real AdaBoost の複数の弱識別器から得られる出力を演 算子により結合した共起特徴を提案する.図 1 に提案手法 の流れを示す.本研究は,画像中から検出ウィンドウをラ スタスキャンすることにより人の検出を行う.検出ウィン ドウより得られる HOG 特徴量から共起特徴を生成し,こ の特徴により人 (ポジティブクラス) とそれ以外 (ネガティ ブクラス) の判別を行う.本章では,low-level 特徴として用 いる HOG 特徴量について説明した後,提案する mid-level な特徴である共起特徴と Real AdaBoost による識別器構 築について説明する. 2.1 low-level 特徴:HOG 特徴量 Histograms of Oriented Gradients(HOG) 特徴量 [3] と は,局所領域における輝度の勾配方向をヒストグラム化し た特徴量である.近接画素の勾配を局所領域によってヒス トグラム化するため,照明の影響を受けにくく,局所的な 幾何学変化に頑健という特徴がある. そこで,本研究では Real AdaBoost[9] の弱識別器の出 まず最初に,各ピクセルの輝度から勾配強度と勾配方向 力を演算子によって結合した新しい特徴量間の共起表現法 を算出し,セル領域 (5 × 5 ピクセル) において,輝度の勾 と,共起特徴による人検出法を提案する.Real AdaBoost 配方向ヒストグラムを作成する.ただし,算出された勾配 の弱識別器の出力は,大量の学習サンプルを用いることで 方向は,0◦ − 360◦ となるが,0◦ − 180◦ に変換する.これ 統計的な信頼度を出力する.信頼度は,プラスの方向へ大 により,人の服装に対して影響されない勾配方向が得られ きい場合は検出対象である信頼性が高く,マイナスの方向 る.今回は勾配方向を 20◦ ずつに分割することにより 9 方 図1 提案手法の流れ プルの重み Dt (i) を加算することで,確率密度分布 W± を 作成することができる.1 次元ヒストグラムの BIN 数は, 学習サンプルの数に応じて適切な値にする必要がある.本 研究では,実験より 1 次元ヒストグラムの BIN の数を 64 とした.作成した確率密度分布 W± は,クラス毎の確率密 度分布の総和が 1 となるように正規化する. 次に,作成した確率密度分布 W± を用いて,Real Ad- 図2 aBoost の弱識別器の出力 h(x) を算出する.学習サンプル より得られる HOG 特徴量 x の値から,1 次元ヒストグラ ムの BIN の番号 j を算出し,それに対応した確率密度分 布 W± から弱識別器の出力 h(x) を次式より算出する. HOG 特徴量算出に用いる領域の構造 h(x) = 向の勾配方向ヒストグラムを得る.最後に,ブロック領域 (3 × 3 セル) 毎に特徴量を正規化して抽出する.ブロックは 1 セルずつ移動させながら HOG 特徴量の抽出を行う.検 出ウィンドウを 30 × 60 ピクセルに正規化した場合,3,240 個の特徴量が得られる. 2.2 共起特徴と Real AdaBoost による識別器構築 HOG 特徴量を用いて共起特徴を生成し,人とそれ以外 の判別をする最終識別器の構築を行う. 2.2.1 j 1 W+ + ln j 2 W− + (3) ここで, は分母が 0 の場合に計算不能になることを防ぐ ための係数である.本研究では,実験より = 0.0000001 とした. 算出した複数の弱識別器の出力 h(x) を用いて共起特徴 C を算出する.次式より N 個の弱識別器から得られる出 力を演算子により結合した共起特徴 C を算出する. C 共起特徴の算出 = N hn (x) (4) n=0 提案する共起特徴は,Real AdaBoost の複数の弱識別器 共起特徴 C は,弱識別器の出力の和であるため,複数の特 から得られる出力を演算子によって結合した特徴量である. 徴量を総合的に捉える特徴量となる.そのため,部分的な そのため,複数の特徴量を演算子により多様な捉え方で観 隠れやノイズ等の外乱の影響を受けた場合,HOG 特徴量 測することが可能であるため,単一の特徴のみでは識別困 を入力した場合でも,影響を受けなかった HOG 特徴量が 難なパターンに対しても高精度な検出が可能となる. クラスをよく表現していればそのクラスを反映した特徴量 共起特徴算出の方法について説明する.まず,HOG 特徴 となる.例として,2 個の HOG 特徴量から共起特徴を生 量 x を入力とした Real AdaBoost の弱識別器の出力 h(x) 成し,最終識別器の弱識別器の出力算出例を図 3 に示す. を算出するために,ポジティブクラスとネガティブクラス の確率密度分布 W+ ,W− を作成する.確率密度分布 W± は,1 次元のヒストグラムにより表現され,学習サンプル の重み Dt に基づいて次式より作成する. W+j = Dt (i) (1) Dt (i) (2) i:j ∈J∧yi =+1 W−j = 図3 i:j ∈J∧yi =−1 ここで,t は学習回数,i は学習サンプルの番号,j は 1 次元ヒ ストグラムの BIN の番号,yi はクラスのラベル y ∈ {1, −1} 2.2.2 HOG 特徴量による共起特徴の算出 特徴量の組み合わせ探索 を表す.学習サンプル i から特徴量を算出し,特徴量の値 上記で示した共起特徴は,複数の HOG 特徴量を入力と に対応する 1 次元ヒストグラムの BIN の番号 j へ学習サン した Real AdaBoost の弱識別器の出力の和により算出す る.その際に組み合わされる HOG 特徴量は,最もエラー の少ない特徴量の組み合わせが最適であるが,HOG 特徴 量の全組み合わせを評価するためには,学習に膨大な時間 が必要となる.本研究では効率的な組み合わせ探索を行う Sequential Forward Selection(SFS)[11] を用いる.この方 法は,はじめに最もエラーが少ない特徴量を 1 個選択する. 次に,エラーが最も少なくなるように別の特徴量を 1 個追 加する.これを N 個の HOG 特徴量を組み合わせる回数 繰り返し処理を行うことにより,効率的な特徴の組み合わ せを行う. 2.2.3 図5 Real AdaBoost による最終識別器の構築 DET カーブ 生成した共起特徴 C を用いて Real AdaBoost[9] により 最終識別器の構築を行う. 3 評価実験 本章では,提案する共起特徴の有効性を示すために,歩 行者検出実験により従来法との比較を行う. 3.1 データベース 図6 文献 [6] で用いられているデータベースを利用して実験 各学習回数において選択された HOG 特徴量 の可視化例 を行う.このデータベースには,屋外で撮影された映像か ら,人の全身を切り出すことで作成されている.背景や照 明,人の向き,人同士による画像中の重なりによる部分的 な隠れ,切り出す際の位置ずれなどを含んでいる.学習用 のポジティブサンプルは 2,053 枚,ネガティブサンプルは 6,253 枚,評価用のポジティブサンプルは 1,023 枚,ネガ ティブサンプルは 1,233 枚用意されている.図 4 に学習に 用いたサンプルの一部を示す. 示す.BJF1 及び RJF1 は,1 個の弱識別器が 1 個の特徴 量を用いることを表現し,BJF2 及び RJF2 は,1 個の弱 識別器が 2 個の特徴量を用いることを表現している.比較 には Detection Error Tradeoff(DET)[12] によって評価を 行う.DET とは,横軸に誤識別率,縦軸に未識別率を両 対数グラフによって表したものである.識別器のしきい値 を変化させることによって,誤識別率に対する未識別率の 比較を行うことが可能である. 表1 3.3 図4 3.2 学習用サンプルの一部 実験概要 識別に用いる特徴量の数と学習回数 手法 T N 全特徴量数 NR 500 1 500 BJF2,RJF2 250 2 500 BJF3,RJF3 167 3 501 BJF5,RJF5 100 5 500 BJF7,RJF7 72 7 504 実験 図 5 に実験結果を示す.DET カーブでは,原点に近い ほど検出性能が高いことを意味する.そのため,HOG 特 徴量+Real AdaBoost よりも共起を表現する手法の方が検 文献 [6] の評価用データベースを用いて,提案手法 (RJF) 出性能が高いことがわかる.共起を表現する方法において と HOG+Real AdaBoost(NR),特徴量として HOG 特徴 も,提案手法が従来の共起を表現する方法に比べ全体的に 量を用いた従来の共起表現法 (BJF)[10] の比較を行う.各 検出性能が高いことがわかる.誤検出率 5.0%における未 手法に用いる特徴量の数は 500 個選択した時点で学習を終 検出率の比較を行う.提案手法 N = 5 は,従来の共起表 了し,各手法においてほぼ同数の特徴量の数を用いて識別 現法 N = 7 よりも検出率が 12.1%向上している.これは, を行う.表 1 に,各手法における学習回数 T と 1 個の弱識 Real AdaBoost を用いることで弱識別器の出力が連続値で 表現することが可能となり,演算子で多様な特徴量の捉え 別器に用いる特徴量の数 N ,識別に用いた全特徴量の数を 図7 提案手法による人検出例 方が可能となったため,検出率が向上したと考えられる. 図 6(a) に全学習ポジティブクラスの平均勾配画像,図 6(a),(b),(c) に弱識別器 (N = 5) により各学習回数にお いて選択された HOG 特徴量の可視化例を示す.輝度が高 いほど Real AdaBoost において識別に有効な特徴量とし て選択されたことを表す.学習回数 1 回 (図 6(b)) では,人 の輪郭に沿った HOG 特徴量が選択されており,学習回数 3 回 (図 6(b)),学習回数 50 回 (図 6(c)) と比較して識別に 有効な特徴量として選択されていることがわかる. 3.4 ラスタスキャン方式による人検出 構築した検出器により人検出の実験を行う.人検出を行 うために,検出ウィンドウを画像左上からスケールを変化 させて複数回ラスタスキャンする.これにより,人のスケー ルが異なる場合でも検出可能となる.人として検出された ウィンドウは,最後に Mean Shift クラスタリングによる 検出ウィンドウの統合処理を行う [13].図 7 に複数の場所 において撮影した映像に対する人検出例を示す.図 7 から 高精度な人検出を行っていることがわかる.図 7(a),(b), (c) は各結果において未検出が多少あるが,人同士の画像 中における重なりによる隠れや人の素早い動きによるぶれ の影響だと考えられる.また,図 7(d),(e),(f) では,幾 つか誤検出がみられる.これは,low-level な特徴量として HOG 特徴量を用いているため,人に似た背景を人として 誤検出してしまうためである. 4 おわりに 本稿では,Boosting に基づく特徴量の共起表現法と共起 特徴を用いた人検出法を提案した.提案する共起特徴は, 複数の特徴を演算子により多様な捉え方で観測することが 可能な特徴量であるため,従来の共起を表現する方法より も高精度な検出が可能となった.今後は,共起特徴に用い る演算子に差 (−) を加え,多クラスの識別を検討する. 参考文献 [1] P. Viola and M. Jones,“Robust Real-Time Face Detection”, Trans. IJCV, 57(2), pp. 137-154, 2004. [2] K. Levi and Y. Weiss,“Learning Object Detection from a Small Number of Examples: the Importance of Good Features.”,Proc. CVPR, vol. 2, pp. 53-60, 2004. [3] N. Dalal and B. Triggs,“Histograms of Oriented Gradients for Human Detection”, Proc. CVPR, vol.1, pp. 886-893,2005. [4] B. Wu and R. Nevatia,“Detection of multiple, partially occluded humans in a single image by Bayesian combination of edgelet part detectors”, Proc. ICCV, vol. 1, pp. 90-97, 2005. [5] P.Viola,M.Jones and D.Snow,“Detecting Pedestrians Using Patterns of Motion and Appearance”, Proc. ICCV,pp. 734-741,2003. [6] 山内悠嗣, 藤吉弘亘,Hwang Bon-Woo,金出武雄,“アピ アランスと時空間特徴の共起に基づく人検出”, 画像の認識・ 理解シンポジウム (MIRU2007),pp. 1492-1497,2007. [7] C. Hou, H. Ai and S. Lao,“Multiview Pedestrian Detection Based on Vector Boosting”, Proc. ACCV, vol. 1, pp. 220-229,2007. [8] T.Hastie, R.Tibshirani and J.Friedman, “The Elements of Statistical Learning - Data Mining, Inference, and Prediction”, Springer-Verlag, 2001. [9] R. E. Schapire and Y. Singer,“Improved Boosting Algorithms Using Confidence-rated Predictions”, Machine Learning, No. 37, pp. 297-336, 1999. [10] T. Mita, T. Kaneko, B. Stenger, O. Hori,“Discriminative Feature Co-occurrence Selection for Object Detection”,IEEE Trans. PAMI,vol. 30,no.7,pp.12571269,2008. [11] S. D. Strearns, “On Selecting Features for Pattern Classifiers”, Proc. ICPR, pp.71-75, 1976. [12] 鷲見和彦, 関真規人, 波部斉,“物体検出 - 背景と検出対象 のモデリング - ”, 情処学 CVIM 研報, Vol.2005, No.88,pp. 79-98, 2005. [13] D.Comaniciu and P.Meer,“Mean shift analysis and applications”, Proc. ICCV,pp.1197-1203,1999. 複数の特徴量間の関連性に着目した による物体検出 藤吉 弘亘,山内 悠嗣,三井 相和,池村 翔(中部大学),山下 隆義(中部大学,オムロン株 式会社) ! !! ! " # "$ !!% " $ &' ( # ) ! '' ) %!% ( # * !$ ' # # &' ( # ! % + "* , % " + # %' % ( ! ' # !'!% # " ' # "! # " # %$ * キーワード:人画像解析,人検出, (,&' ( 特徴量,共起, -!% $ .% ,-!% / $ # " (" はじめに 近年,オフィスや家,公共施設などの空間において,そ の空間内の人の意図を理解し行動を支援する技術の実現が 期待されている.ジョージア工科大学の .) プロ ジェクト では,生活空間である家にカメラをはじめとす る数多くのセンサ群を埋め込み,01 時間を通して生活空間 における人の動きをセンシングする研究に取り組んでいる. また,リビングルームを対象とした # の 2 3$ のように,センシングにより得られた情報を 基に,ユーザである人に対して快適な空間をアシストする研 究が盛んである.このような活力生活技術は 434% # 3# %$ と呼ばれる技術の一環で,43 のた めのセンシング技術は,刻々と変化する人の状態を実時間 で認識する必要がある.特に,人画像解析 -!% $ .% として,動画像からの人の検出,追跡,顔の検 出,顔の部位の追跡,モーション理解が不可欠な技術要素 となる.中でも人検出は,人の形状変化が大きいため難し い問題とされている.しかし,近年のコンピュータの高速 化に伴い,画像全体に検出ウィンドウをラスタスキャンし, %)'%% な特徴量と統計的学習手法の組み合わせを用いる ことで,高精度に人を検出する手法が提案されている. 人検出に用いられる局所特徴には, ( $ # " (" 等のエッジベースの特徴量 が 多く提案され,高い検出性能を示すことが報告されている. 本研究の検出対象である歩行者の形状には,下記に示すよ うに大きく分けて 0 つの特徴がある. 5 頭から肩にかけての 6 に似た形状や上半身から下半 身にかけての連続的な形状 0 頭や肩,胴,足などの左右対称的な形状 5 に対しては,局所領域内の 1 方向のエッジ特徴を ."' &' ( # ' 7 により組み合わせることにより局所領域の面の情 報を表現した !% 特徴量 がある.0 に対しては, ."7 の弱識別器が複数の特徴量を同時に観測し,共 起を表現する & '% 特徴量 が提案されている. 両手法は,複数の %)'%% な特徴量をブースティングによ り組み合わせることにより特徴量間の関連性を捉えること ができ,高精度な検出が可能となる.そのため,特徴をど のように捉えるかが重要であるが,5 と 0 の両方の形状 特徴を捉えることができる手法は提案されていない. そこで,我々は物体形状の対称性や連続性を自動的に捉え ることが可能である &' ( 特徴量と 0 段階 ."7 による人検出法を提案した.&' ( 特徴量は,異なる 0 つの領域の ( 特徴量を ."7 により組み合わせ ることで,単一の特徴量では表現が困難な対称性や連続的 なエッジを 5 段階目の ."7 により生成することが可 能となる.生成された &' ( 特徴量を入力とした 0 段 階目の ."7 によって最終識別器を構築し,検出ウィ ンドウ内が人8人以外に判別する.本稿では,我々が取り組 んできた &' ( 特徴量による人検出法と特徴量間の共 起による効果について述べる. 局所特徴量とブースティング 従来の物体検出には,入力画像と背景画像の差分を計算 する背景差分ベースの手法が多く用いられてきた.このよ うな動体検出をベースとした動画像理解のアプローチは, 移動体同士が画像上で重なった場合にセグメンテーション に失敗するため,その後の処理である物体識別が不可能と なる問題がある. これに対して,9% と & は '% 特徴量と呼ば れる局所特徴量と統計的学習の組み合わせによる高速かつ 高精度な顔検出法 を提案した.この手法は,入力画像に 図 学習法と特徴量の変遷 対して検出ウィンドウをラスタスキャンし,."7 を 用いて検出ウィンドウ内の画像が顔8顔以外として判別する ため,前処理として動体検出を必要としない.顔検出の分 野では,ラスタスキャン方式による手法が多く提案され実 用化された.近年では,検出対象が顔から形状変化が大き いため検出がより難しいとされている人へと変わりつつあ る.本章では,近年の人検出のアプローチである局所特徴 量と統計的学習の変遷と, ( 特徴量を用いた人検出法 について述べる. 〈・ 〉 識別器と特徴量の変遷 物体検出に用いられ る特徴量は図 5 に示すように,第 5 世代の $%% な特徴量, 第 0 世代の %)'%% な特徴量,第 : 世代の "'%% な特 徴量に分けることができる.以下に各世代毎の特徴量につ いて述べる. 第 5 世代 物体検出に用いられる第 5 世代の特徴量は, 輝度分布や )% など画像全体から得られるものや, 形状の複雑度のような意味のある特徴量を研究者の経験に 基づき決定していた.第 5 世代の識別器としては,ニュー ラルネットワークが用いられており,次元数が大きな特徴 量では,ニューラルネットワークのサイズが大きくなり,構 築が困難となる.そのため,入力ユニットの数を小さくす る必要があり,低次元数の特徴量が用いられていた. 0 世代 0;;; 年以降に提案された第 0 世代では, '% 特徴量 や ( 特徴量などの %)'%% な局 図 は,第 0 世代の局所特徴量である $ # " (" ( が多く用いられている. ( 特徴量 は,局所領域における輝度の勾配方向をヒストグラム化し た特徴量であり,ある一定領域に対する特徴量の記述を行 う.そのため,大まかな物体形状を表現することが可能で あり,人検出 や車検出 等の物体検出に有効であ ることが報告されている. 〈・・ 〉 特徴量の算出アルゴリズム ( 特 徴量の算出は,画像から輝度勾配を算出し.次に,勾配強 度と勾配方向から輝度の勾配方向ヒストグラムを作成後に 正規化を行う.以下に ( 特徴量算出アルゴリズムにつ いて述べる. まず,各ピクセルの輝度から勾配強度 と勾配方向 を 次式より算出する. = > 5 = 0 = > 5 5 : = > 5 5 次に,図 0 に示すように,< < ピクセルをセルとした領 第 第 : 世代 第 : 世代 0;;< 年以降 では,第 0 世代の %)'%% 特徴量をブースティングの特徴選択を利用して組 み合わせ,識別に有効な関連性や共起性を表現した & '% 特徴量 や &' ( 特徴量 ,!% 特 徴量 などが登場した.これらは,%)'%% 特徴量である 第 0 世代の特徴量をベースとし,5 つ 5 つでは意味のない %)'%% な特徴量に対して,関連性を考慮することで何ら かの意味をもつ "'%% な特徴量に拡張している. 〈・〉 特徴と人検出 人や車等の物体検出に 所特徴量から,統計的学習法であるブースティングを用い て特徴選択を行うため,高次元 数千∼数十万パターン の 特徴量を扱うことが可能となった.これにより,第 5 世代 では研究者が特徴量を決定していたが,第 0 世代では研究 者の事前知識なく,多数の特徴量候補の中から有効な特徴 量を自動的に選択することができる. で用いる領域の構造 域において輝度の勾配方向ヒストグラムを作成する.輝度 の勾配方向ヒストグラムは,;Æ 5?;Æ を 0;Æ ずつに分割す るため,@ 方向の勾配方向ヒストグラムとなる. 最後に,各セルで作成した輝度の勾配方向ヒストグラ ムを : : セルを 5 ブロックとして正規化を行う. 行 列のセル の特徴量 @ 次元 を = A , , , B とすると, 番目のブロックの特徴量 ?5 次元 は 9 = A , , , , , , , , B と表すことができる.正規化 後の特徴量を としたとき,次式より正規化する. = 5 1 9 > 正規化は,図 0 のようにブロックを 5 セルずつ移動させ = ることによって正規化を行う.そのため,特徴量 は異な るブロックの領域によって何度も正規化される.入力画像 図 人検出における特徴量の捉え方 れらの特徴を捉えることで検出精度を向上させることがで きると考えられる.我々は,人独特の形状を捉えるために, 複数の ( 特徴量を組み合わせた &' ( 特徴量と, 0 段階に構築した ."7 による学習法 を提案した. 以下に,&' ( 特徴量について述べる. 図 特徴量による 段階 ! " # ! を :; C; ピクセルとした場合,各ブロックごとに正規化 された ( 特徴量は,:01; 個となる. 人は動きと 〈・・〉 ブースティングによる人検出 ともに形状が変化する非剛体な物体であるため,人の検出 は顔検出と比較して難しい問題である.また,オクルージョ ンの発生や衣服の違い,照明や影の影響も検出を困難とす る要因である.このような問題に対して,/%% 等により ( 特徴量と統計的学習手法を組み合わせた人検出法 が提案された. ( 特徴量は,照明の変動による影響が 少なく,局所的な幾何学的変化に頑健であるため高精度な 人検出を可能とした. 図 : に統計的学習手法である ."7 による ( 特徴量の捉え方を示す.学習後の ."7 の弱識別器に より 5 個の ( 特徴量が自動で選択され,最終的に多数 ある弱識別器の重み付き多数決により人と人以外に判別す ることが可能となる.このような識別器を画像左上から検 出ウィンドウをスケール変化させ複数回ラスタスキャンを 行い,各検出ウィンドウに対して人であるかを識別する.人 として識別されたウィンドウは,最後に # クラス タリング 等によるウィンドウの統合処理を行う. 特徴量と共起 人には,形状の左右対称性や連続したエッジがあり,こ 特徴 &' ( 特徴量は,二 〈・ 〉 つの局所領域内の複数の %)'%% な特徴量である ( 特 徴量を,."7 により組み合わせた "'%% な特徴量 である.&' ( 特徴量を用いた人検出は,&' ( 特徴量を入力とした 0 回目の ."7 により識別に有効 な &' ( 特徴量を自動的に選択して,最終識別器を構 築する 図 1.図 : に,."7 による &' ( 特 徴量の捉え方を示す. ( 特徴量では,5 個の弱識別器が 5 個の ( 特徴量を用いて識別したのに対し,&' ( 特徴量では,5 個の弱識別器が位置の異なる 0 つの領域内に 含まれる複数の ( 特徴量を用いて識別を行う.これに より,従来の単一の ( 特徴量のみでは捉えることがで きない物体形状の対称性や連続的なエッジを自動的に捉え ることができ,高精度な人検出が可能となる.図 < に人 の平均勾配画像,図 <, に ."7 により選択され た ( 特徴量を可視化した結果を示す. ( 特徴量の勾 配方向を @ 方向で表現しており,輝度が高いほど ."7 における弱識別器の重みが高いことを表す.5 段階目で選 択された ( 特徴量 図 < は全ての局所領域において 選択されているが,0 段階目で選択された ( 特徴量 図 < では,人の輪郭に沿った ( 特徴量が自動的に選択 され,高い重みを持つことがわかる. 〈・〉 多重解像度間の共起 人検出に有効な形状を &' ( 特徴量により捉えることで検出精度を向上させ ることができた.しかし,人の頭や肩などの形状は,特徴 を最も最適に表現することができる解像度が同一であると は限らない.そこで,入力画像の大きさを変えながら ( 特徴量を抽出することで,異なる解像度間の共起を表現す る.解像度を変化させることで,人の頭や肩などの部位毎で 最適な解像度の ( 特徴量を選択することができる.図 図 選択された 特徴量の可視化 $ %& 図 多重解像度 特徴量の共起 ' C に,多重解像度間の共起表現の流れを示す.まず,入力 画像から頭部と上半身にわけ,それぞれダウンサンプリン グすることで多重解像度画像を作成し, ( 特徴量を抽 出する.そして,各セルより得られた ( 特徴量を用い て &' ( 特徴量を計算する. 図 D,, は ."7 の各ラウンドにおいて選 択された ( 特徴量の可視化画像,図 D" は各学習ラ ウンドにおいて選択された ( 特徴量の累積を可視化し た画像である.特徴選択の傾向が出やすい学習の初めでは, 頭部は高解像度の ( 特徴量が選択され,上半身は低解 像度の ( 特徴量が選択されていることがわかる.これ は,学習サンプルの平均勾配画像からもわかるように,頭 部の勾配はばらつきが少ないため高解像度の ( 特徴量 が選択され,上半身のように勾配が分散していると低解像 度の ( 特徴量が選択されるためである.低解像度画像 からの ( 特徴量は,広い範囲でヒストグラムをまとめ ることになるため,このばらつきを吸収することができた と考えられる.また,0 回目の弱識別器では左頭部と右の 肩のライン,: 回目の弱識別器では右頭部と左の肩のライ ンを捉えている.これらのことから,多重解像度において 対称性を捉えることにより,部分的なオクルージョンに影 響を受けない特徴量が選択されている. &' ( 特徴量のフ 〈・〉 時空間特徴との共起 レームワークでは,人のアピアランスを表す ( 特徴量 図 ? に,他の特徴を追加することが可能である.我々 は,従来より動体検出に用いられてきた,時空間特徴に基 づく特徴量として図 ? に示すピクセル状態分析 -. の結果を加えることにより,さらに高精度な人検出を実現 図 ( 選択された 特徴量の可視化 %& 図 特徴とピクセル状態分析の例 ) *+ + , した .ピクセル状態分析とは,ピクセル状態の時間変化 をモデル化し,各ピクセルを背景と動状態,静状態に判別 する手法である.この時空間特徴とアピアランス特徴を図 : に示すように同時に捉える手法を示す.時空間特徴を " 図 選択された特徴量の割合 - . / 図 人検出例 *+ 図 0*# カーブ 0*# 1 加えることにより,人のアピアランスと動きの情報を捉え ることが可能となる.これにより,アピアランスの情報の みでは誤検出する人に似た物体に対して誤検出を抑制する ことができる. ."7 により選択された特徴量に着目するために,図 @ に各学習ラウンドにおける ( 特徴量と -. 特徴量の 選択された割合と,その際に選択された特徴量の可視化の 例を示す.初期ラウンドでは -. 特徴量が多く選択され, 学習ラウンド数が進むにつれて ( 特徴量が選択される 割合が多い.これは,まず物体の動きを表すことが可能な -. 特徴量により,大まかに人と人以外を判別し,この後 アピアランスの情報をもつ ( 特徴量を用いて,より細 かな識別境界を形成していると考えられる. 図 5; に本手法による人検出の例を示す.人の大きさの 変化や人同士の画像上での重なりによる部分的な隠れに対 しても高精度な人検出が可能である.図 55 に実験結果の /2 カーブを示す.従来人検出に用いられている ( 特 徴量のみよりも,&' ( 特徴量の方が識別性能が高い ことがわかる.また,人のアピアランス特徴と時空間特徴 量を同時に捉えることで,さらに高精度な人検出ができて いる.従来の ( 特徴量に比べて &' (>-. 特徴 量は,誤検出率 <*;Eにおいて検出率を @@Eまで向上させ ることができた. 〈・〉 デプス情報との共起 可視光カメラにより取 得した画像から人の検出を行う場合,オクルージョンや背 景のテクスチャの複雑さによって,人検出に有効なアピア ランス情報を取得することが困難となる場合がある.そこ で我々は,カメラから物体までのデプス情報を取得できる # %$ カメラ カメラ を用いた人検出を提 案している. カメラとは,カメラの周囲に付いた複数 の 32/ より照射される赤外光が物体に反射し,カメラで観 測されるまでの時間を計測することにより,物体までのデ プスを取得するカメラである.この カメラから得ら れるデプス情報と,アピアランス特徴を同時に捉えること により高精度な人の検出を行う.デプス情報を加えること により,."7 の弱識別器は物体と背景の距離関係と 物体のアピアランスを捉えることが可能となり,オクルー ジョンや背景の複雑さの影響を抑制することができる. デプス情報から得られる特徴量は,図 50 に示すように, 距離画像をセル分割し,注目セルの距離ヒストグラムと ? 近傍のセルの距離ヒストグラムとの 7 距離に よる類似度を算出し,各セルとの距離を特徴量とする.こ の特徴量は注目セルに対する近傍セルの相対的な距離関係 を表現した特徴量となっている.図 5: に,アピアランス情 報である ( 特徴量と距離ヒストグラムから得られる特 徴量の共起による人検出の流れを示す.これにより図 51 に 示すように,人の重なりがある場合でも高精度な検出が可 能となる. おわりに 本稿では,物体検出として局所特徴である ( 特徴量 と,図 5< に示すように,複数の ( 特徴量を組み合わせ た &' ( 特徴について述べた.これらの特徴を統計 的学習手法である ."7 を用いて学習することにより, 精度のよい人検出が可能であることを示した.また,時空 間特徴である -. 特徴量や距離ヒストグラム特徴量と共 起させることにより,さらに高精度な人検出を実現するこ $ $ 図 による共起特徴表現 ' 2, " 図 距離ヒストグラムから得られる特徴量 2 図 # カメラによる人検出例 *+ # ( ) (3) (1) (-) (>) (,) (.) 図 特徴量と距離ヒストグラム特徴量の共起 ' とができた.今後は,ブースティングにおける学習の効率 化について検討する予定である. 参考文献 ( ( 0) ( ) ( ) ( ) ) ( ) ( 3) ! " # $ %& ' ()*+ ,,-&,. /0012 4 5 6 # $78 9 7 : ; % <' ()*+ 1&-0 /0032 ! 6 + # = * $ 9 ; 7 ! (7& * ' ;(() .0&.> /0012 * 97? % = # * 7 9 <',()*+ , &,,/00>2. " = " 4@ $ #A &@ < < ' ;(() - .& -- /0012 * ) = A #+7 +&" < & ' ;A() 1>/2 >& 13 /0032 .9 ".4 # 78 ',()*+, >3-&>1 ,/0002. " = " 4@ ! 9 $ # & < (& 9 $78 & ',*=;, 0,.>,. 1>& -.,/00,2. " = 5 5 <8 # & 7 " 9 ! A $%' 99;; ; &0- /00,2 山内悠嗣,藤吉弘亘,!&6 ,金出武雄 「アピアラ ンスと時空間特徴の共起に基づく人検出」 画像の認識・理解シ ンポジウム /=;+B00>2 /00>2 < 5 9 + (@ 9 9 + 4& # & & $%&7 9)=' 6@ *=;9 & 30 /00-2 ( * = #= & ' ;A() .>& 0 ... アピアランスと時空間特徴を用いた 特徴による人検出 三井 相和,山内 悠嗣,藤吉 弘亘 中部大学) , , !" まえがき # 近年,人検出はセキュリティや ,マーケティング分野 などでの利用が期待されている.従来の人検出で用いられる では単一の特徴量であるため識別に困難なパターンが 存在する.そこで,本稿では,異なる つの領域の 特徴を により組み合わせた な特徴である 特徴を自動生成する手法を提案する. $%&" ' (! ) (! 特徴を用いた 段階 による人検出 特徴を生成するため,' 段階に ) *+& に提案手法の流れを示す. 提案手法では を構築する. (! を観測できるため,従来の単一の 特徴のみでは識別 困難なパターンも捉えることのできる 特徴を自動生成す ることが可能となる. 最終識別器 段階目で作成された 特徴 を入力とした 段階目の により,最終識別器を構 築する. & ' 人検出実験 /" アピアランス特徴である を用いる. (! 本手法では 特徴として, と時空間特徴である $%&" ,'" アピアランス特徴 * - $ %( $%"&" 特徴は .. ピクセルを & セルとした局所領域内 での勾配方向をヒストグラム化した特徴であり,物体の形状を 表すことが可能である. は照明の変化を受けにくく,局 所的な幾何学変化に頑健な特徴となる . $% *+'"" 時空間特徴 文献 /" により人検出において有効性が ,0 ,"'" 確認されたピクセル状態分析 : の結果を用いる.ピクセル状態分析とは,ピクセル状態の時間 変化をモデル化し,各ピクセルを背景,静状態,動状態の三状 態に判別する手法である .今回は,ピクセル状態分 析結果からセル領域ごとにピクセル状態ヒストグラムを作成す ることにより,時空間特徴となる特徴量を算出する. *+'"" ,$$1 データベースには文献 で用いたデータベースを利用し, 枚,学習用ネガティブサン 学習用ポジティブサンプルは プルは 枚,評価用ポジティブサンプルは 枚,評価 用ネガティブサンプルは 枚用いる. 52'.6 '23.4 &2333 &2'/4 特徴 特徴 ) 実験結果 /" 人の識別実験を行った結果を図 に示す.提案手法であ る 特徴は,特徴量を のみにした と比 較し,誤検出率 において,約 検出率を向上した. また と の共起 と比較し,約 検出率を向 上させることができ,検出率 を達成した.これは単一の特 徴量のみでは識別困難なパターンに対しても, 特徴を用 いることにより多様なパターンを捉えることが可能となったた めである.また, を用いることにより,人に似た形状,複 雑な背景に対して高精度な検出が可能となった.さらに, 段 階目の において学習ラウンド毎に選択された と の割合を調べたところ,学習の初期では が多く 選択され,約 ラウンド以降では が多く選択されてい る.これは,識別時において,まず物体の動きを表す に より大まかに人か人以外かを判別し,その後,詳細に識別境界 を形成するために が選択されたと考えられる. .+37 $% , $% /" 887 &3+57 $% '+'7 , ) , . まとめ $% , & $% , $% ' 複数の異なる特徴を組み合わせた 特徴と, 段階に構 築した による学習法を提案した.物体形状のアピ アランスと動きの情報を組み合わせることにより,高精度な検 出を実現することができた.今後は,提案した検出法を利用し た,人領域のセグメンテーションを行う予定である. ) 特徴 本手法は ' 段階に ) を構築する.& 段階目の ) により,領域の 異なる ' つの (! 特徴を組み合わせた (! な 特徴 ,$$1 を作成する.これにより,複数の (! 特徴 特徴: 特徴 文 献 , ! "#$% &$ '( )(* ( +# ,-,- . / 山内悠嗣 等,アピアランスと時空間特徴の共起に基づく人検出 ',0, 1. 付 録B 新聞記事 図 B.1: 日刊工業新聞 2007 年 (平成 20 年 10 月 1 日) 57
© Copyright 2024 Paperzz