知っておきたいキーワード 第 86 回 Keywords you should know. 局所画像特徴量 〜 SIFT, HOG を題材に〜 逸† 庄 野 †電気通信大学 大学院情報理工学研究科 "Local Features in Image; Using HOG and SIFT" by Hayaru Shouno (Graduate School of Informatcs and Engineering, University of ElectroCommunications, Tokyo) キーワード:局所画像特徴量,HOG, SIFT 局所画像特徴量とは = 重なりが少ない 局所特徴検出 (Haar Detector) 縦成分が少ない ディジタル画像を取り扱う場合,処 重なりが多い うに表現するかということが問題にな 縦成分が多い 横向き特徴 = 理目的にもよりますが,画像をどのよ る場合があります.ここでは,パター 縦向き特徴 ン認識や位置合わせなどに用いられる HOG( Histograms of Oriented 斜め向き特徴 Gradients)と SIFT(Scaled Invariance Feature Transform)と呼ばれる特徴量 について考えてみます.これらの特徴 図 1 局所特徴量の考え方 量は 2000 年位から提案されはじめ, 表 1 局所特徴量の用途など 現在においてもさまざまな拡張が提案 照明の影響 回転の影響 拡大縮小の影響 Haar ○ × △ 顔などの特定の形状 HOG ○ × × 大まかな形状を把握したいとき SIFT ○ ○ ○ 細かい特徴の把握 されていますが,写真の中に写ってい るものを機械に判別させたいなどの問 題を, とりあえずやってみる とい 用 途 う立ち位置で研究・開発を始めるの に,コストパフォーマンスが良いと考 することもできます.このように 1 ピ で表現することを表した図です. えられています. クセルや画像全体といった極端な領域 Haar 特徴は画像から,縦成分,横成 ディジタル画像はピクセル値の集合 からではなく,画像の一部の領域から 分,斜め成分を取出すために用いられ なので,画像内に含まれる物体を探し 計算できる抽出できる量を局所特徴量 ます.図では Lenna 画像に対し,縦 たり,識別したりするには,適切な表 と呼びます. 成分の Haar 特徴が,何処に,どのく 現が必要です.この画像表現を得るこ 画像全体を一度に眺めるのではな らい含まれるかを模式的に表してお とを特徴抽出などと呼びます.例えば, く,小さな(エッジ成分のような)特 り,帽子のエッジが縦にたった場所で ピクセル値をそのまま並べた数値ベク 徴で分類しようという試みは,画像を は,Haar 縦成分の特徴とよく重なっ トルを特徴と捉えることができるし, Wavelet 形式で表現する考え方に似て ているため,縦成分が大きな値をもち 画像全体に含まれるピクセル値の平均 います.図 1 は,Lenna という画像を ます.逆に帽子の上の部分では,横向 値をもとめ一つの値を,画像の特徴と 用いて,HaarWavelet と呼ばれる特徴 きのエッジが強く,Haar縦成分の 256 (72) 映像情報メディア学会誌 Vol. 67, No. 3, pp. 256 〜 258(2013) 知っておきたいキーワード 局所画像特徴量 〜 SIFT, HOG を題材に〜 応できるもの,② 物体が画像内の移 す.HOG や SIFT の比較的詳しい説明 動に関して対応できるもの,③ 物体 は,藤吉 1)などによって詳しく述べら の拡大・縮小などに対応できるもの, れているので,ここでは,そのエッセ 満たしているのが望ましい条件は,① などが考えられます.このような特徴 ンスの部分を述べたいと思います. 環境の変化(環境光の違いなど)に対 量として HOG や SIFT が使われていま 特徴と重なる部分が少ないため縦 成分の値は小さくなります. 物体識別のような問題を考えた時に HOG HOG は物体検出のための局所特徴 2) 配の方向をヒストグラムで表現しま 大きさに依存します.図では,9 方向 す.すなわち,セル内部でのエッジ成 のヒストグラムと,3 × 3 の大きさを 分がどちらの方向を向いているかを得 ブロックとしていますので,一つのセ 量として提案されており ,非常にポ ていることになります.さらに,ブロ ルが持つ特徴量は 9 ×(3 × 3)=81 次 ピュラーな特徴量として認知されてい ック内でヒストグラムの数値を正規化 元となり,画像全体の大きさは ます.HOG は,その名前のとおり局 することで,あるセルに対する HOG 256 × 256 なので,画像全体では, 所的な画像勾配をヒストグラム化する 特徴量が得られます.図では,Lenna セルの個数は 16 × 16 個で,近傍がな ことで,画像を表現する特徴量です. 画像を 16 × 16 の大きさのセルに分割 い画像端の部分のセルを考慮に入れな 計算アルゴリズムとしては, した HOG を考えており,ちょうど右 ければ,(16 − 2)2 × 81=15876 次元 (1)輝度勾配の算出 眼に当たるところのセルを中心とした のベクトルで表すことになります. (2)局所ヒストグラム化 ブロックを拡大表示しています.ブロ (3)局所ブロックによる正規化 HOG は,写真中の対象物体の大き ック中央の右眼に該当するセルでは, さ変化や回転の変化などには弱いです からなります.図 2 は HOG の基本的 さまざまな方向のエッジ成分を持って が,おおよそ,大きさが定まっている な考え方を表現したものです.画像を, いることがわかりますが,中央のセル 物体や,対象が一定の枠内に写ってい 適当な大きさの セル と呼ばれる領 の左斜め上のセルでは,帽子にかかる る画像等では,照明の変化などに強い 域に分割し,この領域内から特徴量を 成分からπ/4 の勾配強度が非常に強 特徴と考えられており,Dalal らは 求めます.また,セルの近傍のセル領 く出ていることがわかります.一つの HOG を人物検出の手法として用いて 域は ブロック と呼ばれます.HOG セルが持つ特徴の次元数は,ヒストグ 良好な成果を得ています 2). では画像の勾配を求め,セル内部の勾 ラム化した際の方向数と,ブロックの 5 5 5 10 10 10 15 15 5 10 15 ブロック 10 10 15 10 15 10 15 5 5 10 10 10 15 15 15 10 15 5 10 15 15 5 5 5 10 15 10 15 5 5 5 10 15 セル 15 5 5 5 5 10 15 5 原画像 I(u,v) 勾配画像 m(u,v) セル分割 0.2 0.1 0.1 15 0 0 5 5 10 10 10 15 15 15 10 15 10 15 5 10 15 15 10 15 5 5 5 10 5 5 10 15 0 10 5 15 0.1 1 2 3 4 5 6 7 8 9 0.3 10 15 10 10 15 1 2 3 4 5 6 7 8 9 0.4 15 5 0 0.2 10 15 0 0.3 15 10 0.2 0.1 0.4 10 5 0.2 0.1 0.2 5 5 0.3 0.2 0.3 5 5 0.4 0.3 0.4 5 10 15 0.4 0.3 5 1 2 3 4 5 6 7 8 9 10 15 ブロック内の原画像 5 0.4 1 2 3 4 5 6 7 8 9 0.1 1 2 3 4 5 6 7 8 9 0 0.4 0.4 0.4 0.3 0.3 0.3 0.2 0.2 0.2 0.1 0.1 0 0 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 0.1 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 HOG特徴 Vi 10 15 ブロック内の勾配強度画像 図 2 HOG 特徴量の計算手法 SIFT 大きく分けて特徴点の検出と特徴量の 記述します. 記述の 2 段階からなります.特徴点の 図 3 は,SIFT 記述子を取得する流れ 検出では,スケールの異なる平滑化画 を表しています.まず,原画像をさま 経つ技術で 3),現実的な特徴抽出技術 像の差分から画像特徴と思われる点 ざまなスケールで平滑化を行います. として広く受け入れられています(た (キーポイント)を決定します.その 図では Gaussian フィルタの広がり だし特許が取得されているので利用に 上で,各キーポイントの周りで周辺の σ をスケールパラメータとして平滑化 は注意が必要です).SIFT の処理は, 画像の勾配情報を用いることで情報を のスケールを上から下へ徐々に SIFT も,提唱されてすでに 10 年程 (73) 257 知っておきたいキーワード 局所画像特徴量 〜 SIFT, HOG を題材に〜 大きくしていってます.もっとも イントが持つ情報としては,画像上の す.キーポイントの方向を計算するこ 大きい平滑化領域では,非常にぼやけ 座標値だけでなく,どの位の大きさに とは,取出した特徴を特定方向に揃え た画像になっていることがわかります. わたって変化しているかというスケー て考えることができることを意味しま ル情報を得ることができます. す.すなわち画像が回転した場合でも, 次に,各スケール間で差分(Difference 図 3 中央の Lenna 画像に,SIFT 特 of Gaussian: DoG)を取ることで,画 特徴の形状に変化がない限り同じもの 像の変化(物体と背景の境界など)が, 徴点をスケール情報を加えて表示して どこに現れているかを算出します.こ います.図中の円の半径がスケール情 キーポイントの方向を決定できれ の時,さまざまなスケールで計算する 報を表し,どのくらいのスケールで特 ば,この方向にそって,スケールに応 のが重要で,どのくらいの大きさの領 徴が存在しているのかがわかります. じた格子を考え,各格子内部に含まれ 域で変化が見えるのかを算出すること SIFT 特徴は,このキーポイントの る勾配を HOG の時と同様にヒストグ 周りでの画像勾配を記述することで得 ラムとして考えることで,SIFT 特徴 この変化が極大となる点が,SIFT られます.まず,キーポイントのスケ 量を得ることができます. の特徴点(キーポイント)候補となり ール円内部の画像勾配に重みを付けて 通常,SIFT 特徴は 4 × 4 の格子を考 ます.この点を探索するために, 平均をとることで,キーポイントがど え,その格子内部の勾配を 8 方向のヒ DoG 画像を並べ,画像の(u, v)軸だ ちらの方向を向いているかを算出しま ストグラムとして表現するので,各キ けでなく σ l 方向を含めた空間で極値 す.図中では,円の中心から伸びる線 ーポイントにつき(4 × 4)× 8=128 探索を行います.したがって,キーポ 分がキーポイント方向を示していま 次元の特徴量が得られます. が重要となります. と捉えることができるわけです. σ1 σ1 − σ2 σ2 σ3 − σσ4 − 0.2 0.1 0 u 0.2 0.1 0 極値 探索 v 0.2 0.1 0 σ3 原画像 I(u, v) σ4 σ5 − l D(u, v, l) SIFT 特徴点 特徴点周りの (キーポイント) 勾配情報の算出 ヒストグラム化 0.2 0.1 0 12345678 12345678 12345678 12345678 0.2 0.1 0 0.2 0.1 0 0.2 0.1 0 0.2 0.1 0 12345678 12345678 12345678 12345678 0.2 0.1 0 0.2 0.1 0 0.2 0.1 0 0.2 0.1 0 12345678 12345678 12345678 12345678 0.2 0.1 0 0.2 0.1 0 0.2 0.1 0 0.2 0.1 0 12345678 12345678 12345678 12345678 SIFT 記述子 σ5 σ6 − ガウシアン平滑化 (x, y) *I(u, v) Q(u, v, σ)=GσI ガウシアン差分画像 DoG D(u, v, l)=Q(u, v, σI+l)−Q(u, v, σ) 図 3 SIFT 特徴量の計算手法 む す び 局所特徴量は比較的単純な計算手 おり,計算機があれば比較的簡単に SURF などがあります 6).これにより, 試すことができます 4).一方の SIFT 読者の皆さんが,なにかに使ってみ は,Lowe によって書かれたでもコー ようという気になっていただければ 続きで得ることができます.HOG の ドが Web サイトから入手できます . 実装は,OpenCV などに移植されて パテントフリーな局所特徴量として 参 考 文 5) 献 1)藤吉弘亘: Gradient ベースの特徴抽出: SIFT と HOG ,情処研報, CVIM-2007-87(2007) 2)N. Dalal and B. Triggs: "Histgrams of oriented gradients for human detection", International Conference on Computer Vision & Pattern Recognition, 2, pp.886-893(June 2005) 幸いです. しょうの (2012 年 12 月 11 日受付) はやる 庄野 逸 1994 年,大阪大学大学院基礎工 学研究科博士前期課程修了.1994 年,大阪大学 基礎工学部助手.2000 年,奈良女子大学助手. 2001 年,山口大学工学部助教授.2008 年より, 電気通信大学大学院情報理工学研究科准教授.視 覚神経回路モデル,ニューラルネットワークモデ ル,医療画像処理などの研究に従事.博士 (工学). 3)D.G. Lowe: "Distinctive image features from scaleinvariant key points", 60, pp.91-110(2004) 4)http://opencv.willowgarage.com/ 5)D.G. Lowe: "Demo software", Sift keypoint detector, http://www.cs.ubc. ca/˜lowe/keypoints/ 6)http://www.vision.ee.ethz.ch/˜surf/ 258 (74) 映像情報メディア学会誌 Vol. 67, No. 3(2013)
© Copyright 2024 Paperzz