CV輪講

輪講
伊原有仁
年月日
はじめに
近年，画像中からカテゴリ分類を行う一般物体認識が盛んに行われている．この問題は静止
画像中の物体を分類するため，画像中からあらゆる特徴量を抽出し扱うことが重要である．今
回は，を学習し，によって一般物体認識を実現する手法と
して， !"# の調査を行った．
提案手法で使用する画像データベースはで提供されている $%" 枚の画像
を用いる．このデータベースを学習用画像 &$'，検証用画像 "('，評価用画像 &$'とおおま
かに分ける．分類するクラスは，
，，，)，，*+，
，)，
，，*，,)，，，*，，，，，+，の -" クラ
スである．それぞれ与えられた色で画像のラベル付けを手作業で行う．ラベル付けを行った画
像を図 " に示す．ここで . 領域がでてくるが，クラスに属さないピクセルを . 領域とし
ており，学習やテストには使用されない．
図
" "
/ 0* 1 2 -((%
-
モデルの作成
各ラベルでセグメンテーションを行うために，
34 モデル !-# を
使用する．モデルを使用することで，，，
，
，の情報を "
つのモデルとして扱うことができる．ある画像とモデルパラメータ 3 4 を与え
たときのクラスのラベルをとすると，クラスラベルの条件付き確率は以下の式で表すこと
ができる．
3 4 5
3 6 4 7 3 6 4 7 3 6 4
3 3 46 4 3 4
7
¾
3"4
ここで，は繋がった格子内のエッジの組み合わせ， 3 4 は分布を正規化する関数，
は格
子内のノードをそれぞれ表す．式 3"4 の右辺の各項は左から，，
，
，
の確率である．
の確率の算出にはオブジェクトの情報を表現するために !&# の
出力を用いる．まず，学習用画像に対して "8 種類の 9
* を適用する．以下に 9
*
の詳細を示す．
/ の各空間において 5 " - & と変化させた : 9
の出力 3% 次元4
/ のみの空間において 5 " - & ; と変化させた /
: の出力 3& 次元4
/ のみの空間において 5 - & と変化させた，方向の .. : の出力
3& 次元4
9
* の出力に対してマハラノビス距離を用いた * クラスタリングを行い，
を作成する 3図 -34344．作成したから，を基にした
と，の情報を抽出する．抽出には， 9
を用いる． 9
は，ある
点 3図 -34 の十字4 を中心とする領域内の矩形領域 3白色4 がである面積を算出する．
矩形領域は，ランダムで領域を確保している．このとき，<
を用いることで効
率化を図っている．の面積をとすると，図 -34 では，
の出力 3
4 ，
の出力
3
4 (，
の出力 3
4 - となる．
上記
/ 0* 1 2 -((%
図
2
- 9
図
2 この特徴は，図 2 で示すように，の情報も含んでいる．そのため，図 234343=43=4 で示
すように，が表す領域の位置によって特徴量が変化する．以上のように抽出した特徴量
を用いて，を求める．
6 4 5 > 3 4
3-4
の算出にはマルチクラスの識別器を構築する !2# を用いる 3図 &4．これは，あ
3 るクラスに注目すると，残りのクラスに対してそれぞれ弱識別器を保持しており，弱識別器の
和が注目クラスとそれ以外のクラスを識別する強識別器となる．
図
&
識別器の共有 3文献 !2# より抜粋4
/ 0* 1 2 -((%
ここで，> 3 &
4 は，以下の式 324 のように算出される．
3 3 44
> 3 4 5
¼
3 3 44
3 4
5
3 4
5
324
¼
3 4
3&4
Æ 3 3
4 47
!
"
3$4
3 4 はクラスの強識別器，は弱識別器，¼ は全てのクラス，# は弱識別器の数，は
ピクセルを共有しているクラス，は特徴量を評価する閾値， 3
4 は位置における 9
の出力である．パラメータ，，は，以下の式で求める．
7
5 ??¾ ?? !! $ Æ Æ333
3
44 4 4
¾ ?
5 ?¾ ?? !! $ Æ Æ333
3
44 4 4
¾ 5 ?? !! $ 3@4
384
3;4
ここで ! は重み，$ はピクセルと正解データのクラスが合っている場合は " を返し，それ以
外の場合は" を返す．式 3$4 で求められた弱識別器の評価値は次の式で算出する．
% !"
5
! 3$ 344
3%4
次の式から重みの更新を行う．
!
5 ! 3"(4
以上の処理を繰り返すことで，あるピクセルにおけるクラス間の識別器を構築することができ
る．従って，ある位置におけるクラスのの確率は式 324 によって算出される．
には : を使用する．ピクセルの色の条件付き確率は以
下の式によって算出される．
34
5
3 4 3
A ? 4
3""4
ここで，はクラスタ，
A は平均，? は分散を示す．
3 6 4
3 4 5
& は (B"，! は 2 に設定した．
5
3 4 3
4
3 5 £4 3 4 7 3 47
Æ &
& 3"-4
3"24
/ 0* 1 2 -((%
$
連続するエッジである確率を算出する．算出には C モデルを基にした以下の式を用いる．
3 3
5
46 4 5
3
4Æ3 5 4
3' 4 "
3"&4
3"$4
ここで，，はピクセル 3 4 における色 32 次元ベクトル4 を表している．' は 3- ( 4 であり，( は画像における平均を示す．は検証用画像のエラーを最小にするパラメー
タを手動で決定する．
/ 3 6 4 は画像上の絶対位置におけるクラスラベルの弱い依存を表す．
3 6 4
5
3 D
4
3"@4
ここで，D
は異なるサイズの画像における正規化位置を示す． 3 D
4 は以下の式から得られる．
3 D
4 5
7 & 7 &
3"84
は，学習用画像の正規化位置 D
におけるクラスの画素数，は正規化位置 D
における全
ての画素数，& は " を用いる．
各ピクセルについて学習を行うと，大量のメモリが必要となる．そこで，E E のグリッド上
を計算することでコストを減らす．
処理と同様に各ピクセルで学習を行うため計算コストが掛かってしまう．図 $ に，
画像 "( 枚，矩形領域マスク "( 個，&(( 個のを使用してランダムに特徴量選択した方法
と，ランダム選択無しで処理を行った結果を示す．特徴量をランダムで選択すると，選択しな
いときに比べ，精度はあまり変化がみられないが，学習時間が高速になっている．
/ 0* 1 2 -((%
図
@
$ FG + によるセグメンテーション
&
を用いて式 3"4 を最大とするラベルを見つける．
結果と比較
!
図 @ に学習セットにおける弱識別器の数とエラー 34，弱識別器の数と精度 34 のグラフを示す．
-8@ 枚の学習用画像に対して，-" 個の識別クラス，学習回数 $((( 回，-B":HI，-: のメモリ
で行ったところ，特徴選択有りの場合，&- 時間，特徴選択無しの場合，"&((( 時間かかる．さ
らに <
によりメモリの抑制を行う．最大で 82'の精度が得られた．
図
@ 9
"# 図 8 に提案手法を用いて -" 個のクラスに分類した結果を示す．
/ 0* 1 2 -((%
図
8
8
セグメンテーション例
+
3 J 4
)+ )+ ;;B@' 8&B@' $J"( "-J2(
K+ 9 + ;$B@' @;B&'
H B!$# ;%B$' ;(B(' : :
H B!$# + 9 + ;-B&' @@B%'
表
"
セグメンテーションと認識の精度L速度比較
表 " に，提案手法と H らが提案した手法を用いて，)+ とデータベースを使用し
た結果を示す．K+ 9 + については良い結果が得られている．
図
;
セグメンテーション失敗例
/ 0* 1 2 -((%
;
図 ; にセグメンテーションに失敗した例を示す．
図
% -" 個のクラス毎の精度
図 % に -" 個のクラスにセグメンテーションしたときの精度を示す．全体の精度は 8-B-'であった．
図
"( と )+ のデータベースを用いた出力例
図 "( に異なるデータベース 3
と )+4 に対する出力結果例を示す．
/ 0* 1 2 -((%
図
""
%
異なるモデルを使用した出力例
図 "" に，異なるモデルを使用したときのセグメンテーション結果を示す．図 ""34 は入力画像，
図 ""34 は識別器のみを用いた結果，図 ""34 は色のモデル使用しない場合の結果，図 ""34 は
全てのモデルを使用した場合の結果である．
おわりに
と，そしてを同時に捉える特徴量の紹介，と区分的な学習
法を両方利用した効果的なモデルの学習法，と特徴量の共有を組み合わせるこ
とで効果的なラベリングを行った．
参考文献
!"# B B0 B BM N FO-((@B
!-# BG+ B
BC M
9
C
P N </ -((-B
!2# B QB+ 0BM Æ N CB <FFF OC -((&B
!&# B/ B
*BM I .
N <O -(("B
!$# RBH BBS
BCM
< /
N OC -((&B

Download Report