特徴選択と特徴空間

知的画像処理(5)
特徴選択と特徴空間
1
知的画像処理(5)
画像の処理工程
像
画
像
の
観
測
画
像
の
変
換
画
像
の
解
析
画
像
の
識
別
画像の表示
画
像
の
理
解
記
述
2
知的画像処理(5)
画像の識別処理
特徴選択
パターンの識別に用いる特徴を決定
特徴の評価基準の目安
:誤識別率との対応づけが容易であること
:パターン成分に関して線形性があること
:距離測度の条件を満たすこと
M
1つの特徴概念で,すべての目安を満たす
ことは困難.
3
知的画像処理(5)
特徴選択基準(1)
パターン間距離にもとづいた基準
パターン間類似度に基づいた基準
誤識別率に基づいた基準
M
選択された特徴
特徴ベクトルの分布
特徴ベクトル
特徴空間
識別の効率(識別率,計算時間等)を考慮した特徴空間
の構成が必要
4
知的画像処理(5)
特徴選択基準(2)
距離最小化基準
特徴評価基準の中で最も一般的.
クラス内距離が小さく,クラス間距離が大きくなる特徴を
選択すれば識別には有効
距離の種類
ユークリッド距離,
マハラノビス距離
未知パターン x , クラスタ C の平均と共分散行列m, M
d E2(x,C) = (x − m )T (x − m ):ユークリッド距離
d M2 (x,C) = (x − m )T M −1(x − m ):マハラノビス距離
5
知的画像処理(5)
6
2つのクラスタC1 , C2において
クラスタ中心m1 , m 2 ,
クラスタ共分散行列M1 , M 2 ,
であるとする.
このとき,ある点 xから各クラスタ中心までのユークリッド
距離d E2 ( x , C1 ), d E2 ( x , C2 )が等しい場合でも,クラスタ分散
M1 , M 2 , に応じて
d M2 ( x , C1 ) ≤ d M2 ( x , C2 )
あるいは,
d ( x , C1 ) ≥ d ( x , C2 )
2
M
となる.
2
M
あるクラスタがn個のd次元
列ベクトル xi (i = 1,...n)から
構成されているとき,この
クラスタの共分散行列Mは,
[
1 n
M = ∑ ( xi − xˆ )( xi − xˆ )T
n i =1
]
知的画像処理(5)
特徴選択基準(3)
類似度最大化基準
特徴 x と y の類似度
x
xT y
s[ x , y ] =
= cos θ
||x|| ⋅||y||
特徴選択基準
N
Ds = ∑
∑ ∑ s[ x, y]
i =1 x∈|Ci | y∈|Ci |
Ci (i = 1,...,N )
が最も大きくなるような特徴を選択.
θ
y
7
知的画像処理(5)
特徴選択基準(4)
誤識別率最小化基準
準備
特徴空間上のパターンクラス
パターン
識別規則
x = ( x1 , x2 ,..., xr )T
Ci , (i = 1, L, m)
⎛ δ1 ( x ) ⎞
⎜
⎟
δ ( x) = ⎜ M ⎟
⎜δ ( x) ⎟
⎝ m
⎠
δ i ( x ) : パターンxをクラスCiに属すると判定する確率
δ1 ( x ) + δ 2 ( x ) + ... + δ m ( x ) = 1
8
知的画像処理(5)
Ci に帰属するパターンが,δ によって C j に帰属する
とされる確率:
P (i → j; δ ) = E{δ j ( x) | Ci } = ∫ δ j ( x) p( x | Ci )dx
i ≠ jのとき,CiのパターンをC jと誤認識する確率.
x ∈ Ci が Ci 以外のクラスに誤識別される確率は,
m
P(i; δ ) = ∑ P(i → j; δ ),
j≠i
j =1
δ に基づく平均誤識別率は,
m
Pe (δ ) = ∑ P(i; δ )P(C i )
i =1
Pe (δ )を最小にするδ:ベイズの識別規則
9
知的画像処理(5)
(例)
次の非確率的規則 δ ∗ は,ベイズの識別規則である.
δ ( x) =
*
*
*
T
(δ1 ( x), δ 2 ( x))
⎧1,
=⎨
⎩0,
⎧1,
*
δ 2 ( x) = ⎨
⎩0,
δ1* ( x)
P(C2 ) p( x | C2 ) ≤ P(C1 ) p( x | C1 )
,
otherwise
P(C2 ) p ( x | C2 ) > P(C1 ) p( x | C1 )
otherwise
この規則は次のようにも表される.
p( x | C1 ) ⎧≥ P(C2 ) P(C1 ) ⇒ x ≈ C1
⎨< P(C ) P(C ) ⇒ x ≈ C
p ( x | C2 ) ⎩
2
1
2
10
知的画像処理(5)
11
特徴空間の次元数
目的に応じて特徴空間 の調整が必要
低次元化
(次元圧縮)
高次元化
φ3
d
φ1
φn
φ2
L
φ1
低次元特徴空間
(一次元空間)
線形分離困難さの増大
分類器の低コスト化
φ1
原特徴空間
φ2
φ3
φ4
高次元特徴空間
(無限次元空間)
線形分離可能性の増大
分類器の高コスト化
知的画像処理(5)
特徴空間の低次元化
特徴数を削減する必要がある場合,その方法としては
d次元原特徴ベクトルから,有用な成分を拾い出し,
~
d (< d )次元の新たな特徴ベクトルとして構成する。
~
ある基準に基づき, d次元原特徴ベクトルを ,d (< d )
次元数の特徴ベクトル に変換する。
特徴空間の変換
多くの場合,
y = AT x ,
A : 変換行列
と,線形変換として表現.ただし,xを原特徴ベクトル
~
(d次元),yを変換後の特徴ベクトル(d 次元)とする.
12
知的画像処理(5)
特徴空間の変換と次元削減(1)
特徴空間の次元削減の基準として,分散最大化基準と平均
二乗誤差最小化基準が一般的に用いられる。
いずれの基準に対しても,KL展開(主成分分析)による
特徴空間の変換と,それに基づく次元削減が行われる。
分散最大化基準:
変換後の部分空間においてパターン分布の分散が最大に
なるように変換する。
平均二乗誤差最小化基準:
変換前後の誤差の平均二乗誤差が最小になるように,
変換する
13
知的画像処理(5)
14
分散最大基準による次元削減
特徴ベクトル集合 X = { x1 , x2 ,L, xn }, xi ∈ R d
線形変換後の特徴ベクトル集合 Y = { y1 , y2 ,L, yn }, yi ∈ R
~
変換後のd (< d )次元部分空間を張る正規直交基底を
{ u1 , u2 ,L, ud~ }, ui ∈ R d , (i = 1,L, d~)
ϕ3
とすると,以下の関係が成り立つ.
⎧1, i = jのとき
ui u j = ⎨
⎩0, i ≠ jのとき
元の特徴空間から部分 空間への変換行列 A は,
A = (u1 , u2 , L , ud~ ) , AT A = I
~
である.ただし, Iはd 次元単位行列.
y3
~
d
X
ϕ2
y2
y1
ϕ1
知的画像処理(5)
•
•
•
部分空間 S1
部分空間 S 2
•
O •
M
15
知的画像処理(5)
1 n
m = ∑ xi ,
n i =1
n
1
~=
m
yi ,
∑
n i =1
とすると,
原特徴空間でのパターン平均,
部分空間での平均,
n
n
1
1
T
T
~=
=
=
m
y
A
x
A
m
∑
∑
i
i
n i =1
n i =1
従って,変換行列 A による部分空間での分散σ ( A)は
(
)(
n
T
1 n
1
T
T
~ )T ( y − m
~) =
(
)
( xi − m )
σ ( A) = ∑ ( yi − m
A
x
−
m
A
∑
i
i
n i =1
n i =1
((
))
)(
T
1 n
T
T
= ∑ tr A ( xi − m ) A ( xi − m )
n i =1
⎛ T1 n
⎞
T
= tr ⎜ A ∑ ( xi − m )( xi − m ) A ⎟ = tr AT ΣA
n i =1
⎝
⎠
(
)
(
)
)
16
知的画像処理(5)
17
前式のΣは,原特徴空間でのパターン集合の共分散行列で
1 n
Σ = ∑ ( xi − m )( xi − m )T
n i =1
分散を最大にする変換 行列 A を求める問題
(
max : tr AT ΣA
A
)
A A= I
T
subj.to
(
制約付最適化問題
)
L( A, λ ) = tr AT ΣA + λ ( I − AT A); ラグランジュ関数
∂L( A, λ )
= 0 ⇒ 2 ΣA − 2λA = 2( Σ − λI )(u1 ,L, ud~ ) = 0
∂A
∂L( A, λ )
= 0 ⇒ AT A = I
∂λ
最適化問題の解
det( Σ − λI ) = 0(固有方程式)の解と等価.
知的画像処理(5)
18
従って,共分散行列Σの固有値λ1 , L, λd (λ1 ≥ L ≥ λd )と,
対応する固有ベクトル u1 , L , ud は,Σui = λi ui と表される.
一方,Σui = λi uiの関係を行列表現すると
⎛ λ1
⎜
⎜0
Σ (u1 ,L, ud ) = (λ1u1 ,L, λd ud ) ⇒ ΣA = AΛ, Λ = ⎜
⎜
と表すことが可能.従って,
⎜0
⎝
T
T
A ΣA = Λ (Q A A = I )
(
0L 0 ⎞
⎟
λ2 L 0 ⎟
⎟
L
⎟
0 L λd ⎟⎠
)
これより,変換後の分散σ 2 ( A) = tr AT ΣA の最大値は
{
}
~
d
max σ 2 ( A) = max{ tr ( Λ)} = ∑ λi
i =1
~
共分散行列 Σ の大きいd 個の固有値に対応する固有ベクトル
u1 ,L, ud~からなる行列Aでの変換が分散最大化を達成する.
知的画像処理(5)
平均二乗誤差最小基準次元削減
変換行列Aによって変換した特徴ベクトルを,再度元の
特徴空間から眺めたときの,原特徴ベクトルとの平均
二乗誤差を最小化する
特徴ベクトル集合 X = { x1 , x2 ,L, xn }, xi ∈ R d
線形変換後の特徴ベクトル集合 Y = { y1 , y2 ,L, yn }, yi ∈ R
~
d
~
変換行列A, (d × d )による変換:yi = AT xi
特徴ベクトル yi を,原空間で展開した点を ~
xi とすると,
~
x = y u + y u + L + y ~ u~
i
i1 1
i2
2
id
d
= (u1 , L , ud~ )( yi1 , L , yid~ )T = Ayi
19
知的画像処理(5)
変換Aによる平均二乗誤差をε 2 ( A)とすると,
{
}
{
}
1 n
2
~
ε ( A) = E || x − x || = ∑ ( Ayi − xi )T ( Ayi − xi )
n i =1
2
{
}
1 n
= ∑ ( AAT xi − xi )T ( AAT xi − xi )
n i =1
{
1 n
T
= ∑ xi xi − ( AT xi )T AT xi
n i =1
{
}
}
1 n
T
T
= ∑ tr ( xi xi ) − tr (( AT xi xi A)T )
n i =1
= tr ( R) − tr ( AT RA)
1 n
T
ここで,R = ∑ xi xi : 自己相関行列.
n i =1
上記の平均二乗誤差の最小化問題
tr ( AT RA)を最大化する問題
20
知的画像処理(5)
自己相関行列Rと共分散行列Σの関係
1 n
Σ = ∑ ( xi − m )( xi − m )T = R − mm T
n i =1
Rの固有値:
λ1 ≥ λ2 ≥ L ≥ λd
対応する固有ベクトル: u1 , u2 , L, ud
~
~
このとき,d 個のλi , (i = 1, L, d )に対応する固有ベクトル
行列
A = (u1 ,L, ud~ )
は,平均二乗誤差最小基準を満たす変換行列となる.
最小誤差は
~
d
d
i =1
~
i=d
min{ε 2 ( A)} = tr ( R) − ∑ λi = ∑ λi
21
知的画像処理(5)
特徴空間の変換と次元削減(2)
特徴空間の次元削減のもう1つの代表的基準として,線形
判別基準(判別分析基準)がある。
この基準は:
特徴空間と各特徴のクラスが既知である場合,クラス内
分散とクラス間分散の比を最大にするというもの。
線形判別法(Linear Discriminant method)による変換:
KL展開がパターン全体の分布の最良近似を目的として
いるのに対し,線形判別は識別のためのクラス毎のパタ
ーン分離度を最大化することを目的とする。
特に,2クラスの分類を対象とした方法を,
フィッシャーの方法(Fisher’s method)と呼ぶ。
22
知的画像処理(5)
23
フィッシャーの線形判別法
d 次元特徴ベクトル x ∈ R d のクラス ωi , (i = 1,2)の変動行列
(scatter matrix )をS i ,平均ベクトルを miとすると,
Si =
T
d
R
x
−
m
x
−
m
x
∈
(
)(
)
,
∑
i
i
x∈ωi
1
mi =
ni
∑ω x,
x∈
niはωiのパターン数
i
さらに,クラス内変動行列(within - class scatter matrix) SWと
クラス間変動行列(between - class scatter matrix) S Bを,
SW = S1 + S2 = ∑∑ ( x − mi )( x − mi )T ,
i =1, 2 x∈ωi
n1n2
SB = ∑ ni (mi − m)(mi − m) =
(m1 − m2 )(m1 − m2 )T ,
n
i =1, 2
T
n = n1 + n2
知的画像処理(5)
フィッシャー法では, クラス間変動のクラス 内変動に
対する比を最大化する ように特徴空間を変換 する.
変換行列を Aとすると,
~ ~
変換後のクラス内変動 行列,クラス間変動行 列SW , S Bは,
ω1 : m1, S1
ω2 : m2 , S2
SW , SB
y = AT x
~
~ ~
SW = S1 + S1 = AT SW A
~
SB = AT SB A
T
T
~ =1
m
A
x
=
A
mi
∑
i
ni x∈X
~
SB
AT S B A
J S ( A) = ~ = T
の最大化
SW A SW A
24
知的画像処理(5)
J S の最大化問題:
~
制約条件:SW = AT SW A = Iの下で
~
S B = AT S B Aを最大化する問題
J ( A) = AT S B A − λ ( AT SW A − I )
をAで変分して0とおく。
( S B + S B ) A − λ ( SW + SW ) A = 0
T
T
S B , SW は対称行列
S B A − λSW A = 0
−1
( SW S B − λI ) A = 0 ( SW を正則とする)
−1
SW S Bは,
( d , d )次元の正方行列.この 行列から求まる固有値
λ1 ≥ λ2 ≥ L ≥ λd の中で,2クラス分類 問題で非零となるのは
λ1のみ.
変換行列Aは,固有値λ1に対応する固有ベクトル ∈ R d .
25
知的画像処理(5)
d次元特徴ベクトルのク ラスωi , (i = 1, L , c )に対する線形
~
判別法では, d (≤ c − 1)次元の特徴空間へ変換 される.
クラス内共分散行列を ΣW ,クラス間共分散行列 をΣ B
−1
とするとき,行列 ΣW Σ Bの固有値 λ1 ≥ λ2 ≥ L ≥ λd~に
対応する固有ベクトル 列を変換行列 Aとする.
多クラスへ拡張した線 形判別法:
正準判別法 (canonical discriminant method)
重判別法 (multiple discriminant method)
と呼ばれる.
26
知的画像処理(5)
特徴空間の比較
(例)2つの異なる2次元正規分布
各1000点
C1
C2
27
知的画像処理(5)
28
分散最大化基準に基づく特徴変換
1
m=
n1 + n2
∑x
x∈C1 +C2
Σ X = E{( x − m)( x − m)T }
1
T
=
(
−
)(
−
)
x
m
x
m
∑
n1 + n2 x∈C1 +C2
( Σ X − λI )φi = 0
Φ = (φ1 , φ2 )
変換式:y = Φ T x
φ2
φ1
知的画像処理(5)
29
線形判別分析基準に基づく特徴変換
ω1 : m1 , S1
ω2 : m 2 , S 2
SW = ∑i =1, 2 ∑ x∈C ( x − mi )( x − mi )
i
n1n2
SB =
(m1 − m 2 )(m1 − m 2 )T
n
T
( SW−1 SB − λI )ai = 0
A = (a1 )
変換式:y = AT x
線形判別空間
a2
a1
知的画像処理(5)
特徴変換後の第一成分軸への射影
LDAによる変換
ヒストグラム
PCAによる変換
ヒストグラム
30
知的画像処理(5)
31
特徴空間の高次元化
特徴ベクトルが非線形な構造を有する場合,その解析は
困難.
特徴ベクトルの高次元空間への非線形写像
非線形な相関解析が可能
(例)2次元特徴ベクトル: x = ( x1 , x2 )T
2次式による非線形写像(5次元特徴化)
x = ( x1 , x2 )T
⇒ X = ( x1 , x2 , x1 , x1 x2 , x2 )
2
2
一般に,
原空間: m次元 d次式の非線形写像
(m + d − 1)!
膨大な計算量が必要
写像空間の次元数:
d!(m − 1)!