画像解析論(10) 画像解析論(10) -最適化の基礎- 東京工業大学 長橋 宏 主な講義内容 • 最適化と画像処理 • 最適化手法の三要素 • 確率と乱数 • 勾配法 • EMアルゴリズム 1 画像解析論(10) 2 最適化に基づく画像処理の必要性 理由 ビジョン問題では,観測時の雑音やオクルージョンに 起因する不確かさが存在し,完全に正確な解を得るこ とは困難. 多くのビジョン問題が最適化問題として 定式化される 画像解析論(10) 3 画像処理の最適化と統計的手法 画像処理における最適化とは,ある基準に基づいて 最も良く目的を達成することを目指すもの. 統計的画像処理とは,画像の表現に統計モデルを導入し, そのモデルパラメータを最良推定することで,結果とし て目的とする画像を得る手法. 統計的画像処理手法では,MRFやGRFによるモデル化 がしばしば利用される. 画像解析論(10) 最適化手法における三要素 1.問題の表現 どんな特徴で解を形式化(表現)するか 2.目的関数 最適化をどのように基準化するか 3.最適化アルゴリズム どのようにして最適値を探索するか 4 画像解析論(10) 目的関数の形式化 表現のスキーム 最適化アルゴリズム •目的関数とその最適化法とは密接に関係. •目的関数としては,エネルギー関数や(対数) 尤度関数, 事後確率など. •最適化手法には様々な方法があって,それぞれ特徴あり. 5 画像解析論(10) 最適化基準 データ分布のみがあり、推定量の事前情報がない 最大尤度 (maximum likelihood)推定 逆の場合 最大エントロピー (maximum entropy)推定 推定量の事前情報とデータ分布がともに既知 Bayes基準 最大事後確率(maximum a posterior : MAP)推定 最大事後確率平均(maximum a posterior mean : MPM)推定 6 画像解析論(10) エネルギー関数 エネルギー関数の役割 1.解の大局性を定量的に表現. 2.最小解に対する探索の指針を提供. エネルギー関数の定式化 パラメトリックな表現 ノンパラメトリックな表現 基本的方法 最小解 f * : 関数形式 E とパラメータ に依存 f * arg min E ( f | d , ) f d は観測データ 7 画像解析論(10) 事象・集合・確率 ・ある操作を行うこと: 試行 ・試行によって起こる事柄: 事象 ・基本的な事象の1つ1つ: 根元事象 ・根元事象全体の集合: Ω={1 , 2 , n } ・試行の結果起こる事象A: A Ω ・2つの事象AとBが同時には起こらないとき,A B と書き,2つの事象は互いに排反であるという. ・根元事象は互いに排反である. n( A) ・事象Aの確率P( A) ; n( Ω ) P( Ω ) 1 P( ) 0 n( A) : 事象Aの要素の数 8 画像解析論(10) Bayesの定理 H n (n 1,, n) : 排反、網羅的な事象系列 E : 任意の事象 P( H n | E) P( E) P( E | H n ) P( H n ) P( H n , E) 従って、P( E ) 0が与えられると、 P( H n ) P( E | H n ) P( H n | E ) P( E ) P( E | H n ) P( H n ) P( E | H m ) P( H m ) m P( E | H n ) P( H n ) 9 画像解析論(10) 確率変数と確率分布 『例』サイコロ サイコロを振る操作:試行 いずれかの目が出る:根元事象 根元事象に割り当てられた数値:実現値{1,2,3,4,5,6} 試行にともなって出る目を表す変数 X:確率変数 確率変数Xの実現値が離散的:離散的確率変数 連続的:連続的確率変数 10 画像解析論(10) 離散的確率分布 離散的確率変数の各実現値の得られる確率が既知の とき P ({i ; X (i ) xi }) P ( X xi ) Pi , n P 1, i 1 i Pi:確率関数 と表し,確率変数 X に確率分布が与えられている という. 11 画像解析論(10) 連続的確率分布 確率変数Xの実現値xが連続な場合,実現値の微小区間を 考え,Xの実現値がこの間に入る確率を次のように表す. P( x X x x) p ( x)x p ( x)を確率密度関数といい, p ( x)dx 1 (累積)分布関数 F(x) F ( x) Pi 離散的確率分布 xi x x F ( x) p( x)dx 連続的確率分布 12 画像解析論(10) 正規分布 ある連続的確率変数Xが平均 , ,分散 2の正規分布に 従うとき, P( X x) p( x) 1 e ( x ) 2 / 2 2 2 であり,x ~N ( , 2 ) と表す. 2 中心極限定理 同一の分布に従う,互いに独立なN個の離散的確率変数 X 1,X 2, ,X N の和で表される確率変数の分布は,適当な 変数変換と N で,正規分布N (0,1)となる. 13 画像解析論(10) 14 標本抽出と母集団 • 全体から選び出されたもの:標本 • 標本の背後に存在する全体:母集団 • 母集団から標本を抽出する操作:標本抽出 大きな母集団から x1 , x2 ,, xnという値の標本をサンプリング : 母集団と同じ確率的構造をもつ,互いに独立な n個の 確率変数X 1 , X 2 ,, X nが,それぞれ x1 , x2 ,, xn の実現 値を持つことと同等。 互いに独立で同一な確率分布に従うn個の確率変数: i.i.d.(independently and identically distributed)な確率変数 画像解析論(10) 乱数発生法 • 一様乱数 :: メルセンヌ・ツイスタ法 M.Matsumoto and T.Nishimura, Mersenne twister: A 623 dimensionally equidistributed uniform pseudorandom number generator, ACM Trans. on Modeling and Computer Simulation,1998 • 正規分布乱数 :: ボックス・ミューラ法 2個の一様乱数𝑟1 , 𝑟2 から,正規分布𝑁(0,1)に従う2個の正規 乱数𝑧1 , 𝑧2 を以下の式で発生. 𝒛𝟏 = (−𝟐 log 𝑟1 )𝟏/𝟐 ∙ cos(2𝜋𝑟2 ) 𝒛𝟐 = (−𝟐 log 𝑟1 )𝟏/𝟐 ∙ sin( 2𝜋𝑟2 ) 𝑵(𝝁, 𝝈𝟐 )に従う乱数は,変換𝝃𝒊 = 𝝁 + 𝝈𝟐 𝒛𝒊 で発生可能. • その他の分布の乱数 :: 棄却サンプリング、SIR、MCMC等の方法で発生 (rejection sampling or acceptance - rejection method) 15 画像解析論(10) 16 非線形最適化問題 単峰性関数最適化 問題の分類 制約なし最適化 多峰性関数最適化 非線形最適化問題 等式制約下での最適化 制約つき最適化 不等式制約下での最適化 手法の分類 最急降下法 勾配法 Newton法 非線形最適化手法 共役勾配法 シンプレックス法 直接探索法 実数値GA 画像解析論(10) 制約なし非線形最適化問題 〔問題1〕 minn : f ( x ) xR ここで、 f は Rn上で定義される非線形関数. f ( x * ) f ( x) for x R n が成り立つとき、 x* を〔問題1〕の大域的最適解 (global optimal solution)という。 f ( x* ) f ( x) for x N ( x* , ) {x | || x* x || }; x*の近傍 が成り立つとき、 x* を 〔問題1〕の局所的最適解 (local optimal solution)という。 17 画像解析論(10) 最適性条件 (仮定)f : R n Rは2階連続微分可能とする. f ( x) 0 を満たす点 x : f の停留点(stationary point) 点 xが 問題1の局所的最適解ならば,f ( x ) 0. f が凸関数であるとき,点 x が 問題1の大域的 最適解であるための必要条件は,f ( x ) 0 . 18 画像解析論(10) f(x) O A, B, C, D:停留点 (stationary point) A, C:局所的最適解 (local optimal solution) C:大域的最適解 (global optimal solution) A B C D x 19 画像解析論(10) 降下方向 f ( x )T d 0なるベクトル d を、 点 x における f の降下方向と言う. (n, n)の正定値対称行列Bに対して d ' Bf ( x ) とすれば、 f ( x )T d ' f ( x )T Bf ( x ) 0 となる. 従って、d ' Bf ( x ) は降下方向条件を満たす. 特に、Bが単位行列のとき、 d ' f ( x ) を最急降下方向 (steepest descent direction) と言う. 20 画像解析論(10) 降下方向の例 ∇f(x(0)) x(0) d(1) =-B(1)∇f(x(0)) d(2) =-B(2)∇f(x(0)) -∇f(x(0)) 21 画像解析論(10) 22 勾配法の概要 Step1: 初期探索点 x ( 0 )を選択.k 0 Step2 : 適当な正定値対称行列B ( k )で降下方向d ( k )を決定. d (k ) Bf ( x ( k ) ) Step3 : ステップ幅a ( k )を決定. 直線探索 a ( k ) arg min f ( x ( k ) ad ( k ) ) a を解き、x ( k )を更新. x ( k 1) x ( k ) a ( k ) d ( k ) Step4 : f ( x ( k 1) ) 0であれば探索終了. そうでなければ k k 1としてStep2へ. B(k)が単位行列のとき,最急降下法(steepest descent method) 画像解析論(10) 最急降下法の収束性 d (3) x ( 4) x (3) ( 2) d x (1) d ( 0) d (1) x ( 2) d ( k ) f ( x ( k ) ) x ( 0) 23 画像解析論(10) 24 ニュートン法 最初に,目的関数として狭義凸2次関数を考える. 1 T V: positive definite and f ( x ) x Vx c T x c0 2 symmetric f ( x ) Vx c, 2 f ( x ) Vより,最適解 x *は x V 1c ( 2 f ( x )) 1 c ここで,B ( 0 ) V 1 ( 2 f ( x ( 0 ) )) 1とおけば,初期点x ( 0 ) に対し, d ( 0 ) B ( 0 )f ( x ( 0 ) ) V 1 (Vx ( 0 ) c ) x * x ( 0 ) よって,目的関数が凸2次関数であれば, x (1) x ( 0 ) d ( 0 ) x (step size : 1) となり,次の探索点を決定すれば,1回の試行で 最適解 x が求まる. 狭義凸2次関数以外に対しても一般的に, d ( k ) (2 f ( x ( k ) ))1 f ( x ( k ) )で降下方向決定 Newton法 画像解析論(10) ニュートン法の概要 Step1 初期探索点 x ( 0 )を選択.k 0 Step2 正定値行列 B( k ) を,B ( k ) (2 f ( x ( k ) ))1とし, d ( k ) (2 f ( x ( k ) ) 1 f ( x ( k ) ) とする. Step3 ステップ幅を, ( k ) 1 として, x ( k 1) x ( k ) ( k )d ( k ) Step4 f ( x ( k 1) ) 0であれば探索終了. そうでなければ,k k 1 としてStep2へ Step3で,ステップ幅を ( k ) arg min f ( x ( k ) d ( k ) ) と直線探索 : 直線探索付きニュートン法 25 画像解析論(10) 修正ニュートン法 最適解近傍は凸2次関数で近似可能であり、探索が 進めばニュートン法は効率的.しかし,( 2 f ( x)) 1 の 存在が保証されない. 2 f ( x)の対角要素に適当な値を加え、正定値化した 行列を作成. 修正ニュートン法(Levenberg-Marquart法) d (1 ) f ( x ここで, 0 1 (k ) 2 (k ) ) I 1 f ( x ( k ) ) ニュートン法と最急降下法の混合. ヘッセ行列の計算が重い. 26 画像解析論(10) 27 ニュートン法 最急降下法 d ( k ) f ( x ( k ) ) d ( k ) (2 f ( x ( k ) ))1f ( x ( k ) ) 修正ニュートン法 d (k ) (1 ) f ( x 2 (k ) ) I 1 f ( x ( k ) ) 画像解析論(10) 28 Fletcher-Reeves法(共役勾配法) Step1 初期探索点x ( 0)を選択. d ( 0) f ( x ( 0) ), k 0 Step2 f ( x ( k ) ) 0ならば終了. (k ) T (k ) f ( x ) f ( x ) ( k 1) (k ) (k ) d f ( x ) d ,k 1 ( k 1) T ( k 1) f ( x ) f ( x ) Step3 ステップサイズの決定 ( k ) arg min f ( x ( k ) d ( k ) ) を解き, 0 x ( k 1) x ( k ) ( k ) d ( k ) , k k 1 とする. Step2へ戻る. 画像解析論(10) 等式制約の下での最適化 〔問題4:等式制約〕 minn f ( x) subj.to gi ( x) 0 (i 1,, m) xR ラグランジュ関数 〔問題4:等式制約〕のラグランジュ関数は m L( x, λ) f ( x ) i g i ( x ), i 1 i (i 1,, m) : ラグランジュ乗数 29 画像解析論(10) ラグランジュの未定乗数法 〔問題4〕のラグランジュ関数がx とλで局所的 最適解を持つための必要条件は, x L ( x , λ) x x , λ λ 0 , λ L ( x , λ) x x , λ λ 0 m x L( x, λ) x x , λ λ f ( x * ) *i g i ( x * ) 0 i 1 λ L( x, λ) x x , λ λ ( gi ( x * ), i 1,, m)T 0 KKT条件と等しい. 30 画像解析論(10) 31 ラグランジュ未定乗数法(最小化問題)の例 min f x12 x22 x32 x1 , x2 , x3 subj.to 6 x1 2 x2 4 x3 42 ラグランジュ関数は, L( x1 , x2 , x3 , ) ( x12 x22 x32 ) (6 x1 2 x2 4 x3 42) 最適性条件より 2 x1 6 x L 2 x2 2 0, L 6 x1 2 x2 4 x3 42 0. 2x 4 3 が得られる.各変数をで表し,制約式に代入すれば, 3 2 .従って,最適解は ( 9 2 , 3 2 ,3),最適値は 63 2 . 画像解析論(10) EMアルゴリズム (Expectation Maximization) EMアルゴリズムとは,不完全データから最尤推定値を 求める理論的な枠組み. (1977, Dempster, Laird, Rubin) 不完全データとは,欠損値を含むデータだけではなく, 本来観測できない変数(隠れ変数や潜在変数)を含めた データの総称 観測データ集合𝐷,隠れ変数集合 𝑍,モデルパラメータ 𝜃 とすると,対数尤度関数 𝐿(𝐷, 𝜃)は L( D,θ ) log p ( D | θ ) log p ( D, Z | θ ) EM法では,対数尤度関数の代わりに,次に示す条件付 き期待値を逐次的に最大化する. 32 画像解析論(10) 33 Q(θ | θ (t ) ) EZ {log p ( D, Z | θ ) | D, θ (t ) } (隠れ変数による平均) P( Z | D, θ (t ) ) log p ( D, Z | θ ) Z 𝜽に関して以下のように逐次的に𝑸の最大化を行う. 𝜽 ∶ パラメータ変数 𝜽(𝒕) : 𝒕回目の繰り返しにおける各パラメータの値 EMアルゴリズム Step1. 初期値 (0)を設定し,t 0とする. Step2. 収束するまで以下の処理を繰り返す. E - step : Q( | (t ) )を計算. M - step : (t 1) arg max Q( | (t ) )とし,t t 1とする. θ Q関数の最大化 対数尤度の最大化(最尤法) 画像解析論(10) 画像の統計モデル m個の正規分布の混合分布 として画像が存在(仮定) 1次元度数分布 𝑑次元空間での分布 多次元混合正規分布モデル m p ( x | θ ) i N ( x; μi , Σ i ) i 1 34 画像解析論(10) 正規混合分布の最尤推定 (Gaussian Mixture Model : GMM ) 正規混合分布:m個の正規分布の混合からなる分布 m m i 1 i 1 p( x | θ ) i N ( x; μi , Σ i ), ただし, i 1 N ( ; μ, Σ )は,平均ベクトルμ R d , 共分散行列Σ R d dを 持つ多次元正規分布. N ( x; μ, Σ ) (2 ) d / 2 |Σ| 1 / 2 1 exp{ ( x μ)T Σ 1 ( x μ)} 2 観測データ集合D { x j }Nj1 から,最尤法によって 未知パラメータθ { i , μi , Σ i }im1を推定する問題. 35 画像解析論(10) 36 EMアルゴリズムによるGMM推定 隠れ変数zi Z {z j }Nj1は,観測データxiがどの混合成分から 発生したのかを示す指標で, {1,, m}のいずれかの値をとる. (t ) (t ) p ( x , z i | θ ) p ( x , z i | θ ) (t ) n n n n P( zn i | xn , θ ) m (t ) (t ) p( xn | θ ) p ( x , z i | θ ) n n i 1 p ( x n , z n i | θ ) i N ( x n ; μi , Σ i ) より, (E step) m N Q(θ | θ ) P( z n i | x n , θ (t ) ) log p (x n , z n i | θ ) (t ) i 1 n 1 i(t ) N ( x n ; μi(t ) , Σ i(t ) ) i 1 n 1 m (t ) log{ N ( x ; μ , Σ )} i n i i (t ) (t ) N ( x ; μ , Σ j 1 j n j j ) m N 画像解析論(10) 37 m M - step:等式拘束条件( i 1)つきQ( | (t ) )の最大化. i 1 ラグランジェの未定乗数法による解法 m G (θ , ) Q(θ | θ ) ( i 1) として(ラグランジェ関数) (t ) i 1 θ G (θ , ) |θ θ* ,λ λ* 0, G (θ , ) |θ θ* ,λ λ* 0 を満たす( * , * )を求める. これを各成分毎に表すと, Q( | (t ) ) Q( | (t ) ) G ( , ) 0, 0, 0 1 i i i が条件となる. 画像解析論(10) 38 以上のことを踏まえると,以下の更新式が得られる。 ( t 1) i 1 (t ) Ni Σ i( t 1) 1 (t ) Ni μ N (t ) P ( z i | x , θ ) xn , n n n 1 N (t ) ( t 1) P ( z i | x , θ ) V , n n ni n 1 (t ) N i(t 1) i N ただし, Vni( t 1) ( x n μi( t 1) )( x n μi( t 1) )T , N N (t ) i P( zn i | xn , θ (t ) ) n 1 i( 0 ) , i( 0 ) , i( 0 )に適当な初期値を与え,上記反復処理を実行. 画像解析論(10) 39 付録 画像解析論(10) 直線探索(line search) 〔直線探索問題〕 min f ( x0 d 0 ), 0 x2 x0 このような1次元変数の最適化 d0 問題を解いてステップサイズ を決定することを,直線探索 (line search)と呼ぶ. x1 f ( x0 d 0 ) この直線探索問題を厳密に とくことは一般的には困難. 効率的な近似解法. 黄金分割法 40 画像解析論(10) 41 黄金分割法(golden section method) 最小点 x*の存在区間を狭めるため には,少なくとも区間内の2点の 関数値が必要. 縮小された区間内には1点残る ので,この点を再利用. 最小点存在区間の幅を一定の比率 τで減らすためには、右図より (1 ) (1 ) A P B 黄金分割比 : AB PA 1 AP BP 1 1 (1 ) この方程式の正の根は 5 1 x1 x* x2 0.618 (黄金分割比) a 2 N回の評価で区間幅は(b a) N 1に縮小 b 画像解析論(10) 黄金分割アルゴリズム (Step0) a (0) α, b(0) b, k 0, ' 1 . (Step1) compute the following x1( k ) , x 2( k ) . x1( k ) a ( k ) ' (b ( k ) a ( k ) ) (1) x 2( k ) b ( k ) ' (b ( k ) a ( k ) ) (2) (Step2) if f ( x1( k ) ) f ( x 2( k ) ), then { a ( k 1) x1( k ) , b ( k 1) b ( k ) , x1( k 1) x 2( k ) , k k 1, compute x 2( k ) by eq.(2) } else { b ( k 1) x 2( k ) , a ( k 1) a ( k ) , x 2( k 1) x1( k ) , k k 1, (Golden section) compute x1( k ) by eq.(1) } (Step3) if x1( k ) x 2( k ) is sufficient ly small, then { set f ( x1( k ) ) to the minimum and terminate.} else {goto Step2.} 42 画像解析論(10) 43 凸集合 (convex set) 集合F R nが 数学的 基礎-1 x1 , x 2 F , 1 , 2 R : 1, , 0 1 x1 2 x2 F 1 2 1 2 (convex set) を満たすとき,Fは凸集合. 正定値行列 (positive definite matrix) n次実正方行列Aに対して,任意のx ( 0 ) R n が x T Ax 0 のとき,Aは正定値. (positive definite) 半正定値行列 (positive semi-definite matrix) n次実正方行列A,任意のx ( 0 ) R n に対して, (positive semi-definite) x T Ax 0 のとき,Aは半正定値. 勾配ベクトル (gradient vector) f f f T f ( x ) ( , , ) x1 x2 xn 画像解析論(10) 44 テイラー展開1 (first order Taylor expansion) 関数f , その勾配fの間に次式の関係が成り立つ 数学的 0 1, f ( x d ) f ( x ) f ( x d )T d 基礎-2 T f ( x d ) f ( x ) f ( x ) d o( d ) ヘッセ行列 (Hessian) 2 f 2 Hf ( x ) f ( x ), (Hf )ij xi x j (i, j 1, n) テイラー展開 2 (second order Taylor expansion) 関数f , fのヘッセ行列の間に次式の関係が成り立つ 1 T T 0 1, f ( x d ) f ( x ) f ( x ) d d Hf ( x d )d 2 1 2 f ( x d ) f ( x ) f ( x )T d d T Hf ( x )d o( d ) 2 画像解析論(10) 凸関数 (convex function) 45 実数値関数 f に対し,集合 ( x, y ) R n R | y f ( x ) 数学的 が凸集合のとき,関数 f は凸関数(convex function). 基礎-3 凸関数の性質 (property of a convex function) f が凸関数のとき,fの定義域の2点 x1 , x2 ,任意の 0 t 1に対して,点(1 t ) x1 t x2は定義域に含まれ, (1 t ) f ( x1 ) t f ( x2 ) f ((1 t ) x1 t x2 ) である. 狭義凸2次関数 (strictly convex quadratic function) 対称正定値行列V R nn , c R n , c0 Rによって 1 T f ( x ) x Vx c T x c0 2 と表される f を,狭義凸2次関数と呼ぶ. f ( x ) Vx c, 2 f ( x ) Vであり,最適解x は, x V 1c 画像解析論(10) ベクトルの内積の微分 a , x R n , A R nnとするとき, (a x ) a T x x T a 数学的 基礎-4 これより,aが定数ベクトルの場合 (a T x ) ( x T a ) a x x 行列との積の微分 f1 ( x ) Ax , f i ( x )はスカラ関数 f ( x) n f1 f1 f1 xn x1 x2 Ax A x f n f n f n x x xn 2 1 46 画像解析論(10) 47 𝑓 𝒙 = 𝒙𝑇 𝑨𝒙の微分 数学的 基礎-5 f ( x )はスカラ関数であり,以下の関係が成り立つ. f ( x ) x T ( Ax ) ( AT x )T x f ( x )をベクトルxの合成積と考え,積の微分を適用する. この際,第1項目のxに関してはAxとの内積と考え, 第2項目のxに関してはAT xとの内積と考える. これにより, f ( x ) ( x T ( Ax )) (( AT x )T x ) ( A AT ) x x x x もし,Aが対称行列であれば f ( x ) 2 Ax x 画像解析論(10) 𝒙𝑇 𝑨𝒙 = 𝑡𝑟(𝑨𝒙𝒙𝑻 )の検証 数学的 基礎-6 a11 a12 として x ( x1 , x2 ) , A a21 a22 a11 a12 x1 a11 x1 a12 x2 T ( x1 x2 ) x Ax ( x1 x2 ) a21 a22 x2 a21 x1 a22 x2 a11 x1 x1 a12 x1 x2 a21 x1 x2 a22 x2 x2 T a11 a12 x1 a11 a12 x1 x1 x1 x2 ( x1 x2 ) Axx a21 a22 x2 a21 a22 x1 x2 x2 x2 a11x1 x1 a12 x1 x2 a11x1 x2 a12 x2 x2 a21x1 x1 a22 x1 x2 a21x1 x2 a22 x2 x2 T tr ( Axx T ) a11 x1 x1 a12 x1 x2 a21 x1 x2 a22 x2 x2 48 画像解析論(10) (tr ( AB )) について A (tr ( AB )) BT A が言える. ( x T Ax ) について A x T Ax tr ( Axx T )の関係より, ( x T Ax ) (tr ( Axx T )) ( xx T )T xx T A A 49
© Copyright 2024 Paperzz