RCMCTZ+Ryumin-Light-90msp-RKSJ

29
第 4 章 基礎としてのパターン認識
画像認識はパターン認識の主要な分野である。従って、視覚システム (一般に認識シス
テム) の新たな方式を考察するためには、その基礎となるパターン認識の基本的な枠組
を理解しておく必要がある。本章では、まず、これまで著者が行なってきたパターン認
識の理論、特に特徴抽出理論 [4, 6, 8, 10] の要約を踏まえて、基礎としてのパターン認識
の一般的・原理的な枠組と手法について解説する。
4.1
一般的な枠組
パターン認識とは、画像や音声などの物理的な信号の観測を通して、外界の連続・多
様な対象や環境を「類型的なもの」
(パターン)に要約し、概念(カテゴリ)に対応付け
て理解することである。これは、あまねく、外界とインタラクトする生物の知的能力の
根幹をなしている。従って、その工学的実現は、様々な知的活動の支援や代替(知的シ
ステム)の基礎として重要であり、幅広い応用の基盤技術となる。そのため、古くから
研究され [1, 2, 34, 25]、1 つの大きな研究分野となっている。
パターン認識では、一般に時空局在的な関数 f で表される信号としてのパターンから、
認識に有効な何らかの特徴値(一般に関数の関数としての汎関数 xi = φi [f ] )を複数抽
出して(従ってベクトル x で表現して)認識を行なう。通常、これは図 4.1 に示すよう
に、「特徴抽出」と「認識」の 2 段階処理の枠組として考えられている。
図 4.1: パターン認識の一般的な枠組(通常)
認識は、特徴空間 F に分布する連続なパターン x の分布領域を分割し、それぞれの領
域を類(カテゴリ)として概念に対応させる決定過程であり、連続を離散に対応させる写
像(量子化)である。認識には、識別と類別とがある。識別(classification/recognition)
は、入力パターンが既知の概念 Ck のいずれであるかを判定することであり、学習段階
で概念の答えが与えられる意味で「教師有り (supervised) 学習」と呼ばれる、通常のい
第 4 章 基礎としてのパターン認識
30
わゆる狭い意味でのパターン認識である。一方、類別(clustering/cognition)は、
「教師
無し (unsupervised) 学習」と呼ばれ、入力パターンとして似ているもの同士を同一視し
て同じ類(概念)とし、対象を幾つかの類に別けて区別して認知することである。
識別に関しては既に多くの手法が提案されているが、誤識別率最小の意味で最適な識
別方式は、入力 x を事後確率 P (Ck |x) が最大となる概念 Ck に決定するベイズ決定方式
であることが既に理論的に知られている [34]。従って、その意味では、前段の特徴抽出
が認識システムの性能を左右する要件として重要であるが、これまで認識課題に応じた
様々な ad hoc、あるいは heuristic な手法が提案されてきた。
4.2
特徴抽出(幾何学的側面と統計的側面)
著者は、特徴抽出の理論的な研究を行なってきた [4, 8]。特徴抽出の原理的な枠組とし
ては、幾何学的な側面としての「不変特徴抽出」と、統計的な側面としての「判別特徴
抽出」があり、この順序でこれら 2 段階からなる特徴抽出が原理的に重要である。従っ
て、この理論から帰結されるパターン認識の一般的な枠組は、図 4.2 のようになる。
図 4.2: パターン認識の一般的な枠組(詳細)
4.2.1
不変特徴抽出(幾何学的側面)
パターンとしての観測像 f は、対象と認識主体との相対的な位置関係や運動により、
平行移動、大小伸縮、回転など、様々な連続な幾何学的変換(一般には射影変換)を受
けているが、認識結果はそれらに依らず不変である。通常、位置合わせなど、パターン
の正規化処理を前処理として行なうが、不変特徴抽出理論では、パターン関数 f に作用
するそれらの概念対応を変えない幾何学的な変換(不変変換と呼ぶ)を作用素 T (λ) で
表し、そのもとで不変な特徴値、従って不変汎関数 x = Φ[f ] を直接追求する [27, 29]。
Φ[T (λ)f ] − Φ[f ] = 0
(4.1)
Lie 群論に基づく作用素解析から、必要十分条件として導かれる偏微分方程式の基本解
として、与えられた不変変換に対する不変特徴が求まる [27, 29, 4, 8]。これにより、パ
ターンは、認識に無関係な情報を捨象し認識に本質的な特徴として、理想的には、不変
特徴ベクトル空間の 1 点 x として統一的に捉えられる。
4.3. 不変特徴抽出の理論
4.2.2
31
判別特徴抽出(統計的側面)
しかしながら実際のパターンは、多様な変形やノイズを含み、概念のクラス Ck 毎に
確率的な分布 p(x|Ck ) に従い分布する。次段の判別特徴抽出理論では、不変特徴ベクト
ル x から次元を縮小した新特徴ベクトル y への写像 y = Ψ(x) を考え、概念クラスの判
別など、y に関する評価基準を最適化する最適写像を求める。線形写像の場合は、いわ
ゆる多変量解析 [19] (例えば判別分析)となり、ある種の非線形写像の場合が、ニュー
ラルネット [12, 13] やカーネル法である [15, 16]。
究極の最適非線形判別写像は、実は、変分法を用いて次式で陽に求められる [4, 8, 22]。
y = ΨN (x) =
K
X
P (Ck |x) ck
(4.2)
k=1
この結果は、パターン判別がベイズ事後確率 P (Ck |x) と密接に関係し、パターン認識の
背後のベイズ推定の本質的な枠組を示唆している。ここに ck は、写像先 Y での各概念
を代表表現するベクトルであり、非線形判別分析の場合、元の空間 X での概念クラス間
の推移確率行列の固有ベクトルとして求まる。得られる最適判別空間の次元は、本質的
にクラス数から決まり、K −1 次元となることがわかる。
実際の応用においては、これらの理論的な枠組を踏まえて、実用ニーズに照らした適
切な簡略化が必要である。
4.3
不変特徴抽出の理論
文字・画像や物体などの外界の対象は、視覚系において網膜上の 2 次元像(濃淡画像)
f (x, y) として捉えられ、様々な特徴抽出を経て認識される。パターンとしての観測像 f
は、対象の空間的な位置や運動により、平行移動、大小、回転など、種々の連続な幾何
学的変換を受けているが、これらの変換に関わらず我々は対象がパターンとして何であ
るかを認識し(パターン認識)、同時にそれがどのように変換を受けているかを認識する
ことができる。従って、このような変換(パターンとしての認識を不変に保つ意味で不
変変換と呼ぶ)に不変な対象の形(構造)の認識と変換(運動)の認識が可能であるた
めには、どのような特徴量を観測像から抽出すればよいかという問題を理論的に考察す
ることは、画像のみならずパターン認識一般の基礎として重要である。これは特徴抽出
の幾何学1) 的側面である。
パターン認識では、古くから平行移動に対する不変特徴として、パターンの自己相関
関数、もしくはそのフーリエ変換としてのパワースペクトルが知られている。また、画
像の受けるその他の不変変換(一様伸縮、回転などのアフィン変換)に対する不変特徴
をモーメント特徴から構成する方法も、古典的な代数的不変式論の応用として考えられ
ている [25]。実際においては、不変変換を受けた入力パターンを、低次モーメントなど
を用いた基準に基づき、ある標準的なパターンに修正しておく前処理(正規化)が通常
行なわれている。しかしながら、一般に極めて高次元のパターンを実際に直接正規化す
1) F. クラインは、大学教授就任講演で「幾何学とは、与えられた変換群の下で不変な図形の性質を研究する
学問である」と定義し、変換群によって幾何学が分類されるとした(エルランゲン・プログラム、1872)。
第 4 章 基礎としてのパターン認識
32
るとなると、かなりの手間が必要であり、標準パターンの定義にも問題が残る。また不
変特徴に関する本質的な知見もそこからは得られない。
これに対し、甘利 [26] は、より低次元の特徴空間で正規化を行なう方が簡単であると
の見地から、線形特徴空間における正規化理論を提案した。一般の線形特徴抽出の場合
に対して、特徴空間で正規化が可能な条件を考察することにより、原理的な構造として
線形特徴の具体的な形が求まる。それにより従来のモーメント特徴の意義が明らかにさ
れ、また特徴空間での正規化の手続きを介して非線形の不変特徴が得られる。
著者は、リー(Lie)群論に基づく作用素解析の立場からこれをさらに進めて、一般の
パターンに対し不変特徴(および変換パラメータ)を直接求めるための理論を展開した。
以下、この理論について概説する。詳細は [27, 29, 4, 6, 8] を参照されたい。
4.3.1
定式化
一般にパターンを関数 f (r) (r ∈ RN ) で表し、その集合(関数空間)をパターン空間
PN とする。画像の場合は P2 、音声波形の場合は P1 である。このとき、不変変換は PN
から PN への変換(作用素)T と考えられる。これは一般に幾つかの基本的な不変変換
(以後、基本不変変換、略して EIT: Elementary Invariant Transformation と呼ぶ)の組
み合わせからなり、全体としてリー群(連続群)を成す。
T (λ1 , · · · , λK )f = TK (λK ) · · · T1 (λ1 )f
(4.3)
各 EIT は、PN での 1 パラメータ線形連続作用素 T (λ) として表現でき、パラメータに
関し加法群(A. G.)、あるいは乗法群(M. G.)を成す。
A. G. :
M. G. :
T (µ) T (λ) = T (λ + µ) = T (λ) T (µ) (λ, µ ∈ R)
T (0) = I (恒等作用素), T (λ)−1 = T (−λ) (逆作用素)
T (β) T (α) = T (αβ) = T (α) T (β) (α, β > 0)
T (1) = I (恒等作用素), T (α)−1 = T (1/α) (逆作用素)
例えば v ∈ R2 方向の平行移動 T (λ)f (r) = f (r−λv) は A. G. であり、パターンの振幅変
換 T (α)f (r) = αf (r) は M. G. の例である。これらの群構造の違いは、実は単にパラメー
タの表現の仕方によるものであり、実際、乗法的 T (α) は対数変換 λ = log α により加法
的 T (λ) となる。従って、以後、A. G. の場合を主に扱う。
特徴抽出は、一般にパターン f (関数)に特徴値 x(一般に複素数)を対応させるこ
と、つまり汎関数 x = Φ[f ] と考えることができる。従ってパターン認識(形の認識)の
ための不変特徴抽出は、変換 (λ) に不変でパターン f に不変でない汎関数
Φ[T (λ)f ] − Φ[f ] = 0
(4.4)
の組を求めることである。これにより不変変換で関係し合うパターンは、同値類として
特徴空間の 1 点で表され認識される。この意味で不変特徴抽出はパターンの類別過程と
考えられる。
一方、変換の認識は、逆にパターン f に関わらず、変換のパラメータ λ を(差として)
与える汎関数
を求めることである。
λ = Ψ[T (λ)f ] − Ψ[f ]
(4.5)
4.3. 不変特徴抽出の理論
4.3.2
33
不変線形特徴抽出
基本的な線形特徴抽出について考える。線形特徴抽出機構(以後 LFE: Linear Feature
Extractor と略)は、一般に次の線形汎関数(積分)で定義される。
Z
x = Φ[f ] = h g, f i = g(r)f (r) dr
(4.6)
ここに g(r) を測定関数と呼ぶ。個々の LFE は測定関数 g で特性づけられる。フーリエ
積分 F (ω) = h exp(iωt), f (t) i、モーメント Mpq = h xp y q , f (x, y) i は LFE の具体的な例で
ある。独立な LFE の組 xj = h gj , f i (j = 1, . . . , L) によって線形特徴空間が構成される。
作用素
パターン空間での EIT T (λ) は、線形汎関数 (4.6) 式を介して、測定空間での作用素
T ∗ (λ) と見なすことができる。特徴値 x も変換を受けるが、それを作用素 T̂ (λ) で表す。
T̂ (λ)x = h g, T (λ)f i = h T ∗ (λ)g, f i
(4.7)
このとき、T ∗ (λ), T̂ (λ) を、それぞれ T (λ) の共役作用素、生起作用素と呼ぶ。
次式の極限で定義される変換を無限小変換と呼び、対応する作用素 τ を生成素と呼ぶ
(一般に偏微分作用素となる)。
∂
T (λ) − I
lim
T (λ)f = lim
f = τf
λ→0 ∂λ
λ→0
λ−0
(4.8)
ここに I = T (0) は恒等作用素である。この概念は、同様に T ∗ (λ)、T̂ (λ) にも適用され、
τ ∗ 、τ̂ をそれぞれ T (λ) の共役生成素、生起生成素と呼ぶ。これらは、明らかに線形作用
素であり、次式の関係にある。
τ̂ x = h g, τ f i = h τ ∗ g, f i
(4.9)
表現定理
リー群論の美しい定理により、EIT T (λ) は、その生成素 τ によって次のように表現さ
れる。
T (λ) = eλτ
(4.10)
例として、1 次元波形 f (t) ∈ P1 の平行移動 T (λ)f (t) = f (t + λ) を考えよう。定義式
(4.8) から生成素は τ =
∂
∂t
となることがわかる。従って表現定理を用いると、
f (t + λ) = T (λ)f (t) = eλτ f (t) =
∞
X
λk
k=0
k!
f (k) (t)
(4.11)
を得るが、これは解析学でいうテーラー展開公式に他ならない。
また定義式 (4.7) から、積分の変数変換を用いて共役作用素は T ∗ (λ)g(t) = g(t − λ)
∂
と求められ、共役生成素は τ ∗ = − ∂t
となる。その生成素により、共役作用素も同様に
T ∗ (λ) = eλτ と表現される。
∗