マルチメディアシステム論 パターン認識とは ω ω ω パターン認識の例

パターン認識とは
C  {1 ,  2 , ,  c }
マルチメディアシステム論
入力
パターン認識
?
どのクラス
i
クラスの集合
に対応するか?
事例、個体、…、あるもの
パターン認識の例
簡単な例
• 文字認識
問題) 外見から日本人か外人かを識別せよ
C は文字の集合、事例は文字が書かれた画像
• 音声認識
C ={日本人,外人}
識別に有効そうな特徴を考える
C は単語の集合、事例はある区間の時系列信号
は単語の集合 事例はある区間の時系列信号
• センサーによる状況の判断
C は判断の集合、事例はセンサーから得た情報
非常に多くの応用がある、知的処理の根幹
パターン認識の枠組み(1/2)
(とりえる値)
特徴1 身長 ......実数値
特徴2 髪の色 .....赤,ブロンド,黄色,黒
特徴3 目の色 .....黒,青,茶色
A君の特徴ベクトル
( 170,黄色,黒)
とりあえずカテゴリ値は
考えない.属性は実数値
をとるとしておく
パターン認識の枠組み(2/2)
特徴抽出:入力空間から特徴空間への写像
識別処理:特徴空間から出力空間への写像
観測データ
前処理
ノイズ除去
正規化など
特徴抽出
特徴の選択
識別判定
カテゴリ
入力空間
実世界
センサ空間
f
特徴空間
g
出力空間
概念、クラス・
カテゴリ、類
1
認識系の構成
特徴空間
入力パターン
出力
特徴
抽出部
前処理部
ノイズ除去
正規化
5
識別
演算部
設定してある
特徴を取り出す
特徴ベクトルの張る空間のこと
同じクラスを持つ特徴ベクトルは特徴空間上で
まとまった塊(クラスター)となっている
2
1
x
識別辞書
i
x  ( x1 , x2 , , xd ) t
識別部
マッチング
識別判定の概念図
入力された事例は
特徴空間上のある1点
x
2
最も近いクラスターに
に属すると考える
1
i
c
近さを測るメジャーが
必要,とりあえず
ユークリッドの距離
c
特徴抽出の例
画像を特徴ベクトルへ
注目する特徴は画像の各位置の濃度
画像を 256 分割し、各メッシュの濃度を8段階で表す
各画素を
8段階に
256分割
分割
標本化
量子化
各メッシュを
8段階に
量子化
256次元のベクトルで表現できる
( x1 , x2 , , x256 ) t
特徴ベクトルで表現できるパターン数は 8256  10 231
特徴ベクトルの多様性
手書き数字文字の認識
クラスは 0,1,2,...,9 と reject の 11個
5*5 のメッシュ(25次元)、各メッシュは 0 or 1 の値
(白 or 黒)
数字の2のあるパターン
表せるパターンは
2 25  33,554,432
各パターンに対してそのクラスを付与しておけば、識別
は簡単。しかしそれはパターン数の膨大さから不可能。
k-NN法
• 今、あるカテゴリに含まれるパターンの集合(=標準
パターン(テンプレート))が分かるとする
• あるパターンxが与えられて、それがどのカテゴリに
属するかを知りたいとする
• xに最も近いk個のパターンを選ぶ(k-最近傍)
に最も近いk個のパタ ンを選ぶ(k 最近傍)
• そのk個のパターンの中で最も多いカテゴリをxのカ
テゴリとする(多数決)
• これをk-NN法(k-Nearest Neighbor法)と呼ぶ
• k-NN法(k≧2)は1-NN法より良いかのように思われ
るが多くの場合1-NN法のほうが良い
• 1-NN法を略してNN法と書く
2
標準パターンと勢力圏
• カテゴリを調べるために全ての点との類似度を計算
するのは面倒→各カテゴリに“代表点”を1個当ては
めるようにする
• あるカテゴリに属するパターンの集合を勢力圏と言う
• 2次元の場合で、類似度がユークリッド距離の場合、
次元の場合で、類似度
クリッド距離の場合、
勢力圏はボロノイ図になる
クラスタリング
• 学習パターンから標準パターンを求めたい→クラスタリング
N
• D ( S1 , S 2 ,  , S N )   D ( S n )
n 1
を最小にするクラスタS1,S2,…,SNに分割したい
D ( x, S )   d ( x, y )
y S
D ( S )  minD ( x, S ) | x  V 
• 上の右辺を満たすxをセントロイドC(S)と呼ぶ
C ( S )  arg minD ( x, S ) | x  V 
• 例えばdがユークリッド距離の2乗の場合はセントロイドは重
心になる
LBGアルゴリズム
•
1.
2.
3
3.
4.
•
LBGクラスタリングの実験
LBG=Linde, Buzo, Gray
セントロイドの初期値を適当に設定
セントロイドからクラスタに分割する
そのクラスタのセントロイドを再計算
収束するまで2~3を繰り返す
最小値に到達するとは限らない
–
–
極小値に収束
いくつかの初期値を試す必要がある
NN法とカテゴリの勢力圏
• c1,c2の学習パターンそれぞれでLBGクラスタリング
を行った
文字認識における前処理
(1)文字の大きさ → 正規化
(2)文字の字体差→ 汎用の認識技術
明朝体 ゴシック体 教科書体
など
(3)文字のつぶれ、かすれ→ 認識方法の頑強さ
3
「かさね合わせ」照合
-正規化された状態の文字パターンを
-登録されている標準パターンと
-単純に「かさね合せ」て比較し
-最も重なりの大きい字を解とする
例 黒
例:
黒一致率
致率 お:5%、あ16%
お 5% あ16%
白一致率 お:71%、あ90%
標準パターン
• いろいろな状態・各種
字体の平均を標準とす
る
– 平均を取ることによって、
黒い点の有無をぼかす
ぼ
ことができる
– かすれやごみの影響を
小さくすることができる
特徴抽出を経た「かさね合せ」
• 文字の方向成分を利用
した特徴
– 上下・左右・対角・逆対
角の4つの方向に分解
• 圧縮(7×7程度)した
特徴抽出
• 標準パターンと照合
手書き文字と印刷活字の違い
• 共通点
– 二次元空間のパターンである
– 白を地として黒を図形とする
– 黒の濃淡と筆圧とが第3の次元として対応しうる
濃淡と筆 とが第
次 と
対応 うる
• 差異
– 活字印刷にはない時系列が手書き文字にある
• 音声とむしろ共通性をもつ HMMアルゴリズム
– モデル化して時間情報量を圧縮できる
数字の場合
枠のある手書き文字認識
• 特徴を静的に分析す
る:オフライン
• 特徴抽出の出発点を決
めておく
• 枠をはみ出た文字の認
識が困難
郵便番号初代システム
補正方法がある
4
手書き文字データの標準化
実際の文字認識技術の例
前処理
(文字切出し)
1. 質点が摩擦のある
平面を移動する運動
方程式
2. 外力は直交する2筋
力である
3. 筋力の切り替え点に
よって、画(かく)が
分離できる
4. 手書き文字は画の
連鎖である
特徴抽出
特徴ベクトル
認識結果
識別判定
(マッチング)
5