パターン認識とは C {1 , 2 , , c } マルチメディアシステム論 入力 パターン認識 ? どのクラス i クラスの集合 に対応するか? 事例、個体、…、あるもの パターン認識の例 簡単な例 • 文字認識 問題) 外見から日本人か外人かを識別せよ C は文字の集合、事例は文字が書かれた画像 • 音声認識 C ={日本人,外人} 識別に有効そうな特徴を考える C は単語の集合、事例はある区間の時系列信号 は単語の集合 事例はある区間の時系列信号 • センサーによる状況の判断 C は判断の集合、事例はセンサーから得た情報 非常に多くの応用がある、知的処理の根幹 パターン認識の枠組み(1/2) (とりえる値) 特徴1 身長 ......実数値 特徴2 髪の色 .....赤,ブロンド,黄色,黒 特徴3 目の色 .....黒,青,茶色 A君の特徴ベクトル ( 170,黄色,黒) とりあえずカテゴリ値は 考えない.属性は実数値 をとるとしておく パターン認識の枠組み(2/2) 特徴抽出:入力空間から特徴空間への写像 識別処理:特徴空間から出力空間への写像 観測データ 前処理 ノイズ除去 正規化など 特徴抽出 特徴の選択 識別判定 カテゴリ 入力空間 実世界 センサ空間 f 特徴空間 g 出力空間 概念、クラス・ カテゴリ、類 1 認識系の構成 特徴空間 入力パターン 出力 特徴 抽出部 前処理部 ノイズ除去 正規化 5 識別 演算部 設定してある 特徴を取り出す 特徴ベクトルの張る空間のこと 同じクラスを持つ特徴ベクトルは特徴空間上で まとまった塊(クラスター)となっている 2 1 x 識別辞書 i x ( x1 , x2 , , xd ) t 識別部 マッチング 識別判定の概念図 入力された事例は 特徴空間上のある1点 x 2 最も近いクラスターに に属すると考える 1 i c 近さを測るメジャーが 必要,とりあえず ユークリッドの距離 c 特徴抽出の例 画像を特徴ベクトルへ 注目する特徴は画像の各位置の濃度 画像を 256 分割し、各メッシュの濃度を8段階で表す 各画素を 8段階に 256分割 分割 標本化 量子化 各メッシュを 8段階に 量子化 256次元のベクトルで表現できる ( x1 , x2 , , x256 ) t 特徴ベクトルで表現できるパターン数は 8256 10 231 特徴ベクトルの多様性 手書き数字文字の認識 クラスは 0,1,2,...,9 と reject の 11個 5*5 のメッシュ(25次元)、各メッシュは 0 or 1 の値 (白 or 黒) 数字の2のあるパターン 表せるパターンは 2 25 33,554,432 各パターンに対してそのクラスを付与しておけば、識別 は簡単。しかしそれはパターン数の膨大さから不可能。 k-NN法 • 今、あるカテゴリに含まれるパターンの集合(=標準 パターン(テンプレート))が分かるとする • あるパターンxが与えられて、それがどのカテゴリに 属するかを知りたいとする • xに最も近いk個のパターンを選ぶ(k-最近傍) に最も近いk個のパタ ンを選ぶ(k 最近傍) • そのk個のパターンの中で最も多いカテゴリをxのカ テゴリとする(多数決) • これをk-NN法(k-Nearest Neighbor法)と呼ぶ • k-NN法(k≧2)は1-NN法より良いかのように思われ るが多くの場合1-NN法のほうが良い • 1-NN法を略してNN法と書く 2 標準パターンと勢力圏 • カテゴリを調べるために全ての点との類似度を計算 するのは面倒→各カテゴリに“代表点”を1個当ては めるようにする • あるカテゴリに属するパターンの集合を勢力圏と言う • 2次元の場合で、類似度がユークリッド距離の場合、 次元の場合で、類似度 クリッド距離の場合、 勢力圏はボロノイ図になる クラスタリング • 学習パターンから標準パターンを求めたい→クラスタリング N • D ( S1 , S 2 , , S N ) D ( S n ) n 1 を最小にするクラスタS1,S2,…,SNに分割したい D ( x, S ) d ( x, y ) y S D ( S ) minD ( x, S ) | x V • 上の右辺を満たすxをセントロイドC(S)と呼ぶ C ( S ) arg minD ( x, S ) | x V • 例えばdがユークリッド距離の2乗の場合はセントロイドは重 心になる LBGアルゴリズム • 1. 2. 3 3. 4. • LBGクラスタリングの実験 LBG=Linde, Buzo, Gray セントロイドの初期値を適当に設定 セントロイドからクラスタに分割する そのクラスタのセントロイドを再計算 収束するまで2~3を繰り返す 最小値に到達するとは限らない – – 極小値に収束 いくつかの初期値を試す必要がある NN法とカテゴリの勢力圏 • c1,c2の学習パターンそれぞれでLBGクラスタリング を行った 文字認識における前処理 (1)文字の大きさ → 正規化 (2)文字の字体差→ 汎用の認識技術 明朝体 ゴシック体 教科書体 など (3)文字のつぶれ、かすれ→ 認識方法の頑強さ 3 「かさね合わせ」照合 -正規化された状態の文字パターンを -登録されている標準パターンと -単純に「かさね合せ」て比較し -最も重なりの大きい字を解とする 例 黒 例: 黒一致率 致率 お:5%、あ16% お 5% あ16% 白一致率 お:71%、あ90% 標準パターン • いろいろな状態・各種 字体の平均を標準とす る – 平均を取ることによって、 黒い点の有無をぼかす ぼ ことができる – かすれやごみの影響を 小さくすることができる 特徴抽出を経た「かさね合せ」 • 文字の方向成分を利用 した特徴 – 上下・左右・対角・逆対 角の4つの方向に分解 • 圧縮(7×7程度)した 特徴抽出 • 標準パターンと照合 手書き文字と印刷活字の違い • 共通点 – 二次元空間のパターンである – 白を地として黒を図形とする – 黒の濃淡と筆圧とが第3の次元として対応しうる 濃淡と筆 とが第 次 と 対応 うる • 差異 – 活字印刷にはない時系列が手書き文字にある • 音声とむしろ共通性をもつ HMMアルゴリズム – モデル化して時間情報量を圧縮できる 数字の場合 枠のある手書き文字認識 • 特徴を静的に分析す る:オフライン • 特徴抽出の出発点を決 めておく • 枠をはみ出た文字の認 識が困難 郵便番号初代システム 補正方法がある 4 手書き文字データの標準化 実際の文字認識技術の例 前処理 (文字切出し) 1. 質点が摩擦のある 平面を移動する運動 方程式 2. 外力は直交する2筋 力である 3. 筋力の切り替え点に よって、画(かく)が 分離できる 4. 手書き文字は画の 連鎖である 特徴抽出 特徴ベクトル 認識結果 識別判定 (マッチング) 5
© Copyright 2024 Paperzz