変形及び画質劣化にロバストな 特徴抽出法に基づく文字認識に関する研究

平成二十年度 学位論文
変形及び画質劣化にロバストな
特徴抽出法に基づく文字認識に関する研究
森 稔
東京工業大学 大学院総合理工学研究科
物理情報システム専攻
i
目次
第1章
序論
1
1.1
本研究の背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
従来の文字認識技術 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.3
本研究の目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.4
本研究の概要及び論文の構成
. . . . . . . . . . . . . . . . . . . . . . .
4
第2章
1.4.1
本研究の概要
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.4.2
特徴抽出法における変形への耐性向上 . . . . . . . . . . . . . . .
4
1.4.3
特徴抽出法における画質劣化への耐性向上 . . . . . . . . . . . . .
5
1.4.4
論文の構成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
拡張外郭方向寄与度特徴と輪郭特徴の併用処理による文字認識
7
2.1
まえがき . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.2
使用特徴及び識別関数 . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.3
2.4
2.5
2.2.1
ePDC 特徴及び識別関数 . . . . . . . . . . . . . . . . . . . . . .
9
2.2.2
輪郭特徴及び識別関数 . . . . . . . . . . . . . . . . . . . . . . . .
10
階層的分類処理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.3.1
基本的な考え方 . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.3.2
具体的な構成手順 . . . . . . . . . . . . . . . . . . . . . . . . . .
12
選択的な特徴の併用処理 . . . . . . . . . . . . . . . . . . . . . . . . . .
14
2.4.1
基本的な処理フロー . . . . . . . . . . . . . . . . . . . . . . . . .
14
2.4.2
具体的な処理構成 . . . . . . . . . . . . . . . . . . . . . . . . . .
14
認識実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
2.5.1
実験データ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
2.5.2
ePDC 特徴における認識条件の設定 . . . . . . . . . . . . . . . .
16
2.5.3
輪郭特徴における認識条件の設定 . . . . . . . . . . . . . . . . . .
17
2.5.4
併用処理の効果 . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
ii
目次
2.6
考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
2.6.1
漢字/非漢字の誤判定の影響 . . . . . . . . . . . . . . . . . . . . .
19
2.6.2
輪郭特徴の効果 . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
相対方向寄与度特徴による文字認識
22
3.1
まえがき . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
3.2
文字線間の相対配置情報 . . . . . . . . . . . . . . . . . . . . . . . . . .
23
2.7
第3章
3.3
3.2.1
方向特徴の概略と問題点
. . . . . . . . . . . . . . . . . . . . . .
23
3.2.2
相対配置関係の記述手法
. . . . . . . . . . . . . . . . . . . . . .
25
認識実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
3.3.1
提案尺度選択のための予備実験 . . . . . . . . . . . . . . . . . . .
28
3.3.2
方向特徴との比較実験 . . . . . . . . . . . . . . . . . . . . . . . .
30
3.3.3
特徴の併用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
3.4
考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
3.5
まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
背景形状の特徴と動的修正識別関数による文字認識
40
4.1
まえがき . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
4.2
映像中文字認識 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
第4章
4.3
4.2.1
背景と関連研究 . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
4.2.2
映像中文字の性質 . . . . . . . . . . . . . . . . . . . . . . . . . .
42
輪郭形状の劣化にロバストな特徴抽出 . . . . . . . . . . . . . . . . . . .
43
4.3.1
従来手法とその問題点 . . . . . . . . . . . . . . . . . . . . . . . .
43
4.3.2
提案手法:WLDC 特徴 . . . . . . . . . . . . . . . . . . . . . . .
46
ノイズによる距離値変動を補正する識別関数 . . . . . . . . . . . . . . .
47
4.4.1
基本的な考え方 . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
4.4.2
提案手法:動的修正ユークリッド距離 . . . . . . . . . . . . . . .
48
認識実験と考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
4.5.1
実験データ及び前処理 . . . . . . . . . . . . . . . . . . . . . . . .
49
4.5.2
特徴の評価実験 . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
4.5.3
識別関数の評価実験 . . . . . . . . . . . . . . . . . . . . . . . . .
51
4.5.4
実環境の劣化に対する評価実験 . . . . . . . . . . . . . . . . . . .
52
4.6
考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
4.7
まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
4.4
4.5
iii
目次
第5章
ランレングス補正を用いた特徴抽出法による文字認識
57
5.1
まえがき . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
5.2
ランレングス補正法 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
5.2.1
基本的な考え方 . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
5.2.2
汚れに対する補正アルゴリズム . . . . . . . . . . . . . . . . . . .
59
5.2.3
かすれに対する補正アルゴリズム . . . . . . . . . . . . . . . . . .
61
5.2.4
補正ランレングスの算出例 . . . . . . . . . . . . . . . . . . . . .
61
5.3
ノイズ種類の判定
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
5.4
画質劣化にロバストな特徴抽出処理 . . . . . . . . . . . . . . . . . . . .
63
5.5
認識実験及び考察
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
5.5.1
実験データ及び実験条件
. . . . . . . . . . . . . . . . . . . . . .
64
5.5.2
ノイズ種類判定の実験結果 . . . . . . . . . . . . . . . . . . . . .
67
5.5.3
認識処理の実験結果 . . . . . . . . . . . . . . . . . . . . . . . . .
67
5.5.4
考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
カテゴリ依存特徴抽出法による文字認識
73
6.1
まえがき . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
6.2
映像中文字の特徴
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
6.3
カテゴリ依存特徴抽出法 . . . . . . . . . . . . . . . . . . . . . . . . . .
75
5.6
第6章
6.4
6.3.1
方向特徴 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
6.3.2
適応的正規化
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
6.3.3
特徴補正 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
認識実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
6.4.1
使用データ及び実験条件
. . . . . . . . . . . . . . . . . . . . . .
82
6.4.2
実験結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
6.4.3
考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
結論
87
7.1
本研究の要約 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
7.2
本研究の成果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
7.3
今後の展望及び課題 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
6.5
第7章
謝辞
90
iv
目次
91
参考文献
付録 A
各章の認識実験で使用した文字種一覧
著者文献リスト
98
102
v
図目次
1.1
文字認識処理の構成概要 . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.2
本論文全体の構成
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.1
ePDC 特徴の抽出説明図 . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.2
階層的分類処理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.3
併用認識処理のフロー . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.4
大分類の高速化に対する認識率の変化 . . . . . . . . . . . . . . . . . . .
18
3.1
PDC 特徴及び ePDC 特徴の抽出説明図 . . . . . . . . . . . . . . . . . .
24
3.2
傾き変動が起きたパターン例
. . . . . . . . . . . . . . . . . . . . . . .
25
3.3
相対配置関係:相対角度と相対位置 . . . . . . . . . . . . . . . . . . . .
25
3.4
隣接文字線間での相対角度の定義 . . . . . . . . . . . . . . . . . . . . .
26
3.5
外郭走査による相対配置の抽出 . . . . . . . . . . . . . . . . . . . . . .
27
3.6
方向寄与度及び拡張方向寄与度に基づいた各提案尺度の累積分類率 . . .
29
3.7
ETL9B のパターン例 . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
3.8
ETL9B に対する各特徴の認識結果(方向寄与度に基づく特徴) . . . . .
31
3.9
ETL9B に対する各特徴の認識結果(拡張方向寄与度に基づく特徴) . .
32
3.10
各変換により変形されたパターン例 . . . . . . . . . . . . . . . . . . . .
33
3.11
各変換に対する認識率の変化
. . . . . . . . . . . . . . . . . . . . . . .
34
3.12
低品質データのパターン例 . . . . . . . . . . . . . . . . . . . . . . . . .
35
3.13
低品質データに対する各特徴の認識率 . . . . . . . . . . . . . . . . . . .
36
3.14
正読パターンの例
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
3.15
誤読パターンの例
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
4.1
滲みが生じている映像中文字パターン例 . . . . . . . . . . . . . . . . . .
43
4.2
映像中文字とその 2 値化結果例 . . . . . . . . . . . . . . . . . . . . . .
44
4.3
画質劣化により従来特徴が受ける影響 . . . . . . . . . . . . . . . . . . .
45
vi
図目次
4.4
WLDC 特徴の抽出説明図 . . . . . . . . . . . . . . . . . . . . . . . . .
47
4.5
動的修正ユークリッド距離の概念図 . . . . . . . . . . . . . . . . . . . .
49
4.6
テスト用データの劣化パターン例 . . . . . . . . . . . . . . . . . . . . .
50
4.7
各特徴における輪郭形状劣化に対する認識率変化 . . . . . . . . . . . . .
51
4.8
テスト用データの背景ノイズ付加パターン例 . . . . . . . . . . . . . . .
52
4.9
動的修正ユークリッド距離における正規化係数 α とノイズ量の関係 . . .
53
4.10
各識別関数におけるノイズに対する認識率変化 . . . . . . . . . . . . . .
54
4.11
映像中文字に対する各手法の累積分類率 . . . . . . . . . . . . . . . . . .
55
4.12
誤読から正読になったパターン例 . . . . . . . . . . . . . . . . . . . . .
55
4.13
提案手法による距離値の変化
. . . . . . . . . . . . . . . . . . . . . . .
56
4.14
誤読パターン例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
5.1
入力画像からのパラメータ計測例 . . . . . . . . . . . . . . . . . . . . .
59
5.2
観測ランレングス及び補正ランレングスの抽出例 . . . . . . . . . . . . .
62
5.3
方向寄与度の抽出例 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
5.4
補正ランレングス及び観測ランレングスにより得られた特徴値の抽出例 .
65
5.5
汚れノイズモデル画像、かすれノイズモデル画像、及び各劣化文字画像
の生成例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
5.6
各特徴の劣化文字画像に対する認識率 . . . . . . . . . . . . . . . . . . .
69
5.7
各大きさの背景ノイズを持つ劣化文字画像に対する認識率 . . . . . . . .
70
5.8
提案手法により正しく認識された文字画像例 . . . . . . . . . . . . . . .
71
5.9
提案手法でも誤認識された文字画像例 . . . . . . . . . . . . . . . . . . .
71
6.1
映像中文字画像の例 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
6.2
方向寄与度特徴 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
6.3
特徴補正を用いた提案手法の処理の流れ . . . . . . . . . . . . . . . . . .
79
6.4
提案手法及び従来手法の識別処理フロー . . . . . . . . . . . . . . . . . .
81
6.5
補正特徴と補正前特徴の抽出例 . . . . . . . . . . . . . . . . . . . . . .
82
6.6
各正規化処理における累積分類率 . . . . . . . . . . . . . . . . . . . . .
83
6.7
画質劣化した評価データに対する各手法の累積分類率
. . . . . . . . . .
84
6.8
全評価データに対する各手法の累積分類率 . . . . . . . . . . . . . . . .
85
6.9
提案手法により正しく認識された例 . . . . . . . . . . . . . . . . . . . .
86
6.10
提案手法により誤認識された例 . . . . . . . . . . . . . . . . . . . . . .
86
vii
表目次
2.1
特徴次元数と候補数の組み合わせに対する累積分類率の関係 . . . . . . .
13
2.2
実験データの概要
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
2.3
全入力パターンに対する ePDC 特徴及び併用手法の認識結果
. . . . . .
19
2.4
非漢字判定入力パターンに対する輪郭特徴及び ePDC 特徴の認識結果 . .
20
3.1
低品質データの漢字・平仮名別の識別率 . . . . . . . . . . . . . . . . . .
35
3.2
ePDC 特徴と nRDC 特徴間の相補関係 . . . . . . . . . . . . . . . . . .
37
3.3
ePDC 特徴と nRDC 特徴を併用した際の認識率 . . . . . . . . . . . . .
37
5.1
ノイズ種類の判定率 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
68
6.1
映像中文字の分析結果 . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
1
第1章
序論
1.1 本研究の背景
近年、周囲を取り巻く情報量は非常に増大し、またそれを扱うメディア媒体も多様化し
てきている。また情報処理技術及びメディア処理技術の発達により、従来の紙媒体に加
え、画像・映像及びテキスト情報を大量に扱う状況になってきている。その中で、文字情
報は常に人々の情報伝達手段の中心であり、文字情報を容易に読み取る技術または処理す
る技術は、常に求められてきている。
文字認識技術は、上記のニーズに応える最も基本且つ中心的な技術であり、処理の省力
化及び自動化を基本的な目的として、今まで多くの研究が積み重ねられている。文字認識
に関する研究は古くから行われており、1928 年にオーストラリアにおいて印刷数字 OCR
の特許が出願されたところから始まる。その後、1950 年代に電子計算機が出現したこと
により、アメリカを中心に研究が活発になった。はじめは印刷数字が対象であったが、印
刷から手書きへ、数字からアルファベット等へと対象が拡大された。
日本での文字認識技術は、1965 年以降に郵政省主導の郵便番号区分機の開発における
手書き数字認識が進み、その後手書きの片仮名・平仮名・印刷漢字と認識対象が拡大され
た。日本語は、多カテゴリ、類似文字が多い、単純な構造から複雑な構造まで多様な構造
をもつ、などの特徴がある。80 年後半以降は、手書き漢字認識が主たる対象になり、多カ
テゴリ及び変形を中心課題として、左記課題に有効な手法が各種提案・検討されている。
上記一連の研究により、一定の制約下における認識性能は実用的なレベルに到達した
が、実環境での多様な変動要因を伴う状況では、必ずしも十分な認識精度とは言えず、解
決しなければいけない課題が多く残されているのが現状である。
また応用の観点では、文字認識技術は郵便番号認識や市販 OCR ソフトなど、パターン
認識の分野の中でもっとも実用化された技術の一つでもある。従来は、スキャナー入力の
郵便物及び文書画像が主たる認識対象であったが、近年のインターネット及び Web の浸
第 1 章 序論
透や、入力デバイスとなるデジタルカメラ・ビデオ等の普及を背景に、映像・Web ドキュ
メント・情景画像等に認識の対象及びメディアが拡張している。例えば映像に対しては、
映像中の文字を検出・認識することにより、内容理解や検索を可能とすることを目的にし
ている。また、文字認識研究から得られた特徴抽出や識別手法に関する知見は、各種画像
や映像の認識及び理解にも適用され、周辺分野の発展にも寄与している。
1.2 従来の文字認識技術
一般的な文字認識処理の流れは、図 1.1 に示すように、認識対象画像からの文字抽出、
前処理、特徴抽出、識別、後処理等からなる。文字抽出では、対象画像のレイアウト解析
や文字列抽出等により、各文字画像を抽出する。抽出された文字画像に対し、2 値化や整
形・雑音除去等の前処理が行われる。前処理後の画像に対し、幾何学的な情報や画素値か
らなる特徴を抽出し、各種距離関数や識別尺度を用いた識別処理が行われ、認識結果が出
力される。認識結果は、後処理として言語処理等により修正される場合もある。本論文で
は、文字抽出後の個別文字画像の認識を対象とし、特に特徴抽出を中心に述べる。
文字認識における技術的課題を大別すると、手書きやマルチフォントにおける変形と、
ノイズ・潰れ・掠れ等の画質劣化の問題に分けられる。
変形の問題に対するアプローチは、大きく分けて特徴抽出法、テンプレート・マッチン
グ、構造解析法に分かれる。
特徴抽出法は、現在の主流となっている認識手法である。文字画像から特徴をベクトル
の形で抽出し、辞書の各文字の標準ベクトルとの間でパターンの類似性を計算し、最も類
似した文字を認識結果とする方法である [1, 2, 3, 4, 5]。20 年来、手書き漢字認識の研究
が盛んになるにつれ、黒画素の濃度や線密度など様々な特徴が考案された [2]。一連の研
究で明らかになったことの一つとして、文字線の局所的な方向を表現する特徴(以下、方
向特徴と記す)が認識に有効である、ということが挙げられる [2]。今まで数種の方向特
徴が提案され、いずれも認識実験において良好な認識性能を示している [6, 7, 8, 9, 10]。
テンプレート・マッチングは、画像間の重ね合わせ・対応付けの一致度を認識基準とす
る手法である。テンプレート・マッチングは、重なりの程度及び形状差に対する評価基
準の設定が課題となる。先駆的な研究には、楷書体の手書き漢字認識を目的とした弛緩
法 [11] 及び DP マッチング [12] による輪郭対応付けの最適化がある。変形の定義に特徴
がある手法には、アフィン変換を用いた手法 [13] や 2 次元ワープを用いた手法 [14] など
がある。また、コスト関数の設定に特徴がある手法 [15, 16] も提案されている。しかし、
文字カテゴリが少ない数字やアルファベット等では良い性能が得られているが、漢字等の
多カテゴリに対しては特徴抽出法より性能がやや劣る場合が多い。
また、構造解析法は文字を構成する基本単位を文字線と考え、文字線の構造・相互配置
2
3
第 1 章 序論
認識対象
文字抽出
文字認識
後処理
書式解析
文字
認識
前処理
入力画像
言語情報等
による修正
識別
認識結果
2値化・整形
雑音除去 他
識別
特徴抽出
統計的識別
幾何学的記述
画素値
識別関数・類似尺度
主な研究対象領域
図 1.1: 文字認識処理の構成概要
関係・接続関係などをコード列・表の形で記述し、辞書と照合する方法である。構造解析
法は、文字線の相互関係が基本となるため、文字線の位置ずれの影響を受けにくく、また
局所的な形状を詳細解析できるため、判別能力が高いという利点がある。しかし、各カテ
ゴリの概念記述に多くの時間と手間がかかる、位相変化も含めた変形の記述に膨大なバリ
エーションがある、文字線の切れ・かすれ・潰れなどがある場合に文字線の抽出・対応付
けが困難になるなどの理由で、近年は一部 [17] を除いて研究例は少ない。
画質劣化の問題に対しては、上述した特徴抽出法では幾何学的な特徴情報を正しく抽出
することが困難な場合が多く、画像そのものを扱うテンプレート・マッチングを用いる場
合が多い。テンプレート・マッチングを基本手法として用い、画質劣化に対するロバスト
性を向上させた識別尺度の利用を提案した研究 [18, 19] などがある。しかし、変形への対
応で述べたように画像間の重なり具合に基づく為に、変形への許容度が低く、事前に認識
対象が特定のフォントに限定されるなどの条件がある場合以外では、高精度な認識結果を
残すのは難しいのが現状である。
第 1 章 序論
1.3 本研究の目的
上述したように、現在まで様々な研究が積み重ねられ、多くの問題が解決された印象が
ある文字認識技術だが、現実には本質的な問題は未解決のままである。例えば、自由筆記
による変形やノイズ・潰れ等の画質劣化が生じた低品質な文字に対する認識性能は、まだ
不十分である。また、認識対象の拡大に伴い、従来の文書画像を対象とした際の課題とは
異なる、他メディアへの適用時に生じる課題も考慮する必要がある。
本研究の目的は、幾何学的特徴を基本とした文字認識において、変形への更なる耐性の
向上、及び従来の特徴抽出法では困難であった画質劣化への耐性を向上させることによ
り、より実環境に近い低品質文字認識での性能向上及び認識対象の拡大を可能とすること
にある。
1.4 本研究の概要及び論文の構成
1.4.1 本研究の概要
本研究は、以下の 2 つの方針に基づいて実施している。
• 特徴抽出法における変形への耐性向上
• 特徴抽出法における画質劣化への耐性向上
1.4.2 特徴抽出法における変形への耐性向上
従来提案されている ePDC 特徴と輪郭特徴とを併用することにより、手書き漢字・仮
名認識における認識性能を向上可能であることを述べる。両特徴の特性を相補的に用いて
手書き漢字及び仮名に選択的に適用することにより、手書き変形への耐性を向上させる。
また、処理手順を工夫することにより、処理時間の増大を抑制可能であることを述べる。
次に、更なる手書き漢字・仮名への変形耐性向上を目的に、文字線間の相対配置関係を
陽に抽出することにより、変形耐性及び認識率を向上可能とする相対方向寄与度特徴を提
案する。
以上の特徴の併用及び新規提案により、手書き変形が生じている文字に対し従来特徴よ
り更に認識性能を向上可能であることを明らかにする。
4
第 1 章 序論
1.4.3 特徴抽出法における画質劣化への耐性向上
特徴抽出に基づく認識手法では、画質劣化による認識性能の低下が大きい。本研究では
この問題に対処するため、認識手法として特徴抽出法を基本とし、画質劣化の影響を軽減
する手法、及び画質劣化の程度を推定することにより画質劣化への耐性を向上させる手法
を検討する。
まず、画質劣化の影響を軽減する特徴抽出の工夫、及びカテゴリ情報との比較から推
定される劣化程度に基づく距離値の補正により、認識精度を向上させる手法について述
べる。
次に、入力画像の画素分布状況から劣化程度を推定し、特徴値を補正することにより画
質劣化への耐性を向上させる手法を提案する。
最後に、カテゴリ情報を用いた縦横比の補正、及びカテゴリ情報との比較から推定され
る劣化程度に基づく特徴値の補正を行うことにより、変形及び画質劣化への耐性を向上さ
せる手法について提案する。
以上の提案から、従来画質劣化による認識性能低下が顕著であった特徴抽出に基づく認
識手法においても、画質劣化文字への認識性能が大幅に向上可能であることを明らかに
する。
1.4.4 論文の構成
本論文は、以下のように構成される。
第 1 章では、研究の目的、文字認識における従来研究の概要、及び本研究の概要を述
べた。
第 2 章では、既存特徴である ePDC 特徴と輪郭特徴の組み合わせによる変形への耐性
向上について述べる。
第 3 章では、新規特徴として、対配置情報を陽に抽出する特徴である相対方向寄与度特
徴を提案する。
第 4 章では、画質劣化の影響を軽減する手法として、特徴抽出の改良及びカテゴリ情報
を用いた識別値の補正処理について述べる。
第 5 章では、画素の分布状況から劣化程度を推定することにより、特徴値を補正する手
法を提案する。
第 6 章では、カテゴリ情報を用いて縦横比及び特徴値を補正することにより、変形及び
画質劣化への耐性を向上させる手法について述べる。
第 7 章は、結論である。
5
6
第 1 章 序論
変形に対する耐性向上
特徴の併用
新規特徴の考案
第2章
第3章
特性の異なる特徴の
相補的併用
相対配置情報の抽出
特徴の補正
第4章
第5章
文字部・背景部の特徴併用
画素分布に基づく
劣化程度推定・特徴値補正
カテゴリ情報の利用による
劣化程度推定・距離値補正
第6章
カテゴリ情報の利用による
劣化程度推定・特徴値補正
カテゴリ情報の利用
画質劣化に対する耐性向上
図 1.2: 本論文全体の構成
本論文全体の構成を、図 1.2 に示す。
7
第2章
拡張外郭方向寄与度特徴と輪郭特徴
の併用処理による文字認識
2.1 まえがき
第 1 章で述べたように、変形及び多カテゴリを扱う手書き漢字認識においては、特徴
に関しては文字線の方向情報を抽出する手法の有効性が、各種の研究結果として得られ
ている [2, 3, 20]。萩田らは文字線の複雑さ・方向・接続関係を定量化した方向寄与度特
徴を考案し、これを文字の外郭形状に投影して抽出する外郭方向寄与度特徴(Peripheral
Direction Contributivity 特徴。以下、PDC 特徴と略す)を提案した [6]。PDC 特徴に
おける文字線の方向情報は 4 方向だが、後に 8 方向に拡張した拡張外郭方向寄与度特徴
(expanded-PDC 特徴。以下、ePDC 特徴と略す) が提案され、PDC 特徴で生じる誤認識
の 40% を救済している [7]。
しかし、PDC 特徴及びそれを拡張した ePDC 特徴は、主に直線成分が多く含まれる漢
字の認識を目的に検討されている為、曲線成分が多い平仮名・英字・数字等の非漢字カテ
ゴリに対する認識性能は、必ずしも十分ではない。実際に、予備実験では ePDC 特徴に
よる非漢字の認識率は、漢字の認識率に比べて低い結果が得られている。非漢字の認識率
を向上させるには、非漢字に多く含まれる曲線成分に関する情報を抽出した特徴が必要で
あると考えられる。左記条件を満たす特徴には、数字認識において高い有効性が得られた
輪郭点の傾斜情報・屈曲情報等からなる特徴(以下、輪郭特徴と略す) [21] があり、非漢
字全般に対する有効性が期待できる。
仮に漢字と非漢字が判別可能であれば、入力パターンが漢字の場合は ePDC 特徴を用
いて認識し、非漢字の場合は輪郭特徴を用いて認識することにより、より高い認識性能が
得られると考えられる。従来の漢字と非漢字を判別する手法には、文字形状の中に含まれ
る直線成分・曲線成分の違いに着目する手法 [23] がある。しかし、斜めの直線成分が曲線
第 2 章 拡張外郭方向寄与度特徴と輪郭特徴の併用処理による文字認識
成分として誤抽出される等の問題があり、漢字と非漢字の判別は必ずしも容易でない。本
章では、漢字及び非漢字の判別問題に対し、字形自体の判別ではなく、認識手法別に異な
る特性に着目する。ePDC 特徴による認識では、入力文字が漢字である場合は上位候補に
漢字が多く含まれ、非漢字である場合には非漢字が多く含まれる傾向がある。本傾向を利
用すれば、漢字と非漢字の判別が容易になると考えられる。
本章では、ePDC 特徴を用いる認識処理と輪郭特徴を用いる認識処理との併用により、
より高い認識性能を得る手法を提案する [22]。提案手法では、まず ePDC 特徴を用いた
認識処理を行う。認識結果の上位候補中に含まれる非漢字の候補数が、閾値未満の場合は
入力パターンを漢字と判定し、当該認識結果を最終結果とする。一方、非漢字の候補数が
閾値以上の場合は、入力パターンを非漢字と判定し、輪郭特徴を用いて再度認識処理を行
う。そして輪郭特徴による認識結果を、最終結果として出力する。
しかし、単に上述した処理を実施すると、単純な構造を持つ漢字に対しては、認識結果
候補中に非漢字の出現確率が高く、非漢字に誤判定される問題が生じる。本問題に対処す
るため、非漢字と誤判定されやすい漢字を、事前に輪郭特徴を用いた認識の対象カテゴリ
に登録し救済することを検討する。本対応により、輪郭特徴を用いた認識処理は、非漢字
及び構造が単純な漢字が認識対象となる。提案手法は、入力パターンの構造の複雑さに応
じて用いる特徴を選択し、認識率の向上を図る処理と位置付けられる。
また、複数の特徴を使用するという観点では、従来提案されている手法は、
(1)
使用する特徴の種類を単純に増やす特徴増加処理 [24]
(2)
複数の特徴から得た認識結果を総合判定する結果統合処理 [25, 26, 27, 28, 29, 30]
(3)
入力文字画像に応じて特徴を使い分ける特徴選択処理 [31]
に大別出来る。従来は主に (2) の手法が使用されており、特徴の総合性能により入力パ
ターン全体に対する認識率の向上を目的としている。これに対し、(3) は個々の特徴を適
応的に使用し、特定の入力パターンに対する認識性能を向上させ、最終的な認識率の向上
を目的としている。本章では、非漢字の認識率向上を目的とし、(3) の特徴選択処理を用
いる。漢字と非漢字に対する選択処理には、各文字が入力されるフィールドに基づいて文
字カテゴリを事前指定をし、異なる特徴を用いる例がある [32]。一方、提案手法は事前に
入力される文字カテゴリの指定をせず、認識結果の特性に応じて使用特徴を選択すること
が特長である。
以下、2.2 において、提案手法で用いる二種類の特徴について述べる。2.3 では、処理の
高速化を目的とした階層的分類処理について述べる。2.4 において、認識処理の併用手法
の構成について述べる。認識実験の結果を、2.5 で述べる。2.6 において、提案手法の効果
について分析する。2.7 で、本章のまとめを述べる。
8
9
第 2 章 拡張外郭方向寄与度特徴と輪郭特徴の併用処理による文字認識
2.2 使用特徴及び識別関数
2.2.1 ePDC 特徴及び識別関数
漢字認識に有効な ePDC 特徴 [6, 7] は、以下の手順で求められる。
Step 1: 文字を 8 方向から外郭走査し、1 番目にぶつかる輪郭点を第 1 深度の輪郭点、以
下順に第 3 深度までの輪郭点を抽出する。
Step 2: 各輪郭点を中心に 8 方向に黒画素の run-length li を計測し、文字線の傾き角度
及び接続関係を表現する拡張方向寄与度 dei (i = 1, . . . , 8) を、以下の式により求
める。
li
dei = 8
(2.1)
2
j=1 lj
Step 3: 求められた拡張方向寄与度を、外郭走査方向別に分割した区間及び各深度ごと
に集積する。
図 2.1 に、ePDC 特徴抽出の概要を示す。Step 3 で得られる特徴次元数は 1,536 次元と高
いため、主成分分析 [33, 34] により 256 次元に圧縮した特徴 [35] を、以後特徴ベクトル
x として使用する。
また、ePDC 特徴を用いる際の識別には、シティブロック距離及び投影距離 [36] を用
いる。シティブロック距離は、以下の式で定義され、大分類処理に用いる。
Dicity (x) = |x − x̄i |
(2.2)
ここで、i (i = 1, 2, ..., C, C : カテゴリ数) は、カテゴリの番号である。x̄i は、カテゴリ
i の平均特徴ベクトルである。投影距離 [36] は、各カテゴリの重心を起点として、カテゴ
リごとに主成分分析による部分空間を決定し、入力パターン x からの投影距離が最小とな
る部分空間のカテゴリに判定する手法である。カテゴリ i の共分散行列の寄与率が高い上
位 J 個の固有ベクトルを φi,j (j = 1, 2, ..., J) とすると、x からカテゴリ i への投影距離
Diproj (x) は、以下の式で定義される。
Diproj (x)
= ||x − x̄i || −
2
J
((x − x̄i )t φi,j )2
(2.3)
j=1
本章では、シティブロック距離により得られた上位候補に対し、投影距離を用いて識別処
理を行う。
第 2 章 拡張外郭方向寄与度特徴と輪郭特徴の併用処理による文字認識
(a) Handwritten Kanji
and peripheral scanning.
(b) An enlarged part of (a).
Its run-length in each of the
eight directions is computed.
3
4
2
5
1
8
6
7
(c) Eight scanning directions
to compute run-length.
(d) Slice zones in each peripheral
scanning direction.
図 2.1: ePDC 特徴の抽出説明図
2.2.2 輪郭特徴及び識別関数
非漢字カテゴリの認識に有効な輪郭特徴は、以下のように求められる。まず、入力文字
パターンの輪郭追跡により、各輪郭点の方向・屈曲方向・屈曲度を求める。次に、入力文
字パターンを 4 × 4 のブロックに分割し、以下の情報を有する輪郭点の数を各ブロックで
計数し、これを特徴値とする [21]。
• 局所的傾斜情報
• 直線状に存在する輪郭点
• 屈曲の凹凸、及び接線の方向情報
10
11
第 2 章 拡張外郭方向寄与度特徴と輪郭特徴の併用処理による文字認識
• 屈曲の大きな輪郭点
上記特徴に、入力文字パターンの大局的形状を表現する縦横比・総直線数・総輪郭点数・
ループ数等を加え、最終的に計 320 次元の特徴ベクトルを得る。
また、輪郭特徴を用いる際の識別には、以下の式で定義される識別関数 Gi (x) を用い
る [21]。
Gi (x) = Diweuc (x) + ζ · Fi (x)
(2.4)
ここで、Diweuc (x) は x と x̄i との間の重み付きユークリッド距離である。Fi (x) は、カ
テゴリ i のパターン集合 Ωi と、カテゴリ i に誤認識したあるいは誤認識しそうになった
カテゴリのパターン集合 Ωi とを判別する判別関数である。ζ は、実験的に定まる正の定
数である。Diweuc (x) は、x がカテゴリ i に属する確からしさを表す項であり、Diweuc (x)
が小さいほどカテゴリ i に対する確からしさが大きいことを表す。Fi (x) は、カテゴリ i
と他カテゴリとの相違を強調する項であり、x ∈ Ωi の時に Fi (x) ≤ 0、x ∈ Ωi の時は
Fi (x) > 0 をとる。したがって、式 (2.4) は Gi (x) が小さいほど、入力パターン x がカテ
ゴリ i に属する確からしさが大きくなる。
式 (2.4) は、具体的には以下の手順により求められる。まず、学習データより求められ
る Diweuc (x) を用いて、学習データ自身を識別し、誤認識したあるいは誤認識しそうに
なったパターン集合 Ωi を求める。次に、Ωi 用いて Fi (x) を求め、Diweuc (x) と合わせて
Gi (x) を得る。Gi (x) は、Diweuc (x) の平均特徴ベクトルと重みを修正した形態になって
おり、Diweuc (x) のパラメータを学習したものとみなせる。上記処理を反復することより、
誤認識を減少させるよう学習を進行させる。誤認識率の減少が収束した時点で学習を終了
し、この際の平均特徴ベクトル及び重みにより式 (2.4) を定義し、識別を実施する。
2.3 階層的分類処理
認識処理を併用する場合、二つの認識処理を時系列的に直列に用いると処理時間が増大
する。従って、処理時間の削減を検討する必要がある。本節では、特徴の併用処理に向け
た準備として、階層的分類処理による処理時間の削減について述べる。
2.3.1 基本的な考え方
分類率を一定値に保ちながら段階的に分類処理を行う場合、使用する特徴次元数と候補
数に関し、一般に以下の関係となる。使用する特徴次元数が少ない場合は、特徴が有する
情報量も少ないため、候補内に正解を含むにはより多い候補数が必要となる。逆に、使用
する特徴次元数を増加させると情報量が増加するため、少ない候補数で正解を含むことが
12
第 2 章 拡張外郭方向寄与度特徴と輪郭特徴の併用処理による文字認識
可能となる。本章では、左記性質を利用し、初期は低次元の特徴で粗分類を行い、次に特
徴の次元数を増加しながら段階的に候補の絞込みを行うことにより、最終的に所望の候補
数を得る階層的分類処理 [37] を用いる。
今、分類処理の階層数を H 、第 h 段 (h = 1, 2, ..., H) で使用する特徴次元数を Mh (M1 <
M2 < ... < MH )、第 h 段の分類処理により絞り込まれた候補数を Nh 、初期認識対象カ
テゴリ数を N0 とする。特徴の 1 次元当たりのシティブロック距離の計算時間を ΔT と
すると、N0 個のカテゴリを NH 個に絞り込むために要する処理時間 T は、以下の式で表
される。
T =
H
(Mh − Mh−1 ) · Nh−1 · ΔT
(2.5)
h=1
但し、M0 = 0 とする。使用する特徴の次元数が Mh ではなく Mh − Mh−1 となっている
のは、第 h 段目では第 h − 1 段目から追加された特徴のみ計算することによる。一方、全
特徴次元数を MA とすると、階層構造をとらずに全次元数を用いて全対象カテゴリ数 N0
を分類する場合、処理時間 T0 は以下となる。
T0 = MA · N0 · ΔT
(2.6)
階層処理の導入による処理量の削減比 η は、
η = T0 /T
(2.7)
と表され、η が大きいほど高速化の効果が大きいことを表す。
階層処理の概念図を、図 2.2 で表す。
2.3.2 具体的な構成手順
文献 [37] では、各段階での分類率が 100% となる条件下で、格段の処理時間の総和が
最小となる特徴次元数と候補率を、DP マッチングにより求めている。しかし、分類率
100% の条件は、実環境下では満たされない場合が多く、[37] の手法をそのまま適用する
には限界がある。一般に、分類を階層化すると各階層において誤分類が生じ、階層化によ
る分類率は階層化以前の分類率より低下する場合が多い。
ここで、階層化による分類率の低下を極力抑制する手法を検討する。まず、特徴次元
数 m を変化させて大分類を行ったとき、第 n 位内に正解が存在する累積分類率を、学
習データからあらかじめ求めておく。例を表 2.1 に示す。表 2.1 では、特徴次元数を
mj (j = 1, 2, ..., 9)、候補数を ni (ij = 1, 2, ...6) とした時の、学習データにおける累積分
類率 ri,j を表している。
階層的分類法のパラメータである段数 H 及び各段の (Mh , Nh ) の組は、次の手順で決
13
第 2 章 拡張外郭方向寄与度特徴と輪郭特徴の併用処理による文字認識
1st stage
2nd stage
h-th stage
H-th stage
Number of candidates
All
categories
N0
N1
N2
M1
M2
Nh
NH
Mh
MH
Feature dimensions
図 2.2: 階層的分類処理
表 2.1: 特徴次元数と候補数の組み合わせに対する累積分類率の関係
XX
XXX
X
候補数
特徴次元数
XXX
m1
XXX
X
n1
r1,1
m2
m3
m4
m5
···
m6
m7
m8
m9
r1,7
···
r1,9
n2
n3
..
.
..
.
n4
ri,j
n5
n6
r5,4
r6,1
r6,2
···
r6,9
定する。
Step 1: 段数 H を決定する。
Step 2: 設定した分類率 cb を満足するよう、格段の分類率 ch を決定する。
Step 3: 累積分類率の表から ch に近い ri,j の値をとる (Mh , Nh ) の組を H 個選出する。
第 2 章 拡張外郭方向寄与度特徴と輪郭特徴の併用処理による文字認識
今、階層的な分類構成をとらない場合の分類率を cb 、第 h 段目における分類率を ch
とした場合、3,201 カテゴリに対し cb を保持しつつ、分類段数 H = 3 に設定した際に
上位 64 候補に絞る問題を考える。まず、cb c1 · c2 · c3 を満足するよう、各段の分類
率を選定する。選定法として種々の手法が考えられるが、ここでは各段の分類率が均等
となる c1 = c2 = c3 =
√
3
cb を条件として用いる。次に、c1 , c2 , c3 に近い値を表 2.1 か
ら選ぶ。例えば、r6,2 , r5,4 , r1,7 が選ばれたとすると、これに対応する (Mh , Nh ) の組は
(M2 , N6 ), (M4 , N5 ), (M7 , N1 ) となる。この値が仮に (100, 500), (150, 200), (200, 64) で
ある場合、式 (2.5) より階層的分類を行った場合の処理時間は T = 355,100 · ΔT となる。
一方、階層構成をとらずに分類した場合、N0 = 3,201、MA = 256、及び式 (2.6) より、
処理時間は T = 819,456 · ΔT となる。したがって、処理の削減比は式 (2.7) より η = 2.3
となり、処理速度は 2.3 倍に高速化されたことになる。
2.4 選択的な特徴の併用処理
2.4.1 基本的な処理フロー
併用処理の基本フローを、図 2.3 に示す。まず、入力パターンに対して、ePDC 特徴を
用いた認識処理により上位候補を得る。次に、得られた上位候補の中で、非漢字カテゴリ
セットに属す候補数を求める。あらかじめ設定した閾値に対し、候補数が閾値より小さい
場合は入力パターンを漢字と判定し、ePDC 特徴による認識結果を最終結果として出力す
る。一方、候補数が閾値より大きい場合は、入力パターンを非漢字カテゴリセットに属す
るカテゴリと判定し、続いて輪郭特徴を用いて入力パターンを再度認識し、左記認識結果
を最終結果として出力する。これにより、入力パターンに対して漢字/非漢字の判別を行
い、その結果に応じて特徴及び認識処理を選択利用することになる。
また前述したように、単純な構造を持つ漢字には非漢字の候補を多く含むものがある。
その対策として、上位候補数内に非漢字カテゴリに属する候補数が判別閾値を超える確率
が α 以上となる漢字を、輪郭特徴の認識辞書のカテゴリセットに追加登録する。以上によ
り、漢字/非漢字の誤判定が原因による誤認識を回避する。
2.4.2 具体的な処理構成
併用認識処理の具体的な構成を、以下の手順で行う。
Step 1: 非漢字カテゴリセット S0 を設定する。
Step 2: ePDC 特徴によって得られる上位候補数 K 、及び漢字/非漢字の判定候補数の閾
値 L を決める。
14
第 2 章 拡張外郭方向寄与度特徴と輪郭特徴の併用処理による文字認識
Input image
Recognition using ePDC feature
Kanji
Decision of Kanji/non-Kanji
non-Kanji
Recognition using contour feature
Final result
図 2.3: 併用認識処理のフロー
Step 3: 学習データを ePDC 特徴により認識し、非漢字カテゴリセットに属する候補数
Q を求める。
Step 4: あらかじめ定めた確率 α 以上で L ≤ Q となる漢字カテゴリを集め、追加文字カ
テゴリセット S1 とする。
Step 5: 輪郭特徴の認識辞書を、S2 = S0 ∪ S1 で定義される文字カテゴリセットに対し
て作成する。
ここで、漢字/非漢字を判定する閾値 L の値が小さい場合、漢字が非漢字に誤判定した
場合でも、輪郭特徴による認識対象に含まれ、正しく認識処理が行われる確率は高くな
る。一方、S2 に追加登録される漢字カテゴリ数が増加するため、輪郭特徴における認識
性能が低下する。逆に、L が大きい場合、漢字/非漢字の誤判定が生じた際の救済率は低
くなるが、S2 に登録される漢字カテゴリ数が減少するため、輪郭特徴における識別性能
は向上する。したがって、L の変化による救済率と識別率は反比例し、また全体の効果は
カバー率と認識率の積となる。L を定式化して求めることは難しい為、関係する各パラ
メータ L、K 、及び α は予備実験から定めることとする。
15
16
第 2 章 拡張外郭方向寄与度特徴と輪郭特徴の併用処理による文字認識
表 2.2: 実験データの概要
PP
PP
項目
PP
筆記条件
P
PP
データ名
P
筆記対象
カテゴリ・サンプル数
学習データ
楷書
JIS コード順
3,201 カテゴリ × 1,350 サンプル
評価データ 1
楷書
JIS コード順
3,201 カテゴリ × 20 サンプル
評価データ 2
自由筆記
文章
32,712 サンプル
(漢字:17,738、非漢字:14,974)
2.5 認識実験
2.5.1 実験データ
認識対象カテゴリは、JIS 第 1 水準漢字 2,965 カテゴリ、非漢字(英字・数字・平仮名・
カタカナ・記号)236 カテゴリである。各認識処理の辞書は、文字枠内に見本文字を見な
がら楷書体で筆記された文字パターン 1,350 サンプル/カテゴリを学習データに用いて作
成した。評価データは、以下の 2 種を用いた。評価データ 1 は、学習データと同条件で筆
記された、異なる 20 サンプル/カテゴリからなる。評価データ 2 は、文字枠なしの帳票
にあらかじめ提示した文章を自由に筆記させたデータの内、認識対象カテゴリの 32,712
サンプルからなる。学習データ及び評価データの概要を、表に 2.2 示す。また、各入力パ
ターンに対しては、前処理として大きさ・位置の正規化処理を行う。
2.5.2 ePDC 特徴における認識条件の設定
ePDC 特徴を用いた処理の概要は、以下の通りとなる。まず、ePDC 特徴の抽出及び主
成分分析により、256 次元の特徴ベクトル x を得る。次に、式 (2.2) のシティブロック距
離を用いた階層的分類処理により、上位 64 候補を選択する。この上位候補に対して、式
(2.3) の投影距離により、上位 K = 10 候補を選択し、第 1 位を識別結果とする。ePDC
特徴を用いる際の、式 (2.3) における投影距離の次元数は、予備実験より J = 8 とし、学
習データより識別用辞書を作成した。
ここで、階層的分類処理の段数及び特徴次元数の設定について述べる。まず、ePDC 特
徴における階層的分類処理の段数は、H = 2 とした。次に、c1 = c2 =
√
cb となるよう
c1 と c2 を決定した。2 段目の候補数は上述のように N2 = 64 とし、N2 = 64 の行で c2
に近い値をとる M2 として、予備実験から M2 = 256 とした。次に、2.3.2 の表 2.1 の考
第 2 章 拡張外郭方向寄与度特徴と輪郭特徴の併用処理による文字認識
え方に基づき、c1 に近い値をとる (N1 , M1 ) として、予備実験から N1 = 400 を選定及び
固定し、特徴次元数 M1 を 120、96、48 と変化させた 3 種類の大分類用辞書を作成した。
この大分類辞書と上述の識別辞書を用いて、特徴次元数と分類率の検証実験を行った。評
価データ 1 及び評価データ 2 における、処理速度比 η に対する認識率の変化を、図 2.4 に
示す。
図 2.4(a) より、評価データ 1 の分類率は処理速度比 η = 1 で 98.8% の値をとっている。
η = 1 は全 256 次元を用いた際の分類率である。M1 = 48 とした場合の分類率は 98.0%
となり、98% 台を維持しつつ処理速度比は η = 2.3 まで向上する。
図 2.4(b) より、評価データ 2 の η = 1 における分類率は 81.4% となり、評価データ
1 に比べ低い値となっている。これは、自由筆記条件により右上がり文字や走り書き文
字等の変形が大きい文字が多く含まれることが原因である。特徴次元数を変化させた際
の分類率の低下程度は、評価データ 1 とはやや異なり、初期が緩やかで後に急峻となる。
M1 = 48 とした際の分類率が一番低く 80.2% であるが、η = 1 とした分類率 81.4% から
の低下は、1.2% にとどまっている。
以上の実験結果から、階層的分類法は楷書体文字及び自由手書き文字のいずれに対して
も有効であり、以降は M1 = 48 とする。
2.5.3 輪郭特徴における認識条件の設定
輪郭特徴を用いる際の漢字/非漢字の判定パラメータを L = 4 とした。また、学習デー
タにおいて、L ≤ Q の誤判定となるサンプル数が各カテゴリの 1,350 サンプル中、100 サ
ンプル以上となる漢字カテゴリを文字セット S1 とし、非漢字辞書に追加登録した。この
際、S1 は 62 カテゴリからなり、非漢字に誤判定される漢字サンプルのうち、94% をカ
バーした。これは、比較的少数のカテゴリ数追加で、誤判定を大部分をカバー可能である
ことを表している。S1 として抽出されたカテゴリには、“二”、“八”、“丁”、“了”、“乙”
等、単純な構造の漢字が多い。
輪郭特徴の識別辞書は、S2 の 256 カテゴリ*1 について作成した。学習の回数及び学習
データの識別率は、初期の学習前が 94.7% であり、学習 8 回後の 98.5% に達した時点で
飽和したため、この時点の辞書を採用することとした。
2.5.4 併用処理の効果
ePDC 特徴を用いた認識処理と、2.5.2 及び 2.5.3 に基づいて作成した併用認識処理に
よる、評価データ 1 及び 2 に対する認識率を表 2.3 に示す。表 2.3 における誤認識低減分
*1
同形文字は合わせて 1 カテゴリとした為、236 + 62 = 298 カテゴリより少ない
17
18
第 2 章 拡張外郭方向寄与度特徴と輪郭特徴の併用処理による文字認識
Classification rate [%]
99
Original
98.5
M1=120
M1=96
M1=48
98
1
1.5
2
Speed-up ratio
2.5
(a) Test data 1
81.5
Classification rate [%]
Original
M1=120
M1=96
81
M1=48
80.5
80
1
1.5
2
2.5
Speed-up ratio
(b) Test data 2
図 2.4: 大分類の高速化に対する認識率の変化
は、ePDC 特徴を用いた認識処理及び併用認識処理における各誤認識率を各々 μe , μh と
すると、その差分
Δμ ≡ μe − μh
(2.8)
19
第 2 章 拡張外郭方向寄与度特徴と輪郭特徴の併用処理による文字認識
表 2.3: 全入力パターンに対する ePDC 特徴及び併用手法の認識結果
認識結果 [%]
使用データ
ePDC 特徴
併用手法
誤認識
誤認識
低減率
識別率
誤認識率
識別率
誤認識率
低減分
評価
漢字
98.6
1.4
98.5
1.5
-0.1
データ
非漢字
90.8
9.2
93.9
6.13
3.1
1
全体
98.0
2.0
98.1
1.9
0.1
評価
漢字
90.3
9.7
89.9
10.1
-0.4
データ
非漢字
72.2
27.8
81.5
18.5
9.3
2
全体
80.2
19.8
85.2
14.8
5.0
5
25
で定義した値である。Δμ が大きいほど併用認識処理の有効性を表し、負になる場合には
逆効果を表す。また、誤認識を減少させる性能を表す尺度として、以下の誤認識低減率 γμ
を求める。
γμ ≡ Δμ/μe × 100(%)
(2.9)
誤認識低減率が大きいほど、ePDC 特徴を用いた際の誤認識が救済されていることを表
す。表 2.3 により、評価データ 1 及び評価データ 2 の誤認識低減率は、各々 γμ = 5% 及
び 25% であり、評価データ 2 の救済度合いが大きい。これは、評価データ 2 の方が、非
漢字カテゴリのサンプル比率が多いこと、及び評価データ 1 は既に高認識率を達成してお
り誤認識の改善が難しいことが理由として考えられる。
また、漢字及び非漢字別の認識率では、併用処理により漢字の認識率はわずかに低下す
るものの、非漢字の認識率の向上が大きい。これにより、提案手法が漢字に対する認識性
能低下を最小限に留めつつ、非漢字の認識率改善に有効であることが分かる。
2.6 考察
2.6.1 漢字/非漢字の誤判定の影響
漢字/非漢字の誤判定には、入力パターンが非漢字であるにも関わらず漢字と判定され
た場合と、漢字であるにも関わらず非漢字と判定された場合の二つがある。前者の場合、
輪郭特徴は利用されないが、ePDC 特徴での認識性能が保証されており、問題は少ないと
思われる。一方後者の場合、正解カテゴリが認識辞書内に無いため、自動的に誤認識とな
り悪影響が大きい。
20
第 2 章 拡張外郭方向寄与度特徴と輪郭特徴の併用処理による文字認識
表 2.4: 非漢字判定入力パターンに対する輪郭特徴及び ePDC 特徴の認識結果
認識結果 [%]
使用データ
輪郭特徴
ePDC 特徴
誤認識
誤認識
低減率
識別率
誤認識率
識別率
誤認識率
低減分
評価
漢字
89.7
10.3
97.3
2.7
-7.6
データ
非漢字
95.1
4.9
91.7
8.3
3.4
1
全体
94.4
5.6
92.4
7.6
2.0
評価
漢字
77.5
22.5
83.2
17.8
-4.7
データ
非漢字
82.1
17.9
72.1
27.9
10.0
2
全体
81.8
18.2
72.7
27.3
9.1
26
33
上記影響を調査するため、輪郭特徴の処理対象となったパターンの内、認識辞書に登録
されていないカテゴリのパターン比率を調査した。全入力パターン数を Nt 、輪郭特徴の
認識処理で処理される文字パターンで正解カテゴリが認識対象カテゴリ S2 に登録されて
いないパターン数を Nn とすると、救済不可能な誤判定率 ε は、以下で表される。
ε ≡ Nn /Nt
(2.10)
評価データ 1 及び評価データ 2 において ε の値を調査したところ、各々 0.08% 及び 0.5%
であった。この値は、2.5.4 で述べた併用処理全体の認識率に比べ、非常に小さい値であ
る。これにより、漢字/非漢字の判定における副作用は小さいと言える。
2.6.2 輪郭特徴の効果
次に、輪郭特徴による認識性能の影響を評価した。漢字/非漢字の判定により、輪郭特
徴の認識対象カテゴリと判定された入力パターンの集合に対する、輪郭特徴及び ePDC
特徴の認識結果を、表 2.4 に示す。評価データ 1 及び評価データ 2 の誤認識は、各評価
データ全体で各々 2.0% 及び 9.1% 減少している。また、誤認識低減率から見ると、各々
26% 及び 33% となる。この値は、表 2.3 における評価データ全体に対する値より良く、
輪郭特徴の導入による効果が表れている。一方、漢字に対する誤認識低減分が、表 2.3 に
比べ悪化している。これは、輪郭特徴が漢字の認識に対して、必ずしも有効ではないこと
を表している。しかし、輪郭特徴の認識対象となったパターンの内、評価データ 1 及び評
価データ 2 における漢字の割合は、各々 13.2% 及び 5.4% であった。悪影響は小さく、全
体の性能としては向上していると言える。
以上の結果より、輪郭特徴を用いた認識処理は、ePDC 特徴を用いた認識処理を効果的
第 2 章 拡張外郭方向寄与度特徴と輪郭特徴の併用処理による文字認識
に補完しているといえる。また、両認識手法の選択利用で生じる副作用も小さいことか
ら、併用手法は狙い通りの効果を得ているといえる。
2.7 まとめ
本章では、入力文字の字形の特性さに応じて、ePDC 特徴と輪郭特徴とを選択的に使用
することにより、認識率の向上を図る併用手法を提案した。提案手法の特長は、ePDC 特
徴を用いた認識結果による漢字/非漢字の判定、及び輪郭特徴による非漢字及び単純な字
形の漢字の認識である。楷書体文字及び自由手書き文字を対象とした認識実験により、以
下の結果を得た。
1. 漢字/非漢字の判定における救済不可能な誤判定率は各々 0.08%, 0.5% であり、悪
影響は小さい
2. ePDC 特徴のみを使用した認識性能に対する併用処理による誤認識低減率では、併
用処理全体では各々 5%, 25%、輪郭特徴の認識処理では 26%, 33% であり、輪郭特
徴の導入効果は大きい
以上により、提案した併用手法により、ePDC 特徴で問題であった非漢字の認識率が向
上することが明らかになった。
21
22
第3章
相対方向寄与度特徴による文字認識
3.1 まえがき
第 2 章では、2 種の方向特徴を併用することにより、手書き文字認識の性能向上が可能
であることを示した。しかし、方向特徴は文字線の絶対的な傾き角度に基づいているた
め、手書き変形に起因する傾き変動に敏感である。したがって、実環境下での筆記による
変形した文字に対しては、過去の研究における丁寧に筆記された文字に対する認識率と同
等の性能は示せないのが現実であり [38, 30]、また前章での結果もそれに即したものと言
える。更なる手書き変形に対する性能向上には、手書き漢字認識に用いる特徴として、方
向特徴に代わる特徴若しくは方向特徴に足りない情報を補完可能な特徴を検討する必要が
ある。
これまで行われてきている研究では、漢字に限らず手書き文字認識における方向特徴
を補完する特徴として、文字線の屈曲性に関する情報 [21, 39, 40, 41] 及び文字線の相対
配置に関する情報 [42, 43] の抽出が検討されている。文字線の屈曲性に関しては、屈曲
の程度及び屈曲の方向に対して数種のコードの割り当て及びコード数をカウントする手
法 [21, 40, 41]、屈曲の程度を数値化して集積する手法 [39] が検討されており、いずれも
方向特徴を補完する特徴として一定の有効性が示されている。また、文字線の相対的な配
置関係の抽出に関しては、背景から観測した際の文字線の存在情報の抽出を目的とした手
法 [42]、相対する文字線間の角度差に対して数種のコードの割り当て及びコード数をカウ
ントする手法 [43] が検討されている。しかし、相対配置関係を抽出する特徴については、
手書き漢字認識における有効な記述方法の検討及び認識性能の評価は、必ずしも十分では
ない。また、文字線間の相対配置関係は、各文字カテゴリの特徴付けに重要な役割を果た
していると推測される。したがって、より適切な相対配置情報を抽出し特徴として用いれ
ば、認識性能の向上が可能であると考えられる。
本章では、文字線間の相対配置情報の詳細な記述として、隣接文字線間の相対角度及
23
第 3 章 相対方向寄与度特徴による文字認識
び相対位置情報を抽出した特徴を提案し、手書き漢字認識における認識性能の評価を行
う。また、相対配置情報を抽出した特徴と方向特徴との比較、及び併用時の効果について
も検証する。以下、3.2 で方向特徴の問題点と本章で提案する相対配置情報を抽出した特
徴 [44, 45] について説明する。3.3 において、方向特徴と提案特徴を比較するために行っ
た認識実験及びその結果について述べる。3.4 で、実験結果に対する考察を述べる。3.5
はまとめである。
3.2 文字線間の相対配置情報
3.2.1 方向特徴の概略と問題点
手書き漢字認識に有効な方向特徴の一つに、第 2 章で用いた外郭方向寄与度(PDC)
特徴 [6]、及びそれを拡張した拡張外郭方向寄与度(ePDC)特徴 [7, 8] がある。PDC 特
徴及び ePDC 特徴の抽出手順の概略は、以下の通りとなる。まず、文字を 8 方向から外
郭走査し、1 番目にぶつかる輪郭点を第 1 深度の輪郭点、以下順に第 N 深度までの輪郭
点を抽出する。次に、各輪郭点を中心に 8 方向に黒画素の run-length を計測し、文字線
の傾き角度及び接続関係を表現する方向寄与度 di (i = 1, . . . , 4) または拡張方向寄与度
dei (i = 1, . . . , 8) を、以下の式により求める。
li + li+4
di = 4
2
j=1 (lj + lj+4 )
(3.1)
li
dei = 8
(3.2)
2
j=1 lj
最後に、外郭走査方向別に分割した区間及び各深度ごとに(拡張)方向寄与度を集積し、
特徴ベクトルを得る。図 3.1 に,PDC 特徴及び ePDC 特徴における特徴抽出の概要を
示す。
ここで、特徴抽出と各文字のカテゴリが成立する条件の関係について考察する。文字カ
テゴリごとの個性は、以下の三つの要素から成立していると考えられる。
• どのような文字線が存在するか
• どこに存在するか
• どのような配置関係で存在するか
文字の成立要素と PDC 特徴・ePDC 特徴の抽出過程を比較すると、「どのような文字線
が存在するか」は、文字線の方向情報が表現している。「どこに存在するか」は、集積さ
第 3 章 相対方向寄与度特徴による文字認識
(a) Handwritten Kanji
and peripheral scanning.
(b) An enlarged part of (a).
Its run-length in each of the
eight directions is computed.
3
4
2
5
1
8
6
7
(c) Eight scanning directions
to compute run-length.
(d) Slice zones in each peripheral
scanning direction.
図 3.1: PDC 特徴及び ePDC 特徴の抽出説明図
れる走査方向、外郭深度、及び区間が表現している。ここで、
「どのような配置関係で存
在するか」は、明確に表現されていない。外郭走査における第 N 深度という順序は表現
されているが、文字線同士がどのような関係をもって配置されているかに関しては、特徴
値として表現されていない。
手書き漢字では傾き変動が生じても、縦線同士または横線同士の相対的な平行度や局所
領域内における上下左右という文字線間の位置関係は、保たれている場合が多い。図 3.2
に、上記例を示す。しかし、PDC 特徴・ePDC 特徴を用いた認識では、図 3.2 のような
例は誤認識になる場合が多い。
傾き変動が生じても人は正しく認識できることを考慮すると、文字線間の相対的な配置
関係は、カテゴリごとの個性の表現に重要な役割を果たしていると考えられる。したがっ
24
第 3 章 相対方向寄与度特徴による文字認識
図 3.2: 傾き変動が起きたパターン例
parallel
30
(a) Relative angle
south
south & east
(b) Relative position
図 3.3: 相対配置関係:相対角度と相対位置
て、相対配置情報を抽出した特徴は、カテゴリごとの個性をより強く表現し、かつ傾き変
動に対してもより強い耐性を備えているはずである。方向情報の抽出を局所的記述と位置
づけると、相対配置情報の抽出は大局的記述及び 2 次元的構造の記述であるといえる。
3.2.2 相対配置関係の記述手法
3.2.1 の考察を踏まえ、文字線間の相対配置関係を具体的に記述する手法を検討する。
相対配置情報には数種類が考えられるが、本章では相対的な角度情報及び相対的な位置情
報の抽出を検討する。図 3.3 に、相対角度及び相対位置についての概略を示す。
具体的な処理手順としては、まず、入力された文字において、着目した文字線と各方向
に隣接する文字線から、それぞれ方向寄与度を抽出する。次に、得られた方向寄与度を用
いて、隣接している文字線との相対角度を算出する。最後に、相対角度を隣接方向別に算
出し集積する。以上の処理により、着目した文字線と隣接した文字線間との相対角度及び
25
第 3 章 相対方向寄与度特徴による文字認識
(a) Handwritten Kanji.
(b) An enlarged part of (a). Relative angle
is computed between adjacent strokes.
図 3.4: 隣接文字線間での相対角度の定義
相対位置に関する情報を、特徴値として抽出できる。図 3.4 に、左右に隣接した文字線間
での相対角度の定義例を示す。
隣接文字線間の相対的な位置関係を抽出する手法には、外郭走査を用いる*1 。様々な方
向の外郭から文字を走査し、着目した文字線とその次の深度となる隣接文字線間の関係
を、走査方向別及び走査深度別に集積することにより、着目した文字線と様々な方向に隣
接している文字線間との相対位置が定義できる。図 3.5(a) に、着目した文字線と隣接し
ている文字線間との関係が、外郭走査により抽出される様子を示す。例えば、着目した文
字線と右上に隣接している文字線との相対関係は、左下からの外郭走査により定義され、
右に隣接している文字線との関係は、左からの外郭走査により定義されることがわかる。
また上記抽出法により、第 N 深度まで走査した際には、第 1 深度と第 2 深度間、...、第
N − 1 深度と第 N 深度間の合計 N − 1 隣接数分の特徴が抽出される。図 3.5(b) に、外
郭走査の深度数と隣接数の関係を示す。例えば第 3 深度まで走査した際には、第 1 深度と
第 2 深度間及び第 2 深度と第 3 深度間の合計 2 隣接数の相対関係が定義されることがわ
かる。
次に、隣接した文字線間の相対角度を表現する尺度を検討する。着目した文字線から
in
得られる方向寄与度を F in = (f1in , . . . , fK
) (K は 4 または 8 方向)、隣接した文字
ad
線から得られる方向寄与度を F ad = (f1ad , . . . , fK
) としたとき、スカラ量 m あるいは
mi (i = 1, . . . , K) を成分とする K 次元ベクトルからなる 5 種類の尺度を、以下の式で定
*1
局所的な領域ごとに、隣接文字間の走査及び特徴値の集積を行う手法も考えられるが、予備実験ではあま
り良い結果は得られなかった。
26
27
第 3 章 相対方向寄与度特徴による文字認識
(a) By the encountered order and
direction in periheral scanning,
relative position of adjacent
strokes is defined.
(b) 2 pairs of strokes are derived
by 3 encountered strokes.
図 3.5: 外郭走査による相対配置の抽出
義する。
余弦 (cosine) [46]
K
in
ad
i=1 fi · fi
K
in 2 ·
j=1 fj
j=1
m = K
2
fjad
(3.3)
相関 (correlation)
mi = fiin · fiad
(3.4)
正規化相関 (normalized correlation)
fiin · fiad
K
in 2 ·
ad 2
f
j=1 j
j=1 fj
mi = K
(3.5)
差分 (difference)
mi = fiin − fiad
(3.6)
28
第 3 章 相対方向寄与度特徴による文字認識
正規化差分 (normalized difference)
f in
mi = i
K
in
j=1 fj
2
*2
f ad
− i
K
ad
j=1 fj
2
(3.7)
余弦・相関・正規化相関は、比較する文字線間での一致の度合(平行具合)を強調する尺
度である。一方、差分・正規化差分は、文字線間での違いの度合(角度差)を強調する尺
度である。上記 5 種類の尺度を相対角度を表現する特徴として用い、各尺度の識別能力を
認識実験で検証する。
3.3 認識実験
3.3.1 提案尺度選択のための予備実験
実験条件
3.2.2 で提案した 5 種類の尺度から、有効なものを選択する。そのため、提案尺度の識
別能力を比較する予備実験を、以下の条件で行った。外郭走査方向数、走査方向ごとの区
間分割数、外郭深度(隣接数)
、寄与度の方向は、それぞれ 8 走査方向、8 区間、3 深度(2
隣接数)
、4 方向(方向寄与度)及び 8 方向(拡張方向寄与度)とした。したがって各尺度
の次元数は、余弦が 8 × 8 × 2 × 1 = 128 次元、その他の尺度が 8 × 8 × 2 × 4 = 512 次元
(方向寄与度に基づくもの)、または 1,024 次元(拡張方向寄与度に基づくもの)である。
学習データには、ETL9B [47] (3,036 カテゴリ、200 パターン/カテゴリ)から、奇数番
(1, 3, ..., 199)の 100 パターン/カテゴリを用いた。評価データには、偶数番(2, 4, ..., 200)
の中から、162 ∼ 200 番の 20 パターン/カテゴリを用いた。識別関数には、ユークリッド
距離を用いた。
D(F, F̄ i ) =
N
j=1
(fj − f¯ji )2
(3.8)
ここで、F 及び fj は入力ベクトル及びその j 番目の要素、F̄ i 及び f¯ji は i 番目のカテゴ
リの平均ベクトル及びその j 番目の要素である。N はベクトルの総次元数である。
実験結果及び考察
図 3.6(a) に方向寄与度に基づいた各提案尺度の累積分類率を、図 3.6(b) に拡張方向寄
与度に基づいた各提案尺度の累積分類率を示す。各グラフの縦軸は分類率、横軸は候補数
を表す。
各尺度の結果について、以下の理由が考えられる。余弦の認識率の低さは、各区間ごと
*2
ノルムで値域を正規化したベクトル間の差分という定義で使用。
29
第 3 章 相対方向寄与度特徴による文字認識
difference
normalized difference
normalized correlation
correlation
cosine
100
90
90
80
80
70
70
60
60
50
50
40
40
30
30
Classification rate [%]
100
1
2
3
4
Candidate order
(a) Measures based on
direction contributivity
5
1
2
3
4
Candidate order
5
(b) Measures based on
expanded direction contributivity
図 3.6: 方向寄与度及び拡張方向寄与度に基づいた各提案尺度の累積分類率
の次元数が、4 次元または 8 次元から 1 次元へ圧縮されることにより、他尺度と比較して
著しく低下したためである。相関・正規化相関(及び余弦)では、隣接文字線が存在する
ときは、文字線間の平行度を表現可能である。しかし、隣接文字線が存在しない(比較対
象の特徴の要素がすべて 0 である)ときは、比較元の特徴値にかかわらず必ず新しい特
徴値が 0 になるため、比較元の情報が消失する。したがって、特徴としての記述能力が減
少し、認識率の低下を招くと考えられる。一方、差分・正規化差分では、隣接文字線が存
在するときは、文字線間の角度差を表現する。また存在しないときは、比較元の文字線の
絶対角度を相対角度差として表現する。したがって、目的とする相対角度の表現を達成
し、かつ記述能力の低下を抑えているため、他尺度より高い認識能力を得ていると考えら
れる。
良好な結果を得た差分及び正規化差分から求められる特徴を、相対方向寄与度特徴
第 3 章 相対方向寄与度特徴による文字認識
図 3.7: ETL9B のパターン例
(Relative Direction Contributivity、以下 RDC 特徴と略す)、及び正規化相対方向寄与
度特徴(normalized RDC、以下 nRDC 特徴と略す)と名づけ、PDC 特徴及び ePDC 特
徴との比較を行う。
3.3.2 方向特徴との比較実験
実験条件
提案特徴と PDC 特徴・ePDC 特徴の性能比較を、以下の条件で行う。以下のすべての
実験において、学習データには ETL9B の奇数番 100 パターン/カテゴリを用いる。評価
データには、
• ETL9B 偶数番 100 パターン/カテゴリ
• ETL9B の一部を人工的に変形させたデータ
• 低品質手書き平仮名・漢字データ
以上 3 種のデータセットを用い、様々な品質における定量的な性能比較及び評価を行う。
PDC 特徴・ePDC 特徴と提案特徴の次元数をそろえるため、提案特徴を求める際の外郭
深度を 4 深度とし、3 隣接数から特徴を求める。各特徴の次元数は、方向寄与度に基づく
PDC 特徴・RDC 特徴・nRDC 特徴が 768 次元、拡張方向寄与度に基づく ePDC 特徴・
RDC 特徴・nRDC 特徴が 1,536 次元である。識別関数は、式 (3.8) のユークリッド距離
を用いる。
ETL9B における比較
図 3.7 に、評価データに用いた ETL9B のパターン例を示す。図 3.8 に、ETL9B 偶数
番に対する方向寄与度に基づく各特徴の累積分類率を示す。また、図 3.9 に、同評価デー
タに対する拡張方向寄与度に基づく各特徴の累積分類率を示す。
図 3.8 及び図 3.9 より、提案した RDC 特徴・nRDC 特徴は、従来特徴の PDC 特徴・
30
31
第 3 章 相対方向寄与度特徴による文字認識
RDC
nRDC
PDC
100
Classification rate [%]
98
96
94
92
90
1
2
3
4
5
6
7
Candidate order
8
9
10
図 3.8: ETL9B に対する各特徴の認識結果(方向寄与度に基づく特徴)
ePDC 特徴より認識性能が高いことがわかる。第 1 位認識率の比較において、図 3.8 の方
向寄与度に基づく特徴では、RDC 特徴(94.45%)は PDC 特徴(90.65%)における誤読
の約 41% を救済し、nRDC 特徴(92.10%)は約 16% を救済している。また、図 3.9 の
拡張方向寄与度に基づく特徴では、RDC 特徴(96.49%)が ePDC 特徴(94.46%)の誤
読を約 37%、nRDC 特徴(95.80%)が約 24% を救済している。上記結果から、文字線間
の相対配置情報が手書き漢字認識に有効であり、文字カテゴリの個性の表現に大きな役割
を果たしていることがわかる。
人工的に変形させたデータにおける比較
変形に対する耐性を定量的に評価するため、ETL9B の一部を affine 変換により変形さ
せ、評価データとして用いる。特徴は、拡張外郭方向寄与度に基づく ePDC 特徴・RDC
特徴・nRDC 特徴を用いる。変形には文献 [39, 48] を参考に、x 軸方向及び y 軸方向の
縮小変換、x 軸方向及び y 軸方向の傾斜変換を用いる。x 軸方向の縮小変換では、文字が
32
第 3 章 相対方向寄与度特徴による文字認識
RDC
nRDC
ePDC
Classification rate [%]
100
98
96
94
1
2
3
4
5
6
7
Candidate order
8
9
10
図 3.9: ETL9B に対する各特徴の認識結果(拡張方向寄与度に基づく特徴)
縦長になるよう幅を 1 ∼ 0.6 倍に縮小する。同様に y 軸方向の縮小変換では、横長になる
よう高さを縮小する。x 軸方向の傾斜変換では、0 ∼ 15 度の角度で文字を右側に傾斜させ
る。同様に y 軸方向の傾斜変換では、右上りに傾斜させる。図 3.10 に、
「亜」の原パター
ン、0.8、0.7、0.6 倍の縮小変換を施したパターン、及び 5、10、15 度の傾斜変換を施し
たパターンを示す。
評価用の変換元データには、3.3.1 で使用した評価用データと同じ ETL9B 全カテゴリ
の偶数番 162 ∼ 200 番の 20 パターン/カテゴリを用いる。図 3.11 に、上記変形を施した
評価データに対する各特徴の認識率を示す。
図 3.11 より、各変換における変形の程度が大きくなるにつれて、RDC 特徴・nRDC 特
徴より ePDC 特徴の認識率の低下が大きく、認識率の差が大きくなっていることがわか
る。これは、変形下における相対配置情報の保存性が高く、提案特徴が従来特徴より傾き
変動等に対して耐性があることを示している。ここで、y 軸方向の傾斜変換における認識
率の低下が他変換での低下より少ない理由には、以下が考えられる。丁寧に筆記された文
33
第 3 章 相対方向寄与度特徴による文字認識
x-scale
0.8
0.7
0.6
0.8
0.7
0.6
5.0
10
15
5.0
10
15
y-scale
original
x-skew
y-skew
図 3.10: 各変換により変形されたパターン例
字においても、自然な筆記傾向として少なからず右上りに記載されている場合がある。し
たがって、ETL9B のみを用いて作成された辞書においても、人工的に傾斜させた程度で
はないものの、多少の右上り傾向が反映されているためだと考えられる。
低品質手書きデータにおける比較
実環境下での筆記による手書き変形への耐性を評価するため、枠なし・自由筆記の帳票
から手動で切り出した低品質手書き文字パターンを評価データとして用いる。上記デー
タは、ETL9B に含まれるカテゴリのうち、漢字 1,552 カテゴリ・平仮名 71 カテゴリの
計 1,623 カテゴリを含み、漢字 17,738 パターン・平仮名 11,447 パターンの計 29,185 パ
ターンからなる。ETL9B より手書き変形がひどく、一部に掠れや潰れのパターンも存在
する。図 3.12 に、低品質データのパターン例を示す。図 3.7 と比較すると、上記データ
がかなり低品質であることがわかる。
図 3.13 に、低品質データに対する拡張方向寄与度に基づく ePDC 特徴・RDC 特徴・
nRDC 特徴の累積分類率を示す。また、表 3.1 に漢字・平仮名別の識別率を示す。図 3.13
より、提案特徴である RDC 特徴・nRDC 特徴は、全ての順位で ePDC 特徴より高い認
識率を示している。また表 3.1 より、RDC 特徴は ePDC 特徴の誤読を約 15%、nRDC
34
第 3 章 相対方向寄与度特徴による文字認識
90
90
Recognition rate [%]
100
Recognition rate [%]
100
80
70
RDC
nRDC
PDC
60
80
70
60
50
50
1
0.9
0.8
0.7
0.6
Scale [ratio]
(a) Recognition rates for
patterns distorted in x-scale
1
0.9
0.8
0.7
0.6
Scale [ratio]
(b) Recognition rates for
patterns distorted in y-scale
100
90
90
Recognition rate [%]
100
Recognition rate [%]
RDC
nRDC
PDC
80
70
RDC
nRDC
PDC
60
50
80
70
RDC
nRDC
PDC
60
50
0
5
10
15
Angle [degree]
(c) Recognition rates for
patterns distorted in x-skew
0
5
10
15
Angle [degree]
(d) Recognition rates for
patterns distorted in y-skew
図 3.11: 各変換に対する認識率の変化
特徴は約 19% の誤読を減少させている。これは、文字線間の相対配置情報を抽出した提
案特徴が、従来の文字線の絶対角度を抽出した方向特徴と比較して、学習データとは異な
る品質のデータに対しても耐性があることを示している。一方、低品質データにおける誤
読減少率は、ETL9B における誤読減少率より少ない。これは、提案特徴により吸収可能
35
第 3 章 相対方向寄与度特徴による文字認識
図 3.12: 低品質データのパターン例
表 3.1: 低品質データの漢字・平仮名別の識別率
Feature
Recognition rate [%]
Total
Kanji
Hiragana
ePDC
76.07
76.46
75.46
RDC
79.70
80.98
77.71
nRDC
80.57
81.15
79.67
な変形は、実環境での筆記で生じる変形内の一部であり、他にもまだ多様な変形が存在す
るためである。また、前記二つの認識実験と異なり、nRDC 特徴が RDC 特徴より良い結
果を得ている。特に表 3.1 より、平仮名に対する nRDC 特徴の有効性がわかる。正規化
処理*3 がカテゴリ間の差異の強調及び変形の吸収にどのように寄与しているかは明らかで
はなく、今後より詳細な考察が必要である。
3.3.3 特徴の併用
次に、ePDC 特徴と提案特徴の併用効果を調べる。評価基準には、特徴次元数を同一に
した際の認識率の優劣を用いた。したがって、併用時の 2 特徴合わせた次元数を、原特徴
の次元数である 1,536 次元に削減した。削減法には KL 展開 [33, 34] を用い、2 特徴合わ
せた軸の中から寄与率の高いものを順次用い、合計 1,536 次元とした。表 3.2 に、ETL9B
偶数番 100 パターン/カテゴリに対する ePDC 特徴と nRDC 特徴間の相補関係を示す。
また表 3.3 に、ePDC 特徴と nRDC 特徴を併用した際の認識率を示す。
表 3.3 から、特徴の併用により、更に 1.0% 程度認識率の向上が可能となったことがわ
かる。しかし、表 3.2 から予想される程の併用効果は得られなかった。実際、ePDC 特徴
*3
区間ごとの特徴ベクトルのノルムによる正規化であり、特徴ベクトル全体のノルムや特徴次元ごとの標準
偏差による正規化とは異なる。
36
第 3 章 相対方向寄与度特徴による文字認識
nRDC
RDC
ePDC
Classification rate [%]
95
90
85
80
75
1
2
3
4
5
6
7
Candidate order
8
9
10
図 3.13: 低品質データに対する各特徴の認識率
または nRDC 特徴で誤読であったパターン(3.39 + 2.05 + 2.15 = 7.59%)の 41%(全パ
ターン数の 3.15%)が、併用により誤読から正読に転じた。逆に、ePDC 特徴及び nRDC
特徴ともに正読であったパターン(92.41%)の 0.33%(全パターン数の 0.31%)が、併用
特徴により誤読となった。ただし、救済された誤読と新たに発生した誤読のパターン数に
おける比は 3.15 : 0.31 = 約 10 : 1 であり、特徴の併用効果は確認できる。
表 3.2 から期待されるほどの効果が得られなかった原因には、nRDC の特徴量が ePDC
特徴の特徴量の線形和に近いため、KL 展開による次元圧縮では両特徴の相関部分が強調
されがちであることが考えられる。併用効果の更なる改善には、情報の近似を目的とした
KL 展開ではなく、カテゴリ間の判別を目的とした正準判別分析 [34] の利用、各特徴別認
識結果の統合手法 [49, 50, 51] を検討する必要がある。
37
第 3 章 相対方向寄与度特徴による文字認識
表 3.2: ePDC 特徴と nRDC 特徴間の相補関係
nRDC correct
nRDC error
ePDC correct
92.41%
2.05%
ePDC error
3.39%
2.15%
表 3.3: ePDC 特徴と nRDC 特徴を併用した際の認識率
Recognition rate [%]
Test data
ePDC
nRDC
ePDC+nRDC
ETL9B
94.46
95.80
96.70
Low quality
76.07
80.57
81.59
3.4 考察
図 3.14 に、ePDC 特徴で誤読、ePDC 特徴と nRDC 特徴の併用特徴で正読となるパ
ターン例を示す。(a) が ETL9B での例、(b) が低品質データでの例である。図 3.14 から、
相対配置情報の追加により傾き変動に対する耐性が向上し、正しく認識できたことがわか
る。特に (a) の「室」及び (b) の「た」など、絶対角度に基づく方向特徴では認識が困難
なパターンに対しても、提案特徴では認識が可能であり、相対配置情報の有効性が確認で
きる。
図 3.15 に、ePDC 特徴、nRDC 特徴、ePDC 特徴と nRDC 特徴の併用特徴のいずれを
用いても誤読となるパターン例を示す。(a) が ETL9B での例、(b) が低品質データでの
例である。誤読の原因は、
(i)
文字線の細かい形状や有無に関する表現力不足
(ii)
変形による位置ずれ
(iii)
変形による他文字への類似・位相情報の変化
(iv,v) 掠れ・汚れ・切出し時の文字線の喪失
である。各誤読に対しては、
(I)
特徴の更なる強化、及び構造解析手法との融合
(II)
前処理における非線形正規化 [5, 52, 53] の活用
(III)
文脈情報など知識処理との協調
第 3 章 相対方向寄与度特徴による文字認識
(a) Examples of ETL9B
(b) Examples of low quality data
図 3.14: 正読パターンの例
ePDC 特徴の認識結果 → ePDC 特徴 +nRDC 特徴の認識結果(正解カテゴリ)
(IV,V) 2 値化処理の高度化、または濃淡画像から直接の特徴抽出
を検討する必要がある。
3.5 まとめ
本章では、手書き漢字認識における特徴抽出において、文字線間の相対配置情報が文字
カテゴリの決定に重要な役割を果たしているとの考察に基づき、隣接した文字線間の相対
的な角度及び位置を表現する相対方向寄与度特徴を提案した。認識実験では、ETL9B・
ETL9B を人工的に変形させたデータ・低品質データのいずれに対しても、提案特徴は従
来有効とされる方向特徴を上回る認識性能を得た。また、提案特徴と方向特徴の併用によ
り、更に高い認識率を得た。これにより、相対配置情報の手書き漢字認識に対する有効
性、及び手書き変形に対する方向情報以上の耐性が明らかになった。
38
39
第 3 章 相対方向寄与度特徴による文字認識
(i)
(ii)
(iii)
(iv)
(a) Examples of ETL9B
(v)
(i)
(ii)
(iii)
(iv)
(b) Examples of low quality data
(v)
図 3.15: 誤読パターンの例
正解カテゴリ → ePDC 特徴 +nRDC 特徴の認識結果
40
第4章
背景形状の特徴と動的修正識別関数
による文字認識
4.1 まえがき
文字認識において、認識性能を低下させる主な原因には、画質劣化と変形がある。しか
し、従来から提案されている認識手法の多くは、どちらか片方の問題に焦点を当てて検討
されている。
マルチフォントや手書き文字における変形に対しては、第 2 章及び第 3 章において述べ
たように、文字線の幾何学的情報、特に文字線の方向情報を抽出した特徴(方向特徴)
、及
びそれに基づいて相対配置関係を記述した特徴が有効である。しかし、幾何学的特徴を用
いる認識手法では、文字画像に画質劣化が生じた場合、幾何学的情報を正しく抽出するこ
とが困難になるため、認識率が急激に低下するという問題がある。画質劣化の影響を低減
するため、背景ノイズ等の除去 [54, 55, 56] やかすれた部分の穴埋め [57] を行う前処理が
提案されているが、これらの手法では本来残すべき文字線をノイズと誤判定して除去した
り、逆にノイズを強調してしまうなど、必ずしも有効に機能するわけではない。
第 2 章及び第 3 章において、特徴抽出における変形に対する耐性向上について述べた
が、ノイズ等の画質劣化が生じていないことが前提条件としてあった。しかし、実環境で
は変形だけではなく、画質劣化が生じる場合もある。幾何学的特徴は、画質劣化が生じた
場合は特徴量が正しく抽出出来ず、誤認識の大きな原因の一つになっている。
一方、画質劣化に対処した手法として、対象文字画像の劣化状態やフォント形状を反映
させたテンプレートの獲得法が提案されている [58, 59, 60, 61]。また、ノイズやテクス
チャにより劣化した文字を認識可能とする識別尺度も提案されてい [62, 63, 19]。しかし、
上記手法は画像間のテンプレート・マッチングを基本としているため、変形が少なく事前
に使用されるフォントが分かっている印刷活字の認識等に適用範囲が限られる。
第 4 章 背景形状の特徴と動的修正識別関数による文字認識
本章では、画質劣化への耐性向上に関する検討の第一ステップとして、特徴マッチング
に基づいた手法において、
1. 背景及び文字領域における輪郭形状変動へのロバスト性に着目した特徴抽出
2. 局所領域毎に画素の変動量を計測し、変動量に応じた距離値の補正を行うことによ
り、ノイズの影響を抑制する識別関数
を提案し、認識率を改善することを検討する [64, 65]。
また応用の側面では、近年は文字認識のニーズが拡大し、従来の紙媒体以外の画像・映
像への適用が行われている。その中の一つとして、映像中の文字を認識し映像のインデッ
クスとして利用する試みがなされている。しかし、映像から切り出された文字は、マルチ
フォント等の変形、及び輪郭形状の鋸状劣化及び背景の残存ノイズ等の画質劣化が生じて
いる。本章では、認識対象として映像中から切り出した文字情報を取り扱い、提案手法の
左記画質劣化への耐性を検証する。
以下、4.2 において、映像中文字認識の位置付け及び映像中文字の画質劣化と認識時の
問題点について述べる。画質劣化の影響を軽減するために検討した改善手法として、4.3
では特徴抽出処理について、4.4 では識別関数について述べる。4.5 において認識実験の
結果について述べる。4.6 では考察を述べる。4.7 はまとめである。
4.2 映像中文字認識
4.2.1 背景と関連研究
近年、多チャンネルのテレビ放送、インターネットによる映像配信、及び DVD 等によ
る映像出版物により、大量の映像情報が流通している。しかし、こららの映像情報はシー
ケンシャルな構造を持つため、全体の内容を把握したり、膨大な映像アーカイブから自分
の要求に合う映像を探し出すことは容易でない。したがって、映像内容をブラウズした
り、アーカイブからの検索を可能とする技術が望まれており、現在までに様々な映像検索
技術が提案されている(例えば、[66, 67, 68, 69, 70, 71] など)。
映像情報は、それ自体が画像や音声など複数の情報から成り立っている。それらの情報
の中でも、映像内容の検索インデックスとして、テロップなどの映像中の文字情報は、映
像内容の理解において非常に有用である。例えば、ニュース番組ではニュース内容のヘッ
ドラインや取材場所が表示される。また、スポーツ番組では試合経過や選手名が示され
る。これらの例のように、映像中の文字は、映像内容を概念レベルで端的に説明し、かつ
映像の始まりと同時に表示され、映像内容と時間的に密接な関係にある場合が多い。した
がって、映像中の文字を認識することにより、映像内容の意味情報が獲得できる。そし
41
第 4 章 背景形状の特徴と動的修正識別関数による文字認識
て、認識結果を用いることにより、映像内容の解析や索引の付与及び検索が可能となる。
またこの際、検索キーワードとして 1 位の認識結果だけではなく上位候補(例えば 10 位
までの結果)を利用することにより、より高い検索率が実現可能となる。したがって認識
性能として、1 位のみならず上位 10 位までの結果も検索技術の実現に対して重要となる。
近年、映像中文字の認識を目的とした様々な研究が発表されている [70, 72, 73, 74, 75,
76, 77, 78] 。しかしその多くは、映像フレーム系列から文字を含むフレームの検出、及び映
像フレーム内の文字領域の抽出における性能改善を主目的としている [70, 73, 74, 76, 77]。
それに対し、映像フレームから抽出された文字画像の認識おける各種課題への対処を主目
的とした研究は少ない [78]。本論文では、映像フレームから抽出後の文字画像の認識を目
的とし、その際に生じる問題を取り扱う。
4.2.2 映像中文字の性質
映像中文字認識を技術的側面から捉えると、映像フレーム画像を 2 値化し、2 値画像か
ら切り出された映像中文字画像には、主に以下の性質が存在する。
• 文字線の輪郭形状が鋸状に劣化する。
• 背景に不規則な大きさ・形状のノイズが残る。
輪郭形状の劣化は、一文字当たりの画像解像度が低いこと、及びアナログ映像において
画素間で色の滲みが生じ、文字領域と背景領域の境界が曖昧になることにより生じる。図
4.1 に、映像中文字画像において色の滲みが生じている例を示す。
また、フレーム画像に適応可能な 2 値化手法として、一様な閾値で 2 値化する手法、塩
の手法 [79]、桑野らの手法 [80] が存在するが、いずれの手法においても、文字を構成する
画素を確定する際に、文字に似た特性を持つ背景領域を文字を構成する画素と誤判定し、
その結果として不規則な背景ノイズが生じる。図 4.2(a) に映像フレームから切り出され
た映像中文字画像、(b) に一様な閾値で 2 値化した結果、(c) に桑野らの手法により 2 値
化した結果を示す。
背景ノイズによる画質劣化文字に対しては、テンプレート・マッチングに基づいた手法
として、補完類似度 [18]、アフィン変換を用いた類似度法 [81] が提案されている。しか
し、これらの手法には、フォントの多様性などによる局所変形や位置ずれに弱い [18]、英
数字など少字種・単純字形のものに有効性が限られる [81]、という欠点が存在する。した
がってテンプレート・マッチングを、複雑かつ類似した字形を持つ漢字等の多種の文字
が、多様なフォントで使用される映像中文字認識へ適用することは難しい。
そこで本章では、認識手法として特徴抽出法を用いる。特徴抽出法を用いた場合、前記
2 種類の画質劣化の影響により、以下が課題となる。
42
第 4 章 背景形状の特徴と動的修正識別関数による文字認識
(a) A part of a frame that has telop "
(b) Enlarged part of (a),
showing color-over
merger
図 4.1: 滲みが生じている映像中文字パターン例
(1)
輪郭形状の劣化により、方向情報など文字の構造に関する特徴を正しく抽出するこ
とが困難である。
(2)
背景ノイズから抽出された特徴値が本来の文字画素から抽出された特徴値に重畳さ
れ、特徴値及び距離値が大きく変動する。
課題(1)に対しては、背景領域に着目することにより、輪郭形状の劣化に対するロバ
スト性を向上させた特徴抽出法を提案する。提案特徴の詳細を 4.3 において説明する。
また課題(2)に対しては、背景ノイズが存在する領域を検出し、ノイズ量に応じて距
離値を補正する識別関数を提案する。関連する従来手法として、潰れが生じた文字に対す
る潰れ領域の推定及び距離値の補正法 [31, 82] があるが、対象を潰れに限定している為、
背景ノイズの課題に対する適用は困難である。そこで、本章では背景ノイズへの対処法を
新たに検討した。詳細を 4.4 において説明する。
4.3 輪郭形状の劣化にロバストな特徴抽出
4.3.1 従来手法とその問題点
文字認識に有効な従来特徴として、run-length から文字線の方向性・接続関係を求め
る方向寄与度特徴 [6, 83]、文字線の輪郭から求められる Freeman chaincode をもとにし
43
第 4 章 背景形状の特徴と動的修正識別関数による文字認識
(a) A part of a frame that has telop "
(b) Result of binarizing (a) directly
(c) Result of binarizing (a) using Kuwano's algorithm
図 4.2: 映像中文字とその 2 値化結果例
た加重方向指数ヒストグラム特徴 [9] 及び方向線素特徴 [10](以下、両特徴を合わせて
Chaincode 特徴と略す)が存在する。第 2 章及び第 3 章で述べた外郭方向寄与度(PDC)
特徴 [6] は、文字を外郭から走査し、外郭深度別に文字の輪郭から方向寄与度を抽出・集
積する手法である。したがって背景ノイズが存在する場合、集積する深度がずれることに
より特徴ベクトルも大きく変動するため、背景ノイズが存在する映像中文字認識への適用
は困難である。図 4.3(a) の例では、4、5、及び 6 の方向における走査の何割かにおいて、
最初に文字線ではなく背景ノイズが抽出され、本来第 1 深度で集積されるべき文字線の特
徴が第 2 深度若しくは第 3 深度に集積されている。また、局所領域毎に文字を走査し、輪
郭から方向寄与度を抽出する局所的方向寄与度特徴(Local-DC、以下 LDC 特徴と略す)
も提案されている [83]。局所領域毎の抽出により PDC 特徴よりノイズの影響を受けにく
いが、鋸状の輪郭では必ずしも文字線と同じ方向に run-length が計測できず、本来得ら
れるべき方向情報が得られない場合がある。図 4.3(b) は、鋸状の輪郭のため、本来の文字
線の方向に run-length が計測できない状況を表している。Chaincode 特徴は、Freeman
44
第 4 章 背景形状の特徴と動的修正識別関数による文字認識
Scanning
1
2
8
3
7
4
5
and influence
(a) Pattern with background noise
of noise on PDC feature extraction
6
Scanning
pixel of
interest
(b) Degraded pattern
and influence of edge degradation
on LDC feature extraction
and influence of edge degradation
(c) Degraded pattern
on Chaincode feature extraction
図 4.3: 画質劣化により従来特徴が受ける影響
chaincode を方向別に局所領域毎に集積する手法である。鋸状に劣化した輪郭から得られ
る chaincode は、必ずしも本来得られるべき文字線と同じ方向にはならない為、抽出され
た特徴値は大きく変動する問題がある。図 4.3(c) の例では、輪郭形状が劣化しているた
め、多くの chaincode は文字線とは異なる方向で抽出されている。
45
46
第 4 章 背景形状の特徴と動的修正識別関数による文字認識
4.3.2 提案手法:WLDC 特徴
従来特徴の欠点を鑑み、輪郭形状の劣化の影響を受けにくく、かつカテゴリ間の識別を
可能にする情報として、文字線に加え背景領域の形状にも着目する。従来、背景領域に着
目した特徴として、Glucksman の特徴 [84]、位相構造化法 [85]、セル特徴 [42] が提案さ
れている。これらは共通して、背景領域から観測する文字線の存在情報の抽出を目的とし
たものである。しかし、輪郭形状の劣化への対処を目的としたものではないため、必ずし
も輪郭形状劣化に対するロバスト性は十分ではない。従来の背景特徴の考え方を拡張し、
輪郭形状の劣化へのロバスト性を向上させるため、
(i)
背景領域の形状を記述する。
(ii)
局所領域に集積する。
(iii)
輪郭のみではなく構成画素すべてから特徴を抽出し正規化する。
という 3 つの処理を、それぞれ以下の効果を目的として用いる。
(I)
文字線間の相対配置関係の情報、及び位置ずれに対するロバスト性を得る。更に黒
画素より白画素の数が多い場合が多いため、文字線幅や輪郭形状の変化に影響を受
けにくくする。
(II)
文字を外郭走査せずに局所的な領域に集積することにより、ノイズの影響を軽減
する。
(III)
輪郭のみではなく構成する全画素から特徴を抽出することにより、輪郭形状の劣化
に対する影響を軽減し、方向性・形状を正しく表現する。また、背景や文字を構成
する画素数に対してノイズ画素数が少量の場合、ノイズ画素から抽出される特徴値
による影響を正規化により軽減する。
前記の目的を実現するために、LDC 特徴を拡張した WLDC 特徴(DOUBLE-region
LDC 特徴)を提案する。具体的な抽出手順を、以下に示す。
Step 1: 文字を N × N のブロックに分割する。
Step 2: 各ブロック内のすべての白画素において、8方向に白画素の run-length li を計
測し、各画素における方向寄与度 di (i = 1, . . . , 4) を求める。
li + li+4
di = 4
2
i=1 (li + li+4 )
(4.1)
Step 3: 求められた方向寄与度を各ブロック毎に集積し、ブロック内に存在する白画素
数で正規化する。
47
第 4 章 背景形状の特徴と動的修正識別関数による文字認識
1
8
2
7
3
6
5
4
(a) Scanning
directions
Character image
(b) Character image
and run-length
on an enlarged part of the image
background region
character region
(c) Each component of WLDC ( in the case of N=4 )
図 4.4: WLDC 特徴の抽出説明図
Step 4: 情報を補完するために、文字線の情報も同様のブロック分割・特徴抽出処理を文
字部を形成する黒画素に対して行うことにより抽出する。
今回の実験では、ブロック分割数として N = 8 を用いる。WLDC 特徴の抽出処理説明
図を、図 4.4 に示す。
4.4 ノイズによる距離値変動を補正する識別関数
4.4.1 基本的な考え方
ノイズによる特徴値及び距離値の変動を軽減し、識別若しくは上位候補に分類可能とす
る識別関数を提案する。背景ノイズが存在する文字パターンからの特徴抽出では、ノイズ
48
第 4 章 背景形状の特徴と動的修正識別関数による文字認識
の影響を受けずに文字の構造情報を正しく抽出することは困難である。一般にノイズを含
むブロックから抽出された特徴値は、文字または背景の画素から抽出された特徴値にノイ
ズの画素から抽出された特徴値が重畳され、本来得られるべき値から大きく変動する。そ
のようなパターンは、従来の識別関数では距離値が大きく変動し、しばしば誤認識となる。
ここで、“局所領域毎に得られる距離値・特徴値は、その領域内に存在するノイズ量に
応じて変動する” と仮定する。特に WLDC 特徴では、ブロック内の画素から抽出した特
徴値を集積し画素数で正規化しているため、前記仮定は妥当であると思われる。この仮定
に基づき、入力パターンと各カテゴリの辞書との間で距離値を計算する際、“入力パター
ンと比較カテゴリとの間で、各ブロック毎にノイズの量として画素の変動量を求め、変
動量に応じて従来の識別関数で得られる距離値を補正する” 手法を提案する。その際、画
素の変動量を “各ブロックの入力パターンから得られる黒画素数と比較カテゴリの学習パ
ターンから得られる黒画素数の平均値との差” と定義する。上記手法を適用した識別関数
を用いて距離計算を行うことにより、ノイズを含まないブロックでは従来の識別関数と同
じ距離値が、ノイズを含むブロックでは画素の変動量に応じて低減された距離値が得られ
る。つまり、ノイズを含まないブロックの距離値を重視し、ノイズを含むブロックの距離
値を軽視する重みを付けることと同等になる。比較カテゴリとの最終的な距離値は、各ブ
ロックの距離値を加算することによって得られる。上記処理を全カテゴリに対して行い、
一番小さい距離値を持つカテゴリを認識結果とする。
4.4.2 提案手法:動的修正ユークリッド距離
4.4.1 の考え方を、従来の識別関数としてユークリッド距離に適用した動的修正ユーク
リッド距離について説明する。第 k ブロックにおいて、入力パターンの黒画素数を pk 、
第 i カテゴリの学習データから得られる平均黒画素数を p̄ik とすると、画素変動量 dpik は、
dpik = pk − p̄ik
(4.2)
となる。付加ノイズのみを対象とするので、pk > p̄ik のみ考慮する。第 k ブロックから得
られる入力ベクトルを Fk = (fk,1 , . . . , fk,8 )(1 ∼ 8 は背景部・文字部を合わせた方向寄与
i
i
度の方向数)
、第 i カテゴリにおける対応ブロックの平均ベクトルを F̄ki = (f¯k,1
, . . . , f¯k,8
)
とした時、第 i カテゴリに対する動的修正ユークリッド距離値 DM E i (F ) を、以下の式
で定義する。
2
N
8
2
i
i
DM E (F ) =
{ (fk,j − f¯k,j
)2 − α · dpik }
k=1 j=1
dpik
=
dpik
0
(pk > p̄ik )
(pk ≤ p̄ik )
(4.3)
49
第 4 章 背景形状の特徴と動的修正識別関数による文字認識
Fk − F̄ki 2
α · dpik
1
Dynamic Modified
Euclidean Distance 図 4.5: 動的修正ユークリッド距離の概念図
ここで、i はカテゴリである。N はブロックの分割数である。α は画素変動量 dpik から得
られる距離値を正規化する定数である。付加ノイズがないと判定される時 (pk ≤ p̄ik ) は、
距離値を補正しないよう dpik = 0 とする。式 (4.3) より、動的修正ユークリッド距離は各
ブロック毎に画素の変動量を求め、付加ノイズとしての画素変動が存在する場合、本来
の 8 次元特徴のユークリッド距離 Fk − F̄ki 2 から 9 次元目の画素変動量 dpik のユーク
2
リッド距離 α · dpik を減算した値をとる。また変動が存在しない場合、従来のユークリッ
ド距離と同じ値をとる。各ブロックにおける動的修正ユークリッド距離の空間的な概念図
を、図 4.5 に示す。
4.5 認識実験と考察
4.5.1 実験データ及び前処理
人工的に劣化させた文字データを用いて、特徴の輪郭形状劣化に対するロバスト性、及
び識別関数の背景ノイズに対するロバスト性の評価を行った。また、実映像中文字データ
を用いて、実環境の劣化に対するロバスト性の評価を行った。
辞書及び劣化パターン作成用データとして、印刷漢字 67 フォント・3,830 カテゴリを使
用した。実環境データとして、映像フレームから桑野らの手法 [80] により切り出した映
像中文字 11,246 パターンを使用した。その内、背景ノイズを含むパターンは約 30% であ
る(切り出し失敗により文字として正しく構成されていないパターンは除く)。また、前
処理として位置と大きさの正規化、及び morphology 処理 [86] を用いた線幅補正を行っ
た [87]。
第 4 章 背景形状の特徴と動的修正識別関数による文字認識
(a) Examples of normal patterns
(b) Examples after shrinking, jagging and expanding with ratio of 1.5
(c) Examples after shrinking, jagging and expanding with ratio of 3.0
図 4.6: テスト用データの劣化パターン例
4.5.2 特徴の評価実験
WLDC 特徴の輪郭形状劣化へのロバスト性を評価するために、人工的に文字の輪郭を
劣化させたデータを用いて評価実験を行った。使用したデータは、4.5.1 の印刷漢字デー
タの内、10 フォントを学習用データ、学習用とは異なる 5 フォントをテスト用データとし
た。テスト用データの輪郭を劣化させるため、各パターンを 1/1.0 ∼ 1/3.0 の解像度に落
とした後、一定の確率で輪郭を 3 × 3 のマスクを用いて削り、1.0 ∼ 3.0 倍することにより
元の解像度に戻す処理を行った。文字の輪郭を段階的に劣化させた例を、図 4.6 に示す。
認識辞書には、各カテゴリの平均値を用いた。また、識別にはユークリッド距離を用い
た。提案特徴と比較する従来特徴には、Chaincode 特徴及び LDC 特徴を用いた。劣化の
程度を変化させた際の各特徴における認識率の変化を、図 4.7 に示す。ここで、y 軸は認
識率、x 軸は 1/n の縮小及び n 倍の拡大を行った際の n の値を表す。n = 0 は、劣化し
ていない通常の状態を表す。
図 4.7 より、3 特徴とも劣化のない状態ではほぼ同じ認識率を示すにも関わらず、劣化
の程度が進むにつれて認識率の差が大きくなり、提案した WLDC 特徴の認識率低下が一
番少ないことが分かる。以上の結果より、背景領域の形状を特徴として抽出すること及び
構成画素全体から抽出した特徴を平均化することが、輪郭形状の劣化に対して有効である
ことが分かる。
50
51
第 4 章 背景形状の特徴と動的修正識別関数による文字認識
WLDC
LDC
Chaincode
100
Recognition rate [%]
90
80
70
60
50
40
30
0
0.5
1
1.5
2
2.5
3
Ratio of shrinkage (1/n) and expansion (n)
図 4.7: 各特徴における輪郭形状劣化に対する認識率変化
4.5.3 識別関数の評価実験
動的修正ユークリッド距離の背景ノイズへのロバスト性を評価するため、4.5.2 での実
験と同じフォントデータのセットを用いて比較実験を行った。テスト用データに対して
は、背景領域に段階的にサイズを変えたノイズを付加した。ノイズは 1 辺が文字サイズの
1/5 ∼ 4/5 からなる正方形とし、文字の外接矩形内のランダムな位置に付加した。ノイズ
を付加したパターン例を、図 4.8 に示す。
まず、画素変動量の正規化係数 α と認識率の関係を調べた。α とノイズの大きさを変化
させた際の動的修正ユークリッド距離における認識率の変化を、図 4.9 に示す。特徴には
WLDC 特徴を、認識辞書には各カテゴリの平均値を用いた。図 4.9 より、認識性能はノ
イズ量の増加につれて α の値に敏感になるが、どのノイズ量を付加したデータに対して
も、α = 0.35 ∼ 0.4 辺りで最大に近い認識率が得られることが分かる。
52
第 4 章 背景形状の特徴と動的修正識別関数による文字認識
(a) Examples of normal patterns
(b) Examples of patterns with noise of 2/5
2/5
(c) Examples of patterns with noise of 4/5 4/5
図 4.8: テスト用データの背景ノイズ付加パターン例
次に、従来手法のユークリッド距離と提案手法の動的修正ユークリッド距離との比較を
行った。ノイズ量を変化させた際の各識別関数の認識率の変化を、図 4.10 に示す。修正
距離の結果は、図 4.9 の結果に基づき α = 0.375 の時の値を示す。ここで、y 軸が認識率
を、x 軸がノイズの辺の大きさを示す。また、Sn = 0 はノイズが付加されていない通常
の状態を表す。
図 4.10 より、動的修正ユークリッド距離は、ノイズ量が増えてもユークリッド距離よ
り認識率の低下が少ない。この結果から、距離値の動的な修正によりノイズによる距離値
の変動が効果的に抑制され、ロバスト性が向上していることが分かる。
4.5.4 実環境の劣化に対する評価実験
実映像中文字データを用い、実環境の劣化に対する評価を行った。認識辞書として、印
刷漢字データ 67 フォントの各カテゴリの平均値を用いた。従来手法の Chaincode 特徴
若しくは LDC 特徴とユークリッド距離による累積分類率、及び提案手法の WLDC 特徴
とユークリッド距離及び動的修正ユークリッド距離による累積分類率を、図 4.11 に示す。
なお、動的修正ユークリッド距離では、α = 0.375 を用いた。
図 4.11 より、WLDC 特徴が従来特徴より高い認識率を、また動的修正ユークリッド距
離がユークリッド距離より高い認識率を示し、各提案手法が実映像中文字の認識に有効で
あることが分かる。
53
第 4 章 背景形状の特徴と動的修正識別関数による文字認識
Noise none
Noise size 1/5
Noise size 2/5
Noise size 3/5
Noise size 4/5
Recognition rate [%]
95
90
85
80
75
0.1
0.2
0.3
0.4
0.5
Normalization constant α
0.6
0.7
図 4.9: 動的修正ユークリッド距離における正規化係数 α とノイズ量の関係
4.6 考察
提案手法により誤読から正読になったパターン例を、図 4.12 に示す。(i) 及び (ii) のパ
ターンにおいては、WLDC 特徴による輪郭形状劣化に対するロバスト性向上の効果によ
り、正しく認識できたと考えられる。(iii) 及び (iv) に対しては、動的修正ユークリッド距
離のノイズ抑制効果により認識できたものである。これらの結果から、各提案手法により
従来手法では認識困難な画質劣化が生じたパターンに対しても、正しく認識することが可
能になったことが分かる。
パターン (iii) における、ユークリッド距離及び動的修正ユークリッド距離の上位候補
と距離値を、図 4.13 に示す。動的修正ユークリッド距離では、画素変動量が大きいと判
断された領域の距離値が抑制されることにより、対抗カテゴリ(ユークリッド距離の上位
54
第 4 章 背景形状の特徴と動的修正識別関数による文字認識
Dynamic modified Euclid (α=0.375)
Euclid
95
Recognition rate [%]
90
85
80
75
70
0
1/5
2/5
3/5
4/5
Size of noise (Sn)
図 4.10: 各識別関数におけるノイズに対する認識率変化
候補)の距離値の減少幅より、正解カテゴリの距離値の減少幅がかなり大きくなり、正し
い認識結果が得られたことが分かる。一方、対抗カテゴリも少なからず距離値が減少して
正解カテゴリに近づくため、類似文字を持つカテゴリでは、正解カテゴリにおける距離値
の減少と同程度に対抗カテゴリの距離値も減少し、正解カテゴリは上位候補には上がるも
のの正読にはならない場合も有り得る。しかし、検索処理を目的とした認識では上位候補
にあがることが重要であるため、必要な条件は満たしている。
また今回の提案では、画素変動量の正規化係数 α を定数としたが、予備実験等により設
定された値を用いた場合、必ずしも入力パターン毎に最適な値ではなく、距離値の変動抑
制を最大の効果をもって行えるわけではない。文献 [63] における付加ノイズ量に応じた
動的閾値設定法などと同様に、各入力パターン毎に動的に正規化係数を設定するような仕
組みも検討する必要があると思われる。
提案手法を用いても誤読となるパターン例を、図 4.14 に示す。誤読原因には、(v) ノイ
ズによる著しい位置ずれ、(vi) 2 値化時の掠れ、(vii) 2 値化時の潰れ、(viii) 学習データ
と大幅に異なる書体、が挙げられる。
55
第 4 章 背景形状の特徴と動的修正識別関数による文字認識
WLDC & Dynamic modified Euclid
WLDC & Euclid
LDC & Euclid
Chaincode & Euclid
Cumulative classification rate [%]
95
90
85
80
75
70
65
60
55
1
2
3
4
5
6
7
Candidate order
8
9
10
図 4.11: 映像中文字に対する各手法の累積分類率
(i)
(ii)
(iii)
(iv)
図 4.12: 誤読から正読になったパターン例
4.7 まとめ
本章では、輪郭形状の劣化及び背景ノイズの課題が存在する映像中文字の認識におい
て、特徴抽出及び識別の改善手法を検討した。特徴抽出では、背景・文字の両領域から抽
56
第 4 章 背景形状の特徴と動的修正識別関数による文字認識
Euclidean Distance
result
distance
1st
2nd
3rd
も
ね
砲
3040
3062
3085
16th
···
ゎ
19th
···
3257
わ
3319
Dynamic Modified Euclidean Distance
result
distance
1st
2nd
3rd
4th
ゎ
わ
も
ね
2409
2451
2535
2585
10th
···
砲
2711
図 4.13: 提案手法による距離値の変化
(v)
(vi)
(vii)
(viii)
図 4.14: 誤読パターン例
(正解カテゴリ → 認識結果)
出する、輪郭形状の劣化にロバストな WLDC 特徴を提案した。識別では、局所領域毎に
画素変動量に応じた距離値の補正を行い、ノイズの影響を動的に抑制する動的修正ユーク
リッド距離を提案した。人工的に劣化させた文字を用いた認識実験では、提案手法が各種
画質劣化に有効であることを示した。実映像中文字を用いた実験では、従来手法による識
別率 65%・10 位分類率 84% を上回る、識別率 73%・10 位分類率 90% の性能が得られ、
実環境の劣化に対しても、提案手法の有効性が明らかになった。
57
第5章
ランレングス補正を用いた特徴抽出
法による文字認識
5.1 まえがき
第 4 章では、画質劣化に対するロバスト性を向上させる手法について検討した。しか
し、補正処理が識別関数と一体となっている為、使用する識別関数を変更する際には、各
識別関数の性質に合わせて補正パラメータを設定し直す必要がある。また、背景部の形状
記述によりある程度の画質劣化へのロバスト性が向上出来たが、特徴値そのものに十分な
画質劣化への耐性が備わっているわけではない等、幾つかの問題や制限が存在する。これ
らの制限を緩和するには、特徴値そのものが画質劣化に対するロバスト性を持つ必要が
ある。
そこで本章では、変形にロバストな方向特徴を基本とし、画質劣化に対するロバスト性
を向上することにより、画質劣化と変形の両品質低下にロバストな特徴抽出法を検討す
る。但し、画質劣化の種類は汚れ及びかすれを対象とするが、汚れとかすれが同時に生じ
たものは考慮しない。まず初期検討として、画質劣化へのロバスト性を高めるため、入力
文字画像の劣化状態を推定し、特徴値を補正することを検討する。本章では、劣化状態の
推定結果に応じて文字線のランレングスを補正することにより、劣化のない場合に得られ
るランレングスの近似値を求める “ランレングス補正法” を提案する [88, 89]。
以下、ランレングス補正法のアルゴリズムを、5.2 で説明する。5.3 で、ノイズ種類の判
定法を述べる。上記技術を用いた画質劣化にロバストな特徴抽出処理を、5.4 で説明する。
5.5 で、手書き漢字データ ETL9B [47] を人工的に劣化させた文字画像を用いた認識実験
において、提案手法が変形へのロバスト性を保持しつつ、従来手法より画質劣化に対する
ロバスト性を向上していることを示す。まとめと今後の課題を、5.6 で述べる。
58
第 5 章 ランレングス補正を用いた特徴抽出法による文字認識
5.2 ランレングス補正法
5.2.1 基本的な考え方
一般に、幾何学的情報は汚れまたはかすれの程度が大きくなるにつれ、正しく抽出する
ことが困難になる。幾何学的情報の一つである文字線のランレングスにおいても、汚れや
かすれにより本来計測されるべき値が大きく変化する。そこで、画質が劣化した文字から
文字線のランレングスを安定して抽出可能とする “ランレングス補正法” を提案する。提
案手法の基本的な考え方は、観測領域の劣化程度を推定し、推定結果に応じて劣化により
歪んだランレングスを補正することにより、劣化のない状態で計測されるであろうランレ
ングスの近似値を求めることにある。
観測領域には、文字画像上に矩形窓を設定する。劣化状態を推定するための情報とし
て、矩形窓内の黒画素及び白画素の連続性に着目する。認識対象となる文字カテゴリが限
定されると、文字の複雑さはある範囲に限定される。したがって、矩形窓内で本来観測さ
れるべき範囲以上に黒画素及び白画素が複雑に分布していれば、矩形窓内の領域は劣化し
ている(汚れている若しくはかすれている)と捉えることができる。
以下、横方向のランレングスを計測及び補正する場合について説明する。2 値の入力文
字画像 G(横 W 画素 × 縦 W 画素)上に、観測用の矩形窓として横幅が I 画素・高さが
1 画素の領域を設定する。着目している座標 (x, y) の画素の値を、gx,y とする。x は画素
の横方向の座標である。y は縦方向の座標である。画素値 gx,y は、黒画素なら 1、白画素
なら 0 の値をとる。ここで、矩形窓内の画素を左端から右端まで走査することにより得ら
れる 4 種のパラメータ a, b, c, e を、以下の式で定義する。
a=
I−2
gx+k,y · gx+k+1,y
(5.1)
(1 − gx+k,y ) · gx+k+1,y
(5.2)
gx+k,y · (1 − gx+k+1,y )
(5.3)
(1 − gx+k,y ) · (1 − gx+k+1,y )
(5.4)
k=0
b=
I−2
k=0
c=
I−2
k=0
e=
I−2
k=0
a は黒画素同士の連結数、b は白画素から黒画素への変化数、c は黒画素から白画素への変
化数、e は白画素同士の連結数、を各々表す。図 5.1 に、文字画像上に観測用の矩形窓を
設定し、パラメータを計測する様子を示す。
59
第 5 章 ランレングス補正を用いた特徴抽出法による文字認識
Input image
Enlarged part
I pixels
Rectangular
window
Scanning
Black
White
Transition between black and white pixels
図 5.1: 入力画像からのパラメータ計測例
以下、上記 4 種のパラメータを用いた具体的なランレングスの補正アルゴリズムを、汚
れ及びかすれのノイズ種類別に分けて説明する(ノイズ種類の判定処理については 5.3 で
述べる)
。
5.2.2 汚れに対する補正アルゴリズム
矩形窓内で観測される黒画素数を ro 、その中で本来文字線を構成するランレングスを
rt 、ノイズ成分を rn とすると、
ro = rt + rn
(5.5)
となる。したがって、求めるべきランレングス rt は、
rt = ro − rn
(5.6)
= (1 − rn /ro ) · ro
である。rn /ro は、観測された黒画素数中にノイズが含まれている割合(劣化程度)を表
しており、汚れが生じていない場合は 0、汚れているほど 1 に近づく。
0 ≤ rn /ro ≤ 1
(5.7)
60
第 5 章 ランレングス補正を用いた特徴抽出法による文字認識
この rn /ro を、5.2.1 で述べたパラメータ a, b, c, e を用いて表すことを考える。ここで、
“rn /ro は、黒画素数における平均値からの増加率と、複雑度における平均値からの増加
率との比で近似できる” と仮定する。ただし、平均値とは認識対象文字集合から得られる
値であり、具体的には学習データでの平均値である。複雑度は、黒画素から白画素への変
化及び白画素から黒画素への変化の頻度数を表す。増加率とは、平均値から増加した画素
数の比率、及び増加した頻度数の比率である。つまり、rn /ro は汚れたことによって平均
的な値からどの程度黒画素数が増え、どの程度画素分布が複雑になったかの割合である、
と仮定する。
ノイズが増加したことによって生じる、黒画素数における平均値からの増加率を
ΔKadd 、複雑度における平均値からの増加率を ΔVadd とすると、黒画素数の増加率と複
雑度の増加率の比 βadd は、
βadd = ΔKadd /ΔVadd
(5.8)
となる。βadd は、汚れのない状態で 1 になる。また、汚れがあまり酷くない段階では、ノ
イズ量が増大するにつれ、ΔKadd の増加率以上に ΔVadd の増加率が大きいため、βadd は
0 に近づく。したがって、上記仮定の下で、
rn /ro 1 − βadd
(5.9)
とおくことができ、式 (5.9) を式 (5.6) に代入することにより、
rt = (1 − (1 − βadd )) · ro
(5.10)
= βadd · ro
が得られる。ここで、βadd は矩形窓内の黒画素数を補正し、ランレングスの近似値を算出
する補正係数となっている。
具体的な ΔKadd 及び ΔVadd の定義はいくつか考えられるが、本章では画質劣化のな
い全学習データから計測される a, b, c, e の平均値を各々 ā, b̄, c̄, ē としたとき、
ΔKadd = (a + b)/(ā + b̄)
(5.11)
ΔVadd = (b + c)/(b̄ + c̄)
(5.12)
と定義する。黒画素数 ro は、
ro = a + b
(5.13)
であるので、最終的なランレングスの近似値 rt は、式 (5.8),(5.10)∼(5.13) より、
rt =
(a + b)/(ā + b̄)
· (a + b)
(b + c)/(b̄ + c̄)
により算出される。
(5.14)
61
第 5 章 ランレングス補正を用いた特徴抽出法による文字認識
5.2.3 かすれに対する補正アルゴリズム
汚れの場合と同様に、矩形窓内で観測される黒画素数、本来の文字線のランレングス、
ノイズ成分を、各々 ro , rt , rn とすると、
ro = rt − rn
(5.15)
となる。求めるべきランレングス rt は、
rt = ro + rn
= (1 + rn /ro ) · ro .
(5.16)
である。汚れにおける黒画素を基準とした仮定を、白画素を基準とした仮定に置き換え
て検討する。白画素の平均値からの増加率を ΔKsub 、複雑度の平均値からの増加率を
ΔVsub 、白画素量の増加率と複雑度の増加率の比を βsub とすると、各々
βsub = ΔKsub /ΔVsub
(5.17)
ΔKsub = (e + c)/(ē + c̄)
(5.18)
ΔVsub = (b + c)/(b̄ + c̄)
(5.19)
と定義できる。
rn /ro 1 − βsub
(5.20)
とおくことにより、最終的なランレングスの近似値 rt は、
rt
=
(e + c)/(ē + c̄)
2−
(b + c)/(b̄ + c̄)
· (a + b)
(5.21)
により算出される。
5.2.4 補正ランレングスの算出例
従来の黒画素連結数を計測して得られるランレングス(以後、観測ランレングスと称
す)及び補正ランレングスについて、劣化のない文字・汚れた文字・かすれた文字の各々
から算出した例を、図 5.2 に示す。図 5.2 より、補正ランレングス rt は、本来得られるべ
き値である観測ランレングス rt = 8 より、やや小さい値が算出されている。しかし、観
測ランレングスが汚れに対し rt = 2 & 9、かすれに対し rt = 1 & 4 と変動が激しいこと
に比べ、補正ランレングスは、汚れに対し rt = 6.1、かすれに対し rt = 6.4 と、より安定
した算出が可能であることがわかる。
また、5.2.2 及び 5.2.3 と同様の処理を、横方向のみならず縦方向・右斜め方向・左斜め
方向にも適用することにより、各方向での補正ランレングスを算出することができる。
62
第 5 章 ランレングス補正を用いた特徴抽出法による文字認識
rt = 8
r't = 6.9
(a) Noise-free
rt = 2 & 9
r't = 6.1
(b) Additive noise
rt = 1 & 4
r't = 6.4
(c) Subtractive noise
図 5.2: 観測ランレングス及び補正ランレングスの抽出例
ā = 7.4, b̄ = 0.9, c̄ = 0.9, ē = 4.8 は実験値から算出
5.3 ノイズ種類の判定
本節では、入力文字画像におけるノイズ種類(汚れまたはかすれ)の判定処理について
説明する。5.2 で述べたランレングス補正法は、汚れまたはかすれに応じて異なる処理を
する。したがって、事前に入力文字画像が汚れているか、若しくはかすれているかを判定
する必要がある。ここでは、5.2.1 で用いた画素の連続性に関する性質を利用する。具体
的には、ランレングス観測用の矩形窓を文字画像全体の走査(I = W )に拡張する。文字
画像を横方向に走査することにより得られる a, b, c, e を用い、以下の式で定義される射
63
第 5 章 ランレングス補正を用いた特徴抽出法による文字認識
影値 p(y) (y = 1, ..., W ) [63] を、各行ごとに算出する。
a·e−b·c
p(y) = (a + b) · (c + e) · (a + c) · (b + e)
(5.22)
(−1 ≤ p(y) ≤ 1)
上記定義式において、汚れている場合には、a · e が大幅に減少し、かつ b · c が大幅に増加
する。かすれている場合には、わずかの a · e の減少と b · c の増加が起こる。したがって、
射影値の増減を検出することにより、入力文字画像が汚れているか、またはかすれている
かの判定ができる。上記処理を横方向に加え縦方向にも適用することにより、最終的にノ
イズ種類判定用の 2W 次元からなる特徴ベクトル T を算出する。
事前学習では、ノイズの種類及び劣化程度別に、全カテゴリの学習用劣化文字画像から
2W 次元の特徴ベクトル T を抽出し、平均ベクトル M を作成する。ノイズ種類判定時に
は、入力文字画像から同様に抽出した特徴ベクトル T と各劣化程度の平均ベクトル M 間
の距離値を計算し、距離値が最小となる M の属するノイズ種類を、入力文字画像のノイ
ズ種類と判定する。
5.4 画質劣化にロバストな特徴抽出処理
基本となる方向特徴には、第 2∼4 章と同様に、各方向の分布程度を表す方向寄与度特
徴 [6, 90, 91] を用いる。方向寄与度は、文字線のランレングスから計算することができ、
以下の di (i = 1, ..., 4) により求められる。
li
di = 4
j=1 lj
2
(5.23)
ここで l1 , l2 , l3 , l4 は、各々横方向、右斜め方向、縦方向、及び左斜め方向の文字線のラ
ンレングスである。方向寄与度の抽出例を、図 5.3 に示す。
今回、画質劣化文字の認識において、ランレングス補正法及びノイズ種類判定処理を用
いた特徴抽出処理を、以下のように行う。
Step 1: 入力文字画像のノイズ種類を判定する。
Step 2: 入力文字画像を、N × N 個の局所領域に分割する。
Step 3: 各黒画素において、Step 1 の結果に基づき、補正ランレングス rt,i
(i = 1, ..., 4)
を求める。
Step 4: 局所領域毎に、補正ランレングス rt,i
を平均化する。
Step 5: 式 (5.23) において、li の代わりに平均化された補正ランレングス rt,i
を用い、局
所領域毎に方向寄与度 di を計算する。
64
第 5 章 ランレングス補正を用いた特徴抽出法による文字認識
l3
l2
l4
l1
Input image
Enlarged part
Run-length
extraction
N blocks
N blocks
4
3
2
1
Partitioning
Scanning direction
図 5.3: 方向寄与度の抽出例
ここで、方向寄与度をランレングスの平均化後に算出するのは、ランレングス補正によっ
ても補正しきれないランレングスの変動を抑制し、より安定した方向寄与度の特徴値を得
るためである。また、本章では 1 辺あたりの局所領域数を N = 8 とする。つまり、文字
画像は 8 × 8 = 64 個の局所領域に分割される。
図 5.4(a) に補正ランレングスに基づく方向寄与度の特徴値を、図 5.4(b) に観測ランレ
ングスに基づく方向寄与度の特徴値を、各々劣化のない文字画像及びノイズを重畳した文
字画像から抽出し、濃淡画像として図示した例を示す。図 5.4 より、補正ランレングスを
用いた特徴は、背景ノイズの影響を抑制し文字線の方向情報をよく表現していることがわ
かる。
5.5 認識実験及び考察
5.5.1 実験データ及び実験条件
提案手法を評価するため、ノイズ種類の判定性能評価、及び補正ランレングスに基づい
た特徴と観測ランレングスに基づいた特徴との比較を行った。
実験データには、変形に対するロバスト性を評価するため、手書き漢字データ ETL9B
65
第 5 章 ランレングス補正を用いた特徴抽出法による文字認識
Input image
Horizontal
Vertical
(a) Feature values based on compensated run-length
Input image
Horizontal
Vertical
(b) Feature values based on observed run-length
図 5.4: 補正ランレングス及び観測ランレングスにより得られた特徴値の抽出例
横方向及び縦方向の特徴値を濃淡値で可視化
(3,036 カテゴリ、200 サンプル/カテゴリ) [47] を用いた。学習データには奇数番
(1, ..., 199)の 100 サンプル/カテゴリを、評価データには偶数番(2, ..., 200)の 100 サン
プル/カテゴリを用いた。更に、画質劣化に対するロバスト性を評価するため、上記学習
用及び評価用データから、汚れ及びかすれノイズ文字画像を以下の手順で生成した [63]。
かすれノイズ文字を作成するためのノイズモデル画像として、全て黒画素からなる画像に
おいて、|α|% (α < 0) の黒画素を白画素に反転させた画像を作成する。また、汚れノイズ
66
第 5 章 ランレングス補正を用いた特徴抽出法による文字認識
Input image
Noise model
Noisy character
(a) Additive noisy image
Input image
Noise model
Noisy character
(b) Subtractive noisy image
図 5.5: 汚れノイズモデル画像、かすれノイズモデル画像、及び各劣化文字画像の生成例
文字を作成するために、全て白画素からなる画像において、α% (α ≥ 0) の白画素を黒画
素に反転させたノイズモデル画像を作成する。ここで、|α| は画素の白黒を反転させる割
合であり、ノイズモデル画像における劣化程度を表す。本章では、−70 ≤ α ≤ 70[%] の
範囲を 10 刻みで用いた。かすれノイズ文字画像 Gα を、ノイズのない文字画像 G とノイ
ズモデル画像 Z α 間の AND 演算により生成する。汚れノイズ文字画像 Gα を、G と Z α
間の OR 演算により生成する。すなわち、
α
gx,y
=
α
gx,y ∧ zx,y
α
gx,y ∨ zx,y
if α < 0,
otherwise
(5.24)
α
α
で各劣化文字画像を生成する。ここで、gx,y
, gx,y , zx,y
は、各々 Gα , G, Z α における座
標 (x, y) の画素値(0 または 1)を表す。汚れノイズモデル画像、かすれノイズモデル画
像、及び各劣化文字画像の生成例を、図 5.5 に示す。学習用データから生成した劣化文字
画像はノイズ種類判定用の学習用データに、評価用データから生成した劣化文字画像は各
実験の評価用データとした。このような劣化文字画像を用いて得られた評価結果は、実劣
化データ適用時でも有効であることを確認されており [63]、本章でも提案手法の評価に用
いる。認識辞書の学習データには、劣化のない学習データのみを用いた。
また、実験条件としての各パラメータは、以下の通りとした。正規化後のパターンサイ
第 5 章 ランレングス補正を用いた特徴抽出法による文字認識
ズ W は、64 × 64 画素とした。したがって、ノイズ種類判定用特徴ベクトルの次元数は、
128( = 64 画素 × 2 方向)次元となる。認識用特徴ベクトルの次元数は、256( = 8 × 8 局
所領域 × 4 方向)次元である。また、ランレングス観測用の矩形窓の大きさ I は、矩形
窓内に平均して約 1 本の文字線が含まれる(b, c が約 1 となる)大きさとした。その理由
は、着目した文字線のランレングスを記述するには、その文字線全体(1 本)が含まれる
大きさが必要であること、及び複数の文字線が含まれると、どの文字線のランレングスを
記述しているか曖昧になるからである。学習データにおいて横方向の矩形窓を用い調べた
結果、I = 15 画素(着目画素より ±7 画素)となった。したがって、横方向及び縦方向に
I = 15、各斜め方向に I = 11(着目画素より ±5 画素)と設定した。その時の各パラメー
タの平均値 ā, b̄, c̄, ē は、各々 7.4, 0.9, 0.9, 4.8 である。識別関数には、ノイズ種類判
定処理及び認識処理ともに、ユークリッド距離を用いた。
5.5.2 ノイズ種類判定の実験結果
まず、ノイズ種類の判定性能を評価した。劣化程度には、上述のように −70 ≤ α ≤ 70
の 15 段階を用いた。各 α は、−70 ∼ −10 がかすれ、0 が劣化のない状態、10 ∼ 70 が汚
れを表す。学習用データから、劣化程度別に 15 パターンずつ、計 3,036 カテゴリ × 100 サ
ンプル × 15 劣化程度の劣化文字画像を生成した。また、評価用劣化文字画像も、同様に
評価用データから作成した。ただし、ノイズモデル画像を生成するための乱数の seed は、
学習用データ及び評価用データでは別の値を用いた。表 5.1 に、劣化程度別の入力文字画
像に対するノイズ種類判定率を示す。
表 5.1 より、−10 ≤ α ≤ 0 を除いた全劣化程度において、99.8% 以上という高い判定
ができている。但し、劣化程度が α = 0 の場合に 4.1% がかすれに、α = −10 では 5.9%
が汚れに誤判定された。誤判定の原因には、単純な構造を持つ文字がかすれによりやや複
雑さを増したものと、元来複雑な構造を持つ文字との間で複雑さの差が小さくなったこと
が考えられる。
5.5.3 認識処理の実験結果
次に、提案した補正ランレングスに基づく方向寄与度特徴と、従来の観測ランレングス
に基づく方向寄与度特徴(ノイズ除去処理無し、及び 3 × 3 画素のメディアンフィルタ
を使用)を比較した。各劣化程度 α の評価データに対する両特徴の認識率を、図 5.6 に
示す。
図 5.6 において、補正ランレングスに基づく特徴は、−60 ≤ α ≤ 70 という劣化のほぼ
全範囲において、観測ランレングスに基づく特徴より優れた結果を得ている。汚れノイズ
67
68
第 5 章 ランレングス補正を用いた特徴抽出法による文字認識
表 5.1: ノイズ種類の判定率
Detection accuracy[%]
Input
Noise type
Subtractive
Additive
Output
Noise level
Subtractive
Additive
-70
99.9
0.05
-60
99.9
0.07
-50
99.9
0.05
-40
99.9
0.03
-30
99.9
0.06
-20
99.8
0.2
-10
94.1
5.9
0
4.1
95.9
10
0.01
99.9
20
0
100
30
0
100
40
0
100
50
0
100
60
0
100
70
0
100
が生じた場合、従来の観測ランレングスに基づく特徴は、本来特徴値が 0 であるべき背景
部より、0 以上の特徴値が抽出される。したがって、特徴ベクトルが平均ベクトルより大
きくずれ、誤認識となりやすい。しかし、提案手法ではランレングス補正により複数の背
景部でランレングス及び特徴値が 0 となり、ノイズの影響が抑制され正しく認識できてい
る。したがって、α ≥ 10 の汚れノイズに対し、補正ランレングスに基づく特徴と観測ラ
ンレングスに基づく特徴では、認識結果に大きな差が生じている。一方、かすれノイズが
生じた場合、背景部の特徴値は 0 のままで、文字部の特徴値が変動するだけである。した
がって、観測ランレングスにおいても、かすれにおける認識率の低下は汚れの場合より穏
やかとなり、補正ランレングスを用いた特徴との認識結果の差も小さい。
また、補正ランレングスに基づく特徴において、背景ノイズの大きさが認識性能に及ぼ
す影響について調べた。評価データとして、5.3 での劣化文字画像の作成において、反転
させる画素の大きさを 1 × 1 ∼ 5 × 5 に変化させたノイズモデル画像を用い、劣化文字画
像を作成した。図 5.7 に、各大きさのノイズに対する認識率の変化を示す。図 5.7 より、
69
第 5 章 ランレングス補正を用いた特徴抽出法による文字認識
Feature based on compensated run
Median filter + Feature based on observed run
Feature based on observed run
100
Recognition rate [%]
80
60
40
20
0
-70 -60 -50 -40 -30 -20 -10 0
10 20 30 40 50 60 70
Noise
-60%
-30%
0%
30%
60%
図 5.6: 各特徴の劣化文字画像に対する認識率
背景ノイズが大きくなるにつれ、徐々に補正が困難になり、認識率が低下していることが
わかる。この結果は、画素の分布状態を観測することのみでは、本質的にノイズの影響を
抑制することが困難であることを示唆している。例えば、5 × 5 画素の大きさは、ほぼ文
字線の太さと同じであり、ランレングスの長さのみでは、文字線かノイズかを判別できな
い。この問題に対しては、他の有効な情報の導入など、より柔軟な対処を検討する必要が
ある。
第 5 章 ランレングス補正を用いた特徴抽出法による文字認識
Noise: 1×1
Noise: 2×2
Noise: 3×3
Noise: 4×4
Noise: 5×5
100
Recognition rate [%]
80
60
40
20
0
-70 -60 -50 -40 -30 -20 -10 0
10 20 30 40 50 60 70
Noise
図 5.7: 各大きさの背景ノイズを持つ劣化文字画像に対する認識率
5.5.4 考察
図 5.6 より、補正ランレングスを用いた特徴では、劣化程度が大きい(α ≤ −60 及び
α ≥ 60)場合、急激に認識率が低下する。原因は、汚れまたはかすれの程度が大きい場
合、補正処理での仮定とは逆に複雑さが減少するため、ランレングスを正しく補正できな
いからである。特にかすれの α ≤ −60 では、黒画素数を 2 倍以上に増加する必要がある。
しかし、式 (5.21) では最大でも観測黒画素数を 2 倍にしかできず、補正に限界がある。た
だし、上記の劣化状態では人でも認識は容易でなく、実用上問題となることは少ないと思
われる.
表 5.1 において、主に −10 ≤ α ≤ 0 でノイズ種類の誤判定が生じているが、この誤判
定に伴う認識率低下の影響を調べるため、ノイズ種類の判定が 100% 正しいと仮定した場
70
第 5 章 ランレングス補正を用いた特徴抽出法による文字認識
図 5.8: 提案手法により正しく認識された文字画像例
(a)
(b)
図 5.9: 提案手法でも誤認識された文字画像例
(正解カテゴリ → 誤認識結果)
合の認識率を調べた。α = −10 において、0.1% の差が認められたが、α = 0 を含むその
他の劣化程度での認識率の差はほぼ 0% に近く、α = −10 及び 0 における誤判定の影響
はそれ程大きくないことがわかった。その理由には、α が小さい(劣化が少ない)ため、
誤った増減方向に補正が行われても絶対的な補正量が少なく、劣化がない場合に得られる
ランレングス値との差が小さいこと、及び 5.5.3 における図 5.6 の結果に対する考察で述
べたように、かすれの場合は汚れの場合に比べて悪影響が小さいことが挙げられる。
提案手法により、従来では誤読であったものが正読になった例を、図 5.8 に示す。複雑
な文字においても、提案手法が適切にノイズを抑制したことにより、正しく認識できたこ
とがわかる。また、提案手法を用いても誤読であった例を、図 5.9 に示す。図 5.9(a) では
ノイズを抑制しきれず、類似文字に誤読している。図 5.9(b) では、逆にノイズと同時に
文字線のランレングスも、過剰に抑制している。
ランレングス補正法は、文字線のランレングスに基づく他の特徴にも、そのまま適用可
能である。また、提案手法は識別関数の補正による画質劣化への対処 [65, 92, 93] とは異
なり、画質劣化の補正処理が特徴抽出処理内に閉じている。したがって、後段の識別関数
の選択に制約がなく、より高性能な識別関数を用いることにより、更に高い認識率を得る
ことができる。
以上の結果から、提案したランレングス補正法を用いた特徴は、従来では認識困難で
71
第 5 章 ランレングス補正を用いた特徴抽出法による文字認識
あった手書き等の変形が生じた文字において、汚れやかすれが生じた場合の認識にも有効
であるといえる。しかし、5.5.3 の図 5.7 の結果に対して述べたように、本章の提案手法
で対処可能な劣化は、ガウシアンノイズ及びそれに類似したノイズであり、提案手法だけ
で現実に生じる多くの画質劣化に対処できるわけではない。今後、他の様々な画質劣化に
も対処できるよう拡張する必要がある。
5.6 まとめ
本章では、画質劣化と変形の両品質低下にロバストな特徴抽出法を検討した。画質劣化
が生じた文字画像から文字線の方向情報を抽出するため、文字線のランレングスを劣化状
態の推定結果に応じて補正する “ランレングス補正法” を提案し、ランレングスに基づく
特徴である方向寄与度特徴に適用した。ETL9B を人工的に劣化させた文字画像を用いた
認識実験において、提案手法を用いた特徴は、汚れ及びかすれにおける幅広い劣化程度に
おいて、従来の観測ランレングスに基づいた特徴より高い認識率を得た。この結果から、
提案手法により特徴抽出において変形に対するロバスト性を保持しつつ、画質劣化に対し
てもロバスト性を向上可能であることが明らかになった。
72
73
第6章
カテゴリ依存特徴抽出法による文字
認識
6.1 まえがき
第 5 章では、入力文字画像の劣化状態を推定することにより、劣化のない状態で得られ
る特徴値の推定を検討した。また同じコンセプトを持つ手法として、文献 [93] では、細線
化処理の結果に基づいて入力画像の潰れ状態を推定し、潰れが生じていると推定された領
域の類似度を補正する手法も提案されている。
しかしこれらの手法は、事前に仮定した潰れやごま塩ノイズなど極めて限定された劣化
の種類と実際に生じた劣化の種類が少しでも異なる場合や、学習で用いた文字画像と入力
画像間で文字線の太さなどの特性が大きく異なる場合には、有効に機能しない。これは、
入力画像の画素分布を観測しただけでは、劣化状態の推定や文字とノイズの判別などが容
易でないことを示唆している。
また、変形の問題に対する解決法の一つとして、文字線の密度や文字線間の間隔を用い
て形状を一様に整形する、非線形正規化手法が提案されている [52, 53]。しかし、複雑且
つ正方形に近い形状が主である漢字への適用を主として検討された手法である為、英数仮
名文字が多数含まれる対象では悪影響を生じる場合がある。また、背景ノイズや潰れなど
の画質劣化が入力画像内に生じていない前提での手法である為、画質劣化が生じた文字画
像への適用は困難である。
本章では、変形及び画質劣化の両誤認識要因に対処するため、トップダウンで入力画像
の文字カテゴリを仮定し、仮定したカテゴリの情報に基づいた適応的な補正処理を行うカ
テゴリ依存手法に着目する。文字認識におけるカテゴリに依存した手法には、変形への対
処を目的とした前処理として、仮定したカテゴリのテンプレートに近づくよう入力画像を
整形する手法がある [94, 95]。それに対し本章では、変形及び画質劣化への耐性向上を目
74
第 6 章 カテゴリ依存特徴抽出法による文字認識
表 6.1: 映像中文字の分析結果
劣化要因
サンプル数
劣化なし / 極端な縦横比率の変化 / 微小ノイズ
7,841
背景ノイズ / 潰れ
2,139
68
低解像度
かすれ / 文字線の一部欠け
204
特異なフォント / デザイン効果
523
ノイズによる正規化時の位置ずれ
471
総計
11,246
的としたカテゴリ依存の特徴抽出法を提案し、マルチフォントなどの変形や背景ノイズ
などの画質劣化が混在する映像中文字認識への適用結果について述べる [96, 97, 98, 99]。
提案手法は、カテゴリ情報を用いて文字縦横比の変動や画質劣化により変動した特徴値の
劣化程度を推定する。そして、推定結果を用いて適応的に縦横比及び特徴値を補正するこ
とにより、変形及び画質劣化への耐性を向上させる手法である。また、提案手法は背景ノ
イズや潰れなど、加法的なノイズの種類を区別せず統一的に取り扱う。
以下、映像中文字の問題点を 6.2 で述べる。6.3 において、本章で用いた方向特徴及び
提案手法のアルゴリズムについて説明する。映像中文字のサンプルを用いた認識実験の結
果を、6.4 に示す。6.5 で、まとめと今後の課題を述べる。
6.2 映像中文字の特徴
4.2.2 で述べたように、2 値化された映像フレームから切り出された文字画像には、様々
な画質劣化及び変形が生じている。映像中文字の特性をより詳細に調べるため、第 4.2.2
章で述べた文字画像サンプルを調査した。表 6.1 に、映像中文字の画像サンプルを画質劣
化及び変形の劣化要因別に分類した結果を示す*1 。
本章では、表 6.1 の劣化要因の内、誤認識の主要な原因である縦横比率の変動、背景ノ
イズ、及び潰れの問題を取り扱う。縦横比率の変動は、使用されているフォントの多様性
及びテロップ挿入時の文字形状の調整に起因している。背景ノイズは、映像フレームの 2
値化時に、文字領域と色や形状などの特性が似ている背景領域を文字領域と誤判定した際
にブロッブ状に生じる。潰れは、一文字辺りの解像度の低さ、及び 2 値化時の不適切なし
きい値処理が原因である。また、劣化がない状態から黒画素が増加しているという観点に
*1
実際には、各文字画像は複数の劣化要因を含んでいるが、今回は主な劣化要因のみを割り当てた。
75
第 6 章 カテゴリ依存特徴抽出法による文字認識
Background noise / blur
Ratio fluctuation
図 6.1: 映像中文字画像の例
たって、背景ノイズ及び潰れを区別せず同一の劣化要因として扱う。図 6.1 に 2 値化され
た映像フレームから抽出した文字画像の例を示す。
6.3 カテゴリ依存特徴抽出法
本節では、基本特徴として用いる方向寄与度特徴の概要、提案手法である縦横比率を補
正する適応的正規化処理、及び画質劣化による特徴値の変動を抑制する特徴補正処理につ
いて述べる。
6.3.1 方向特徴
方向特徴には、各章で利用した文字線のランレングスに基づく方向寄与度特徴 [6, 90, 91]
を用いる。方向寄与度 di (i = 1, ..., 4) は、以下の式により算出される。
li
di = 4
j=1 lj
2
(6.1)
76
第 6 章 カテゴリ依存特徴抽出法による文字認識
N blocks
N blocks
4
3
2
1
Partitioning
Scanning direction
l2
l3
l4
l1
Input image
Zooming part
Run-length
extraction
図 6.2: 方向寄与度特徴
ここで、l1 , l2 , l3 及び l4 は、各黒画素における横方向、右斜め方向、縦方向、及び左斜め
方向のランレングスを表す。入力画像を分割して得られる第 m(= 1, ..., N × N ) 番目の局
所ブロックから算出される方向寄与度を dm,i とする。lm,i を、第 m ブロックにおいて li
を平均化して得られるランレングスとする。方向寄与度 dm,i は以下の手順により算出さ
れる。
Step 1 : 入力画像を、N × N 個の局所ブロックに分割する。
Step 2 : 各黒画素において、ランレングス li を計算する。
Step 3 : li をブロック毎に加算平均し、lm,i を求める。
Step 4 : dm,i を、lm,i から式 (6.1) により算出する。
本章では、1 辺当たりの局所ブロック分割数を N = 8 とする。図 6.2 に、入力画像の局
所ブロック分割例、ランレングスを抽出する方向、及び方向寄与度の算出に用いる文字線
のランレングスを入力画像から抽出する様子を示す。
77
第 6 章 カテゴリ依存特徴抽出法による文字認識
6.3.2 適応的正規化
映像中の文字は、多様なフォントが利用されており、また文字の挿入時に文字形状を変
化させたりデザイン装飾をするなど、多様な変形やデザイン効果が用いられている。その
中で、縦横比率の変動は、文字認識精度を低下させる要因の一つになっている。抽出され
た文字画像を適切に正規化することが必要となるが、映像中には漢字・数字・記号などの
多種多様な構造及び縦横比率を持つ文字が含まれており、全ての文字を一様な形状に正規
化処理することは必ずしも有効ではない。
文字画像の形状を適用的に正規化する手法として、仮定したカテゴリ毎に入力画像と対
象カテゴリのテンプレート間で対応付けを行い、テンプレートに近づくように入力画像を
正規化する手法が提案されている [94, 95]。しかし、これらの手法は各カテゴリ別に正規
化画像を生成する必要がある為、処理時間を要する。また、後段で用いる特徴補正処理を
考慮すると、比較カテゴリ別に異なる入力画像及び特徴が抽出されるのは好ましくない。
本章では、適応的に縦横比を補正可能とする正規化処理方法を提案する。
提案手法は、学習に用いた画像サンプルから算出した各カテゴリの外接矩形サイズの情
報を用い、初期認識結果から適応的に正規化に用いる外接矩形サイズを推定し、より適切
な正規化画像を得ることを特徴とする。まず、入力画像をあらかじめ設定された正規化サ
イズに対し、外接矩形の長辺が正規化サイズと同じ大きさになるよう、縦横比率を保持し
たまま大きさの正規化を行う。本画像を初期正規化画像と呼ぶことにする。また初期正規
化画像の x 軸方向及び y 軸方向の外接矩形サイズを、各々 rx 及び ry とする。次に、初
期正規化画像に対して認識処理を行い、認識結果候補リストを得る。ここで、認識結果候
補リストの第 c 番目のカテゴリにおける x 軸方向及び y 軸方向の外接矩形サイズを、rxc
及び ryc とする。ここで、c (= 1, ..., C) はカテゴリ番号を表す。上位の認識結果候補リス
トから以下の式により、再正規化処理に用いる矩形サイズ rx 及び ry を求める。
(rx , ry ) =
1 N 1 c c
(rx , ry ).
c=1
N1
(6.2)
N 1 は、再正規化サイズの算出に使用するカテゴリ数である。得られた再正規化矩形サイ
ズ rx 及び ry にフィットするように入力画像を再正規化し、再度認識処理を行う。
ここで、再正規化処理により、入力画像が過剰補正若しくは誤ったカテゴリに近づくよ
うな修正にならないよう、初期正規化画像及び再正規化画像における認識結果の信頼度を
求め、信頼度の高い正規化画像を選択する。信頼度の計算及び判定は、以下の式により求
める。
(rx , ry )
(rx , ry )
N 2
N 2
i=1
i=1
d1 /di <
otherwise.
d1 /di
(6.3)
第 6 章 カテゴリ依存特徴抽出法による文字認識
ここで、di 及び di は、初期正規化画像及び再正規化画像から得られた第 i 位候補カテゴ
リに対する距離値である。N 2 は、信頼度の判定に用いる認識結果候補カテゴリ数である。
式 (6.3) で選択された正規化処理画像を適切な正規化結果とし、後段の特徴補正処理で用
いる。
6.3.3 特徴補正
画質劣化が生じた文字から抽出した幾何学的特徴は、幾何学情報が情報が正しく抽出出
来ないため、特徴値は大きく変動し誤認識の原因となる。本問題に対処するため、各カテ
ゴリのテンプレートの利用に基づいて入力画像の画質劣化の程度を推定することにより、
適応的に特徴値を補正し、画質劣化が生じた入力画像からでも安定して特徴ベクトルを抽
出する手法を提案する。
方向寄与度に基づく特徴空間では、画質劣化により生じるノイズ成分から抽出されたラ
ンレングスは、文字線から抽出されたランレングスに加法的に影響する。つまり、特徴空
間における画質劣化の影響は、特徴値に対する劣化程度に応じた重みとして表れる。した
がって、入力画像の劣化程度を推定できれば、重み付けられた特徴値を補正する係数が得
られる。そして、得られた補正係数を用いて変動した特徴値を補正することにより、劣化
前の原文字画像から抽出される特徴値の近似値を算出できる。そこで、入力画像から劣化
程度を推定することにより、補正係数を獲得することを検討する。
本章では、入力画像の劣化程度を推定する手がかりとして、文字線のランレングスの変
動量を用いる。ランレングスの値は、入力画像が劣化しノイズ成分が増加するほど、本来
劣化がない状態で得られる値から変動する。つまり、ランレングスの変動量は入力画像の
劣化程度に依存する、と考えられる。したがって、入力画像におけるランレングスの変
動量を計測することにより、入力画像の劣化程度を推定できる。しかし 6.1 で述べたよう
に、入力画像を観測して得られる情報のみで、ランレングスの変動量を正しく推定するこ
とは困難である。そこで、入力画像におけるランレングスの変動量を推定するために、各
文字カテゴリのテンプレートを利用する。着目した局所的な領域において、入力画像から
得られたランレングスと各カテゴリの学習データから得られたテンプレートとしてのラン
レングスを比較することにより、着目局所領域での比較に用いたカテゴリに対するランレ
ングスの変動量を求めることができる。
まとめると、提案手法は入力画像と各カテゴリのテンプレートの比較から劣化程度に基
づく補正係数を推定することにより、画質劣化による特徴値の変動を補正し、劣化がない
状態で得られる特徴ベクトルの近似値を算出可能とする手法である。提案手法の処理の流
れを、図 6.3 に示す。
提案手法の具体的なアルゴリズムとして、各カテゴリのテンプレート、劣化程度の定
78
79
第 6 章 カテゴリ依存特徴抽出法による文字認識
Input image
Pattern comparison
Feature extraction
Degradation estimation
Original feature
Feature compensation
Compensation coefficient
Compensated feature
図 6.3: 特徴補正を用いた提案手法の処理の流れ
義、及び補正特徴の算出法について説明する。まず、各カテゴリのテンプレートには、上
述したように、学習データから抽出された文字線のランレングスを用いる。各カテゴリの
テンプレートは、以下の手順で求める。まず、各学習データに対し 6.3.1 の Step 1 ∼ 3 と
同様の処理を施すことにより、局所ブロック毎に平均されたランレングス lm,i を求める。
次いで、カテゴリ毎に学習データ内で lm,i を平均化することにより、第 c カテゴリのテン
c
lm,i
プレート ¯
(m = 1, ..., N × N, i = 1, ..., 4) が得られる。ここで、c (= 1, ..., C) はカテ
ゴリ番号を表す。方向性を持つ情報をテンプレートとして利用することにより、方向毎に
特徴の補正が可能となる。
次に、変動した特徴値の補正に用いる劣化程度を定義する。着目した局所ブロックにお
ける劣化程度 pcm,i を、局所ブロック内の文字線のランレングスの変動量とし、入力画像
c
から得られたランレングス lm,i と第 c カテゴリのテンプレートであるランレングス ¯
lm,i
間の比率から求める。着目した第 m ブロックの i 方向において、第 c カテゴリに対する
c
局所的な劣化程度 pcm,i を、lm,i 及び ¯
を用いて以下の式で定義する。
lm,i
pcm,i
=
c
)/lm,i
(lm,i − ¯lm,i
c
c
(¯lm,i
− lm,i )/¯lm,i
c
(lm,i > ¯lm,i
)
otherwise.
(6.4)
上記局所ブロックの劣化程度 pcm,i を用い、入力画像全体の第 c カテゴリに対する劣化程
80
第 6 章 カテゴリ依存特徴抽出法による文字認識
度 g c を、各局所ブロックにおける劣化程度の加算平均として算出する。
N 2 4
m=1
c
g =
4·
i=1
N2
pcm,i
(0 < g c < 1).
(6.5)
劣化程度 g c は、入力画像と比較に用いたカテゴリのテンプレート間における、画像全体
にわたる非類似度を表現している。入力画像が汚れるほど、または入力画像が比較に用い
たカテゴリに似ていないほど、1 に近づく。また、全く同一の画像間の比較では、g c = 0
となる。
次に、上記劣化程度を用いて補正係数を算出する。まず、局所ブロック別及び方向別
に、補正量の指標となる補正ランレングス li を、上記劣化程度を用いて以下の式により算
出する。
c
lm,i
= lm,i · (1 − g c ) + ¯lm,i
· gc
(6.6)
c
次に補正係数 wm,i
を、補正ランレングスを用いて以下の式で定義する。
c
c
wm,i
= (lm,i − lm,i
)/(lm,i − ¯lm,i
)
(6.7)
c
補正係数 wm,i
は、着目領域におけるランレングスの変動比率を表している。また、画像
全体の比類似度を表す大局的劣化程度 g c を用いて求めた補正ランレングスに基づく値で
ある為、似ている(正しい)カテゴリに対する補正は有効に機能し、似ていない(異なる)
カテゴリに対する補正は抑制する働きをもつ。
最後に、映像中文字に頻出する背景ノイズ及び潰れは特徴値に対して加法的に影響する
c
ため、劣化していると推定される(lm,i > ¯
lm,i
である)局所ブロックの原特徴値 dm,i を、
c
補正係数 wm,i
を用いて補正することにより、第 c カテゴリに対する特徴値 dcm,i が得ら
れる。
dcm,i
=
c
c
) + d¯cm,i · wm,i
dm,i · (1 − wm,i
dm,i
c
(lm,i > ¯lm,i
)
otherwise.
(6.8)
ここで、d¯cm,i は、第 c カテゴリにおける平均辞書ベクトルを表す。局所ブロック毎及び方
向毎の補正により得られた特徴値 dcm,i を、原特徴値 dm,i の代わりに用いることにより、
第 c カテゴリに対する特徴ベクトルが得られる。上記補正処理を全カテゴリに対して行う
ことにより、入力画像から各カテゴリに対する合計 C 個の特徴ベクトルが抽出される。
入力画像の認識は、各カテゴリに対して得られた C 個の特徴ベクトルと辞書ベクトル
間の距離値に基づいて行われる。一方、従来のカテゴリ非依存の特徴抽出は、入力画像か
ら唯一の特徴ベクトルを抽出し、この特徴ベクトルと各カテゴリの辞書ベクトル間で距離
計算が行われる。各特徴抽出における、識別処理時の入力画像から抽出された特徴ベクト
ルと辞書ベクトルの処理関係及び識別処理のフローを、図 6.4 に示す。
81
第 6 章 カテゴリ依存特徴抽出法による文字認識
F1
I
F
...
...
c
Fc
...
...
Proposed
method
F1
FC
FC
Feature extraction
Classification
F1
...
F
I
Fc
...
Conventional
method
FC
I : Input image
F : Feature vector
F c : Feature vector for c-th cagegory
F c : Reference vector for c-th category
図 6.4: 提案手法及び従来手法の識別処理フロー
図 6.5 に、背景ノイズを含む文字画像から抽出した提案手法による補正後及び補正
前の方向寄与度特徴を、各々図示した例を示す。各図は、横方向及び縦方向の特徴値を
0 ∼ 255 に正規化し、濃淡画像として表現したものである。濃い箇所ほど、その方向に強
い文字成分が存在することを示す。補正前の特徴では、背景ノイズを含むブロックは濃く
なっており、背景ノイズの影響が強く残っているのが分かる。しかし、提案手法に基づく
補正特徴では、文字線が存在するブロックは濃いが、背景ノイズを含むブロックは薄く
なっている。これは、提案手法が背景ノイズの影響を抑制しつつ、本来の文字線の方向情
報を良く抽出していることを示している。
提案手法の特長として、補正処理が特徴抽出処理に閉じているため、後段の識別処理で
用いる識別関数の選択に制限がないことが挙げられる。一方、従来の補正処理 [93, 65] は
識別処理内で定義されており、補正処理を保持したまま識別関数を変更することは容易で
はない。また、入力画像の文字線の太さなどの特性が大きく異なる場合、文献 [89] の手法
では補正処理が上手く作用しない。しかし提案手法では、入力画像の文字線の太さの変動
は潰れの一種として捉えることが出来る。したがって、補正処理の過程で太さの変動は適
切に吸収され、正しく認識することが可能となる。
82
第 6 章 カテゴリ依存特徴抽出法による文字認識
Horizontal
Vertical
Compensated
feature
against
Input image
Original
feature
図 6.5: 補正特徴と補正前特徴の抽出例
6.4 認識実験
6.4.1 使用データ及び実験条件
各提案手法を評価するための実験には、以下のデータを使用した。学習データには、か
な・数字・漢字など 3,190 カテゴリからなる 67 種類の印刷フォントを使用した。評価す
るデータとして、6.2 で述べた映像中文字画像サンプルから、9,980 サンプルを選択した。
内訳は、劣化がない/縦横比が大きく変動している/少量のノイズを含むデータが 7,841
サンプル、背景ノイズまたは潰れを含むデータが 2,139 サンプルである。
初期正規化処理として、入力文字画像及び学習データの各サンプル画像を外接矩形の長
辺が 64 画素になるように縦横比を保持したまま、大きさを正規化した。特徴ベクトルの
次元数は、256 次元(8 × 8 ブロック × 4 方向)である。辞書は、各カテゴリの学習データ
から得られた特徴ベクトルの平均値である。識別関数には、ユークリッド距離を用いた。
また、再正規化処理を繰り返し行うことにより、より正確な補正が可能であるが、処理
時間と精度向上のトレードオフを考慮し、本実験では 1 度の再正規化処理及び信頼度判定
とした。また、再正規化処理での外接矩形の算出及び信頼度判定に用いるカテゴリ数は、
各々 N 1 = 128 及び N 2 = 16 とした。
83
第 6 章 カテゴリ依存特徴抽出法による文字認識
Adaptive normalization 10th
Fixed normalization 10th
Adaptive normalization 1st
Fixed normalization 1st
Cumulative classification rate [%]
100
95
90
85
80
75
70
65
1.0
1.1
1.2
1.3
1.4
Normalization parameter
1.5
1.6
図 6.6: 各正規化処理における累積分類率
6.4.2 実験結果
まず、適応的正規化処理の効果を定量的に比較するため、以下の実験を行った。入力画
像を正方形に近づけるよう、外接矩形の短辺を最大 RT(= 1.0 ∼ 1.6 の 0.1 刻み)倍にし
て正規化した際の効果を調査した。RT = 1.0 では、縦横比率を保持したままの初期正規
化処理と同じになる。RT = 1.2 では、rx < ry の時、rx = min(ry , rx · 1.2) となる。こ
こで min(, ) はどちらか小さい値を返す処理を表す。また、rx > ry の場合は、ry を同様
に調整する。図 6.6 に、全評価データ 9,980 サンプルに対する各 RT 別の第 1 位と第 10
位分類率、及び適応的正規化処理の第 1 位と第 10 位分類率を示す。
正方形に近づける正規化処理では、RT = 1.3 の時に第 1 位及び第 10 位分類率の両結
果で最大の値を得たが、共に適応的再正規化処理より低く、パラメータの事前学習を用い
84
第 6 章 カテゴリ依存特徴抽出法による文字認識
Adaptive normalization + Compensated feature
Adaptive normalization + Original feature
Fixed normalization + Original feature
Cumulative classification rate [%]
85
80
75
70
65
60
55
50
45
40
1
2
3
4
5
6
7
Candidate order
8
9
10
図 6.7: 画質劣化した評価データに対する各手法の累積分類率
ても適応的正規化処理に及ばないことが分かる。以上の結果より、一様に正規化処理にす
る手法より、適応的再正規化処理が適切に正規化可能であることが分かる。
次に、画質劣化に対する効果の検証結果として、背景ノイズまたは潰れを含んだデータ
2,139 サンプルに対して、初期正規化処理+補正前の原特徴、適応的正規化処理+原特徴、
適応的正規化処理+補正特徴の 3 通りの組み合わせの認識性能について比較した。左記 3
通りの組み合わせにおける累積分類率を、図 6.7 に示す。特徴補正処理により、全ての候
補順位において補正前の原特徴より約 7 ∼ 8% の分類率向上を達成している。特に第 10
位では、原特徴における誤読の 30% 弱を減少させている。この結果から、提案手法は画
質劣化による特徴値の変動を効果的に補正出来ているといえる。
最後に総合的な性能評価として、上記 3 通りの組み合わせにおける全評価データに
対する累積分類率を、図 6.8 に示す。適応的正規化処理により、初期正規化結果より
第 1 位のおいて 12% の改善(66.26% → 78.53%)、第 10 位においても 6% 弱の改善
(86.09% → 91.93%)を示しており、適応的正規化処理が有効に機能したことが分かる。
85
第 6 章 カテゴリ依存特徴抽出法による文字認識
Adaptive normalization + Compensated feature
Adaptive normalization + Original feature
Fixed normalization + Original feature
Cumulative classification rate [%]
100
95
90
85
80
75
70
65
1
2
3
4
5
6
7
Candidate order
8
9
10
図 6.8: 全評価データに対する各手法の累積分類率
また、特徴補正の適用により全候補順位で約 2% 分類率が向上している。この結果は、特
徴補正は画質劣化がないデータに対する悪影響を最小限にとどめつつ、画質劣化による特
徴値の変動を効果的に補正出来ていることを示している。
6.4.3 考察
図 6.9 に、補正前の原特徴では誤認識されたが、提案手法による補正特徴では正しく認
識された例を示す(補正特徴による認識結果 ← 原特徴による誤認識結果)。提案手法が、
背景ノイズまたは潰れによる特徴値の変動を効果的に補正し、各画質劣化による影響を抑
制していることが分かる。
逆に、補正前の原特徴では正しく認識されたが、補正特徴により誤認識となった例を、
図 6.10 に示す(原特徴による認識結果 → 補正特徴による誤認識結果)。誤認識結果のカ
テゴリは、正解カテゴリと類似し一部箇所が省略された包含関係となっているものが多
第 6 章 カテゴリ依存特徴抽出法による文字認識
図 6.9: 提案手法により正しく認識された例
図 6.10: 提案手法により誤認識された例
い。誤認識の原因には、正解カテゴリの一部がノイズと判定され、誤認識結果のカテゴリ
に類似するように特徴値が補正されたことが考えられる。
6.5 まとめ
本章では、カテゴリに依存した特徴抽出法を提案し、背景ノイズなどの画質劣化及びマ
ルチフォントなどによる変形が混在する映像中文字の認識へ適用した。提案手法は、入力
画像と各カテゴリ固有の情報との比較により、入力画像の縦横比変動の程度及び画質劣化
の程度を推定する。そして、文字形状及び変動した特徴値を、推定結果に基づき適応的に
補正する。映像データから収集した文字サンプルを用いた認識実験において、提案手法に
より得られた適応的特徴抽出法は、各補正前に得られた特徴より高い分類率を得た。この
結果から、提案手法を用いて特徴を抽出することにより、変形及び画質劣化への耐性を向
上可能であることが明らかになった。
86
87
第7章
結論
7.1 本研究の要約
本論文では、より実環境に近い低品質文字認識での性能向上及び認識対象の拡大を可能
にすることを目的に、幾何学的特徴を基本とした文字認識において、変形への更なる耐性
を向上させる手法、及び従来の特徴抽出法では困難であった画質劣化への耐性を向上させ
る手法について提案した。
第 1 章では、本研究の目的、文字認識における従来研究の概要、及び本研究の概要を述
べた。特に、現在主として用いられている特徴抽出法の概要、及び特徴抽出法における実
環境で生じる各種劣化に対する問題点について述べた。
第 2 章では、入力文字の字形の複雑さに応じて、既存特徴である ePDC 特徴による認
識処理と輪郭特徴による認識処理とを選択的に併用することにより、変形への耐性を向上
させる手法について提案した。提案手法の特長は、ePDC 特徴による初期認識、左記認識
結果に基づく漢字/非漢字の判定、及び輪郭特徴による非漢字及び単純な字形の漢字の再
認識という認識手法の選択的併用により、各特徴の有効性が高い字種に対する認識結果を
得、全体的な認識性能を向上させることにある。楷書体文字及び自由手書き文字を対象と
した認識実験により、ePDC 特徴のみを使用した認識性能に対する併用処理での誤読低減
率は、併用処理全体では各々 5%, 25%、輪郭特徴の認識処理では 26%, 33% であり、提案
した併用手法により ePDC 特徴で問題であった非漢字の認識率向上が可能となった。
第 3 章では、新規特徴として、相対配置情報を陽に抽出する特徴である相対方向寄与度
特徴を提案した。従来有効とされた方向特徴は、文字線の絶対的な傾き角度に基づいてい
るため、手書き変形に起因する傾き変動に敏感であるという問題点がある。そこで、文字
線間の相対配置情報が文字カテゴリの決定に重要な役割を果たしているとの考察に基づ
き、隣接した文字線間の相対的な角度及び位置を表現する相対方向寄与度特徴を提案し
た。認識実験では、ETL9B・ETL9B を人工的に変形させたデータ・低品質データのいず
第 7 章 結論
れに対しても、提案特徴は従来有効とされる方向特徴を上回る認識性能を得た。また、提
案特徴と方向特徴の併用により、更に高い認識率を得た。これにより、相対配置情報の手
書き漢字認識に対する有効性、及び手書き変形に対する方向情報以上の耐性が明らかに
なった。
第 4 章では、画質劣化の影響を軽減する手法として、特徴抽出の改良及びカテゴリ情報
を用いた識別値の補正処理について提案した。輪郭形状の劣化及び背景ノイズという問
題が存在する映像中文字の認識において、特徴抽出では、背景・文字の両領域から抽出す
る、輪郭形状の劣化にロバストな WLDC 特徴を提案した。識別では、局所領域毎に画素
変動量に応じた距離値の補正を行い、ノイズの影響を動的に抑制する動的修正ユークリッ
ド距離を提案した。人工的に劣化させた文字を用いた認識実験では、各提案手法が前記画
質劣化に有効であることを示した。実映像中文字を用いた実験では、従来手法による識別
率 65%・10 位分類率 84% を上回る、識別率 73%・10 位分類率 90% の性能が得られ、提
案手法による画質劣化へのロバスト性向上が明らかになった。
第 5 章では、画素の分布状況から劣化程度を推定することにより、特徴値を補正する手
法を提案した。画質劣化が生じた文字画像から文字線の方向情報を抽出するため、文字線
のランレングスを劣化状態の推定結果に応じて補正するランレングス補正法を提案し、ラ
ンレングスに基づく特徴である方向寄与度特徴に適用した。ETL9B を人工的に劣化させ
た文字画像を用いた認識実験において、提案手法を用いた特徴は、汚れ及びかすれにおけ
る幅広い劣化程度において、従来の観測ランレングスに基づいた特徴より高い認識率を得
た。この結果から、提案手法により、特徴抽出において変形に対するロバスト性を保持し
つつ、画質劣化に対してもロバスト性を向上可能であることが明らかになった。
第 6 章では、カテゴリに依存した特徴抽出法を提案し、背景ノイズなどの画質劣化及び
マルチフォントなどによる変形が混在する映像中文字の認識へ適用した。提案手法は、入
力画像と各カテゴリ固有の情報との比較により、入力画像の縦横比の変動程度及び画質劣
化における劣化程度を推定する。そして、文字形状及び変動した特徴値を、推定結果に基
づき適応的に補正する。映像データから収集した文字サンプルを用いた認識実験におい
て、提案手法により適応的に補正された特徴は、各補正前に得られた特徴より高い分類率
を得た。この結果から、提案手法を用いて特徴を抽出することにより、変形及び画質劣化
への耐性を向上可能であることが明らかになった。
7.2 本研究の成果
本研究において、以下の成果が得られた。
まず、変形に対する耐性向上という観点において、従来有効とされてきた文字線の方向
情報を抽出した方向特徴に対して、
88
第 7 章 結論
• 特性の異なる方向特徴を選択的に併用することにより、変形への耐性を向上可能で
あること。
• 文字腺間の相対配置情報が、文字線の局所的な方向情報以上に認識に有効であり、
変形への耐性向上に効果があること。
が明らかになった。本成果により、従来の方向特徴では認識が困難な更に変形が生じた文
字に対しても、高い認識率を得ることが可能となった。
次に、画質劣化への耐性向上という観点では、
• カテゴリ情報を利用することにより、劣化程度を推定可能であること。
• 劣化程度を推定し、適応的に観測値を修正することにより、画質劣化への耐性向上
が可能であること。
が明らかになった。上記の成果から、従来画質劣化が生じた文字への適用が困難であった
特徴抽出法においても、高い認識精度を得ることが可能となった。
7.3 今後の展望及び課題
現在、情報処理技術やインターネット等の普及により、恒常的に大量のテキスト情報・
静止画・動画が流通している。またそれらの情報は、ディスク技術の大容量化及び低価格
化を背景に、逐次アーカイブされている。さらに、携帯電話の普及や高速無線技術の発達
により、場所を問わず各種情報にアクセスし、また発信出来る環境になってきている。上
記情報化環境が発展するにつれ、今まで以上に容易に情報を取得し、検索し、また理解す
る技術が要望される。その為には、本論文の述べた文字認識を含む各種メディアの認識・
理解技術の発展が重要な鍵となる。また、認識技術以外にも、認識対象を様々な環境内か
ら検出する技術、認識技術と連動した検索技術、及び各種認識技術を統合するマルチモー
ダル化技術も必要とされる。
文字認識技術において、上記要望を実現するには、認識対象を拡大すること、及び各技
術課題に対し更なるロバスト性向上が求められる。変形の観点では、撮影角度やデザイン
に関する自由度の緩和が求められる。また画質劣化の観点では、照明変動・低解像度・複
雑背景下で認識可能な技術が必要とされる。
本研究の成果が、上記の課題を解決するための一助となり、より高精度及び高機能な文
字認識技術の発展に寄与することを期待する。
89
90
謝辞
本論文をまとめるにあたり,懇切なる御指導及び御鞭撻を賜った東京工業大学大学院総
合理工学研究科 物理情報システム専攻 熊澤逸夫教授に心より深謝致します.また、本論
文に関して貴重な御助言頂いた同大学 羽鳥好律教授、佐藤誠教授、金子寛彦准教授、山口
雅浩准教授に厚く御礼申し上げます。
本研究の遂行にあたり、研究の場を与えて頂いた筑波大学教授(元 文字図形認識研究グ
ループリーダー)小高和己博士、直接の上司として御指導頂いた法政大学教授(元 文字図
形認識研究グループ 主幹研究員)若原徹博士、御指導及び御助言を頂いた ATR 知能ロボ
ティクス研究所長(元 メディア情報識研究部長)萩田紀博博士、有益な御助言を頂いた名
古屋大学教授(元 メディア情報研究部長)村瀬洋博士、議論頂いたメディア情報研究部主
任研究員 澤木美奈子氏に深く感謝致します。特に、小高和己博士には、研究初期において
多大な御理解と御支援を頂いた。また、萩田紀博博士には、研究開始当初から現在に至る
まで、数々の叱咤激励と文字認識に関する知識を頂き、研究推進の大きな支えとなった。
研究への取り組み姿勢に対して御指導頂いた鹿児島大学教授(元 画像処理グループリー
ダー)大塚作一博士、及び NTT アイティ (株)(元 画像処理グループ主幹研究員)塩昭夫
氏に感謝致します。また、本論文をまとめるにあたり励ましの言葉を頂いた NTT コミュ
ニケーションズ (株) 北川毅博士に感謝致します。
また、日頃御指導頂く中沢憲二メディア情報研究部長、大和淳司メディア認識研究グ
ループリーダー,及び有益なコメントをして頂いた研究グループ諸氏に感謝致します.
91
参考文献
[1] 橋本新一郎, 文字認識概論, 電気通信協会(オーム社), 1982.
[2] M. Umeda, “Advances in recognition methods for handwritten Kanji characters,” IEICE Trans. Inf. & Syst., vol.E79-D, no.5, pp.401–410, May 1996.
[3] J. Tsukumo, “Handprinted Kanji OCR development — what was solved in
handprinted Kanji character recognition ?,” IEICE Trans. Inf. & Syst., vol.E79D, no.5, pp.411–416, May 1996.
[4] K. Yamamoto, “Present state of recognition method on consideration of neighbor points and its ability in common database,” IEICE Trans. Inf. & Syst.,
vol.E79-D, no.5, pp.417–422, May 1996.
[5] H. Yamada, “Continuous nonlinearity in character recognition,” IEICE Trans.
Inf. & Syst., vol.E79-D, no.5, pp.423–428, May 1996.
[6] 萩田紀博, 内藤誠一郎, 増田 功, “外郭方向寄与度特徴による手書き漢字の識別,”
信学論 (D), vol.J66-D, no.10, pp.1185–1192, Oct. 1983.
[7] 坂野 鋭, 宮本信夫, “拡張外郭方向寄与度法による手書き文字認識,” 1995 信学総
大, D-556, p.282, March 1995.
[8] 坂野 鋭, 木田博巳, 武川直樹, “遺伝的アルゴリズムによる文字識別系の解析,” 信
学論 (D-II), vol.J80-D-II, no.7, pp.1687–1694, July 1997.
[9] 鶴岡信治, 栗田昌徳, 原田智夫, 木村文隆, 三宅康二, “加重方向指数ヒストグラム
法による手書き漢字・ひらがな認識,” 信学論 (D), vol.J70-D, no.7, pp.1390–1397,
July 1987.
[10] 孫 寧, 安部正人, 根本義章, “改良型方向線素特徴量及び部分空間法を用いた高精度
な手書き文字認識システム,” 信学論 (D-II), vol.J78-D-II, no.6, pp.922–930, June
1995.
[11] 山本和彦, “弛緩整合法による手書き教育漢字認,” 信学論 (D), vol.J65-D, no.9,
pp.1167–1174, Sept. 1982.
[12] 山田博三, “輪郭 DP 整合法と手書漢字認識への適用,” 信学論 (D), vol.J67-D, no.3,
参考文献
pp.351–358, March 1984.
[13] T. Wakahara, “Shape Matching Using LAT and Its Application to Handwritten
Numeral Recognition,” IEEE Trans. Pattern Analysis & Machine Intelligence,
vol.16, no.6, pp.618–629, June 1994.
[14] 内田誠一, 迫江博昭, “単調連続 2 次元ワープ法によるオフライン手書き文字認識実
験,” 信学論 (D-II), vol.J83-D-II, no.4, pp.1198–1200, Apr. 2000.
[15] 水上嘉樹, 古賀和利, 鳥岡豊士 “変移抽出を行う手書き文字認識システム,” 信学論
(D-II), vol.J80-D-II, no.1, pp.63–72, Jan. 1997.
[16] A.K. Jain and D. Zongker, “Representaion and Recognition of Handwritten
Digits Using Deformable Templates,” IEEE Trans. Pattern Analysis & Machine
Intelligence, vol.19, no.12, pp.1386–1391, Dec. 1997.
[17] H. Nishida, “Automatic construction of structural models incorporating discontinuous transformations,” IEEE Trans. Pattern Analysis & Machine Intelligence, vol.19, no.4, pp.400–411, Apr. 1996.
[18] M. Sawaki and N. Hagita, “Recognition of degraded machine-printed characters
using a complementary similarity measure and error-correction learning,” IEICE
Trans. Inf. & Syst., vol.E79-D, no.5, pp.491–497, May 1996.
[19] A. Sato, “A learning method for definite canonicalization based on minimum
classification error,” Proc. 15th ICPR, vol.2, pp.199–202, Barcelona, Spain,
Sept. 2000.
[20] 堤田敏夫, 川又文男, “住所読取りのための漢字認識複合化方式の一検討,” 1995 信
学ソ大, D-201, Sept. 1995.
[21] 川谷隆彦, “距離関数の学習による手書き数字認識,” 信学論 (D-II), vol.J76-D-II,
no.9, pp.1851–1859, Sept. 1993.
[22] 木村義政, 秋山照雄, 森 稔, 宮本信夫, 若原徹, 小倉健司, “拡張外郭方向寄与度特
徴と輪郭特徴とを用いた手書き漢字/非漢字のハイブリッド認識,” 信学論 (D-II),
vol.J82-D-II, no.12, pp.2271–2279, Dec. 1999.
[23] 梅田三千雄, “PDP モデルによる手書き漢字と平仮名の区別,” 信学技報, PRU91125, 1992.
[24] 大田 裕, 西村 康, 富本哲雄, “特徴マッチングによる手書き漢字認識,” 信学技報,
PRU91-125, 1992.
[25] 萩田紀博, 梅田三千雄, 増田 功, “三つの外形特徴を用いた手書き漢字の分類,” 信
学論 (D), vol.J63-D, no.12, pp.1096–1102, Dec. 1980.
[26] 西脇大輔, 山田敬嗣, 津雲 淳, 天満 勉, “複数の分類手法の協調による高精度手書
き文字認識に関する検討,” 1991 信学全大, D-532 1991.
92
参考文献
[27] 大橋勝己, 若林哲史, 鶴岡信治, 木村文隆, 三宅康二, “文字認識における特徴量の複
合化,” 信学技報, PRU92-114, 1993.
[28] 島田 恭宏, 大倉 充, 塩野 充, 橋本 禮治, “複数特徴部分空間法による手書き類
似漢字識別,” 信学論 (D-II), vol.J78-D-II, no.10, pp.1460–1468, Oct. 1995.
[29] D. S. Lee and S. N. Srihari, “A Theory fo Classifier Combination: The Neural
Network Approach,” Proc. 3rd ICDAR, vol.1, pp.14–16, Montreal, Canada,
Aug. 1995.
[30] T. Tsutsumida, T. Matsui, T. Noumi, and T. Wakahara, “Results of IPTP character recognition competitions and studies on multi-expert system for handprinted numeral recognition,” IEICE Trans. Inf. & Syst., vol.E79-D, no.5,
pp.429–435, May 1996.
[31] 大町真一郎, 阿曽弘具, “品質を考慮した印刷文字の効率的認識法,” 信学技報,
PRL92-38 1992.
[32] 赤松 茂, 川谷隆彦, 塩 昭夫, 飯田行恭, “手書き漢字用文字読取装置,” 研実報,
vol.36, no.4, pp.579–587, 1987.
[33] H. Ogawa, “Karhunen-Loève subspace,” Proc. 11th ICPR, vol.2, pp.75–78,
Hague, Netherlands, Aug. 1992.
[34] 石井健一郎, 上田修功, 前田英作, 村瀬 洋, わかりやすいパターン認識, オーム社,
1998.
[35] 萩田紀博, 増田 功, “手書き漢字認識のための方向寄与度特徴の次元圧縮,” 信学技
報, PRL85-36 1985.
[36] 池田正幸, 田中英彦, 元岡 達, “手書き文字認識における投影距離法,” 情処論,
vol.24, no.1, pp.106–112, Jan. 1983.
[37] H. Arakawa, K. Odaka, and I. Masuda, “On-line Recognition of Handwritten
Characters – Alphanumerics,” Proc. 4th IJCPR, pp.810–812, 1978.
[38] 川又文男, 若原 徹, 松井俊弘, 能見 正, 山下郁生, 堤田敏夫, “手書き漢字宛名認
識に関する第 3 回文字認識技術コンテストの実施,” 信学’94 秋大, D-321, p.329,
Sept. 1994.
[39] 加藤裕史, 横塚志行, 木田博巳, “輪郭の屈曲度を用いた手書き文字認識,” 信学技報,
PRU95-3, May 1995.
[40] 若林哲史, 鶴岡信治, 木村文隆, 三宅康二, “濃度こう配の方向と曲率を用いた手書き
数字認識,” 信学技報, PRMU96-204, March 1997.
[41] 藤澤祥治, 澤 和弘, 若林哲史, 木村文隆, 三宅康二, “濃度こう配の方向と曲率を用
いた手書き数字認識(その2),” 信学技報, PRMU97-228, Feb. 1998.
[42] 岡 隆一, “セル特徴を用いた手書き漢字の認識,” 信学論 (D), vol.J66-D, no.1,
93
参考文献
pp.17–24, Jan. 1983.
[43] 川谷隆彦, 清水博幸, マーク マッキーチャン, “LDA 法の改良と手書き数字認識へ
の応用, “信学論 (D-II), vol.J80-D-II, no.7, pp.1742–1751, July 1997.
[44] M. Mori, T. Wakahara, and K. Ogura, “Measures for structural and global shape
description in handwritten kanji character recognition,” Proc. IS&T/SPIE Document Recognition V, vol.3305, pp.81–89, San Jose, USA, Jan. 1998.
[45] 森 稔, 若原 徹, “相対方向寄与度特徴による手書き漢字認識,” 信学論 (D-II),
vol.J84-D-II, no.7, pp.1360–1368, July 2001.
[46] 萩田紀博, 内藤誠一郎, 増田 功, “文字パターンの分類処理装置,” 特願昭 57107346.
[47] 斎藤泰一, 山田博三, 山本和彦, “JIS 第 1 水準手書漢字データベース ETL9 とその
解析,” 信学論 (D), vol.J68-D, no.4, pp.757–764, April 1985.
[48] H. S. Baird, “Document image defect models,” in Structured Document Image
Analysis, ed. H. S. Baird, H. Bunke, and K. Yamamoto, Springer-Verlag, NY,
1992.
[49] 松井俊弘, 山下郁生, 若原 徹, 吉室 誠, “文字認識アルゴリズムの複合化手法の
検討—第 1 回文字認識技術コンテストの結果より,” 信学技報, PRU92-33, Sept.
1992.
[50] 是角有二, 梅田三千雄, “複数の認識結果の複合による手書き漢字認識の高精度化,”
1995 信学総大, D-549, p.275, March 1995.
[51] 堤田敏夫, 城戸 賛, 太田一浩, “手書き漢字画像データベース「IPTP CD-ROM2」
とその諸性質の分析結果,” 1997 信学総大, D-12-97, p.304, March 1997.
[52] 山田博三, 斉藤泰一, 山本和彦, “線密度イコライゼーション—相関法のための非線
形正規化法,” 信学論 (D), vol.J67-D, no.11, pp.1379–1383, Nov. 1984.
[53] 津雲 淳, 田中晴彦, “階層的な位置ずれ補正処理に基づく手書き漢字認識,” 信学技
報, PRU87-104, Feb. 1988.
[54] H. Ozawa and T. Nakagawa, “A Character image enhancement method from
characters with various background image,” Proc. 2nd ICDAR,pp.58–61, Oct.
1993.
[55] S. Liang, M. Ahmadi, and M. Shridhar, “A morphological approach to text
string extraction from regular periodic overlapping text/background images,”
CVGIP, vol.56, no.5, pp.402–413, Sept. 1994.
[56] M. Y. Yoon, S. W. Lee, and J. S. Kim, “Faxed image restoration using Kalman
filtering,” Proc. 3rd ICDAR, vol.2, pp.677–680, Montreal, Canada, Aug. 1995.
[57] Z. Shi, and V. Govindaraju, “Character image enhancement by selective region-
94
参考文献
growing,” Pattern Recognition Letters, vol.17, no.5, pp.523–527, May 1996.
[58] G. E. Kopec, “Supervised template estimation for document image decoding,”
IEEE Trans. Pattern Analysis & Machine Intelligence, vol.19, no.12, pp.1313–
1324, Dec. 1997.
[59] Y. Xu and G. Nagy, “Prototype extraction and adaptive OCR,” IEEE Trans.
Pattern Analysis & Machine Intelligence, vol.21, no.12, pp.1280–1296, Dec.
1999.
[60] T. K. Ho, “Bootstrapping text recognition from stop words,” Proc. 14th ICPR,
vol.1, pp.605–609, Brisnane, Australia, Aug. 1998.
[61] M. Sawaki, H. Murase, and N. Hagita, “Automatic acquisition of context-based
images templates for degraded character recognition in scene images,” Proc.
15th ICPR, pp.15–18, Barcelona, Spain, Sept. 2000.
[62] 飯島泰蔵, パターン認識理論, 森北出版, 東京, 1989.
[63] M. Sawaki and N. Hagita, “Text-line extraction and character recognition of
document headlines with graphical designs using complementary similarity measure,” IEEE Trans. Pattern Analysis & Machine Intelligence, vol.20, no.10,
pp.1103–1109, Oct. 1998.
[64] M. Mori, S. Kurakake, T. Sugimura, “Robust Telop Character Recognition in
Video for Content-Based Retrieval,” Proc. 5th ICDAR, pp.13–16, Bangalore,
India, Sept. 1999.
[65] 森 稔, 倉掛正治, 杉村利明, 塩 昭夫, 鈴木 章, “背景・文字の形状特徴と動的修
正識別関数を用いた映像中テロップ文字認識,” 信学論 (D-II) vol.J83-D-II, no.7,
pp.1658–1666, July 2000.
[66] A.D. Narasimhalu, Guest Editor, Special issue on content-based retrieval, ACM
Multimedia Systems, vol.3, no.1, Feb. 1995.
[67] B.M. Mehtre, M.S. Kankanhalli, A.D. Narasimhalu, and G.C. Man, “Color
matching for image retrieval,” Pattern Recognition Letters, vol.16, no.3, pp.325–
331, March 1995.
[68] IEEE Computer, vol.28, no.9, Sept. 1995.
[69] V.V. Vinod, C. Hashizume, and H. Murase, “Focussed color intersection for
content based retrieval,” 情処学 CV 研報, CV97-7, pp45–52, Nov. 1995.
[70] R. Lienhart, “Automatic text recognition for video indexing,” Proc. 4th ACM
Multimedia, pp.11–20, Boston, USA, Nov. 1996.
[71] K. Kashino, G. Smith, and H. Murase, “Time-Series Active Search for Quick Retrieval for Audio and Video,” Proc. ICASSP’99, vol.6, pp.2993–2996, Phoenix,
95
参考文献
AZ, Mar. 1999.
[72] 茂木祐治, 有木康雄, “ニュース映像中の文字認識に基づく記事の索引付け,” 信学技
法, IE95-153, PRU95-240, pp.33–40, March 1996.
[73] H. Kuwano, S. Kurakake, and K. Odaka, “Telop Character Extraction from
Video Data,” Proc. DIA’97, pp.82–88, San Juan, Puerto Rico, June, 1997.
[74] A.K. Jain and B. Yu, “Automatic Text Location in Images and Video Frames,”
Pattern Recognition, vol.31, no.12, pp.2055–2076, Dec. 1998.
[75] J.C. Shim, C. Dorai and R. Bolle, “Automatic text extraction from video for
content-based annotation and retrieval,” Proc. 14th ICPR, pp.618–620, Brisbane, Australia, Aug. 1998.
[76] H. Li, D. Doermann, and O. Kia, “Automatic Text Detection and Tracking in
Digital Video,” IEEE Trans. Image Processing, vol.9, no.1, pp.147–156, Jan.
2000.
[77] 新井啓之, 桑野秀豪, 倉掛正治, 杉村利明, “映像中のテロップ表示フレーム検出法,”
信学論 (D-II) vol.J83-D-II, no.6, pp.1477–1486, June 2000.
[78] T. Mita and O. Hori, “Improvement of Video Text Recognition by Character
Selection,” Proc. 6th ICDAR, pp.1089–1093, Seattle, WA, Sept. 2001.
[79] 塩昭夫, “情景中文字の検出のための動的 2 値化処理法,” 信学論 (D), J71-D, no.5,
pp.863–873, May 1988.
[80] 桑野秀豪, 新井啓之, 倉掛正治, 杉村利明, “ライン単位の二値化による映像中文字領
域の抽出方法,” 1998 信学ソ大, D-12-42, p.264, Sept. 1998.
[81] 長谷川英司, 野村由司彦, “背景ノイズに頑健な類似度評価法,” 信学論 (D-II),
vol.J81-D-II, no.4, pp.689–696, Apr. 1998.
[82] 大町真一郎, 阿曽弘具, “低品質文字認識におけるつぶれを補正する複合類似度法,”
信学技法, PRMU98-15, pp.17–24, May 1998.
[83] 萩田紀博, 内藤誠一郎, 増田功, “大局的・局所的方向寄与度密度特徴による手書き漢
字認識方式,” 信学論 (D), vol.J66-D, no.6, pp.722–729, June 1983.
[84] H.A. Glucksman, “Classification of mixed-font alphabetics by characteristic
loci,” IEEE Computer Conf., pp.138–141, 1967.
[85] 小森和昭, 川谷隆彦, 石井健一郎, 飯田行恭, “特徴集積による手書き片仮名文字の認
識,” 信学論 (D), vol.J63-D, no.11, pp.962–969, Nov. 1980.
[86] J. Serra, “Image analysis and mathematical morphology 1,” Academic Press,
1982.
[87] 森 稔, 倉掛正治, 杉村利明, “画質劣化にロバストな映像中テロップ文字認識,” 信学
技報, PRMU98-154, pp.33–40, Dec. 1998.
96
参考文献
[88] M. Mori, M. Sawaki, N. Hagita, H. Murase, N. Mukawa, “Robust Feature Extraction Based on Run-length Compensation for Degraded Handwritten Character Recognition,” Proc. 6th ICDAR, pp.650–654, Seattle, Washington, Sept.
2001.
[89] 森 稔, 澤木美奈子, 萩田紀博, 村瀬 洋, 武川直樹, “ランレングス補正を用いた画
質劣化にロバストな特徴抽出法,” 信学論 (D-II) vol.J86-D-II, no.7, pp.1049–1057,
July 2003.
[90] J. Zhu, T. Hong, and J. J. Hull, ”Image-based keyword recognition in oriental
language document images,” Pattern Recognition, vol.30, no.8, pp.1293–1300,
Aug. 1997.
[91] S. N. Srihari, T. Hong, and G. Srikantan, ”Machine-printed Japanese Document
Recognition,” Pattern Recognition, vol.30, no.8, pp.1301–1313, Aug. 1997.
[92] 大町真一郎, 阿曽弘具, “つぶれを考慮した低品質印刷文字の高精度認識,” 信学論
(D-II), vol.J79-D-II, no.9, pp.1534–1542, Sept. 1996.
[93] S. Omachi, M. Inoue, and H. Aso, “A noise-adaptive discriminant function
and its application to blurred machine-printed Kanji recognition,” IEEE Trans.
Pattern Analysis & Machine Intelligence, vol.22, no.3, pp.314–319, Mar. 2000.
[94] T. Wakahara and K. Odaka, “Adaptive Normalization of Handwritten Characters Using Global/Local Affine Transformation,” IEEE Trans. Pattern Analysis
& Machine Intelligence, vol.20, no.12, pp.1332–1341, Dec. 1998.
[95] M. Nakagawa, T. Yanagida, and T. Nagasaki, “An Off-line Character Recognition Method Employing Model-dependent Pattern Normalization by an Elastic
Membrane Model,” Proc. 5th ICDAR, pp.495–498, Bangalore, India, Sept. 1999.
[96] M. Mori, M. Sawaki, and N. Hagita, “Category-Dependent Feature Extraction
for Recognition of Degraded Handwritten Characters,” Proc. 16th ICPR, vol.3,
pp.155–159, Quebec, Canada, Aug. 2002.
[97] M. Mori, “Video Text Recognition Using Feature Compensation as CategoryDependent Feature Extraction,” Proc. 7th ICDAR, pp.645–649, Edinburgh,
Scotland, Aug. 2003.
[98] 森 稔, 澤木美奈子, 萩田紀博, “特徴補正に基づくカテゴリー依存特徴抽出法によ
る映像中文字認識,” 信学論 (D-II), vol.J87-D-II, no.8, pp.1632–1640, Aug. 2004.
[99] 森 稔, 澤木美奈子, 大和淳司, “カテゴリ依存特徴抽出法と映像中文字認識への応
用, ” 第 11 回 画像の認識・理解シンポジウム, July 2008.
97
98
付録 A
各章の認識実験で使用した文字種
一覧
漢字
亜唖娃阿哀愛挨姶逢葵茜穐悪握渥旭葦芦鯵梓圧斡扱宛姐虻飴絢綾鮎或粟袷安庵按暗案闇
鞍杏以伊位依偉囲夷委威尉惟意慰易椅為畏異移維緯胃萎衣謂違遺医井亥域育郁磯一壱溢逸
稲茨芋鰯允印咽員因姻引飲淫胤蔭院陰隠韻吋右宇烏羽迂雨卯鵜窺丑碓臼渦嘘唄欝蔚鰻姥厩
浦瓜閏噂云運雲荏餌叡営嬰影映曳栄永泳洩瑛盈穎頴英衛詠鋭液疫益駅悦謁越閲榎厭円園堰
奄宴延怨掩援沿演炎焔煙燕猿縁艶苑薗遠鉛鴛塩於汚甥凹央奥往応押旺横欧殴王翁襖鴬鴎黄
岡沖荻億屋憶臆桶牡乙俺卸恩温穏音下化仮何伽価佳加可嘉夏嫁家寡科暇果架歌河火珂禍禾
稼箇花苛茄荷華菓蝦課嘩貨迦過霞蚊俄峨我牙画臥芽蛾賀雅餓駕介会解回塊壊廻快怪悔恢懐
戒拐改魁晦械海灰界皆絵芥蟹開階貝凱劾外咳害崖慨概涯碍蓋街該鎧骸浬馨蛙垣柿蛎鈎劃嚇
各廓拡撹格核殻獲確穫覚角赫較郭閣隔革学岳楽額顎掛笠樫橿梶鰍潟割喝恰括活渇滑葛褐轄
且鰹叶椛樺鞄株兜竃蒲釜鎌噛鴨栢茅萱粥刈苅瓦乾侃冠寒刊勘勧巻喚堪姦完官寛干幹患感慣
憾換敢柑桓棺款歓汗漢澗潅環甘監看竿管簡緩缶翰肝艦莞観諌貫還鑑間閑関陥韓館舘丸含岸
巌玩癌眼岩翫贋雁頑顔願企伎危喜器基奇嬉寄岐希幾忌揮机旗既期棋棄機帰毅気汽畿祈季稀
紀徽規記貴起軌輝飢騎鬼亀偽儀妓宜戯技擬欺犠疑祇義蟻誼議掬菊鞠吉吃喫桔橘詰砧杵黍却
客脚虐逆丘久仇休及吸宮弓急救朽求汲泣灸球究窮笈級糾給旧牛去居巨拒拠挙渠虚許距鋸漁
禦魚亨享京供侠僑兇競共凶協匡卿叫喬境峡強彊怯恐恭挟教橋況狂狭矯胸脅興蕎郷鏡響饗驚
仰凝尭暁業局曲極玉桐粁僅勤均巾錦斤欣欽琴禁禽筋緊芹菌衿襟謹近金吟銀九倶句区狗玖矩
苦躯駆駈駒具愚虞喰空偶寓遇隅串櫛釧屑屈掘窟沓靴轡窪熊隈粂栗繰桑鍬勲君薫訓群軍郡卦
袈祁係傾刑兄啓圭珪型契形径恵慶慧憩掲携敬景桂渓畦稽系経継繋罫茎荊蛍計詣警軽頚鶏芸
迎鯨劇戟撃激隙桁傑欠決潔穴結血訣月件倹倦健兼券剣喧圏堅嫌建憲懸拳捲検権牽犬献研硯
絹県肩見謙賢軒遣鍵険顕験鹸元原厳幻弦減源玄現絃舷言諺限乎個古呼固姑孤己庫弧戸故枯
付録 A 各章の認識実験で使用した文字種一覧
湖狐糊袴股胡菰虎誇跨鈷雇顧鼓五互伍午呉吾娯後御悟梧檎瑚碁語誤護醐乞鯉交佼侯候倖光
公功効勾厚口向后喉坑垢好孔孝宏工巧巷幸広庚康弘恒慌抗拘控攻昂晃更杭校梗構江洪浩港
溝甲皇硬稿糠紅紘絞綱耕考肯肱腔膏航荒行衡講貢購郊酵鉱砿鋼閤降項香高鴻剛劫号合壕拷
濠豪轟麹克刻告国穀酷鵠黒獄漉腰甑忽惚骨狛込此頃今困坤墾婚恨懇昏昆根梱混痕紺艮魂些
佐叉唆嵯左差査沙瑳砂詐鎖裟坐座挫債催再最哉塞妻宰彩才採栽歳済災采犀砕砦祭斎細菜裁
載際剤在材罪財冴坂阪堺榊肴咲崎埼碕鷺作削咋搾昨朔柵窄策索錯桜鮭笹匙冊刷察拶撮擦札
殺薩雑皐鯖捌錆鮫皿晒三傘参山惨撒散桟燦珊産算纂蚕讃賛酸餐斬暫残仕仔伺使刺司史嗣四
士始姉姿子屍市師志思指支孜斯施旨枝止死氏獅祉私糸紙紫肢脂至視詞詩試誌諮資賜雌飼歯
事似侍児字寺慈持時次滋治爾璽痔磁示而耳自蒔辞汐鹿式識鴫竺軸宍雫七叱執失嫉室悉湿漆
疾質実蔀篠偲柴芝屡蕊縞舎写射捨赦斜煮社紗者謝車遮蛇邪借勺尺杓灼爵酌釈錫若寂弱惹主
取守手朱殊狩珠種腫趣酒首儒受呪寿授樹綬需囚収周宗就州修愁拾洲秀秋終繍習臭舟蒐衆襲
讐蹴輯週酋酬集醜什住充十従戎柔汁渋獣縦重銃叔夙宿淑祝縮粛塾熟出術述俊峻春瞬竣舜駿
准循旬楯殉淳準潤盾純巡遵醇順処初所暑曙渚庶緒署書薯藷諸助叙女序徐恕鋤除傷償勝匠升
召哨商唱嘗奨妾娼宵将小少尚庄床廠彰承抄招掌捷昇昌昭晶松梢樟樵沼消渉湘焼焦照症省硝
礁祥称章笑粧紹肖菖蒋蕉衝裳訟証詔詳象賞醤鉦鍾鐘障鞘上丈丞乗冗剰城場壌嬢常情擾条杖
浄状畳穣蒸譲醸錠嘱埴飾拭植殖燭織職色触食蝕辱尻伸信侵唇娠寝審心慎振新晋森榛浸深申
疹真神秦紳臣芯薪親診身辛進針震人仁刃塵壬尋甚尽腎訊迅陣靭笥諏須酢図厨逗吹垂帥推水
炊睡粋翠衰遂酔錐錘随瑞髄崇嵩数枢趨雛据杉椙菅頗雀裾澄摺寸世瀬畝是凄制勢姓征性成政
整星晴棲栖正清牲生盛精聖声製西誠誓請逝醒青静斉税脆隻席惜戚斥昔析石積籍績脊責赤跡
蹟碩切拙接摂折設窃節説雪絶舌蝉仙先千占宣専尖川戦扇撰栓栴泉浅洗染潜煎煽旋穿箭線繊
羨腺舛船薦詮賎践選遷銭銑閃鮮前善漸然全禅繕膳糎噌塑岨措曾曽楚狙疏疎礎祖租粗素組蘇
訴阻遡鼠僧創双叢倉喪壮奏爽宋層匝惣想捜掃挿掻操早曹巣槍槽漕燥争痩相窓糟総綜聡草荘
葬蒼藻装走送遭鎗霜騒像増憎臓蔵贈造促側則即息捉束測足速俗属賊族続卒袖其揃存孫尊損
村遜他多太汰詑唾堕妥惰打柁舵楕陀駄騨体堆対耐岱帯待怠態戴替泰滞胎腿苔袋貸退逮隊黛
鯛代台大第醍題鷹滝瀧卓啄宅托択拓沢濯琢託鐸濁諾茸凧蛸只叩但達辰奪脱巽竪辿棚谷狸鱈
樽誰丹単嘆坦担探旦歎淡湛炭短端箪綻耽胆蛋誕鍛団壇弾断暖檀段男談値知地弛恥智池痴稚
置致蜘遅馳築畜竹筑蓄逐秩窒茶嫡着中仲宙忠抽昼柱注虫衷註酎鋳駐樗瀦猪苧著貯丁兆凋喋
寵帖帳庁弔張彫徴懲挑暢朝潮牒町眺聴脹腸蝶調諜超跳銚長頂鳥勅捗直朕沈珍賃鎮陳津墜椎
槌追鎚痛通塚栂掴槻佃漬柘辻蔦綴鍔椿潰坪壷嬬紬爪吊釣鶴亭低停偵剃貞呈堤定帝底庭廷弟
悌抵挺提梯汀碇禎程締艇訂諦蹄逓邸鄭釘鼎泥摘擢敵滴的笛適鏑溺哲徹撤轍迭鉄典填天展店
添纏甜貼転顛点伝殿澱田電兎吐堵塗妬屠徒斗杜渡登菟賭途都鍍砥砺努度土奴怒倒党冬凍刀
唐塔塘套宕島嶋悼投搭東桃梼棟盗淘湯涛灯燈当痘祷等答筒糖統到董蕩藤討謄豆踏逃透鐙陶
頭騰闘働動同堂導憧撞洞瞳童胴萄道銅峠鴇匿得徳涜特督禿篤毒独読栃橡凸突椴届鳶苫寅酉
瀞噸屯惇敦沌豚遁頓呑曇鈍奈那内乍凪薙謎灘捺鍋楢馴縄畷南楠軟難汝二尼弐迩匂賑肉虹廿
日乳入如尿韮任妊忍認濡禰祢寧葱猫熱年念捻撚燃粘乃廼之埜嚢悩濃納能脳膿農覗蚤巴把播
99
付録 A 各章の認識実験で使用した文字種一覧
覇杷波派琶破婆罵芭馬俳廃拝排敗杯盃牌背肺輩配倍培媒梅楳煤狽買売賠陪這蝿秤矧萩伯剥
博拍柏泊白箔粕舶薄迫曝漠爆縛莫駁麦函箱硲箸肇筈櫨幡肌畑畠八鉢溌発醗髪伐罰抜筏閥鳩
噺塙蛤隼伴判半反叛帆搬斑板氾汎版犯班畔繁般藩販範釆煩頒飯挽晩番盤磐蕃蛮匪卑否妃庇
彼悲扉批披斐比泌疲皮碑秘緋罷肥被誹費避非飛樋簸備尾微枇毘琵眉美鼻柊稗匹疋髭彦膝菱
肘弼必畢筆逼桧姫媛紐百謬俵彪標氷漂瓢票表評豹廟描病秒苗錨鋲蒜蛭鰭品彬斌浜瀕貧賓頻
敏瓶不付埠夫婦富冨布府怖扶敷斧普浮父符腐膚芙譜負賦赴阜附侮撫武舞葡蕪部封楓風葺蕗
伏副復幅服福腹複覆淵弗払沸仏物鮒分吻噴墳憤扮焚奮粉糞紛雰文聞丙併兵塀幣平弊柄並蔽
閉陛米頁僻壁癖碧別瞥蔑箆偏変片篇編辺返遍便勉娩弁鞭保舗鋪圃捕歩甫補輔穂募墓慕戊暮
母簿菩倣俸包呆報奉宝峰峯崩庖抱捧放方朋法泡烹砲縫胞芳萌蓬蜂褒訪豊邦鋒飽鳳鵬乏亡傍
剖坊妨帽忘忙房暴望某棒冒紡肪膨謀貌貿鉾防吠頬北僕卜墨撲朴牧睦穆釦勃没殆堀幌奔本翻
凡盆摩磨魔麻埋妹昧枚毎哩槙幕膜枕鮪柾鱒桝亦俣又抹末沫迄侭繭麿万慢満漫蔓味未魅巳箕
岬密蜜湊蓑稔脈妙粍民眠務夢無牟矛霧鵡椋婿娘冥名命明盟迷銘鳴姪牝滅免棉綿緬面麺摸模
茂妄孟毛猛盲網耗蒙儲木黙目杢勿餅尤戻籾貰問悶紋門匁也冶夜爺耶野弥矢厄役約薬訳躍靖
柳薮鑓愉愈油癒諭輸唯佑優勇友宥幽悠憂揖有柚湧涌猶猷由祐裕誘遊邑郵雄融夕予余与誉輿
預傭幼妖容庸揚揺擁曜楊様洋溶熔用窯羊耀葉蓉要謡踊遥陽養慾抑欲沃浴翌翼淀羅螺裸来莱
頼雷洛絡落酪乱卵嵐欄濫藍蘭覧利吏履李梨理璃痢裏裡里離陸律率立葎掠略劉流溜琉留硫粒
隆竜龍侶慮旅虜了亮僚両凌寮料梁涼猟療瞭稜糧良諒遼量陵領力緑倫厘林淋燐琳臨輪隣鱗麟
瑠塁涙累類令伶例冷励嶺怜玲礼苓鈴隷零霊麗齢暦歴列劣烈裂廉恋憐漣煉簾練聯蓮連錬呂魯
櫓炉賂路露労婁廊弄朗楼榔浪漏牢狼篭老聾蝋郎六麓禄肋録論倭和話歪賄脇惑枠鷲亙亘鰐詫
藁蕨椀湾碗腕侑洸洵瑶皓眸翔脩茉莉赳迪頌尭槙遥廣條渕澤筬
ひらがな
ぁあぃいぅうぇえぉおかがきぎくぐけげこごさざしじすずせぜそぞただちぢっつづてで
とどなにぬねのはばぱひびぴふぶぷへべぺほぼぽまみむめもゃやゅゆょよらりるれろゎわ
ゐゑをん
カタカナ
ァアィイゥウェエォオカガキギクグケゲコゴサザシジスズセゼソゾタダチヂッツヅテデ
トドナニヌネノハバパヒビピフブプヘベペホボポマミムメモャヤュユョヨラリルレロヮワ
ヰヱヲンヴヵヶー
100
付録 A 各章の認識実験で使用した文字種一覧
アルファベット
ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklm
nopqrstuvwxyz
数字
0123456789
記号
、。,.:;?!^_々/\|’ ”()
[]
「」+−=<>¥$%#&*@・゛゜ヽヾゝゞ〃
仝〆〇―‐∼‖…‥‘’
“”
〔〕
{}
〈〉
《》
『』
【】±×÷≠≦≧∞∴♂♀°′″℃¢£§☆★
○●◎◇◆□■△▲▽▼※〒→←↑↓〓
101
102
著者文献リスト
論文
1. 木村義政, 秋山照雄, 森 稔, 宮本信夫, 若原徹, 小倉健司, “拡張外郭方向寄与度特
徴と輪郭特徴とを用いた手書き漢字/非漢字のハイブリッド認識,” 電子情報通信
学会論文誌 (D-II), vol.J82-D-II, No.12, pp.2271–2279, Dec. 1999.
2. 森 稔, 倉掛正治, 杉村利明, 塩昭夫,鈴木章, “背景・文字の形状特徴と動的修
正識別関数を用いた映像中テロップ文字認識,” 電子情報通信学会論文誌 (D-II),
vol.J83-D-II, no.7, pp.1658–1666, July 2000.
3. 森 稔, 若原 徹, “相対方向寄与度特徴による手書き漢字認識,” 電子情報通信学会
論文誌(D-II), vol.J84-D-II, no.7, pp.1360–1368, July 2001.
4. 森 稔, 澤木美奈子, 萩田紀博, 村瀬 洋, 武川直樹, “ランレングス補正を用いた画
質劣化にロバストな特徴抽出法,” 電子情報通信学会論文誌 (D-II), vol.J86-D-II,
no.7, pp.1049–1057, July 2003.
5. M. Mori, M. Sawaki, N. Hagita, H. Murase, N. Mukawa, “Robust Feature Extraction Method Based on Run-length Compensation for Degraded Character
Recognition,” Systems and Computers in Japan, vol.35, Issue.9, pp.1–9, Jun
2004. (4. の翻訳)
6. 森 稔, 澤木美奈子, 萩田紀博, “特徴補正に基づくカテゴリー依存特徴抽出法
による映像中文字認識,” 電子情報通信学会論文誌 (D-II), vol.J87-D-II, no.8,
pp.1632–1640, Aug. 2004.
7. M. Mori, M. Sawaki, N. Hagita, “Video Text Recognition Using CategoryDependent Feature Extraction Based on Feature Compensation,” Systems and
Computers in Japan, vol.36, Issue.10, pp.1–8, Sept. 2005. (6. の翻訳)
著者文献リスト
レター
1. M. Mori, T. Wakahara, K. Ogura, “Structural and Global Shape Description
in Handwritten Kanji Character Recognition,” Electronic Imaging of SPIE’s
International Technical Working Group Newsletter, vol.8, No.2, pp.8–9, June
1998.
国際会議
1. M. Mori, T. Wakahara, K. Ogura, “Measures for Structural and Global Shape
Description in Handwritten Kanji Character Recognition,” Proceedings of
SPIE/IS&T’s Symposium on Electronic Imaging ’98 Document Recognition
V, pp.81–89, San Jose CA, Jan. 1998.
2. M. Mori, S. Kurakake, T. Sugimura, “Robust Telop Character Recognition in
Video for Content-Based Retrieval,” Fifth International Conference on Document Analysis and Recognition, pp.13–16, Bangalore, India, Sept. 1999.
3. H. Kuwano, Y. Taniguti, H. Arai, M. Mori, S. Kurakake, H. Kojima, “Telopon-demand: Video structuring and retrieval based on text recognition,” IEEE
International Conference on Multimedia and Expo, pp.759–762, New York, NY,
July 2000.
4. M. Mori, A. Suzuki, A. Shio, S. Ohtsuka, “Generating new samples from handwritten numerals based on point correspondence,” Seventh International Workshop on Frontiers in Handwriting Recognition, pp.281–290, Amsterdam, The
Netherlands Sept. 2000.
5. M. Mori, M. Sawaki, N. Hagita, H. Murase, N. Mukawa, “Robust Feature Extraction Based on Run-length Compensation for Degraded Handwritten Character Recognition,” Sixth International Conference on Document Analysis and
Recognition, pp.650–654, Seattle, Washington, Sept. 2001.
6. M. Mori, M. Sawaki, N. Hagita, “Category-dependent Feature Extraction for
recognition of degraded handwritten characters,” 16th International Conference
on Pattern Recognition, vol.3, pp.155–159, Quebec, Canada, Aug. 2002.
7. M. Mori, “Video text recognition using feature compensation as categorydependent feature extraction,” 7th International Conference on Document
103
著者文献リスト
Analysis and Recognition, Edinburgh, Scotland, Aug. 2003.
研究会
1. 森 稔, 木村義政, 宮本信夫, 小高和己, “二度書き/ストローク切れにロバストな
オンライン文字認識,” 電子情報通信学会 パターン認識・理解研究会, PRU95-63,
July 1995.
2. 木村義政, 森 稔, 小高和己, “ハンディ型パーソナルペン入力インタフェース,” 電
子情報通信学会 ヒューマン情報処理研究会, HI-96-15, June 1996.
3. 森 稔, 若原 徹, 小倉健司, “相対方向寄与度を用いた手書き文字認識, ” 電子情報
通信学会 パターン認識・メディア理解研究会, PRMU97-185, Dec. 1997.
4. 森 稔, 倉掛正治, 杉村利明, “画質劣化にロバストな映像中テロップ文字認識,” 電
子情報通信学会 パターン認識・メディア理解研究会, PRMU98-154, Dec. 1998.
5. 杵淵哲也, 森 稔, 鈴木 章, 塩 昭夫, 大塚作一, “特定マーク抽出にもとづくFA
X入力帳票の傾斜補正法 -テンプレートに白黒両画素を含む拡張型一般化ハフ変換
の適用-,” 電子情報通信学会 画像工学研究会, IE2000-86, Nov. 2000.
6. 坂野 鋭, 有田大作, 大町真一郎, 岡田 稔, 栗田多喜夫, 斎藤秀雄, 島田伸敬, 藤木
淳, 森 稔, ” 国際会議報告:ICPR とその周辺,” 電子情報通信学会 パターン認
識・メディア理解研究会, PRMU2000-146, Dec. 2000.
7. 森 稔, 澤木美奈子, 萩田紀博, 武川直樹, “ランレングス補正を用いた画質劣化に
ロバストな特徴抽出法,” 電子情報通信学会 パターン認識・メディア理解研究会,
PRMU2001-83, July 2001.
8. 森 稔,澤木美奈子,萩田紀博, “画質劣化文字認識のためのカテゴリに依存した特徴
抽出法,” 電子情報通信学会 パターン認識・メディア理解研究会, PRMU2001-277,
March 2002.
9. 森 稔, 澤木美奈子, “低品質文字の認識手法とその応用に関するサーベイ,” 電子情
報通信学会 パターン認識・メディア理解研究会, PRMU2001-275, March 2002.
10. 森 稔, “特徴補正を用いたカテゴリ依存特徴抽出法による映像中文字認識,” 電子
情報通信学会 パターン認識・メディア理解研究会, PRMU2002-246, March 2003.
11. 森 稔, 澤木美奈子, 大和淳司, “カテゴリ依存特徴抽出法と映像中文字認識への応
用,” 第 11 回 画像の認識・理解シンポジウム, IS1-14, July 2008.
104
著者文献リスト
全国大会
1. 森 稔, 西 宏之, 小高和巳, “文字とジェスチャの分離に関する一検討,” 1995 年電
子情報通信学会総合大会, March 1995.
2. 森 稔, 若原 徹, 小高和巳, “文字線と背景の方向寄与度を用いた手書き漢字認
識,” 1996 年電子情報通信学会ソサイエティ大会, Sept. 1996.
3. 森 稔, 若原 徹、小倉健司, “方向特徴の相関を用いた手書き漢字認識の一検討,”
1997 年電子情報通信学会ソサイエティ大会, Sept. 1997.
4. 森 稔, 倉掛正治, 杉村利明, ” 画質劣化を考慮した映像中文字認識,” 1998 年電子
情報通信学会ソサイエティ大会, Oct. 1998.
5. 森 稔, 鈴木 章, 塩 昭夫, 大塚作一, 倉掛正治, “動的修正識別関数の雑音重畳文
字に対する評価,” 1999 年電子情報通信学会ソサイエティ大会, Sept. 1999.
6. 森 稔, 杵渕哲也, 鈴木 章, 塩 昭夫, 大塚作一, “距離を用いた点対応付けと変形
パターンの生成,” 2000 年電子情報通信学会総合大会, March 2000.
7. 森 稔, 杵渕哲也, 鈴木 章, 塩 昭夫, 大塚作一, “動的 2 値化法を用いたFAX帳
票画像の雑音除去,” 2000 年映像情報メディア学会年次大会, Aug. 2000.
8. 杵渕哲也, 森 稔, 鈴木 章, 塩 昭夫, 大塚作一, “図形の位置と白黒反転状態の
情報を同時に抽出する一般化ハフ変換,” 2000 年映像情報メディア学会年次大会,
Aug. 2000.
9. 杵渕哲也, 鈴木 章, 森 稔, 塩 昭夫, 大塚作一, “類似パターン検索にもとづく図
形・文字入力方式,” 2001 年電子情報通信学会総合大会, March 2001.
10. 森 稔, 澤木美奈子, 萩田紀博, 武川直樹, “ランレングス補正に基づく劣化手書き
文字認識のための特徴抽出法,” 2001 年電子情報通信学会ソサイエティ大会, Sept.
2001.
その他
1. 倉掛正治, 新井啓之, 桑野秀豪, 森 稔, “映像中のテロップ認識,” マルチメディア
見える技術 100, NTT 出版, May 1998.
2. 木村義政, 秋山照雄, 森 稔, 宮本信夫, 若原徹, 小倉健司, “拡張 PDC 特徴を用い
た手書き漢字認識ソフトウェア,” NTT R&D, June 1998.
3. 読売新聞(朝刊), 「デジタルトレンド,進化する IT(上),汚れた文字も認識」,
8th July 2002.
105
著者文献リスト
4. 今泉文利, 北川毅, 森 稔, 進 威志, “デジタルシネマにおけるCG合成工程への
コラボレーション・プラットフォームの応用,” NTT 技術ジャーナル, vol.18, no.4,
April 2006.
5. F. Imaizumi, T. Kitagawa, M. Mori, T. Shin, “Application of a Collaboration
Platform to the Computer Graphics Compositing Process in Digital Cinema,”
NTT Technical Review, vol.4, no.7, pp.34–38, July 2006.
特許
1. H. Kuwano, H. Arai, S. Kurakake, K. Ogura, T. Sugimura, M. Mori, M. Takahata, “Scheme for extraction and recognition of telop characters from video
data,” USA, Dec. 1998.
2. 森 稔, 若原 徹, 小倉健司, “文字認識方法及びその装置,” 特許登録 3368807,
Nov. 2002.
3. 森 稔, 若原 徹, 小倉健司, “文字パターン認識方法及びその装置,” 特許登録
3365941, Nov. 2002.
4. 森 稔, 倉掛正治, 杉村利明, “文字認識処理方法及び装置,” 特許登録 3375292,
Nov. 2002.
5. 杵渕哲也, 森 稔, 鈴木章, 塩昭夫, 大塚作一, “図形抽出方法,” 特許登録 3598039,
Sept. 2004.
6. 森 稔,澤木美奈子,萩田紀博,村瀬洋,武川直樹, “文字パターン認識処理方法及
びその装置,” 特許登録 3901473, Jan. 2007.
7. 森 稔,澤木美奈子,萩田紀博, “文字パターン認識方法及びその装置,” 特許登録
3933496, March 2007.
賞罰
1. 学術奨励賞,電子情報通信学会,March 2000.
106