モジュール型ニューラルネットワークを用いた古文書文字認識 ‐正準判別

モジュール型ニューラルネットワークを用いた古文書文字認識
‐正準判別分析による次元削減の導入‐
加藤 聡 (松江工業高等専門学校 情報工学科)
堀内 匡 (松江工業高等専門学校 情報工学科)
高橋 朋之 (松江工業高等専門学校 専攻科電子情報システム工学専攻)
Japanese Historical Character Recognition by Using Modular Neural Network
- Dimension Reduction of Feature Space with Canonical Discriminant Analysis
Satoru Kato, Tadashi Horiuchi (Matsue College of Technology)
Tomoyuki Takahashi (Matsue College of Technology)
キーワード:古文書文字認識,モジュール型ニューラルネットワーク,自己組織化マップ,正準判別分析,次元削減
Keywords : Historical Character Recognition, Modular Neural Network, Self-Organizing Map, Canonical Discriminant Analysis, Dimension Reduction
1.
はじめに
に与える影響について報告する.
日本語手書き文字認識のように,字種数が非常に多く,
書き手による字の変形が大きい場合に有効な認識手法と
2.
して,モジュール型ニューラルネットワークが挙げられる
2.1
[1][2].モジュール型ニューラルネットワーク(以下,モ
ジュール型 NN)は,最近傍識別法による大分類部と,各
大分類部に SOM を用いたモジュール型 NN
モジュール型 NN によるパターン認識器の基本
構成と認識方法
クラスごとに個別の階層型ニューラルネットワーク(以
モジュール型 NN によるパターン認識器の基本的な構
下,階層型 NN)を用いた細分類部で構成され,大分類
成を図 1(a) に示す.モジュール型 NN は,粗い識別器に
部と細分類部による段階的な認識候補クラスの絞り込み
よる大分類部と,小規模な階層型 NN の集合からなる細
ができるため,誤認識を抑制できるという利点を持つ.
分類部で構成されている.
本 研 究 で は ,自 己 組 織 化 マップ (Self-Organizing
細分類部では,それぞれの階層型 NN は,自分が担当
Map:SOM) を用いて,各クラスを複数の代表ベクトル
で近似し,大分類部における最近傍識別法をマルチテン
プレート化して信頼性を高め,さらに,信頼性を高めた
するクラスに属するパターンが入力されたときにのみ発
火が抑制(値’0’ を出力)されるように学習させておく.
大分類部を用いて,NN モジュールに対する訓練サンプ
すなわち,個々の階層型 NN は単純な 2 クラス識別問題
ルを適切に選別することによって,モジュール型 NN の
を学習していると言える.
火(値’1’ を出力)し,それ以外のパターンに対しては発
これに対して大分類部は,学習パターンのクラスごと
学習時間の削減を行ってきた [3].
モジュール型 NN の学習時間の削減には,訓練サンプ
の平均ベクトルを用いて,入力パターンの認識候補クラ
ル数削減の他に,特徴空間の次元削減も効果的であると
スを選別する.選別された認識候補クラスそれぞれに相
考えられる.したがって,本研究では文献 [3] において提
当する細分類部のニューラルネットワークに入力パター
案したモジュール型 NN の構成と学習方式はそのままに,
ンが提示され,出力値が最大となるモジュールに対応す
特徴空間の次元数を適切な手法で削減することによって,
るクラスが,最終的な認識クラスとして出力される.
認識精度を維持しつつ,学習時間の削減を試みる.その
2.2
予備的実験として,本稿では,モジュール型 NN の大分
類部に対して,2 つの次元削減手法(正準判別分析,主
SOM を用いた大分類部のマルチテンプレート化
Kohonen によって提案された SOM は,教師なし学習
を行うニューラルネットワークの一種であり,自己組織
成分分析)による特徴空間の次元数の削減が,認識精度
1
Class 1
Competitive layer
Neuron cell i
...
Class 2
Input
patterns
Rough
Classifier
...
Code vector
Wi
Result
MAX
.....
Input vector
Class N
Input layer
x
図 2: SOM の構造(1 次元 SOM)
(a) モジュール型 NN の基本構成
Rough
Classifier
Class 1
力データの分布を反映しているという特徴がある.この
特徴を利用して,本研究では図 1(b) に示すように,個々
SOM #1
のクラスに対してそれぞれ個別の SOM を割り当てて,
SOM #2
....
Input
patterns
Class 2
モジュール型 NN の大分類部を構成する.各 SOM に対
Result
して,それぞれが受け持つクラスの学習サンプルを個別
MAX
に学習させることで,各クラスの分布を反映したテンプ
....
SOM #N
レート群を,SOM のコードベクトルという形で生成す
Class N
code-vectors
ることができる.
2.3
(b) 大分類部に SOM を用いたモジュール型 NN
NN モジュールにおける訓練サンプル数の削減
モジュール型 NN における各 NN モジュールが 2 ク
図 1: モジュール型ニューラルネットによる認識器の構成
ラス識別問題を学習する際,それぞれのクラスを受持つ
化マップ (Self-Organizing Map) とも呼ばれる.SOM は
入力層と競合層の二層からなり,競合層ではニューロン
NN モジュールに対する訓練サンプルの作成方法として
は,受持ちクラスに属するパターンを興奮性の訓練サン
セル(以下,セル)が格子状に結合し,この結合によっ
プルとし,それ以外の全クラスのパターンを抑制性の訓
て個々のセルは互いに影響を及ぼし合うことができる.
練サンプルとする手法が最も単純である.しかしながら,
本研究では,図 2 に示すような,1 次元格子状にセルが
この手法では,クラス数の増加にともなって抑制性訓練
結合した競合層を持つ SOM を使用する.
サンプルの集合が肥大化してしまう.
SOM の基本学習アルゴリズム [5] では,入力ベクトル
一般的にニューラルネットワークの学習にかかる時間
x に最も近いコードベクトル w をもつ勝者セル c と,そ
の近傍に位置するセル群に対して,次式によるコードベ
クトルの更新が行なわれる.
wi (t + 1) = wi (t) + α(t) Φ(pi ) (x − wi (t))
は,訓練サンプルの数に依存している.したがって,各
NN モジュールの学習に際して,受持ちクラス以外の全
パターンを抑制性訓練サンプルとして与えるといった単
(1)
純な手法では,NN モジュールの学習に非常に多くの時
間を費やしてしまうという問題が生じる.この問題は,
ここで,α(t) は学習回数 t における学習率であり,初
日本語文字認識のようにクラス数が非常に多い場合,よ
期値 αini から始まり,あらかじめ与えられた最大学習回
り深刻なものとなる.
数 Tmax で最小となるように,t の増加に伴って単調に減
少する.また,Φ(pi ) は勝者セル c を中心とした近傍関
そこで本研究では,Saruta らが提案したモジュール型
数であり,pi は競合層上でのセル i から勝者セル c まで
ネットワークである ELNET-II [2] と同様の手法によっ
の距離である.Φ(pi ) には,pi が大きくなるほど Φ の値
て,抑制性訓練サンプル数の削減を行う.具体的には,
が小さく,また学習回数 t の増加に伴って近傍の範囲が
大分類部を用いてクラス境界付近の訓練サンプルを抽出
狭まるようなものが用いられる.
し,それらを各 NN モジュールへの抑制性訓練サンプル
SOM の学習後に得られたコードベクトルの分布は,入
として適切に分配している.
2
3.
正準判別分析による特徴空間の次元削減
し,それぞれの場合における認識精度を比較することに
した.
特徴空間の次元削減には,KL 展開あるいは主成分分
1. 次元削減を行わない特徴空間
析がよく用いられるが,本稿では正準判別分析による次
元削減を試みる.正準判別分析は,2 クラスの識別を行
2. 正準判別分析によって次元削減した特徴空間
う線形判別分析を多クラスに拡張したものである.2 ク
3. 主成分分析によって次元削減した特徴空間
ラスの判別分析では,多次元の特徴空間における特徴ベ
クトルを,1 次元の識別境界線と直交する部分空間に写
4.2
像することができる.同様に,正準判別分析を用いるこ
とによって,d 次元の特徴空間から Nc − 1(Nc はクラス
認識対象
認識対象には,古文書翻刻支援システム開発 (HCR) プ
数)次元の空間に特徴ベクトルを写像することができる.
ロジェクト [7][8] が公開している古文書文字データベー
いま,クラスを表す記号を Ci ,クラス i の平均ベクト
ス HCD1 および HCD1a∼1e に収録された文字セットを
ルを mi ,全クラスの平均ベクトルを m とすると,クラ
使用した.これらのデータベースは,古文書の一種であ
ス内共分散行列 ΣW およびクラス間共分散行列 ΣB は,
る「宗門改帳(しゅうもんあらためちょう)」から,年
それぞれ以下のように定義される.
齢を表す 16 字種(HCD1)や,単位,親族関係などを表
Nc
1 ΣW =
(x − mi )(x − mi )T
n
i=1 x∈Ci
ΣB =
1
n
Nc
ni (mi − m)(mi − m)T
す 48 字種(HCD1a∼1e)の文字を採字し,2 値画像化
したものである.今回の実験では,合計 64 字種のうち,
(2)
一定数の文字サンプルが確保されていることなどを条件
に,(a)HCD1 から 15 字種,(b)HCD1a∼1e から 46 字
(3)
種を選別し,(a) と (b) を合わせた 61 字種の文字データ
i=1
セットを構成した.各字種のサンプル画像を図 3 に示す.
正準判別分析では,クラス内分散とクラス間分散の比
認識対象の文字画像に対して,前処理として文字のセ
が最大,すなわち個々のクラスの分離度がより大きくな
ンタリング,平均化フィルタによるノイズ除去,および
るような Nc − 1 次元の部分空間を求めることが行われ
線形な拡大・縮小による文字サイズの正規化を施した.
る.ここで,d 次元の特徴空間から Nc − 1 次元の部分
空間への変換行列を A とすれば,A は ΣW と ΣB に関
する一般化固有値問題
ΣB A = ΣW AΛ
(4)
を解くことによって,固有ベクトルの形で得られること
が知られている [4].分散の最大化という観点から見れ
ば,KL 展開や主成分分析によって求められた部分空間
も同様の性質を持っているといえるが,正準判別分析で
は,クラス情報を積極的に利用することで,より識別に
適した部分空間を得ることができる.
4.
大分類部の性能評価実験
4.1
概要
今回の実験では,次元削減を行った場合と行わなかっ
た場合とで,テンプレート数の増減に対する大分類部の
認識精度の変化を比較することが目的である.認識問題
としては,61 字種の古文書文字(次節参照)の認識を採
図 3: 認識対象の文字サンプル
り上げた.文字画像の特徴量には方向線素特徴量 [6] を
用い,個々の文字画像を 196 次元の特徴ベクトルで表す
4.3
ようにした.
実験方法
4.2 節で述べた古文書文字データは,1 字種あたり
200 個の文字サンプルが含まれている.これらを,認識
以上をふまえて,SOM を用いてマルチテンプレート
化した最近傍識別法を,以下の 3 つの場合に対して適用
3
辞書用とテスト用にランダムに 100 個ずつ振り分け,辞
書用のサンプル群を,各クラスごとに個別の SOM に学
94
習させて,クラスごとのテンプレートを得た.このとき,
SOM の競合層におけるセル数が,すなわちテンプレート
数となる.SOM の学習パラメータとしては,αini = 0.3,
Principal Component Analysis
Canonical Discriminant Analysis
Non-Reduction
Accuracy (%)
92
90
σini = 1.0, Tmax = 20, 000 とした.
88
特徴空間の次元削減については,辞書用のサンプル群
に対して正準判別分析あるいは主成分分析をそれぞれ適
86
用し,最大値から (Nc − 1) 個の固有値に対応する固有
84
ベクトルを,特徴空間に対する部分空間の基底とした.
82
テスト文字の認識精度の算出に関しては,2 交差検証
法による最近傍識別法の適用を 10 回繰り返して,認識
80
率の平均値を求めることとした.
4.4
1
mean
vector
5
10
15
20
Number of Templates
25
Full
(100)
実験結果および考察
図 4: 大分類部における特徴空間の次元削減と認識精度
図 4 は,61 字種の文字データセットに対する認識実
験の結果を示している.図の横軸はクラスごとのテンプ
大分類部の後段に位置する NN モジュールの学習時間削
レート数である.テンプレート数 1 は各クラスの平均ベ
減に寄与するものと考えている.今後は,NN モジュー
クトルをテンプレートとした場合であり,Full はクラス
ルも含めたモジュール型 NN 全体を対象として,特徴空
ごとに 100 個の辞書サンプルすべてをテンプレートとし
間の次元削減が NN モジュールの学習時間削減にどの程
た場合である.
度寄与するか,また,モジュール型 NN の認識精度に与
正準判別分析と主成分分析それぞれによる,次元削減
える影響などについて引き続き調査する予定である.
と認識精度の関係を比較すると,辞書サンプルすべてを
テンプレートとする場合を除いて,正準判別分析による
文 献
場合の方が高い認識精度を示していることが確認できる.
これは,主成分分析によって得られた部分空間が,クラ
[1] 和泉勇治, 加藤寧, 根元義章, 山田奨治, 柴山守, 川口洋:
「ニューラルネットワークを用いた古文書個別文字認識に
関する一検討」, 情報処理学会研究報告(人文科学とコ
ンピュータ), Vol.45, pp.9–15, (2000)
スの識別を考慮していないためであると考えられる.
また,次元削減を行わない場合と,正準判別分析によ
る次元削減を行った場合とを比較すると,テンプレート
[2] Kazuki Saruta, Nei Kato, Masato Abe and Yoshiaki
Nemoto: “High Accuracy Recognition of ETL9B Using
Exclusive Learning Neural Network-II (ELNET-II)” ,
IEICE Trans. Inf. & Syst., Vol.E79-D, No.5, pp.516–
522, (1996)
数の増加に伴って,認識精度の優劣が逆転していること
が分かる.正準判別分析によって得られた部分空間は,ク
ラスの識別を考慮したものではあるが,次元削減によっ
て特徴ベクトルが持つ情報量は低下する.そのため,テ
[3] 加藤聡, 堀内匡, 伊藤良生: 「自己組織化マップによる
マルチテンプレート学習を用いたモジュール型ニューラ
ルネットワークに関する検討」, 平成 19 年 電気学会 電
子・情報・システム部門大会講演論文集, pp.1199–1203,
(2007)
ンプレート数の増加によって識別境界を詳細化した際に,
主に境界面付近において,次元削減を行わない場合と比
較して誤識別が増加してしまうものと考えられる.
5.
[4] 石井健一郎, 上田修功, 前田英作, 村瀬洋, わかりやすいパ
ターン認識. オーム社. 1998.
まとめ,および今後の予定
[5] T. Kohonen: “Self-Organizing Maps”, Springer-Verlag
Verlin Heidelverg, (1995)
本稿では,自己組織化マップ (SOM) を用いてマルチ
[6] 孫 寧, 安倍正人, 根元義章: 「改良型方向線素特徴量お
よび部分空間法を用いた高精度な手書き文字認識システ
ム」, 電子情報通信学会論文誌, Vol.J78-D-II, No.6,
pp.922–930, (1995)
テンプレート化したモジュール型ニューラルネットワー
クの大分類部に対して,特徴空間の次元削減を施して,
次元削減が大分類部の認識精度に与える影響を調査した.
[7] 古 文 書 翻 刻 支 援 シ ス テ ム 開 発 プ ロ ジェク ト:
http://www.nichibun.ac.jp/ shoji/hcr/
古文書文字を対象とした認識実験から,正準判別分析を
用いて,認識精度を大きく低下させることなく,特徴空
[8] 山田奨治,柴山守: 「古文書を対象にした文字認識の研
究」, 情報処理, 43 巻, 9 号, pp.950–955, (2002)
間の次元数削減が可能であることを確認した.
特徴空間の次元削減は,モジュール型 NN において,
4