モジュール型ニューラルネットワークを用いた古文書文字認識 ‐正準判別分析による次元削減の導入‐ 加藤 聡 (松江工業高等専門学校 情報工学科) 堀内 匡 (松江工業高等専門学校 情報工学科) 高橋 朋之 (松江工業高等専門学校 専攻科電子情報システム工学専攻) Japanese Historical Character Recognition by Using Modular Neural Network - Dimension Reduction of Feature Space with Canonical Discriminant Analysis Satoru Kato, Tadashi Horiuchi (Matsue College of Technology) Tomoyuki Takahashi (Matsue College of Technology) キーワード:古文書文字認識,モジュール型ニューラルネットワーク,自己組織化マップ,正準判別分析,次元削減 Keywords : Historical Character Recognition, Modular Neural Network, Self-Organizing Map, Canonical Discriminant Analysis, Dimension Reduction 1. はじめに に与える影響について報告する. 日本語手書き文字認識のように,字種数が非常に多く, 書き手による字の変形が大きい場合に有効な認識手法と 2. して,モジュール型ニューラルネットワークが挙げられる 2.1 [1][2].モジュール型ニューラルネットワーク(以下,モ ジュール型 NN)は,最近傍識別法による大分類部と,各 大分類部に SOM を用いたモジュール型 NN モジュール型 NN によるパターン認識器の基本 構成と認識方法 クラスごとに個別の階層型ニューラルネットワーク(以 モジュール型 NN によるパターン認識器の基本的な構 下,階層型 NN)を用いた細分類部で構成され,大分類 成を図 1(a) に示す.モジュール型 NN は,粗い識別器に 部と細分類部による段階的な認識候補クラスの絞り込み よる大分類部と,小規模な階層型 NN の集合からなる細 ができるため,誤認識を抑制できるという利点を持つ. 分類部で構成されている. 本 研 究 で は ,自 己 組 織 化 マップ (Self-Organizing 細分類部では,それぞれの階層型 NN は,自分が担当 Map:SOM) を用いて,各クラスを複数の代表ベクトル で近似し,大分類部における最近傍識別法をマルチテン プレート化して信頼性を高め,さらに,信頼性を高めた するクラスに属するパターンが入力されたときにのみ発 火が抑制(値’0’ を出力)されるように学習させておく. 大分類部を用いて,NN モジュールに対する訓練サンプ すなわち,個々の階層型 NN は単純な 2 クラス識別問題 ルを適切に選別することによって,モジュール型 NN の を学習していると言える. 火(値’1’ を出力)し,それ以外のパターンに対しては発 これに対して大分類部は,学習パターンのクラスごと 学習時間の削減を行ってきた [3]. モジュール型 NN の学習時間の削減には,訓練サンプ の平均ベクトルを用いて,入力パターンの認識候補クラ ル数削減の他に,特徴空間の次元削減も効果的であると スを選別する.選別された認識候補クラスそれぞれに相 考えられる.したがって,本研究では文献 [3] において提 当する細分類部のニューラルネットワークに入力パター 案したモジュール型 NN の構成と学習方式はそのままに, ンが提示され,出力値が最大となるモジュールに対応す 特徴空間の次元数を適切な手法で削減することによって, るクラスが,最終的な認識クラスとして出力される. 認識精度を維持しつつ,学習時間の削減を試みる.その 2.2 予備的実験として,本稿では,モジュール型 NN の大分 類部に対して,2 つの次元削減手法(正準判別分析,主 SOM を用いた大分類部のマルチテンプレート化 Kohonen によって提案された SOM は,教師なし学習 を行うニューラルネットワークの一種であり,自己組織 成分分析)による特徴空間の次元数の削減が,認識精度 1 Class 1 Competitive layer Neuron cell i ... Class 2 Input patterns Rough Classifier ... Code vector Wi Result MAX ..... Input vector Class N Input layer x 図 2: SOM の構造(1 次元 SOM) (a) モジュール型 NN の基本構成 Rough Classifier Class 1 力データの分布を反映しているという特徴がある.この 特徴を利用して,本研究では図 1(b) に示すように,個々 SOM #1 のクラスに対してそれぞれ個別の SOM を割り当てて, SOM #2 .... Input patterns Class 2 モジュール型 NN の大分類部を構成する.各 SOM に対 Result して,それぞれが受け持つクラスの学習サンプルを個別 MAX に学習させることで,各クラスの分布を反映したテンプ .... SOM #N レート群を,SOM のコードベクトルという形で生成す Class N code-vectors ることができる. 2.3 (b) 大分類部に SOM を用いたモジュール型 NN NN モジュールにおける訓練サンプル数の削減 モジュール型 NN における各 NN モジュールが 2 ク 図 1: モジュール型ニューラルネットによる認識器の構成 ラス識別問題を学習する際,それぞれのクラスを受持つ 化マップ (Self-Organizing Map) とも呼ばれる.SOM は 入力層と競合層の二層からなり,競合層ではニューロン NN モジュールに対する訓練サンプルの作成方法として は,受持ちクラスに属するパターンを興奮性の訓練サン セル(以下,セル)が格子状に結合し,この結合によっ プルとし,それ以外の全クラスのパターンを抑制性の訓 て個々のセルは互いに影響を及ぼし合うことができる. 練サンプルとする手法が最も単純である.しかしながら, 本研究では,図 2 に示すような,1 次元格子状にセルが この手法では,クラス数の増加にともなって抑制性訓練 結合した競合層を持つ SOM を使用する. サンプルの集合が肥大化してしまう. SOM の基本学習アルゴリズム [5] では,入力ベクトル 一般的にニューラルネットワークの学習にかかる時間 x に最も近いコードベクトル w をもつ勝者セル c と,そ の近傍に位置するセル群に対して,次式によるコードベ クトルの更新が行なわれる. wi (t + 1) = wi (t) + α(t) Φ(pi ) (x − wi (t)) は,訓練サンプルの数に依存している.したがって,各 NN モジュールの学習に際して,受持ちクラス以外の全 パターンを抑制性訓練サンプルとして与えるといった単 (1) 純な手法では,NN モジュールの学習に非常に多くの時 間を費やしてしまうという問題が生じる.この問題は, ここで,α(t) は学習回数 t における学習率であり,初 日本語文字認識のようにクラス数が非常に多い場合,よ 期値 αini から始まり,あらかじめ与えられた最大学習回 り深刻なものとなる. 数 Tmax で最小となるように,t の増加に伴って単調に減 少する.また,Φ(pi ) は勝者セル c を中心とした近傍関 そこで本研究では,Saruta らが提案したモジュール型 数であり,pi は競合層上でのセル i から勝者セル c まで ネットワークである ELNET-II [2] と同様の手法によっ の距離である.Φ(pi ) には,pi が大きくなるほど Φ の値 て,抑制性訓練サンプル数の削減を行う.具体的には, が小さく,また学習回数 t の増加に伴って近傍の範囲が 大分類部を用いてクラス境界付近の訓練サンプルを抽出 狭まるようなものが用いられる. し,それらを各 NN モジュールへの抑制性訓練サンプル SOM の学習後に得られたコードベクトルの分布は,入 として適切に分配している. 2 3. 正準判別分析による特徴空間の次元削減 し,それぞれの場合における認識精度を比較することに した. 特徴空間の次元削減には,KL 展開あるいは主成分分 1. 次元削減を行わない特徴空間 析がよく用いられるが,本稿では正準判別分析による次 元削減を試みる.正準判別分析は,2 クラスの識別を行 2. 正準判別分析によって次元削減した特徴空間 う線形判別分析を多クラスに拡張したものである.2 ク 3. 主成分分析によって次元削減した特徴空間 ラスの判別分析では,多次元の特徴空間における特徴ベ クトルを,1 次元の識別境界線と直交する部分空間に写 4.2 像することができる.同様に,正準判別分析を用いるこ とによって,d 次元の特徴空間から Nc − 1(Nc はクラス 認識対象 認識対象には,古文書翻刻支援システム開発 (HCR) プ 数)次元の空間に特徴ベクトルを写像することができる. ロジェクト [7][8] が公開している古文書文字データベー いま,クラスを表す記号を Ci ,クラス i の平均ベクト ス HCD1 および HCD1a∼1e に収録された文字セットを ルを mi ,全クラスの平均ベクトルを m とすると,クラ 使用した.これらのデータベースは,古文書の一種であ ス内共分散行列 ΣW およびクラス間共分散行列 ΣB は, る「宗門改帳(しゅうもんあらためちょう)」から,年 それぞれ以下のように定義される. 齢を表す 16 字種(HCD1)や,単位,親族関係などを表 Nc 1 ΣW = (x − mi )(x − mi )T n i=1 x∈Ci ΣB = 1 n Nc ni (mi − m)(mi − m)T す 48 字種(HCD1a∼1e)の文字を採字し,2 値画像化 したものである.今回の実験では,合計 64 字種のうち, (2) 一定数の文字サンプルが確保されていることなどを条件 に,(a)HCD1 から 15 字種,(b)HCD1a∼1e から 46 字 (3) 種を選別し,(a) と (b) を合わせた 61 字種の文字データ i=1 セットを構成した.各字種のサンプル画像を図 3 に示す. 正準判別分析では,クラス内分散とクラス間分散の比 認識対象の文字画像に対して,前処理として文字のセ が最大,すなわち個々のクラスの分離度がより大きくな ンタリング,平均化フィルタによるノイズ除去,および るような Nc − 1 次元の部分空間を求めることが行われ 線形な拡大・縮小による文字サイズの正規化を施した. る.ここで,d 次元の特徴空間から Nc − 1 次元の部分 空間への変換行列を A とすれば,A は ΣW と ΣB に関 する一般化固有値問題 ΣB A = ΣW AΛ (4) を解くことによって,固有ベクトルの形で得られること が知られている [4].分散の最大化という観点から見れ ば,KL 展開や主成分分析によって求められた部分空間 も同様の性質を持っているといえるが,正準判別分析で は,クラス情報を積極的に利用することで,より識別に 適した部分空間を得ることができる. 4. 大分類部の性能評価実験 4.1 概要 今回の実験では,次元削減を行った場合と行わなかっ た場合とで,テンプレート数の増減に対する大分類部の 認識精度の変化を比較することが目的である.認識問題 としては,61 字種の古文書文字(次節参照)の認識を採 図 3: 認識対象の文字サンプル り上げた.文字画像の特徴量には方向線素特徴量 [6] を 用い,個々の文字画像を 196 次元の特徴ベクトルで表す 4.3 ようにした. 実験方法 4.2 節で述べた古文書文字データは,1 字種あたり 200 個の文字サンプルが含まれている.これらを,認識 以上をふまえて,SOM を用いてマルチテンプレート 化した最近傍識別法を,以下の 3 つの場合に対して適用 3 辞書用とテスト用にランダムに 100 個ずつ振り分け,辞 書用のサンプル群を,各クラスごとに個別の SOM に学 94 習させて,クラスごとのテンプレートを得た.このとき, SOM の競合層におけるセル数が,すなわちテンプレート 数となる.SOM の学習パラメータとしては,αini = 0.3, Principal Component Analysis Canonical Discriminant Analysis Non-Reduction Accuracy (%) 92 90 σini = 1.0, Tmax = 20, 000 とした. 88 特徴空間の次元削減については,辞書用のサンプル群 に対して正準判別分析あるいは主成分分析をそれぞれ適 86 用し,最大値から (Nc − 1) 個の固有値に対応する固有 84 ベクトルを,特徴空間に対する部分空間の基底とした. 82 テスト文字の認識精度の算出に関しては,2 交差検証 法による最近傍識別法の適用を 10 回繰り返して,認識 80 率の平均値を求めることとした. 4.4 1 mean vector 5 10 15 20 Number of Templates 25 Full (100) 実験結果および考察 図 4: 大分類部における特徴空間の次元削減と認識精度 図 4 は,61 字種の文字データセットに対する認識実 験の結果を示している.図の横軸はクラスごとのテンプ 大分類部の後段に位置する NN モジュールの学習時間削 レート数である.テンプレート数 1 は各クラスの平均ベ 減に寄与するものと考えている.今後は,NN モジュー クトルをテンプレートとした場合であり,Full はクラス ルも含めたモジュール型 NN 全体を対象として,特徴空 ごとに 100 個の辞書サンプルすべてをテンプレートとし 間の次元削減が NN モジュールの学習時間削減にどの程 た場合である. 度寄与するか,また,モジュール型 NN の認識精度に与 正準判別分析と主成分分析それぞれによる,次元削減 える影響などについて引き続き調査する予定である. と認識精度の関係を比較すると,辞書サンプルすべてを テンプレートとする場合を除いて,正準判別分析による 文 献 場合の方が高い認識精度を示していることが確認できる. これは,主成分分析によって得られた部分空間が,クラ [1] 和泉勇治, 加藤寧, 根元義章, 山田奨治, 柴山守, 川口洋: 「ニューラルネットワークを用いた古文書個別文字認識に 関する一検討」, 情報処理学会研究報告(人文科学とコ ンピュータ), Vol.45, pp.9–15, (2000) スの識別を考慮していないためであると考えられる. また,次元削減を行わない場合と,正準判別分析によ る次元削減を行った場合とを比較すると,テンプレート [2] Kazuki Saruta, Nei Kato, Masato Abe and Yoshiaki Nemoto: “High Accuracy Recognition of ETL9B Using Exclusive Learning Neural Network-II (ELNET-II)” , IEICE Trans. Inf. & Syst., Vol.E79-D, No.5, pp.516– 522, (1996) 数の増加に伴って,認識精度の優劣が逆転していること が分かる.正準判別分析によって得られた部分空間は,ク ラスの識別を考慮したものではあるが,次元削減によっ て特徴ベクトルが持つ情報量は低下する.そのため,テ [3] 加藤聡, 堀内匡, 伊藤良生: 「自己組織化マップによる マルチテンプレート学習を用いたモジュール型ニューラ ルネットワークに関する検討」, 平成 19 年 電気学会 電 子・情報・システム部門大会講演論文集, pp.1199–1203, (2007) ンプレート数の増加によって識別境界を詳細化した際に, 主に境界面付近において,次元削減を行わない場合と比 較して誤識別が増加してしまうものと考えられる. 5. [4] 石井健一郎, 上田修功, 前田英作, 村瀬洋, わかりやすいパ ターン認識. オーム社. 1998. まとめ,および今後の予定 [5] T. Kohonen: “Self-Organizing Maps”, Springer-Verlag Verlin Heidelverg, (1995) 本稿では,自己組織化マップ (SOM) を用いてマルチ [6] 孫 寧, 安倍正人, 根元義章: 「改良型方向線素特徴量お よび部分空間法を用いた高精度な手書き文字認識システ ム」, 電子情報通信学会論文誌, Vol.J78-D-II, No.6, pp.922–930, (1995) テンプレート化したモジュール型ニューラルネットワー クの大分類部に対して,特徴空間の次元削減を施して, 次元削減が大分類部の認識精度に与える影響を調査した. [7] 古 文 書 翻 刻 支 援 シ ス テ ム 開 発 プ ロ ジェク ト: http://www.nichibun.ac.jp/ shoji/hcr/ 古文書文字を対象とした認識実験から,正準判別分析を 用いて,認識精度を大きく低下させることなく,特徴空 [8] 山田奨治,柴山守: 「古文書を対象にした文字認識の研 究」, 情報処理, 43 巻, 9 号, pp.950–955, (2002) 間の次元数削減が可能であることを確認した. 特徴空間の次元削減は,モジュール型 NN において, 4
© Copyright 2024 Paperzz