視覚情報処理の仕組みを利用し、 手書き文字を認識する技術

NEWS RELEASE
2013 年 4 月 12 日
約 3 万文字の多言語の文字認識を可能に
視覚情報処理の仕組みを利用し、
手書き文字を認識する技術を開発
富士フイルムグループの富士ゼロックス株式会社(本社:東京都港区、社長:山本 忠人)
は、脳神経科学の分野で解明が進んでいる視覚情報処理の仕組みをソフトウェア上で
実現した文字認識技術を開発(図 1)いたしました。
富士ゼロックスは、人間の脳内細胞の抑制的なはたらき(注1) に着目し、そのはた
らきとよく一致する新たな構造(注2)をソフトウェアに取り入れることで、手書き文字
も含め、約3万文字(注 3)の多言語の文字認識を実現しました。この構造を取り入れた
技術をソフトウェアとして実用化したのは、世界初です。
本技術は、ソフトウェア上で人間と同じように文字を学習することができます。た
とえば、人間は幼いころから読み方を何度も教わっているうちに、文字を読めるよう
になります。これと同じように、異なる形状の文字をソフトウェアに登録し、学習さ
せることにより、活字も手書き文字も区別なく読めるようになります。また、さまざ
まな国の文字を学習させることで、多言語を認識することも可能になります。
従来の技術(注 4)では、約 3000 文字しか認識できなかったものが、約3万文字を
認識することが可能になり、認識文字数が約 10 倍に向上しています。
認識できる文字数
4
認識できる文字の例
10倍
[万文字]
3
2
1
0
従来技術 本技術
従来技術
本技術
JIS第1水準漢字を認識
多言語3万文字を認識
今後は、本技術を当社のサービスに盛り込み、ビジネスコミュニケーション支援を
さらに加速してまいります。
広報宣伝部
〒107-0052
東京都港区赤坂
広報グループ
9-7-3 東京ミッドタウン
直通
03-6271-5120
FAX
03-6271-5235
FUJIFILM
GROUP
注 1:単独で刺激を呈示しても応答を起こさないが、他の刺激と同時に呈示すると応答に変化を与える方位交差抑制とよばれ
るはたらき
注2:興奮性入力と抑制性入力のペアを基本とした構造
注3:日本語、中国語、ハングル語
注4:JIS 第 1 水準漢字を認識する技術
図 1 人間の視覚情報処理の仕組みを利用した文字認識技術
人間の脳
脳神経科学が解明した
視覚情報処理の仕組み
V1
V2
*
*
=
畳み込み
ソフトウェア
特徴量マップ
切
=
→
特徴量マップ
畳み込み
特徴量マップ
特徴量マップ
文字種判定
文字種判定部
視覚情報処理の仕組みを
ソフトウエアで実現
認識結果
出力
入力
文字画像
畳み込み
演算部
サブサンプ
リング部
畳み込み
演算部
切
サブサンプ
リング部
図の上部では、脳神経科学が解明した人間の脳内の視覚情報処理の仕組みを模式的
に示しています。網膜から入力された視覚情報は、大脳第 1 次視覚野(V1)に伝わ
ります。V1ではさまざまな傾きを持つ線分を抽出します。次に視覚情報は十字、L
字等のような形状を抽出する第 2 次視覚野(V2)で、さらに複雑な形状を認識しま
す。このように人間の脳は階層的な処理を通じて線分などの単純な形状から文字や顔
など複雑な形状を認識していると考えられています。
図の下部では、当社がソフトウェアで実現した、人間の視覚情報処理の仕組みを利
用した文字認識技術の内容を示しています。本技術では、線分や十字等の形状を抽出
する畳み込み演算部と、抽出された特徴を集約するサブサンプリング部が、V1、V2
といった脳の領野に相当します。脳の階層的な処理と同じように、これらの畳み込み
演算部とサブサンプリング部が階層的に接続され、文字の特徴を抽出します。最後の
文字種判定部で文字を判定します。当社では、サブサンプリング部で特徴を集約する
際に、方位交差抑制に相当する処理を行う構造を取り入れることにより、細かな文字
の差異を区別する約3万文字の文字認識を可能としました。
-2-