文字・文書の認識・理解に関するグランドチャレンジ私案

社団法人
電子情報通信学会
信学技報
文字・文書の認識・理解に関するグランドチャレンジ私案
内田
誠一Ý
Ý 九州大学 システム情報科学研究院
〒 福岡市西区元岡 Ý
あらまし
文字・文書の認識・理解問題は既にほとんど解決済のように思われるかも知れない.確かに,先人の多大
なる努力により,実用化されて身近な技術となっている部分も多い.しかし実際には,現状の技術で扱える範囲にお
いてのみ実用化されているというべきであり,工学的にもサイエンス的にも数多くの課題が残されている.本報告は,
「グランドチャレンジ 」企画の一つの支流として,文字認識研究の未解決問題を概観した上で,そこで今
後取り組むべきと思われる幾つかの課題について私案を述べたい.良きにつけ悪しきにつけ,当該分野の研究者によ
る議論の端緒となり,また新規参入の契機を産むことを祈っている.
キーワード 文字認識,グランドチャレンジ
Ý
Ý !" " "# $ ""# $,% & '"#
( ,),, *+,+)
Ý
!
" # $
% %
ア処理,その他関連分野の研究者による議論の端緒となること
まえがき
文献
を願っている.
の発刊からおよそ 年経った今,電子情報通信学会
「グランド
パターン認識・メディア理解研究会 では,
文字認識とグランドチャレンジ
チャレンジ 」と題して,今後 年間に当該分野で挑戦す
各論に入る前に,文字認識それ自体が,これまでも,そして
.著者はそのメンバーの一人として
これからも大きなグランドチャレンジと呼ぶに相応しいことを
べき課題を検討している
参加し,議論を重ねていくうちに,文字・文書の認識・理解 以
下,単に文字認識と呼ぶ
にも多くの未解決問題があることを
強調しておきたい.その根拠は以下の通りである.
¯
大規模な技術流を生んできた.すなわち, 特
再認識した.またそれらを再検討することが文字認識研究のみ
許以来 年間,そこで産まれた様々な技術は他分野に転用さ
ならず がカバーする研究分野全体にも有益であるとの
れ,逆に他分野で開発された技術が文字認識に積極的に導入さ
思いを強くした.
れてきた.顔認識や人物認識のために,文字認識用に開発され
本報告では,文字認識研究の昨今の動向および未解決問題を
た特徴が有効であることが昨今注目されている.また音声認識
概観した上で,今後取り組むべきと思われる幾つかの課題につ
で開発されたマッチングやセグメンテーション技術が,文字認
いて,私案を述べたい.経験・能力・知識不足から,この私案に
識向けに転用されている.
は問題も多々あると思われる.それでも,良きにつけ悪しきに
つけ本報告が,パターン認識,コンピュータビジョン,メディ
¯
多様な技術を必要とする.すなわち,セグメンテーショ
ン,前処理,特徴抽出,識別,文法制御,などのすべての要素
が成熟して初めて達成可能なチャレンジである.すべての要素
にはパターン認識の本質的で困難な問題が含まれている.前処
理の一部である傾き 補正ですら,これまで何百という
論文が発表されながら,未解決であることはその証左であろう.
¯
図
最も単純な形式を持ったパターンを対象としている.す
なわち文字は, 値,平面的,線分構成,サイズ小,アルファ
ベットは有限離散,そして人工パターンである.加えて,セマ
ンティックギャップが最も小さいパターンの一つである.これら
はいずれも機械認識に適した性質である.文字認識に残された
課題を鑑みることは,一般物体認識などのより困難で自由度の
高い課題を今後検討していくためにも有意義であると思われる.
¯
誰にも理解し易く,ゴールも比較的明確である.文字認
識は人間の日常行為であり,従ってその問題の意味は小学生で
も理解できる.また,正解が一意不変であり,達成度の定量的
評価も容易である.実際これまでいくつものコンテストが開か
カメラの安価化,高解像度化があり,そしてユビキタス情報化
が後押しした形であろうか.ケータイには,すでに名刺 ソフトウエアが付属している.海外旅行者や語学学習者のため
に,ケータイのカメラを介したシーン中の文字認識・翻訳サー
ビスも実現された.まさにカメラは空間スキャナである.デ
ジカメ写真中のテキスト領域をマウスで指定すればその領域
だけを
-60
一手法を特許出願し,それから
が文字認識 の
年が経った.数多くの先駆
極めて低価格なソフトウエアとして既に広く民間に提供される
に至った.携帯電話には名刺リーダーが搭載されているものも
多い.また,文字認識を行うゲームソフトが販売されて好評を
本節では,こうした文字認識研究の歴史のうち,主に文献
タル保護の機運もあって,国内外に数多くのプロジェクトがあ
る.紙の劣化や裏写り,インクのにじみなど,相当に難しい問
題が山積している.最近では
も登場した.
090
090
とは,図
のように,人間には読めるが機械に
は読めない文字である.インターネット上の各種サービスを受
んでタイプ入力することで,サービスが開始される.機械には
ポジティブな変化
認識精度の向上
090
文字認識率は継続的に向上しているように見える.電総研
を超えて久しいが,その後も新しく難
#
しい すなわち乱雑に書かれた文字の
データベースに対する
チャレンジが進んでいる.例えば,東京農工大中川研によるオ
ンライン文字データベース $%&
の認識率も向上著しい.海外では
-.
-
を読まされる機会が多い.闇雲に読みにくくすれば人間にも読
めなくなるため,文字の本質を突き詰める研究の一種と言える.
多言語化の波
の対象となる言語が多様化している.国際会議におい
ては,東南・南・西アジア,アフリカ言語向けの 開発に
関する発表がしばしば見られる.特に昨今ではアラビア文字は
多い.: 年,米国政府のサポートの下,アラビア文字と漢字
入力も,実際に使うとかなり高い認識率である.
データエントリーサービス企業 例えばオーリッド株式会社
では, の結果を海外の大量のオ
ペレータにチェックさせることで,企業の帳票等の電子化を請
け負っている.未だ何重にも人的チェックを行わなくてはなら
ない状況は少々寂しいが, にある程度以上の精度が約束
されているからこそ,こうしたエントリサービスがビジネスと
中国の文字
に特化したワークショップ 809;: が開催され,
文字認識分野にも軍需があるのかと噂になった.
/60,
8%4
の
0.&%
'3.%%7
+
で優勝した
の関係者に聞いたところによると,彼らが使った エンジンは,筆記方向にあわせて 8%'%7
3%'+3
の方向を右
から左にしただけで,他はそのまま英文字用 だったそう
である.やはり文字には言語とは無関係に共通した何かがある
して成立していると思われる.
のかも知れない.
情景内文字認識
でも既に課題として挙げられている情景内文字認識
は,この 年で非常に活性化した分野の一つである
らによる
データベース ∼
のような,相当自由に書かれた文
12((333+".%'+4(
驚くほど急速に浸透し,最近では,苦労しながら 090
,,∼
大の
が読めないために,不正侵入ができない.これが
読めれば人間と認める.言わば逆チューリングテストである.
'()*+% 字列も対象とされている.また,電子辞書などに付属の手書き
++7 -++ 8.
対象が枯渇すると終わりのように思えるが,どのプロジェクト
ける際,システム側が 090 を提示し,人間がそれを読
飽和していない.
文献
必要があり,ここに の出番がある.文化財一般のディジ
と,検討内容の多様化が目立つ.このように,文字認識はまだ
/0
デジタルアーカイブ化
まっている.検索のためにはテキスト情報が電子化されている
以降の動向変化について概観する.改めてまとめてみる
の認識率が
なる情景内文字認識に特化した国際ワークショップも
の話を聞いても,想像以上に埋蔵されている古文書類は多い.
得たのは記憶に新しい.
!"
ソフトも市販されて久しい.
版される中,歴史的文書のデジタルアーカイブ化の機運も高
者の尽力により郵便区分機・帳票認識が実用化され,さらには
インタネット検索が一般化し,様々な雑誌・書籍類が電子出
最近 年間における文字認識研究の動向
年,オーストリアの 処理する民生
今年で第 5 回目を迎える.
れ,分野の技術向上に貢献している.
5
.まず
計算能力の向上
黎明期の 研究は計算量制約との戦いであり,その中で
11"+
特徴,ゾンデ法,ペリフェラル特徴など,いわばコン
パクトな特徴が見出されてきた.現在でも計算量の少なさは依
然重要であるが,数年前の大型計算機が携帯電話サイズとなっ
た昨今,制約としては相当に緩和されている.摂動法すなわち
文字を様々に変形させてその都度整合を図る方法は,非常に計
算量を要する手法とされていたが,もはや十分に実行可能であ
図
ドットノイズは文字を隠さないが,線状のノイズは文字を隠す る.ストレージも余裕の状況である.ありとあらゆる環境中の
文字をデータベース化しておき,それらを情景内文字認識に使
うという,言わば力業的な方法も出始めている
.
一般的な画像認識の分野でも,同じく計算能力の向上を受け
て,事例・コーパスベースの隆盛が見られる.文字認識は元々
事例ベースで育ってきたが,その対象が拡大しつつある現在,
画像認識の様々な技術を参考にし,文字・文書用に特化するこ
とも重要である.もちろん逆に文字認識で培われた様々な技術
図
飾り文字の例
を,画像認識分野に紹介する努力も忘れてはならない.
手書きインタフェースの民生化
手書き文字入力インタフェースは,60 と &
ネガティブな変化
によ
は既に無料もしくは千円"2千円で買えるソフトとして
り民生化が始まり,)%'+"68 に至って 広い意味では <%%
市場に流布されており,その結果,文字文書認識は既に完成し
も含めて
完全に一般的なものとなった感がある.エンタテイ
た技術と捉えられてしまう.後述のように未解決問題が放置さ
メントの分野で手書きが花開くとはどれぐらいの人が予想して
れている状況を見ると,研究開発者にも「できるところまで
いただろう.完全なペーパレス化があり得ないのと同様,書く
やった」
「やりつくした」といった印象もあるのではないか.
行為自体も無くならないのであろう.
年前に既にこれと似たことが言われており
,現在ではなおさ
実に様々なインタフェースが開発されている中で,最も興味
ら停滞感が強くなっている可能性もある.こうした印象が文字
である.これは,細かいドット
認識への公的・私的資金投入を難しくしているならば,それは
深いものの一つが
0++ が印刷された用紙に,カメラつきペンで筆記するシステムであ
る.ドットの動きによりペンの動き情報が得られるだけでなく,
大きな問題である.
=/6
,> コードなど,#に極めて近い精度で機械可読
ドットのパターンそのものでどの紙面のどの位置を見ているか
なメディアも台頭してきた.これらは文字と同様,非接触で情
が同定できる.コミ 株式会社フェロー(ブラザー印刷
も
報伝達が可能である.> コードに対する違和感も薄らいでき
専用紙を使って紙上のペン先位置同定ができる意味では,類似
た.実際,携帯電話によっては,名刺 は付いていなくて
した目的を持つ.
国際会議の隆盛
文字認識関連の国際会議は以前にも増して盛況である.当該
分野最大の国際会議 /60 では,, 年に過去最高の投稿
数 5, 件をマークした./60 ではさらに増えて,,
も,> コードリーダは付いている.文字には人間可読性と手
書き生成可能性という強力な武器があるものの,そのテリト
リーは常に新しいメディアに侵されつつもあると言える.
未解決問題
件との噂である. 年文書画像解析理システムに関する国
応用面では様々な進捗が見られる一方で,サイエンス的にも
際ワークショップ 608 が奈良で開催されたが,こちらも前回
工学的にも数多くの課題が残っていると言ってよい状況である.
の 倍の投稿があり,関係者を驚かせた.手書き認識に関す
文献
る国際ワークショップ /<=9 も 年開催から国際会議に
未解決のままである (注 ½).手付かずの感すらある. 年 月
格上げして /=9 となった.
の 文字テーマ
では文献
こうした国際会議の隆盛には,基礎研究よりも応用研究の多
様化が寄与しているように見える.例えば,多言語 の開
発,情景内文字・文書認識理解 ビデオを含む
,=+.% 応用,
<&
文書処理,古文書解析などは昨今活発化しているトピック
に列挙された文字認識関連の課題を見直すと,多くは
の執筆者の方々 名にご講
演頂いたが,同文献に挙げた課題が未解決である旨のご指摘が
散見された.
「文字はどのような雑音や変形に強いのか」図
,
「?0@ の
様々な飾り文字を ?0@ と認識するメカニズムは何か」図
5
と
であるが,いずれも応用研究の色が強い.文字認識そのものが
いった,サイエンス的な課題に関する取り組みが少ないように
最初から応用指向研究であるから当然と言えば当然であるが,
思える.認識とペアで語るべき文字生成 特に活字の生成
に関
その黎明期において識別理論や特徴抽出理論など基礎的技術を
産む分野であった事実を思うと,多少寂しい感もある.その一
方で,情景内文字認識や紙面形状の変形補正など,コンピュー
タビジョンへの接近も見られる.
(注 )
:屁理屈を承知で言えば,文字認識は永遠に解けない問題である.ある筆
者が 7 と書いて「これは
である」と主張した場合,正解は一体何であろ
うか.このような例外は幾らでも考え付くので,従って文字認識は完全には解け
ない.しかしもちろん文字認識研究は無意味ではない.他の工学的問題と同様,
例外の影響を極力抑えながら平均的性能を最大化する努力が重要となる.
5 する検討の少なさも目立つ.もちろん全く無いわけではない.
文字の可読性を保ったまま変形を最大化する試み 090
や,飾り文字をある程度認識できる技術は開発されつつあり,
今後の発展が期待される.人間の視覚における選択的注意のモ
デル化
も正攻法として重要であろう.それでも,絶対数と
しては少ないように思える.
工学的な課題についても,未解決課題は多い.手書き文字に
対する認識率も改善の余地は多い.例えば手書きノートの内容
を正確に認識するのはまだこれからの課題である.認識の方法
論についても,音声認識における 9 のような定番と呼べる
手法の発見には至っていない.8A や -++%7 などの機械学
習法が利用されているが,これらは文字独特の性質を反映した
図
環境画像.そのエッジ部には, など
様々な文字形状を見ることできる.
認識技術ではない.文字の性質を反映させやすい構造解析的な
手法の開発もさほど活発ではない.
文字認識の課題案
以上の議論を踏まえ,今後の文字認識研究において考えうる
課題を幾つか示す.いずれの課題も文字認識だけでなく,一般
的なパターン認識問題にも関連しうるものと考えている.文
献
input image
中の未解決課題とのオーバーラップも多少ある一方で,新
図
detection result
文字形状による検出しやすさの違い たに案出した課題もある.アカデミック指向や一部のトピック
1st eigen-vec
への偏りについては,筆者の経験不足に因るものでご容赦いた
だきたい.
文献
視覚心理
で挙げられている課題,例えば文字変形モデル
,
,人工文字認識
,確実な棄却
:
,
については,重
要かつ未解決ながら以下では触れていない.これらについては,
文献
およびその追補版とも言える 年 月の に
おける講演論文
∼
:
を参考にされたい.
情景内文字認識
文 字 検 出
20th eigen-vec
図
情景内の文字を認識する前には,情景内のどこに文字がある
非文字画像集合の主成分
かを検出し,それを切り出す必要がある.映像中の物体検出と
同様,これは非常に困難な問題の一つである.図
情景内には物体のエッジが織り成す無数の ?/@B
?!@
のように,
のような線
通常の文書画像の場合,切り出しの問題は文字認識と同時に
解かれることが多い.すなわち文字列に対する
874%+"
パターンが存在する.我々がそれらと文字パターンとを瞬時に
&*".+7%%+ .+7%%+"&' 74%+
峻別している原理は何であろうか.
原理を情景画像に拡張したアルゴリズムはできないだろうか.
である.この
膨大な蓄積のある「認識のための特徴抽出」に比べ,
「検出
すなわち,文字列の場合は 次元的で済んだ切り出しを, 次
のための特徴抽出」はまだ検討の余地が多いと思われる.従来
元的に拡張することはできないだろうか.単純拡張では,計算
法では,エッジの複雑さ,周囲とのコントラストなどを手がか
量爆発の問題が発生するが,情景画像にあっても文字列自体は
で用いられる局所コー
本質的に 次元であることを活かせないであろうか.例えば傾
りにしたものが多かった.$!
..
ナー点検出や 8/= の際の特徴点検出はどの程度役に立つだろ
きを許した
うか.顔検出における 9."% 特徴のような切り札的なもの
うか.
C"D 法のようなアプローチはありえないだろ
文字と非文字
は無いのだろうか.
文字デザインは,検出の困難性に影響するように思える.色調
何らかの学習に基づいて文字検出を行う場合,負例すなわち
のコントラストだけでなく,字形も影響すると予想される.図
非文字をどのように定義するのかが問題になる.単に自然画像
は検出精度の文字フォント依存性を示す実験結果例である
.
を沢山集めてくればよいように思われるが,自然画像の集合,
文字が日常的にカメラに晒されるユビキタス時代
B のた
めに,検出容易な文字をデザインすることはできないだろうか.
山本
は文字を脳に淘汰されたパターンと呼んでいる.数多
すなわち近傍で相関の高いマルコフ的な画像の集合は,離散コ
サイン変換の上位基底で張られる部分空間 6 低周波成分
に偏って存在するため,実情に即しているとは言いづらい.図 :
くのフォントから検出容易なものに淘汰できないだろうか.
をシステマティックに合成する方法は無いだろうか.
合成の際には,人間可読性を保つことを忘れてはならない.
単に機械可読性が高いだけであれば,バーコードのような人
間にとっては無意味なパターンが合成されるだろう.こうした
状況を避け,人間可読性を維持するためには,例えば心理的距
離
図
フォントと フォント
のような許容範囲を規定する道具が必要であろう.また
必要に応じてフォント専門家の意見も乞うべきと思われる.
さらに,合成の際には,情景内文字・文書に起こる様々な変
range of
deformation
pattern reformation
while keeping
human readability
動も考慮すべきである.以上をまとめると,図
のように,与
えられた識別器と変動モデルの下で,確実に認識されるフォン
トを合成する問題に帰着する.この場合も,
「文字は脳に淘汰さ
れたパターンである」という仮説
character
pattern
space
は,様々な示唆を与える.
従来も文字合成に関する検討は多数行われており,それらは
主に手書き風フォント生成や学習パターン合成を目的していた.
上述の機械可読フォントに加え,他に「機能性フォント」を考
えることはできないだろうか.トナー量の使用が少なくて済む
図
エコフォント 株式会社ニィス
や
6*1C.+E
なども
discrimination
boundary (fix)
ある.文字およびその配列の美しさが読後の作業効率に影響を
機械可読な文字合成
及ぼすという報告
も機能性フォントの参考になる.
特徴抽出
から得た非文字画像集合の上
認識のための特徴抽出について膨大な検討が為されてきた
位基底 主成分
であり,6 低周波成分に類したものとなっ
ことは周知の通りである.輝度特徴,ぼけ特徴,背景特徴,位
ている.この非文字部分空間の単純な補空間を文字空間として
相特徴,方向特徴,射影特徴,ペリフェラル特徴 交差特徴
,
は -7.+' '
,合理的
フーリエ記述子,モーメント特徴など,枚挙に暇が無い.この
な非文字の定義は相当に難しいと思われる.むしろ経験主義的
ためか最近では,新しい特徴についてあまり提案されていない
に,適当な画像データベースを非文字集合として定義をしたほ
ように思われる.
「特徴抽出に王道なし」とは広く知られた言葉
も限界があろう.文字の定義が困難であるのと同様
うが,
!"6-
の貢献のように道を近くする可能性がある.
て再考すべき時が来ているのではないだろうか.
コンテキスト
切り出しにおいてコンテキストの積極的な利用が考えられる.
++-++ 5
である.最近のパターン認識の道具を使って,特徴抽出につい
のように,情景画像を森(空(建物などに領域分
文字認識で広く用いられている局所方向ヒストグラム特徴
は,ある範囲の複数の特徴を集積するという点において,一般
と関連してい
割する技術が多く検討されている.その分割結果を用いて,文
物体認識において有効とされる
字領域の存在しない森や空を無視して,建物付近を集中的に探
る.また同じく有効とされる 9 特徴は,局所方向ヒストグ
索すればよい.
ラム特徴とほぼ同じものである.ならば,一般物体認識と文字
その逆も考えられる.すなわち,環境中の文字を認識できれ
ば,その環境に関する情報がある程度得られる.これは正に
-7"+F"F.
認識は全く同じ手法で解決できるのであろうか.できる/でき
ないとすればその理由は何であろうか.
我々人間が日々やっていることであるが,例えば ?お会計@ と
特徴の使用法についても,まだ再考の余地があるように思わ
書いてあれば,そこが何かの店であり,レジが近くにあること
れる.一般には1文字全体を同じ特徴で均質に表現することが
が理解できよう.さらには,文字の大きさによる距離感,文字
多い.これに対し,物理的意味の異なる様々な特徴を,文字の
列配置による被印字物体の形状や姿勢推定,重力方向なども推
部分毎もしくはカテゴリ毎に選択的に使うことも考えられる.
定できよう.例えば,?田@ の字の各ストロークが直線的に写っ
データ構造
ていれば,印字面は曲面ではなく,またストロークの平行関係
今後は,情景内文字や手書き文字を膨大なコーパスとして蓄
を利用すれば,印字面の射影変換推定が可能である.こうした
積して利用することが考えられる.この場合,高速な最近傍探
環境と文字の協調認識は今後の重要な課題となると思われる.
索が必要となる.すなわち,画像レベル,単文字レベル,単語
文 字 合 成
レベルそれぞれで,高速な絞込みが可能なデータ構造 辞書構
文字はそもそも人工的なパターンであるから,従って機械認
造
の実現が期待される.
識に適したデザインを施すことも可能である.: 年代に開
高速探索を可能とするデータ構造は映像処理や物体認識の分
がその例である.機械
野で近年多数提案されており,それらに文字独特の性質を組み
可読性の高い文字フォントはユビキタス時代において人間と機
込むことは一考の余地がある.例えば,文字の部首構造を活か
発された ・/ フォント 図
,
械を結びつける重要なメディアとなりうる.こうしたフォント
した構造化字体表現
:
に基づく高速最近傍探索や,文字を対
象とた主成分木・!89 の構築などはすぐに思いつく.混合類似
まだ文字認識は終わってない(注 ¾).文献
度をデータ工学的視点から吟味するというのも面白いかも知れ
ない.
の「それでは,文
書・文字の認識や理解に関する問題は解決済みなのであろう
'".
のような階層型探索において,階層の深さと認識し
やすさ 読みやすさ
に相関があるようなデータ構造をシステ
マティックに準備できないだろうか? 文献
で指摘されてい
るように,よく見るフォント %G.:,
の ?0@ は一瞬のうち
に認識できるのに対し,派手な花文字フォント
か? いや,決してそうではない」から 年弱が経った現在も,
残念ながら
全く同じ状況である.拙稿が文字認識研究者によ
る議論の端緒となり,また新規参入の契機を産むことを祈って
いる.
H.'
の ?0@ では「これは ?0@ か?」という思考を要する.このよ
謝辞2 本稿は,様々な方々との議論が基となっている.過去に
文字テーマで特別講演下さった方々, グランド
うな応答時間の差異を,ある特徴空間上での '". における
探索時間の差異 すなわち階層の差異
として表現できれば,そ
チャレンジのメンバ,ユニバーサルパターンプロジェクトのメ
の時の木構造と特徴空間はある意味で人間の脳内辞書を模して
ンバ,坂野鋭博士 )
には特に感謝申し上げたい.本稿に
いると言える.
は多々不備あると思われるが,それは偏に著者の理解不足,不
他のメディアとの共存
=/6
勉強に因るものであることを申し添える.
用が考えられる.すなわち,> コードの機械可読性と文字の
人間可読性を相補的に活かせる応用は無いであろうか? 例え
ば,> コードから得られる少量の情報をパリティのように使っ
て,ページ全体の文字認識誤りを自動訂正する方式が考えられ
る
.また,書籍に貼付された =/6 によりその本のフォン
,
ト情報やレイアウト情報が提供されるとすれば, 処理に
大きく寄与するであろう.これらとは逆に,混在して受信され
た複数の =/6 情報の区別に,=/6 付近に印刷された文字情
報が利用できる場合もあろう.
センサとしての人間の利用
6=$/
の -. ら
は,人間の視線が文書画像中のどこ
に注がれているかを用い,注がれている状況が長いほどそこが
重要な領域であるとして,文書分類器の学習に利用している.
これはある意味,人間を文書画像の特徴抽出器として利用しよ
うという意欲的な試みである.もちろん,人間が手動で領域指
定を行うような試みは以前からもあったと思われるが,この試
みではそれが自動化され,人間がまさにセンサとして利用され
ている点が興味深い.
夢のような話かも知れないが,-.%"+41.
-/
文
や > コードなどの新しいメディアと文字の相補的利
/.F
研究が進み,ノイズの多い脳波の中から文字に反応する
ような信号を見出すことができれば,それを視線検出と組み合
わせることで情景画像中の文字検出を実現できるかもしれない.
さらに,脳波により文字カテゴリまで峻別できるとすれば,各
人が日々読んでいる そして思考している
全てのテキスト情報
を自動的にログ化するという究極の を実現できる.この
場合の人間は,スキャナであり,文字検出・切出しセンサであ
り,文字認識ソフトでもある.
ま と め
パターン認識研究とは無関係な人々に文字認識の話をすると,
文字認識が未解決という事実に驚かれることがある.多くの
人々の中では文字認識は既決問題,もしくは解決されて当たり
献
小川英光編著,パターン認識・理解の新たな展開挑戦すべき
課題,電子情報通信学会, 鷲見和彦 日浦慎作 福井和広 内田誠一 佐藤洋一 佐藤真一
グランドチャレンジ −今後 年間に挑戦すべき
課題を探る− 画像の認識理解シンポジウム 黄瀬浩一,大町真一郎,内田誠一,岩村雅一,ディジタルカ
メラによる文字・文書の認識・理解 信学誌 !" #! $ 草地良規,伊藤直己,鈴木 章,荒川 賢一,画像インデクシン
グを目的としたテキスト領域抽出不要の景観中文字認識, 信
学技報,% 福島邦彦,大串健吾,斎藤秀昭,視聴覚情報処理,森北出版,
若 原 徹 ,「決 定 論 的 文 字 変 形 モ デ ル 」再 考 , 信 学 技 報 ,
%
,
内 藤 誠 一 郎 ,視 覚 情 報 処 理 の 物 理 数 学 , 信 学 技 報 ,
%,
山 田 博 三 ,文 字 を 巡 る アナ ロ グ と デ ジ タ ル , 信 学 技 報 ,
%,
津雲淳,文字認識研究の新たな展開に向けて, 信学技報,
%,
服部亮史,内田誠一,岩村雅一,大町真一郎,黄瀬浩一,検出容
易な文字パターン生成に関する検討, 信学技報,%,
&掲載予定'
山田敬嗣,ユビキタス情報インタフェースのための文字・文書
メディア認識・理解, 信学技報 % 山本和彦,脳に淘汰された文字とパターン認識技術, 信学技
報 % ( )*+,- +#- )#.+ /)0)!# 12314,2 5!, +##!1+%
1)!# 4"1)62-)+ 7801260 !"
% 鶴岡信治,村瀬晶彦,木村文隆,横井茂樹, 三宅康二,人間
の字種識別基準を用いた自由手書き片仮名文字認識, 信学論
!" 9%: #! % ; +,0!# <2 12*<#!"!=8 !5 1231 >>> 72*1,46
!" #! %
耒代誠仁,中川正樹,オンライン手書き日本語文字認識に
おける構造化字体表現に対するプロトタイプ学習, 信学論
!" 9%: #! % 岩村雅一,内田誠一,大町真一郎,黄瀬浩一,付加情報を用
いるパターン認識, 信学論 !" 9%: #! %
2!,= ?40*<2, +#- #-,2+0 :2#=2" 112#1)!#%?+02- :!*%
462#1 "+00)@2, 2+,#)#= <2 >)=<1< #12,#+1)!#+"
(!,.0<! !# :!*462#1 #+"80)0 7801260 $ 前の問題と思われているようである.もしかしたらパターン認
識研究者の中にすら,そのように考える人々がいる可能性もあ
る.それが誤謬であることは,本稿において強調してきたとお
りである.
において,グランドチャレンジテーマに関するアンケート
(注 )
:
を取ったところ,力強く「文字認識は終わっていない!」と書かれたものがあり,
妙に感動した.
: