文字認識

文字認識
パターン認識講義
文字認識とは
1. 光学文字認識
• OCR (optical character recognition) という
• 活字の文書の画像(カメラやスキャナーで読み取る)を
文字コードに変換
2. 手書き文字認識
• Handwriting Recognitionという
A) オフライン手書き文字認識
B) オンライン手書き文字認識
1. 光学文字認識
歴史
• ラテン文字(西洋のアルファベット)易、漢字のOCR難
• 視覚障害者が文字を読むための機械の開発
• [1914] エマニュエル・ゴールドバーグは、文字列を読み取り
電信符号に変換する機械を開発
• データ入力手段としてOCR技術の開発
• 画像を光電管(光の強さを電流に変換するもの)で読み取
り、必要な識別パターンを含むテンプレートと比較すること
でマッチングを見つけるという技法を提案
• 同じころエドマンド・フルニエ・ダルベはオプトフォンという携帯型スキャナ
を開発した。これを印刷物のページ上ですべらせると、文字の形状によっ
て異なる音を発する
• [1949] 米国復員軍人援護局から視覚障害者支援
のためという要請を受け、RCA(アメリカの電気機
器・半導体の会社。現在はテクニカラー社)の技術
者らが初期のコンピュータを使ったOCRを研究
• 活字をコンピュータ内の文字コードに変換
• その文字を読み上げるという部分も(初期の音声合成
の研究)
• コストがかかりすぎることが判明し、研究は挫折
• [1950] AFSA(アメリカ国家安全保障局の前身)の暗号解読者デイヴィッド・H・
シェパードは、ルイス・トーデラと共に局の手続きの自動化の勧告案作成に取
り組んだ。その中には印刷された文書をコンピュータが処理できる形式に変換
する問題も含まれていた
• シェパードはそのようなことをする機械 "Gismo" を試作
• [1953] シェパードは特許(アメリカ合衆国特許第2,663,758号)を取得
• Gismo
•
•
•
•
•
英語のアルファベットのうち23文字を読み取る
モールス符号を理解
楽譜を読みとる
活字のページを読み上げる
タイプされたページを読みとってプリンターで複製する
• シェパードはその後 Intelligent Machines Research Corporation (IMR) を
設立し、世界初のいくつかの商用OCRシステムを出荷
• Gismo も IMR のシステムも単純な文字マッチングではない画像解析をしていて、い
くつかの書体を認識
• Gismo は画像中の文字の位置を正確に合わせる必要があったが、IMRシステムで
はスキャン領域のどこの文字であっても認識できた
• 実用に耐えるものであった
• [1955] リーダーズ・ダイジェスト社に納入され、販売報告書をコンピュータに入
力
• タイプされた報告書→パンチカードに変換→コンピュータに入力。年間1500万から2000万部の
情報
• このシステムは後にスミソニアン博物館に無償で提供され展示
• 2台目のシステムはクレジットカードの文字を読み取る
• 他に、電話会社の請求書読み取り装置やアメリカ空軍のテレタイプ用ページス
キャナーなど
• IBM←シェパードからOCR特許のライセンス
• [1965] リーダーズ・ダイジェストとRCAは、使われて戻ってきた同誌の広告につ
いているクーポンのシリアル番号を読み取るOCR装置を共同で開発
•
•
•
•
シリアル番号はRCAのプリンターでOCR-Aフォントで印字された
読み取り装置は RCA 301 というコンピュータに直接接続された
この技術はTWAで航空チケットの読み取りにも使われる
読み取り装置は毎分1,500枚の文書を処理
• [1965] アメリカ合衆国郵便公社も発明家ジェイコブ・レインボーの開発した技術
を元にしてOCRマシン
• [1965] イギリスの郵便局
• [1971] カナダの郵便局
• OCRは受取人の名前と住所を読み取ってソート
• 郵便番号に基づいたバーコードを封筒に印刷
• 手紙はバーコードにしたがって細かくソート
• バーコードが宛名とかぶる可能性があるため、バーコードは紫外線ライトで見える特殊なオレン
ジ色のインクを使用
• [1968] 日本で郵便番号が導入され、手書きの数
字である郵便番号をOCRシステムで読み取って
ソート
• [1998] 郵便番号の7桁化がなされてからはOCRで
読み取った際にバーコード(ただしこちらは可視光
では無色なインクを使用)を印刷
視覚障害者にとっての重要性
• [1971] カーツワイルはあらゆる書体を読み取れるOCRの開発を行う
Kurzweil Computer Products, Inc. を創業
• カーツワイルは、音声合成技術と組合わせればこの技術が視覚障害
者にとって最も役立つと考えた。鍵となる技術はCCDイメージスキャナ
と音声合成である。
• [1976.1.13] 製品の完成披露が行われた
• [1978] カーツワイルはOCRソフトウェアの販売を開始。最初の顧客は
ニュースなどの文書をデータベースに入力するのに使った
• [1980] カーツワイルは会社をゼロックスに売却。後にゼロックスはその
部門を Scansoft としてスピンオフさせ、Scansoft はニュアンスコミュニ
ケーションズと合併した。
OCR技術の状況
• 情報科学研究所 (ISRI) は印刷文書の認識技術育成
• ラテン文字の 活字文書の識字率は100%ではなく、間違いの許されな
い状況では人間が結果を確認する必要
• 19世紀および20世紀初頭の新聞を使った研究によると、単純に文字単
位で認識する市販のOCRソフトウェアの識字率は71%から 98%
• 手書き文字、特に筆記体の手書き文字認識や文字数の多い言語の文
字認識ではまだ研究の余地がある。
• 文字認識の精度はいくつかの測定法で表され、実際に使用した測定
法によって精度は大きく左右。
• 文脈や辞書を使わずに純粋に文字単位で認識する場合、識字率が99%であっても、
単語ベースの誤り率は5%となるかもしれない。
• 楽譜を読み取る技術・ソフト
• 有料、無料いろいろあり
OCRのソフトウェア
• 有償のソフトが多い
• 活字は完璧.手書き文字はかなりあやしい.
•例
•
•
•
•
メディアドライブ e.Typist(実演)
Adobe Acrobat Pro
パナソニック 読取革命
(スマホ用) CamScanner
類似システム
自動車ナンバー自動読取装置(Nシステム)
• Nシステムを通過した車両(2輪を除く)を全て自動
で記録し、警察の手配車両リストと自動的に照合
類似システム
バーコード
• [1949] ドレクセル大学の大学院生であった、バー
ナード・シルバーとノーマン・ジョセフ・ウッドランド
がバーコードを発明
• [1952] 特許を取得。
• [1967] アメリカの食品チェーン店が、レジスターの
行列を解消させる方策として実用化。
• [1973] 1971年にIBMが発表したDelta Distance
Codeをベースに、米国フードチェーン協会などが
統一的なコード表記UPC(Universal Products Code)
を設定
2次元コード
• 数字のみならず文字も。
CAPTCHA
2. 手書き文字認識
手書き文字認識 (1) オフライン認識
• 事前に書かれた文字(紙、写真、タッチパネルなど)を
読み取り,認識⇒文字コードを出力
• OCRとの違い→人により癖があり,バラエティに富む(認
識が難しい)
• 実用例:郵便番号読み取り装置、保険会社など
• 読み取り精度を上げるためには・・・対象領域を限定
• 例
• 郵便番号では、0から9の10個の数字のみ
• 特殊な書式を採用。特定の位置に特定の文字種
• [手順1] 文字抽出
• オフライン文字認識では、スキャン画像から個々
の文字を区切って抽出することが必要に
• この工程の問題が完全に解決されたとは言い難
い
• よくある問題は、2つの文字がくっついて書かれている
ため、1つの文字として抽出される場合である。これが
次の文字認識工程を困難にしている大きな問題
• [手順2] 文字認識
• 抽出後、個々の文字の画像が認識エンジンに入力され、対応する
文字コードが何かを特定する
• 認識技法はいくつか存在
(技法1) ニューラルネットワーク
1. 訓練用イメージ群で学習
2. 訓練済みネットワークを使って文字を認識
• ニューラルネットワークはそれぞれの訓練イ メージを区別する属
性を学んでおり、認識対象のイメージに同様の属性がないか捜す
• ニューラルネットワークはセットアップが簡単だが、認識対象と傾
向の異 なる訓練イメージしか与えられていないと、認識率は低くな
る
• (技法2) 人手による特徴決定と、閾値による判定
• 特徴抽出もニューラルネットワークと似たような方式で機能するが、プログラマが重要と考える
属性を決め、手動でそれらを設定する必要がある。
• ここでいう属性とは次のようなものである。
•
•
•
•
•
•
•
縦横比
上半分のピクセルの比率
右半分のピクセルの比率
一筆で書かれた線分の本数
イメージの中心からの平均距離
Y軸を中心とした対称性
X軸を中心とした対称性
• この技法は認識工程で属性ごとの感度を自由に設定できるという利点
• ニューラルネットワークのような学習機能を持たない(人手による設定)ため、
最初から高い認識率を達成する必要があり、開発には時間がかかる。
手書き文字認識 (2) オンライン認識
• コンピュータへのマウス入力,接続されたタブレッ
ト,タブレットPCなどを用いて手書き文字を認識
• この方式のインタフェースには一般に以下の要素が含まれ
る。
• ユーザーが書き込むのに使うペンまたはスタイラス
• 接触を感知する平面の入力域 出力ディスプレイと統合されている
か、隣接していることがある。(入力装置としての)タブレットまたは
タッチパネル
• ペンまたはスタイラスの動きとその結果として生じている曲線を、
デジタルのテキストに翻訳して解釈するソフトウェアアプリケーショ
ン
ハードウェア
• [1980年代初頭] キーボード入力の代
替として手書き文字認識を採用した
商用製品
• 初期の手書き端末製品:Pencept
Penpadや Inforite のPOS端末
• キーボードとマウスの代替として
PenCept、CICなどから手書き文字認
識システムが発売
• [1989] 最初のタブレット型ポータブル
コンピュータとして、GRiD Systems の
GRiDPadがリリース(MS-DOS上)
• [1990はじめ] NCR, IBM, EO というメーカーが共同
でGO社の PenPoint OS を搭載したタブレットPCをリ
リース→PenPointには手書き文字認識機能やジェ
スチャー機能があり、サードパーティ製ソフトウェア
にもそれらを適用可能
• IBMはThinkPadに独自の手書き文字認識技術を
搭載
• この認識システムは後にマイクロソフトの
Windows for Pen Computing に移植され、IBMでは
OS/2にも移植
• 手書き文字認識に必要な装置はタブレット型コンピュータ → PDAに
• 手書き文字入力を提供した最初のPDAは、アップルコンピュータの
「ニュートン」
• ニュートンOSが実装されたPDA「メッセージパッド」は、効率化された
ユーザインタフェース (UI) の有利さを世間に知らしめた
• ニュートンは商業的に成功せず
• 価格や処理スピードの問題
• ユーザーの書き込みパターンを学習するソフ トウェアの信頼性が低かっ
た
• アップル・ニュートンが生産中止になり、その機能は MAC OS X 10.2 に
移植され、後にInkwell
• palmOne(現 Palm Inc.)は、グラフィティ認識システムに基づくPDAのシ
リーズを開発、販売
• 「グラフィティ」とは、アルファベットと 一対一で対応する一筆書きのパ
ターンの集まりであり、これを採用することにより認識精度は飛躍的に
高まった。
• ユーザーは、アルファベットに似ているが書き 順や形の違う(一致する
ものもある)入力パターンを覚える必要があった
• 一旦覚えてしまえば、高速かつ正確な認識により快適な入力を行うこ
とができた
• アルファベットやアラビア数字、一部の記号以外の文字を入力するに
は、インプットメソッドによる変換作業が必要だった
• シャープは、 アップルコンピュータとの提携により、ニュートンOSを搭載したPDA
のハードウェアを製造
• シャープはニュートンOSの日本語ローカライズを行 い、日本国内で販売するこ
とを検討していたが、ニュートンの商業的失敗が明らかになると、独自路線に
一本化
• 同社が製造、販売していた電子手帳を拡張し、ニュートンのようなペン操作に
よるUIを組み込んだ
• 自社ブランドによるPDA「PI-3000」は、日本国内で同種の商品としては異例の
ヒットを記録した
• 同社はPDAにザウルスの 愛称を冠してシリーズ化し、数度のアーキテクチャ変
更を経て今日まで販売が続けられている
• 手書き文字認識エンジンは年々改良されており、ある程度のくせ字や崩し字で
も精度は低いが認識できる(ただし、書き順を間違うと格段に精度が落ちる場
合がある)。認識に要する時間はやや長く、あまり高速な入力はでき ない。
手書き文字認識
• MyScript Calculator
• 手書きの式を認識して計算
• MyScript Smart Note
• メモを作成、編集、操作
• その他いろいろあります。
文字認識の手法
• 富士通研究所
• http://jp.fujitsu.com/group/labs/techinfo/techguid
e/list/character-recognition.html
• マイクロソフトは、ペン操作を前提としたUIを持つ
OS「Windows Mobile」を開発し、ライセンス販売
• 同OSは、汎用性の高い組み込み向けOSである
Windows CEを ベースに、ペン操作に向いたUIや、
PDAとして利用するのに必要なコンポーネントを組
み合わせたもの
• Windows Mobileを採用したPDAは、Palmから顧客
を奪い一定のシェアを確保したものの、新規需要
の掘り起こしにまでは至っておらず、Symbian OSな
どを採用したスマートフォンに押されている。
• デスクトップOSをベースにした手書き文字認識システムには、Windows
XP Tablet PC Editionがある。
• タブレットPCは、タッチパネルを装備した特殊なノートパソコンで、 スタ
イラスを用いてスクリーン上に文字を手書きで入力できるようになって
いる。OSは手書きされたパターンを認識し、それを通常のテキストに変
換する。
• マイクロソフトのシステムは、ユーザの書き込みパターンを学習せず、
類似した字形を含む内部の認識データベースとのマッチングを行って
いる。
• このシステム は、Windows Mobileの中で使用されている手書き文字
認識システムとは異なる。
• Windows 7 は学習機能のある高度な手書き文字認識システムを持ち、
英語だけでなく、日本語、中国語、韓国語などに対応している。
• [生保・損保業界] タッチパネル搭載、キーボードな
しのハンディPCに、Tablet PC Editionではないデス
クトップ向け汎用OSと、独自の手書き認識エンジン
を組み込んだものが使用される
• また、キオスク(情報)端末として、ペン オペレー
ション可能な小型PCが利用されていることがある
• 利用者の利便性向上の他、キーボード操作を無効にし
てシステムの安全性を確保するという目的も
• 最近では、デジタル要素を仕込んだペンで紙に文字を書い
て、そこからデジタル化されたテキストを得る試みがなされ
ている
• Anotoが開発した技術は比較的知られており、教育市場である程
度成功を収めている。紙に方眼紙になっており、それを小さなカメ
ラで見る方式。
• 手書き文字認識は入力方式として一般化してきたが、デス
クトップコンピュータなどで広範囲に使われるには至らず
• キーボードによる入力の方が速くて信頼性が高いという見方が一
般的
• PDAでは手書き文字認識機能を搭載したものが多く、中に
は筆記体も認識できるものもあるが、認識率の低さが問題
• ソフトウェアキーボードの方が効率的だと感じるユーザーも多い。
ソフトウェア
• 最近の手書き文字認識システムの例
• マイクロソフトのタブレットPC用OS(Windows XP Tablet PC Edition、
Windows Vista、Windows 7)がある
• "Inferno" と呼ばれる遅延時間ニューラルネットワーク (TDNN) 分類器を採
用しており、マイクロソフト自身が開発
• Newton OS 2.0 で使われていた手書き文字認識システムを1999年に
ParaGraph International からマイクロソフトがライセンス供与を受けた
CalliGrapher もTDNNと共に第二の認識エンジンとなっている。
• CalliGrapherの新世代版は 2001年に ParaGraph が買収した PhatWare
Corp から Windows Mobile 版として発売されている
• EverNote Corporation が2000年から2004年に開発した riteScript は第
三世代の手書き文字認識技術
• 同社の ritePen および Evernote ソフトウェアに採用
• ritePen は Windows Vista に元々備わっている手書き文字認識機能と
riteScript を連携させ、認識率を向上させている。
• CellWriterは、Linux向けのオープンソースの手書き文字認識プログラ
ム
• ミネソタ大学の Undergraduate Research Opportunity Programの一環とし
て、Michael Levinらが開発
• CellWriter は書き手の癖を学習する方式であり、使う前に訓練を必要
• 英単語認識エンジンを備えて認識率を強化し、ソフトウェアキーボード機
能やコンテキストメニューで認識ミスを微調整したり訂正したりできる
• 他の認識エンジンとは異なり、ソースコードとアルゴリズムが公開されてお
り、無料でダウンロードできる。
• MyScript Builderは、VisionObjectsがリリースしている手書き文字認識
SDKで、Anoto が開発したデジタルペンを使ったアプリケーションの開発
にもよく利用
研究
• 手書き文字認識は盛んに研究されている分野である。この分野で最大
の国際会議として ICFHR (International Conference on Frontiers in
Handwriting Recognition) が偶数年に開催され、ICDAR (International
Conference on Document Analysis and Recognition) が奇数年に開催さ
れている。どちらもIEEEが精査した論文が発表される。特に研究が活発
な分野は次の通りである。
• オンライン認識
• オフライン認識
• 署名(サイン)の照合
• 郵便物の住所の解釈
• 小切手処理
• [1915] アメリカ合衆国でスタイラスを使った手書き文字認識のユーサインタ
フェースに関する特許が成立
• [1957] Stylatorタブレット: Tom Dimond がコンピュータ入力機器として手書き文
字認識可能な電子式タブレットを公開した
• [1961] RAND Tablet の発明: それ以前のものより比較的有名
• [1962] 筆記体の手書き文字認識
• [1969] GRAILシステム: 電子インクディスプレイとジェスチャー・コマンドを採用し
た手書き文字認識システム
• [1973] Applicon CAD/CAMシステム。手書き文字認識に Ledeen の認識システ
ムを採用
• [1980年代] 一般用手書き文字認識システム: Penceptと CICはどちらも一般PC
市場向けにタブレットを使った手書き文字認識システムを発売した。Cadre
System は Inforite POS端末に手書き文字認識機能を装備した。
• [1989] 携帯型手書き文字認識コンピュータ: GRiDPad from GRiD Systems.
郵便番号自動読み取り
• ゑれきてる(東芝のサイト)
http://elekitel.jp/elekitel/series/2008/04/sr_04_e.h
tm
• 東芝科学館
http://kagakukan.toshiba.co.jp/manabu/history/1g
oki/1967postmatter/index_j.html
郵便区分機の歴史
• [1967] 手書き書体の郵便番号
をOCRにより読み取り、全国集
配局郵便番号別に区分けする
機械作られる(東芝)
• 郵便番号化
• [1968年7月1日] 3桁 (NNN) また
は5桁 (NNN-NN)の郵便番号が導
入
• [1998年2月2日] それまでの郵便
番号の末尾に4桁または2桁を付
け加えた7桁 (NNN-NNNN) の郵
便番号が導入
郵便番号の使われ方
•
•
•
•
郵便番号とあて名住所を同時に読み取り
読み取った住所情報をバーコード化して郵便物に印字する
そのバーコードを読み取る
ダイレクトメールなどに予め印字されているカスタマバーコードを読
み取る
• 郵便物を配達順に並べ替える(道順組立)
http://www3.toshiba.co.jp/power/pic/secret/letter_handling.htm
40,000通/h以上の高い処理量
郵便区分機 動画
http://youtu.be/EUFvnNWjsAw