4 プラットフォームソリューション事業部 要素技術開発部 参事 水谷 博之 < “大量”, “多種類”, “多様化” を克服し, 紙文書のデジタルデータ化を促進する OCR 技術 > 企業活動では, エビデンスとして保管する必要性から 決済書や領収書などの多種多様で膨大な量の紙文書が 蓄積されてきました。 近年の e-文書法(注 1) 施行により文 書の電子的保存が推進され, 保管・ 管理コストの削減が 行われてきました。 更に 2008年度施行予定の日本版 SOX法(注 2) に対応し, これら紙文書のデジタルデータ化 を行って文書検索をしたいというニーズが増えると予想さ れます。 紙文書のデジタルデータ化はコンピュータの端末から手 入力する場合もありますが, 一般的には,OCR(光学式 文字読取装置) を用います。 当社は 40年にわたる OCRシステム開発の経験から, 三つの重要課題を解決 すれば上記ニーズに応えることができると考えます。 1. デジタルデータ化に重要な三つの課題 1967 年に世界初の手書き郵便番号を読み取る郵便区 分機を試作 [1] して以来, 当社は 40 年にわたり基礎研究 から製品化まで一貫して汎用 OCR の自社開発を進め, 金融機関や保険会社, 公共機関など幅広い分野の基幹 業務で活用していただいてきました。 OCR は一般に, 文書画像を取り込むスキャナー部と文字情報のデジタル データ化を行う文字認識部とから構成され, スキャナーで 入力された文書画像を解析し, 文字認識を行い, 紙文 書をデジタルデータに変換します。 近年の e- 文書法施行により, 文書の電子的保存が推 進されており, 多くの企業では保管 ・ 管理コストの削減の ために紙文書を廃棄したいと考えています。 更に 2008 年度施行予定の日本版 SOX 法に対応し, これらのデジ タルデータ化を行って文書検索をしたいというニーズが増 大すると予想されます。 当社では, これらのニーズに応え るための重要課題として,次の三つを考えています(図 1)。 ① 大量 ・ 多種類の帳票の高速読み取りと自動分類 ② 多様化する帳票様式と記入様式への対応 ③ ファイリング容量の削減 などにおいて処理を行う拠点集約型の割合が増え, OCR 一台あたりの取り扱う帳票の量と種類が増大すると予想さ れます。 例えば, 全国の営業所から送られてくる各種申し込み 帳票を一カ所のデータセンターで処理する場合, これら を人手で帳票種別ごとに仕分けするのでは作業が煩雑で ミスも多くなります。 帳票の自動識別機能があれば便利で すし省力化が図れます。 また, 大量の帳票を短時間で 処理するためには, スキャン速度が速いことはもちろんの こと, スキャンエラーも少ない高速スキャナーが必要になり ます。 これらの課題に対しては, 次の技術が重要になり ます。 (1) 高速スキャン技術 高速なスキャンはもちろん, スキャンエラーを検知する ために帳票の二枚送りやサイズチェックができること, ま た, 紙厚が異なる帳票が混在しても正確に搬送ができるメ カトロ技術。 (2) 帳票識別技術 帳票サイズや帳票上のタイトル ・ 閉じ穴 ・ 罫線情報など により, 帳票を自動的に識別する技術。 これができると, 帳票の事前仕分け作業を低減できます。 3. 多様化する帳票様式と記入様式への対応 第二の重要課題は, 様々な帳票様式や記入様式をい かにして読み取るかにあります。 最近では顧客志向の観 点から, 帳票のデザイン性を重視した多色印刷の OCR 帳票が多く使われています。 また, 従来は人間のみが扱っ てきた一般的な帳票を OCR で処理したいというニーズが ・ 多種類の帳票を 自動仕分け ・ 高速かつミスのない 紙送り A 2. 大量 ・ 多種類の帳票の 高速読み取りと自動分類 ・ イメージの高精度読み取り ・ 罫線 , 文字 , 色 , 重なりなどを 正確に解析し認識 CCDセンサ 光源 まず, 第一の重要課題は, 大量 ・ 多種 類の帳票をスキャナーにより高速に取り込 み, 取り込んだ帳票の画像を高精度に自動 分類し,文字情報の読み取りを行うことです。 基幹業務で扱う紙文書の大部分は定型 フォーマットの帳票類です。 また, 最近, 日本では個人情報や機密情報の漏洩 (ろう えい) や紛失に対する危機意識が高まって 10 います。 基幹業務では住所 ・ 氏名などの個人情報をデ ジタルデータ化する場合が多いため, 全国の拠点で分散 して処理をする拠点分散型から, 特定のデータセンター 辞書 B C グ マッチン レンズ 帳票 スキャナー部 あ C B 文字認識部 図 1. 紙帳票類を効率的にデジタルデータ化するための三つの課題 ①大量 ・ 多種類の帳票を高速にスキャンし, 自動分類すること ②多様化する帳票様式と記入様式への対応 ③ファイリング容量の削減 の解決が求められています。 「東芝ソリューション テクニカルニュース」2006年(冬季号) A イメージとして 保存する場合 , 圧縮して保存 増えています。 このため, 一文字ごとの枠がない記入欄 に記載された枠なし手書き文字や, 続け字, 訂正文字の 読み取り要求も高まっています。 当社では, 帳票様式や 記入様式の多様化に対応するためには次のような技術が 必要と考えています。 (1) 一般帳票認識技術 OCR 専用ではない一般の帳票を認識する技術。 帳票 上の罫線, タイトルや項目名の解析も行うことにより, 例 えば生協の注文用紙で代表される OCR 専用帳票以外の 給与支払報告書や診療報酬明細書, 税申告書などの読 み取りができるようになります。 (2) カラー画像処理技術 様々な色が混在した場合でも帳票読み取りを可能にす るための画像処理技術。 (3) ロバスト文字認識技術 ・ 読み取りニーズの高い手書き数字に対して, 当社従 来機 OCR-V1000 シリーズと比べて, 誤読率 1/30 以下, リジェクト率 1/15 以下。 ・ A4 サイズ 300dpi フルカラービットマップ形式の 約 40 ページ /1GB に対して 125 倍の約 5000 ページ /1GB を PDF ファイルとして保存。 また, 帳票識別技術の開発においては, OCR への帳 票レイアウトの登録作業を簡略化し, 帳票の仕分け作業 が一段と効率化できる, 新たな帳票レイアウト解析技術 [3] を開発しました。 更に, 図 2 に示すように, 訂正文字を 自動検知したり, 手書き数字の続け字を認識したりするこ ともできるようになりました。 これらは, 業界トップの技術と 自負しています。 くせ字, 枠からはみ出した文字, 小さな文字, 太字, 続け字などをも正確に読み取る技術。 これにより, よりス ピーディで正確なデータエントリができるようになります。 (4) 訂正文字読み取り技術 訂正線 ( 一重線, 二重線など ) により取り消された文字 を自動検知し, 訂正文字を読み取る技術。 文字認識結果 : 55000 4. ファイリング容量の削減 第三の重要課題は, ファイリング時の容量削減です。 基幹業務では OCR 処理の拠点集約型などに伴い, 大 量の紙文書を取り込み, OCR により解析 ・ 認識した帳票 のデジタルデータや文書画像をファイル保存する場合に は, データストレージの容量の増大が問題になると考えら れます。 また, 一般オフィスにおいても, e- 文書法や日 本版 SOX 法施行に伴って, デジタルコピー機や卓上ス キャナーを用いて文書画像を取り込み, 検索用のキーワー ドを付加してファイリングを行う機会が増えるため, ファイ ルを格納するストレージ容量の大規模化が問題になるはず です。 例えば, A4 サイズの文書を 300dpi フルカラースキャ ンした場合, ビットマップ形式では 1GB あたり約 40 ペー ジ程度, JPEG 形式でも約 400 ページ程度しか保存でき ません。 限られたストレージ容量で, より大量の画像ファ イリングを行う場合, 更にファイル容量を削減できる次のよ うな文書画像圧縮技術の開発が考えられます。 (1) 文書画像圧縮技術 カラー文書画像から文字部分と文字以外の背景部分の 抽出を行い, 文字は高解像度, 図 ・ 写真などは背景と して低解像度で圧縮保存することにより, カラー情報を残 したまま, 圧縮率が高く, かつ文字がくっきりと読みやす い文書画像のファイルを生成する技術。 5. 業界のトップを自負する当社の OCR 技術 当社では, 以上の課題に取り組み, 種々の開発技術 を活かした OCR を製品化しています。 数値的には, 例 えば以下の性能を達成しています。 ・ 高速 CCD センサの採用と高速搬送技術 [2] による 最高 200 枚 / 分の高速読み取り。 図 2. 訂正文字の自動検知と続け字認識の例 二重線などの取消し線を見つけることで訂正文字を自動検知します。 また, 手書きではよく記入される数字の続け字も読み取ることができます。 本稿で取り上げた技術以外にも, 当社は, 手書き入力 した文字を認識するデジタルペン認識 [4] など, 入力業務 形態の多様化を実現する OCR 技術や, お客様ニーズを 反映した新しいソリューション実現に向けた要素技術の研 究開発を行っています [5][6][7]。 (注 1) e- 文書法 : 通則法と整備法からなり, それぞれの正式名称は 「民間事業者等が行う書面の保存等における 情報通信の技術の利用に関する法律」, 「民間事業者等が行う書面 の保存等における情報通信の技術の利用に関する法律の施行に伴う 関係法律の整備等に関する法律」 (注 2) 日本版 SOX 法 : 正式名称は 「金融商品取引法」 【参考文献】 [1] 東芝科学館, “東芝一号機ものがたり” , <http://kagakukan.toshiba.co.jp/history/1goki/1967postmatter/ index.html>,( 参照 2006-11-30) [2] 鹿島 ほか , “OCR スキャナの紙搬送技術” , 東芝レビュー VOL61, No.5,2006,<http://www.toshiba.co.jp/tech/review/2006/05/ 61_05pdf/f08.pdf>,( 参照 2006-11-30) [3] 鈴木 ほか , “寸法不変な特徴量を用いた帳票レイアウト解析” , 第 4 回情報科学技術フォーラム予稿集 I001,2005 [4] 東芝ソリューション ( 株 ),デジタルペン認識ソフトウェア , <http://pf.toshiba-sol.co.jp/prod/ocr/pen/index_j.htm>, ( 参照 2006-11-30) [5] 黒沢 , “文字認識のための特徴抽出フィルターの学習方式” , 画像の 認識 ・ 理解シンポジウム IS2-48,2006 [6] 土橋 ほか, “携帯端末による高圧縮 PDF 変換技術” , 画像電子学会 第 34 回年次大会予稿集 ,2006 [7] Y.Shinohara et al.,” Development of the Road Marking Recognition System Using In-vehicle Cameras” ,ITS World Congress #2284,2006 【関連 URL】 http://pf.toshiba-sol.co.jp/prod/ocr/index_j.htm 「東芝ソリューション テクニカルニュース」2006年(冬季号) 11
© Copyright 2024 Paperzz