手書き文字の静止画像からの筆順復元に関する研究 加藤美治 概要

手書き文字の静止画像からの筆順復元に関する研究
加藤美治
概要
手書き文字認識はオンライン手書き文字認識とオフライン手書き文字認識に大別すること
ができるが,タブレットなど専用の入力デバイスを使用するオンライン手書き文字認識と
比較すると,イメージ・スキャナーなど通常の画像入力デバイスを使用するオフライン手
書き文字認識は複雑な技術を必要とする.これは,オンライン手書き文字認識においては
ペン先の軌跡,加速度,ペンの上下あるいは筆圧などの情報を動的に捉えることができる
のに対して,オフライン手書き文字認識においては紙面上に書かれた文字をスキャンして
得られた静的な2次元画像だけしか情報が無いことに起因している.つまり,オンライン
手書き文字認識においては,ペン先の動きに伴う文字の形成過程を動的に認識することが
できるのに対して,オフライン手書き文字認識においては,ペン先の軌跡が紙面に投影さ
れて形成された字形を抽出し複雑な画像処理を適用して得られた静的な特徴に基づいて認
識しなければならないのである.オフライン手書き文字認識においては時間情報が失われ
ていることが根本的な相違であるが,もし文字画像を解析して手書き文字の筆順を復元す
ることができれば,静的な2次元画像から時間情報が復元されることになる.従って,そ
のような手法は,オフライン手書き文字認識問題をオンライン手書き文字認識問題へ転換
するブリッジと見なすことができる.
本論文では,静的な2次元画像を解析して手書き文字の筆順を復元する新たな手法を提案
した.対象となる手書き文字は,一画もしくは複数画からなり,二度書きされた線分を含
むことができる.提案手法は,イメージ・スキャナーによって手書き文字が2次元画像と
して入力されて画像処理が施された後,画像データからグラフを構築し,グラフの解析お
よびラベル付けにより筆順を復元するものである.その基本となる原理は,手書き運動に
おいてはエネルギーが最小になるように文字が書かれるために,手書き文字は基本的に滑
らかな性質を備えているということである.しかし,グラフを解析して最も滑らかな経路
を発見しそれを筆順とするアプローチは,非常に簡単な文字でない限りはすぐに組合せの
爆発を招くことになる.また,画像処理の結果は微小な画素レベルとなり,字形の解析に
は困難が伴う.そこで,本論文では,画素レベルではなく文字ストローク・レベルに変換
してグラフの解析を行い,グラフの探索およびラベル付けにより筆順の復元を行う手法を
提案した.提案手法は二つのフェーズから構成される.最初のフェーズでは,グラフを大
局的に解析し文字ストロークの種類を判別し,グラフ上の各々の辺や頂点のタイプを決定
しラベル付けを行う.二番目のフェーズでは,ラベル情報に基づいて始点から終点までグ
ラフを追跡し,筆順を復元する.ラベル付けの過程において経路を二重化することなどに
より,グラフの探索を単純化し,さらに最終的なグラフの追跡アルゴリズムも単純化した.
また,ヒューリスティックの採用をできるだけ避け,アルゴリズムの妥当性についても検
討した.提案手法は,巡回セールスマン問題を解くなどして可能な組合せを列挙して評価
することがないために,複雑な手書き文字の場合であっても組合せの爆発を招くことがな
い.
本研究は,紙面に書き残された既に時間情報の失われた筆点運動の軌跡画像から筆点運動
の時間的順序情報を復元することを目的としており,いわゆる逆問題の範疇に属している.
この種の問題は解が一意とならず一般に難問となる.本研究では,手書運動の滑らかな性
質に着目した復元原理を導入し,まず一筆書きの文字の筆順復元を実現した.次に,その
手法を複数画の文字の筆順復元に拡張した.文字認識はパターン認識の重要な研究分野の
ひとつであるが,パターン認識は本来的に逆問題を取り扱いの対象とするものである.本
研究も静止画像上の字形からそれを形成した筆点運動を再現する試みであり,パターン認
識における逆問題の研究のひとつに位置付けられる.
従来の手法は,一画の文字に限定されたり複雑な文字の場合には組合わせの爆発が避けら
れなかったが,本論文ではこれらの問題点を解決する手法を提案した.また,少ない計算
量で複数画の筆順を復元することができることから,複数の文字あるいは簡単なセンテン
スを復元の対象とすることも可能となり,オフライン文字認識からオンライン文字認識へ
の転換に寄与するものである.