ビジネス文書の自動XML化が拓く新たな応用領域

特集 : 情報資産の利活用 ~XML が拓く新しい世界 ~
特集記事
ビジネス文書の自動XML化が拓く新たな応用領域
5
渡邉 茂樹 布目 光生 後藤 和之
XMLは, 企業内の様々な情報を効率よく管理し,
し,章立てなどを構成するように組み上げて,文書全体の
論理構造を生成します。対象文書のモデルを用意すること
で,文書固有の構造も抽出できます。
②XML 文書への変換
上記①の結果を,まず,汎用性のある中間 XML 文書に
変換します。次にこれを,文書種別ごとに用意した変換
ルールを用いて,ターゲット形式の XML 文書に変換しま
す。変換ルールを切り替えることで,各分野で標準のスキー
マに対応した XML 文書を容易に作成できます。
本技術を約款や技術論文などの紙文書に適用した結
果,XML 化の作業は手作業に比べ 4 分の 1 の時間で済
み,大幅な効率化が図れることが確認できました。
積極的に活用するという目的に, とても適したデータ
形式です。しかし,多種大量の情報資産を XML形式
で作成するには,多大なコストがかかるという問題が
あります。東芝ソリューション(株)は(株)東芝と共同
で, 紙文書を OCR で読み取って XML 化する技術
や, 日本語テキストの構造や意味を解析し, 検索や
理解を助けるためのタグを自動的に付与する技術を
開発しています。 これらの技術を応用することで,
様々な情報資産を, XML の特長を生かした方法で
有効活用する基盤を実現します。
1
3
ビジネス文書の XML 化のメリットと課題
企業内の様々な情報資産を効率よく管理し,積極的
に活用するための基盤として,XML とその応用技術に対
する期待が高まっています。XML 形式の文書は,文書の
構造や内容に関するメタ情報を,タグの形で埋め込んで柔
軟に記述できる点が特長です。様々な文書を XML 化する
ことで,多様な観点での情報検索や,文書の部品単位での
版管理,再利用など,高度な利活用が可能になります。
しかし,帳票等の紙文書はもとより,報告書や電子メール
といった非定型文書など,ビジネス文書の多くは XML 形
式で作成されていないため,XML の特長を十分に享受で
きていないのが現状です。これらの文書を XML 化するに
は,文書中に適切なタグを漏れなく付与する必要がありま
す。これを手作業で行うには多大なコストと熟練を要するた
め,ビジネス文書を自動的に XML 化する技術を研究開発
しています。
2
レイアウト解析と文字認識による
紙文書の XML 化
企業の情報資産のうち,紙文書として管理運
用されているものは依然として少なくありません。
電子化された情報に比べ,紙ベースでの情報管
理にはコストがかかり,検索や閲覧もしづらいた
め,情報が死蔵される虞(おそれ)があります。そ
こで,紙文書の読み取り技術であるレイアウト解
析や文字認識を応用し,以下の手順で紙文書
を XML 化する技術を開発しました(図 1)。文
書の文字情報だけでなく,構造の情報も抽出し
て利用できる点が特長です。
①紙文書からの論理構造の抽出
紙文書をスキャナなどで読み取った画像に対
し,レイアウト解析を行い,文章,図,表などの領
域を抽出します。文章や表の領域に対しては文
字認識を行い,章見出し,段落,箇条書きなどを
抽出します。これらの論理要素の読み順を決定
12
「東芝ソリューション テクニカルニュース」 2008年夏季号 Vol.14
入力例(プレーンテキスト)
出力例(XML)
<section>
<title>1.目的</title>
本規程は,「個人情報保護基
<p>本規程は,全社規程「<doc_name>個人情報保護
本規程(XXX1)」に基づき,顧
基本規程</doc_name> (<doc_id>XXX1</doc_id>)」
文書名
客から取扱いを委託された個
に基づき,顧客から取扱いを委託された個人
文書番号
人情報、または,当社が保有
情報,または,当社が保有する個人情報の取
する個人情報の取扱いを,委
扱いを,委託取引先へ委託する場合の管理と
託取引先へ委託する場合の管
手続きを定め,個人情報の保護を図ることを
理と手続きを定め,個人情報の
目的とする。</p>
保護を図ることを目的とする。
</section>
<section>
2.定義
<title>2.定義</title>
<ul>
(1) 「派遣」とは,労働者派遣事
<li>(1)「派遣」とは,<law>労働者派遣事業の適
業の適正な運営の確保及び派
正な運営の確保及び派遣労働者の就業
遣労働者の就業条件の整備
条件の整備等に関する法律</law>に基づ
等に関する法律に基づく派遣
く派遣をいう。</li>
法令名
をいう。
<li>(2) ・・・・・・・・・</li>
(2) ・・・・・・・・・
</ul>
章見出し
</section>
役割名 <section>
3.体制
<title>3.体制</title>
(1) 調達担当部門の個人情報
<ul>
保護責任者は,部門内を統括
<li>(1)調達担当部門の<role>個人情報保護責任
管理する個人情報取扱責任者
者</role>は,部門内を統括管理する
を選任する。
<role>個人情報取扱責任者</role>を選任
(2) ・・・・・・・・・
する。</li>
箇条書き
<li>(2) ・・・・・・・・・</li>
①文書の論理構造の抽出
論理構造
抽出ルール
②文書間の関連の抽出
関連抽出ルール
+文書名辞書など
③重要語(固有表現)の抽出
固有表現
抽出ルール
図 2. 日本語解析による文書の構造, 関連, 意味の抽出
日本語処理技術の応用により,文書中の表層表現や品詞のパターン
に着目して, 文書の構造や文書間の関連, 重要語を自動抽出します。
日本語解析による文書の関連と意味の抽出
ビジネス文書の多くは,複数が互いに関連し合って
重要な意味を持ちます。文書間の関連が抽出できれば,文
書の管理や活用に役立ちます。また,文書中から重要な語
句を抽出しておけば,大量の文書から必要な情報を探して
内容を理解するための手がかりになります。そこで,日本語
解析を応用し,文書の関連や重要語を抽出して XML 化
す る 技 術 を 開 発 し ま し た(図 2)。以 下 の 処 理 は 既 存 の
XML 文書に対しても適用でき,例えば 2 章の技術によっ
て紙文書を XML 化した結果に,更にタグを付与するといっ
た使い方も可能です。
①文書の論理構造の抽出
文書の章,節,箇条書きなどの論理構造を,日本語の表
層表現(例えば行頭の「第五条」や「(a)」など)に着目して
抽出します。本処理の目的は 2 章①とほぼ同じですが,プ
レーンテキストを入力とし,非定型な文書も処理可能です。
②文書間の関連の抽出
文書中に記述された,他の文書への参照表現を抽出し,
文書同士を関連付けます。文書間の参照表現の多くは,関
連先の文書の名称や番号などの形で記述されていますの
で,これを解釈し,対応する関連先文書を特定します。
紙文書
画像化
文書
画像データ
① 論理構造の抽出
・レイアウト解析
・文字認識
・論理要素の読み順,
構成の決定
文書モデル
事務規程用
約款用
特許公報用
誤りの修正
スキャナ/MFP
② XMLへの変換
中間
XML文書
・中間XMLへの変換
・ターゲットXML
への変換
変換ルール
事務規程用
約款用
特許公報用
MFP:多機能周辺装置
ターゲットXML文書
(技術論文,事務規程,
約款,特許公報など)
図 1. 紙文書から XML文書への変換
規程
文書
1.目的
文字認識技術の応用により, 紙文書のレイアウトや論理構造を解析することで, XML 文書を
効率よく作成できます。 ③文書中の重要語(固有表現)の抽出
文書中から組織名や役割名などの語句を抽出します。
例えば“個人情報取扱責任者”という役割を表す語句は,
“個人”“情報”など一連の名詞に続く“責任者”というパター
ンで表現できます。このようなルールを用意することで,
様々な用途に応じたタグを付与できます。
以上の技術は既存の XML 文書に対しても適用でき,
例えば 2 章の技術によって紙文書を XML 化した結果に,
更にタグを付与することも可能です。これらのタグは,紙文
書や非定型な文書を含む情報資産の,相互の関連や意味
内容を把握する目的に利用できます。
4
活用支援
①段落単位の
ピンポイントな検索
1.目的
・・・・・・・
2.適用範囲
・・・・・・・
・・・・・・・
3.用語と定義
・・・・・・・
・・・・・・・
②文書間の関連の
把握と管理
XML化
関連法令
XML
文書
関連規程
③重要語を手がかり
にしたナビゲート
関連文書
情報セキュリティ
責任者は・・・
関連語
④改廃,
チェックの支援
教育は…
作業は…
影響
範囲
XMLデータベース
®
…サーバ管理者
は…
管理支援
図 3. 規程文書の管理活用支援への応用例
XML 化した文書を XML データベース TX1® に蓄積することで,
規程文書の管理と活用を支援する多様な機能を提供します。
規程への応用のほかに,業務の実行の証拠となるような
文書や紙に印刷された帳票類を,適切なタグを付けて
XML 化し,イメージとあわせて全社で一元的に記録してお
くコンプライアンス対応のソリューションも考えられます。
文書や帳票の内容を XML 化しておくことで,各種の監
査の際,素早く取り出すことができます。また,規程に関す
るソリューションと連携して,業務が規程に定められたルー
チンに従って適正に行われたことかどうかを追跡するシステ
ムの構築も可能です。
更に,企業活動の様々な局面で作成される文書に適切な
切り口でタグを付けて XML 化し,相互に関係付けて一元管
理しておくことで,必要なときに必要な文書がすぐに見つか
り,再利用性も高い文書管理システムの構築が可能です。
このように,様々な情報資産を XML 化することで,組織
や業務の枠を越えて,業務の効率化と品質向上につなが
る情報基盤が構築可能です。今後も社内実践を通じて技
術を洗練し,XML の特長を生かした新たなソリューション
の創出に取り組んでいきます。
XML 化がもたらす新たなソリューション
様々な情報資産を XML 化する技術を,情報検索
や文書管理の技術と組み合わせることで,企業が持つ様々
な文書を効率的に管理し,活用を促進する新たなソリュー
ションが実現できると考えています。
例えば,個人情報保護や環境コンプライアンス,品質管
理など,企業の様々な分野の規程を,自動的に XML 化
し,規程の利用,管理を支援するソリューションが考えられ
ます(図 3)。規程を XML 化することで次のようなことが可
能になります。
①段落単位のピンポイントな検索
文書の章や節などの単位で,キーワードや自然文を条
件として精度良く検索することができます。
②文書間の関連の把握と管理
規程の本文から,関連する別の規程や,法令などの社外
の文書を,簡単に参照できます。規程の改廃などで生じた
文書間の関連の不整合を見つけることも可能です。
③重要語を手がかりにしたナビゲート
規程を理解するうえで重要な語句に関連する複数箇所
を,まとめて一覧できます。
④文書の改廃,チェックの支援
規程の改廃の影響範囲や,用語の不統一などをチェック
し,法改正などの際の規程の更新を支援します。
【特許】
*本文に記載の技術は, 特許第 3940491 号, 特許第 3961993 号,
その他出願中の特許で保護されています。
Profile
渡邉 茂樹 Watanabe Shigeki
プラットフォームソリューション事業部
商品企画部 主任
コンテンツ管理 ・ ナレッジマネジメントソフト
ウェアの商品企画業務に従事。
布目 光生 Fume Kosei
( 株 ) 東芝 研究開発センター
知識メディアラボラトリー
文書構造化, 知識抽出技術の研究開発に従事。
人工知能学会会員, 情報処理学会会員。
後藤 和之 Goto Kazuyuki
IT技術研究所 研究開発部
ビジネスインテリジェンスラボラトリー 研究主務
情報検索, 文書の自動分類, ナレッジマネジメント
などの技術の研究開発に従事。
情報処理学会会員。
「東芝ソリューション テクニカルニュース」 2008年夏季号 Vol.14
13