第5章 文書情報の活用

第5章
文書情報の活用
1.文書情報の保存と検索
(1) インデックス情報による文書情報の検索方法
大量のデータから目的の情報を検索する場合、インデックス情報を使うこ
とにより早く確実に検索を行なうことが可能となる。ここでは文書情報の検
索に向いている検索方法について説明する。
検索とは、広義の意味で文書の作成・入手段階から処理(決裁・回覧・配布)
・
保管・保存・廃棄までのライフサイクルの中で、文書情報や管理記録の抽出
を統合的に行える仕組みであり、特に大量の文書情報・メタデータを正確で、
かつ高速に検索するためにはデータベース・ソフトによる検索システムが必
要となる。
注意)検索性を確保した 電子化文書に 個人情報が含まれる場合は,
「 個人情
報データベース等」に該当するため,取扱いに注意する必要がある。
① キーワード検索
文書情報に固有な項目(文書名、
管理番号、作成者、作成日など)をキーワー
ドとして登録し、このメタデータをキーワード領域として指定して検索を実
行する方法をいう。必要な情報をインデックス化するため、データ容量が比
較的小さく、検索速度を高速化できる。また、
「○○以上」、
「○○以下」、
「○
○を含む」
、「○○を含まない」などの検索条件の設定や AND・OR 検索など
の論理検索を組合せることも可能である。
② ディレクトリ検索
あらかじめ分類・階層化されている情報を項目化(定数化)してデータベー
スに保存し、検索時にその分類項目を選択するだけで結果を抽出する方法。
分類項目を選択するだけで検索できるため、分類項目を比較的簡単に検索す
ることが可能である。
③ 全文検索
入力されているコード情報すべてを検索する方法。キーワード検索・ディ
レクトリ検索は、あらかじめキーワード、コード等の検索項目を作成してお
く必要があるが、全文検索ではすべてのデータが直接的に検索の対象となる。
電子化文書の場合は、電子化と同時に全文を対象に OCR 処理を行って文書
情報をテキスト化し、全文検索用のテキストファイルを作成しておく。
70
id3_143701_5章.indd 70
12.3.16 9:52:05 AM
文書情報の活用
第5章
④ 自然語検索
キーワードではなくて、自然語を入力して検索する方法で、あいまい検索
とも呼ばれる。入力した情報の類似情報、関連情報を検索することが可能。
⑤ シソーラス検索
同義語と思われる単語等を類推し、その該当情報を検索する方法。例えば、
同義語(
“私”、“僕”、
“小生”など)や関連語(“うどん”と“麺類”など)、
表記のゆれ(
“マネジメント”と“マネージメント”など)などを整理したデー
タベースを利用するもので、目的の情報を検索しやすくすることが可能とな
る。
(2) インデックス情報
コンピュータが情報を検索する際に利用する索引のことで、データに含ま
タを高速検索できるようにするための情報のことを指す。ファイルやデータ
5
章
ベースなど、大量のデータを検索する場合には、そのデータの所在を高速に
第
れる要素によって情報を再構成し、特定の要素からそれが含まれる元のデー
調べることができるように、このインデックス情報を利用する。
文書情報は、パソコンなどで作成される電子文書(オフィス文書ともいう)
と紙文書をイメージ化した電子化文書に分類されるが、文書情報の検索キー
となるのがインデックス情報である。パソコン等で作成されたワード、エク
セル、パワーポイントなどの電子文書には、通常はメタデータとしてパソコ
ン保有者のデータ、作成日時等が文書プロパティとして作成時に文書に付加
されている。
一方、電子化文書(イメージ情報)はそのままでは文書イメージの検索を
行うことができないため、どのような 文書を イメージ化したかを 電子化文
書に付加するインデックス作業が必要となる。オフィスで散発的にスキャン
ニングする一般文書の場合は個別にファイル名を設定することも可能である
が、大量に発生する各種申込書のイメージ入力などでは、高速大量イメージ
処理に適したインデック作成手法を考慮する必要がある。
① OCRの活用
OCR(Optical Character Recognition / Optical Character Reader:
光学式文字読取り装置)は、スキャナで読み取ったイメージデータから文字
部分を読み取り、テキスト情報とするものである。
71
id3_143701_5章.indd 71
12.3.16 9:52:06 AM