ホワイトペーパー: PDFlib 製品群における XMP メタデータ対応

ホワ イ ト ペーパー :
PDFlib 製品群におけ る
XMP メ タ デー タ 対応
メ タ デー タ の重要性 メ タ デー タ と い う 用語は、 文字どお り には 「デー タ に関す る
デー タ 」 を意味 し ま す。 電子文書に対 し て、 メ タ デー タ は よ く その名刺にた と え ら
れ ま す。 多 く の メ タ デー タ は複数のプ ロ パテ ィ か ら 成 り 、 各プ ロ パテ ィ は文書の文
脈で特定の意味を持ち ます。 よ く 利用 さ れ る メ タ デー タ のプ ロ パテ ィ を例示 し ます。
> PDF 文書の作成者。
> PDF 文書が作成 さ れた り 、 JPEG 画像がカ メ ラ で撮 ら れた り し た日付。
> 画像を撮影 し た撮影者の名前。
> パー ソ ナ ラ イ ズ さ れた文書のシ リ アル番号。
> 文書に記載 さ れてい る 品目の在庫管理単位 (SKU)。
> 文書に記載 さ れてい る エン ジニ ア リ ン グ製品の製造年。
> 裁判におけ る 文書参照番号。
出版 ・ 文書作成 ・ 翻訳等、 完全に電子化 さ れた形で作業が進め ら れてい く ワ ー ク フ
ロ ーが ま す ま す増え てい く 中にあ っ て、 メ タ デー タ は、 電子文書の発生か ら 消滅 ま
で を管理す る う えで枢要な役割を担っ てい ます。
Adobe の Extensible Metadata Platform (XMP) Adobe は、 アプ リ ケーシ ョ ンやフ ァ
イ ル形式を超え て使え る 共通 メ タ デー タ 形式の必要性を認識 し 、 Extensible Metadata
Platform (XMP) を設計 し ま し た。 こ れは XML ベース の形式であ り 、 セマ ン テ ィ ッ
ク Web イ ニシ アチブの根幹を なす、 W3C の RDF (Resource Description Framework)
に則っ てい ます。 Adobe は XMP の仕様を無償提供 し 、 オープ ン ソ ース の XMP ツール
キ ッ ト を、 ソ フ ト ウ ェ ア開発者のために提供 し てい ます。
XMP は、 フ ァ イ ル と 一体にな っ て持ち運ばれ る も ので あ り 、 PDF ・ TIFF ・ JPEG
等、 広 く 利用 さ れてい る 多 く の フ ァ イ ル形式への埋め込みが可能です。 メ タ デー タ
のプ ロ パテ ィ は、 ス キーマ ご と にグループ化 さ れてい ます。 各ス キーマは一意な名
前空間 URI に よ っ て識別 さ れ、 任意の数のプ ロ パテ ィ を持ち ます。
XMP の仕様には、さ ま ざ ま な代表的な種類の文書や画像の特性に合わせて、1 ダー
ス 以上の定義済み ス キーマが用意 さ れ、 その中に数百種のプ ロ パテ ィ が定め ら れて
い ます。 最 も 広 く 利用 さ れてい る のは、 Dublin Core、 略 し て dc と い う 定義済み XMP
ス キーマです。 こ の ス キーマには、 Title ・ Creator ・ Subject ・ Description と い っ た一
般的なプ ロ パテ ィ が含 ま れてい ま す。 定義済みの ス キーマ と は別に、 カ ス タ ム の ス
キーマ を定義 し て、 社内や業界独自の メ タ デー タ 要請に対応する こ と も 可能です。
PDF 文書での XMP は、2001 年の Acrobat 5 ・ PDF 1.4 か ら 導入 さ れてい ます。PDF
におけ る XMP の前任者は、 単純な キー と 値の対、 すなわちいわゆ る 文書情報項目を
集めただけの も ので、 XMP の導入前は こ れが唯一の メ タ デー タ 保持手段 と し て提供
さ れてい ま し た。 今で も Acrobat や PDF は文書情報項目に対応 し てい ますが、 XMP
メ タ デー タ は も っ と は る かに強力な概念であ り 、 た と えばス キ ャ ン し た TIFF を PDF
に変換す る 等、 形式を変換 し て も メ タ デー タ を引き 継ぐ こ と が可能にな っ てい ます。
XMP は Adobe の提供す る 全製品に実装 さ れ、それ以外の何ダース も の ソ フ ト ウ ェ
アベン ダーやユーザーグループ も こ れに対応 し てい ます。 Creative Suite に含まれ る
Adobe Bridge は、 さ ま ざ ま な フ ァ イ ル形式の中で XMP メ タ デー タ を扱い ます。 XMP
メ タ デー タ を 「フ ァ イ ル情報」 / 「文書プ ロ パテ ィ 」 パネルで表示 ・ 編集で き る Adobe
アプ リ ケーシ ョ ン と し ては、 Acrobat (「 フ ァ イル」 → 「プ ロパテ ィ ...」 → 「その他の
メ タ デー タ ...」) ・ Photoshop ・ InDesign 等が挙げ ら れます。 なお、 「フ ァ イ ル情報」 パ
ネルでは、 メ タ デー タ のプ ロ パテ ィ は定義済み XMP ス キーマに し たがっ て グループ
化 さ れてい ま すが、 カ ス タ ム のパネルを定義 し て、 い ろ い ろ な業務分野での要請に
合わせて、 メ タ デー タ の表示や編集可能な フ ィ ール ド を あつ ら え る こ と も 可能です。
PDFlib GmbH
2008 - 05
www.pdflib.com
1
XMP に よ る垂直協業 XMP は、 さ ま ざ ま な業界団体において、 個別の メ タ デー タ 要
請に対応す る ために利用 さ れ る 度合が ま すま す高ま っ て き てい ま す。 い く つかの例
を挙げます。
> AdsML コ ン ソ ーシ ア ムでは、 広告情報 ・ コ ン テ ン ツ交換のための仕様 と プ ロ セ ス
を作成 し てい ます。
> 国際新聞通信委員会 (IPTC) は、 ニ ュ ース組織が集ま っ て設立 し た業界団体です。
そ こ では、 ニ ュ ースデー タ 交換のための業界標準を策定 し てい ます。 XMP のため
の 「IPTC Core」 ス キーマ を頒布 し てお り 、 画像等のニ ュ ー ス 素材に対す る メ タ
デー タ の伝達に広 く 利用 さ れてい ます。
> 医学画像交換のための DICOM 標準規格では、 PDF の使用に対応 し てお り 、 患者
デー タ ・ 研究内容 ・ 機材詳細等の メ タ デー タ を保持す る ためのカ ス タ ム XMP ス
キーマ を記述 し てい ます。
> Publishing Requirements for Industry Standard Metadata (PRISM) では、 雑誌 ・ ニ ュ ー
ス ・ カ タ ロ グ ・ 書籍 ・ 定期刊行物の内容を処理す る ための メ タ デー タ 語彙を定義
し てい ます。
ISO 標準規格が義務づけ る XMP ISO 規格 と し て、 既存の も のや発行見込の も のが
い く つか あ り 、 それぞれグ ラ フ ィ ッ ク アー ト 業界 ・ アーカ イ ブ ・ 技術文書等、 特定
の応用分野に的を絞っ た PDF サブセ ッ ト を記述 し てい ます。 2001 年 と 2002 年に策
定 さ れたプ リ プ レ ス標準規格であ る PDF/X-1 と X-3 を除けば、PDF に対する すべて
の ISO 規格に、 XMP メ タ デー タ の使用が含まれてい ます (ISO 32000 以外の多 く の場
合はむ し ろ それが義務づけ ら れてい ます)。
> PDF/A-1 を標準化 し た ISO 19005-1 (2005 年発行) : 「長期保存のための電子文書
フ ァ イ ル形式 — PDF 1.4 の利用」。 PDF/A-1 では、 準拠フ ァ イ ルを識別する ため
に XMP が必須であ り 、 XMP 拡張ス キーマに よ っ て カ ス タ ム メ タ デー タ に も 対応
し てい ます。 カ ス タ ムデー タ が将来な る べ く 利用で き る よ う 、 拡張ス キーマはす
べて、 それに関す る 記述を PDF/A 内に、 決め ら れた形で埋め込ま なければな り ま
せん。 PDF/A-1 では文書情報項目の使用 も 許 さ れてい ますが、 XMP だけで ワ ー ク
フ ロ ーが組み立て ら れ る よ う 、 よ く 使われ る PDF 文書情報項目はそれぞれ特定の
定義済み XMP プ ロ パテ ィ と 同期 さ せておかなければな り ません。文書情報項目 と
XMP プ ロ パテ ィ と の間の こ の「橋渡 し 」は、こ の規格で定義 さ れてい ます。PDF/A1 におけ る XMP 対応は、 XMP 2004 の仕様に基づいてい ます。
> PDF/E を標準化 し た ISO 24517-1(2008 年発行見込):「PDF を用いた技術文書形式
— PDF 1.6 の利用」。PDF/E におけ る XMP 対応は PDF/A-1 と ほぼ同等ですが、た
だ し 、 よ り 新 し い XMP 2005 の仕様に基づいてい ます。
> PDF/X-4 を標準化 し た ISO 15930-7 (2008 年発行):「PDF 1.6 を用いた印刷デー タ
の完全な交換 (PDF/X-4) お よ び外部プ ロ フ ィ ール参照を持っ た印刷デー タ の部
分的交換 (PDF/X-4p)」。 PDF/A-1 と 同様、 PDF/X-4 で も 規格準拠を表すために
XMP が必須です。 文書情報項目は PDF/X-4 では使用可能ですが、 それぞれ対応
す る XMP 項目 と 同期 さ せておかなければな り ません。 XMP 拡張ス キーマ を使っ
て カ ス タ ム メ タ デー タ を表す こ と は許 さ れます。 ただ し PDF/A-1 と 違っ て、 決め
ら れた形で説明を埋め込ま な く て も 使え ます。 PDF/X-4 におけ る XMP 対応は、
XMP 2005 の仕様に基づいてい ます。
> PDF/X-2 を標準化 し た ISO 15930-5 (2003 年発行) お よ び PDF/X-5 を標準化 し た
ISO 15930-8 (2008 年発行見込) : 「PDF 1.6 を 用い た 印刷デー タ の部分的交換
(PDF/X-5)」。 PDF/X-2 ・ X-5 の文書は他の PDF/X 文書を参照 し 、 そ う し た参照
の参照先は、 さ ま ざ ま な XMP 項目を用いて識別 さ れ ま す。 こ のため XMP は、
PDF/X-2 ・ X-5 では不可欠の構成要素です。
> ISO 32000 (2008 年発行見込):「文書管理 — 可搬文書形式 — PDF 1.7」。ISO 32000
は PDF 1.7 を標準化 し た も のです。その技術的な中身は PDF 1.7(Acrobat 8 の フ ァ
イ ル形式) と 等価であ り 、 XMP メ タ デー タ に完全対応 し てい ます。
最 も 広 く 利用 さ れてい る 定義済み XMP メ タ デー タ ス キーマの一つであ る Dublin Core
は、ISO 15836 (2003 年発行):「情報 と ド キ ュ メ ン テーシ ョ ン — Dublin Core メ タ デー
タ 要素セ ッ ト 」 と し て標準化 さ れてい ます。
2
www.pdflib.com
2008 - 05 PDFlib GmbH
PDFlib 製品ス イ ー ト におけ る XMP 対応 シ ンプルな XMP 対応は、2004 年に PDFlib
製品フ ァ ミ リ に導入 さ れてい ます。 PDFlib 7 (2006 年発売) が PDF/A-1 に対応 し た
こ と に伴い、 XMP の さ ま ざ ま な機能が、 PDF/A-1 のいろいろ な要請に合わせて拡張
さ れま し た。 と く に、 文書情報項目を XMP プ ロ パテ ィ に自動同期 さ せる (PDF/A-1
の橋渡 し 仕様の通 り に) 機能や、 PDF/A-1 に必須のい く つかの内部 XMP プ ロ パテ ィ
を自動生成す る 機能が実装 さ れ ま し た。 その結果、 PDFlib のユーザーは、 PDF/A-1
のための XMP を、XMP 形式の中身にかかず ら わ さ れずに生成で き る よ う にな っ てい
ます。高度なユーザーな ら 、定義済み XMP メ タ デー タ ス キーマ を直接ま る ご と PDFlib
に与え、 生成 PDF 文書に取 り 込ませ る こ と も で き ます。 PDFlib はあ ら ゆ る 主要なオ
ペレ ーテ ィ ン グ シ ス テ ム で利用で き る う え、 サー ド パーテ ィ 製品を一切必要 と し な
いので、 こ れを使えばど のプ ラ ッ ト フ ォームで も XMP 対応が可能です。
こ れに加え て PDFlib 7.0.3 では、PDF/A-1 に従っ て XMP 拡張ス キーマに も 対応 し
ま し た。 ユーザーは PDF/A-1 の中に、 カ ス タ ム メ タ デー タ のための 「拡張ス キーマ
コ ン テナ ス キーマ」 を埋め込む こ と がで き ます。 PDFlib は、 ユーザーか ら 与え ら れ
た XMP 拡張ス キーマが内部的に整合 し てい る か、 規格に準拠 し てい る か を完全検証
し ますので、その出力は PDF/A-1 標準規格に準拠 し てい る こ と が保証 さ れてい ます。
こ の機能に よ っ て PDFlib 7.0.3 は、 世界で初めて PDF/A-1 のための XMP 拡張ス
キーマに対応 し た製品 と な り ま し た。 PDFlib GmbH は PDF/A 技術セ ン タ ーに参画 し
てい ますので、 PDF/A に関する すべての活動は、 PDF/A ソ フ ト ウ ェ ア を出 し てい る
他の諸ベン ダー と の緊密な連携に よ っ て、 望み う る 最高度の標準規格準拠 と 業界慣
習反映を実現 し てい ます。
XMP 検証機能は、 PDF/A 出力を作成 し ない と き で も 有効なので、 PDFlib 7.0.3 に
おけ る XMP 対応の改良の恩恵は、 XMP を利用す る すべての人に及びます。
www.pdflib.com では、 PDF/A におけ る XMP に関す る も っ と 詳 し い説明や、 XMP
拡張ス キーマのオン ラ イ ンバ リ デー タ が得 ら れます。
PDFlib PLOP 3.1 で XMP を PDF に入れ込む 暗号化 ・ 復号 ・ 最適化 ・ 電子署名 と
い っ た機能に加え て、 PDFlib PLOP では、 既存の PDF 文書に XMP メ タ デー タ を入れ
込む こ と も 可能です。 こ の機能は、既存の PDF 文書の中に、必要なすべての メ タ デー
タ プ ロ パテ ィ が入っ ていない よ う な場合に便利です。 PLOP におけ る XMP 対応は
PDF/A 対応にな っ てい る ので、 と く に PDF/A ワ ー ク フ ロ ーでは こ れは有用です。 た
と えば、 拡張ス キーマ を持たせた カ ス タ ム XMP を、 拡張ス キーマに対応 し ていない
ワ ー ク フ ロ ー由来の PDF/A 文書に入れ込む こ と がで き ます。
PDFlib pCOS で XMP を PDF か ら 抽出 pCOS イ ン タ フ ェース と は、 あ ら ゆ る 種類の
情報を PDF 文書か ら 取 り 出す こ と ので き る 、 PDFlib GmbH の方式です。 こ れは ス タ
ン ド ア ロ ン製品 と し て も 利用で き ます し 、 他のすべての製品に も 内蔵 さ れてい ます。
pCOS は、 XMP メ タ デー タ を PDF 文書か ら 抽出する ためのシ ンプルなプ ロ グ ラ ミ ン
グ手段を提供 し ます。 XMP メ タ デー タ は Unicode に規格化 さ れ る ので、 利用者はエ
ン コ ーデ ィ ン グの問題に悩ま さ れずにすみます。
XMP の取得は、 圧縮や暗号化 ・ PDF オブ ジ ェ ク ト 構造に関係な く 動作 し ま す。
Adobe の定めてい る XMP のパ ッ ケージの し く みでは、 XMP のデー タ パ ッ ケージは さ
ま ざ ま な フ ァ イ ル形式に簡単に埋め込めて簡単に取 り 出せ る よ う にな っ てい る ので
すが、 PDF の文書ではち ょ っ と 面倒な現象がい く つかあ っ て、 話がやや こ し く な っ
てい ます。 た と えば、 PDF 文書は更新セ ク シ ョ ン をい く つか含む こ と があ る ので、 そ
の場合は 1 つの XMP ス ト リ ームが フ ァ イ ル内の複数箇所にだぶっ て現れて し ま う の
ですが、 その う ち正 し いのは 1 個だけです。 単純なテ キ ス ト 検索で XMP ブ ロ ッ ク を
検索 し て も 、 間違っ た箇所を取っ て来かねませんので、 PDF のオブジ ェ ク ト 構造を
注意深 く た ど っ てい く ソ フ ト ウ ェ アだけが、 ど んな場合で も 正 し く XMP メ タ デー タ
を取得す る こ と がで き ます。だか ら Adobe の無償の XMP Toolkit は、TIFF や JPEG と
い っ た他のフ ァ イ ル形式の中の XMP には対応 し てい る のに、 PDF か ら の XMP 抽出
には完全対応 し ていないのです。
PDFlib TET PDF IFilter で XMP メ タ デー タ を検索 TET PDF IFilter は、PDFlib GmbH
か ら 発売 さ れた最新の製品です。 こ れは Microsoft の IFilter イ ン タ フ ェース を実装 し
PDFlib GmbH
2008 - 05
www.pdflib.com
3
てお り 、 Microsoft やサー ド パーテ ィ の さ ま ざ ま な、 Windows Desktop Search (WDS) ・
Office SharePoint Server (MOSS) ・ Indexing Server ・ SQL Server と い っ たデ ス ク ト ッ
プ ・ 組織内検索製品 と と も に使 う こ と がで き ます。 TET PDF IFilter の XMP 対応を利
用す る と 、 Microsoft の検索 ソ リ ュ ーシ ョ ンが投入 さ れてい る 環境で、 非常に簡単に
XMP メ タ デー タ を活用す る こ と がで き ます。
TET PDF IFilter の高度な メ タ デー タ 実装は、 メ タ デー タ のための Windows プ ロ パ
テ ィ シ ス テ ムに対応 し てい ます。 ページ内容だけでな く 、 XMP メ タ デー タ や、 標準 ・
カ ス タ ム文書情報項目 も イ ンデ ッ ク ス し ま す。 メ タ デー タ の イ ンデ ク シ ン グは、 以
下のいずれかの レベルに設定で き ます。
> 文書情報項目 と 、 よ く 用い ら れ る XMP プ ロ パテ ィ を、標準の Windows プ ロ パテ ィ
( タ イ ト ル ・ サブ ジ ェ ク ト ・ 作者等) にマ ッ プす る 。
> 有用な PDF 特有の擬似プ ロ パテ ィ (ページサ イ ズ ・ PDF/A 準拠レベル ・ フ ォ ン ト
リ ス ト 等) を TET PDF IFilter が追加する 。
> すべての定義済み XMP プ ロ パテ ィ (dc:rights・xmpRights:UsageTerms・xmp:Creator
Tool 等) を検索可能にす る 。
> カ ス タ ム (ユーザー定義) の XMP プ ロ パテ ィ (社内独自分類項目等) を検索可能
にす る 。
TET PDF IFilter は設定に よ っ て、 メ タ デー タ を生テ キ ス ト イ ンデ ッ ク ス に含め さ せ
る こ と も で き ま す。 そ う す る と 、 メ タ デー タ 対応機能のない全文テ キ ス ト 検索エ ン
ジ ン (SQL Server 等) で も メ タ デー タ の検索が可能にな り ます。
XMP ベースの文書検索で恩恵 を受け る ワー ク フ ロ ーシナ リ オ XMP メ タ デー タ の
処理は、 電子文書の検索を必要 と す る さ ま ざ ま な シナ リ オに組み込む こ と がで き ま
す。 以下に典型的な例を 2 つ挙げます。
出版 : ク リ エ イ テ ィ ブのプ ロ フ ェ ッ シ ョ ナルたちは、 Adobe 等のパブ リ ッ シ ン グ
ソ フ ト ウ ェ ア を使っ て、 文書や メ タ デー タ を イ ン タ ラ ク テ ィ ブに作っ てい ま す。 彼
ら は文書に、 キー ワ ー ド ・ 作成者名 ・ 著作権情報等、 広 く 利用 さ れ る XMP プ ロ パ
テ ィ を割 り 当て ます。 彼 ら は Adobe Bridge を使っ て、 割 り 当て ら れてい る メ タ デー
タ プ ロ パテ ィ に従 っ て文書 を検索 し た り グループ化 し た り す る こ と がで き 、 Dublin
Core や IPTC と いっ た広 く 利用 さ れてい る XMP ス キーマに関心を絞っ てい ます。
技術文書 : 大量の文書が手作業や自動で作成 さ れ、 部課や社内の コ レ ク シ ョ ンに
集め ら れてい ます。 こ う し た文書 コ レ ク シ ョ ンは、 サーバシ ス テ ム上では Microsoft
Office SharePoint Server (MOSS)、 ワ ー ク ス テーシ ョ ン上では Windows Desktop Search
(WDS) 等の抽出製品等、 広 く 利用 さ れてい る Windows 抽出ツールでア ク セ ス さ れま
す。 こ う し た製品に TET PDF IFilter を組み合わせ る と 、 利用者は文書群に対 し て、
XMP メ タ デー タ のプ ロ パテ ィ で も 、 ページの実内容で も 検索を かけ ら れ る よ う にな
り ます。 定義済み XMP ス キーマで も 基本的な需要は満た し てい ますが、 社内独自の
要請を満たすため、カ ス タ マ イ ズ し た XMP ス キーマ を ク エ リ で使 う こ と も 可能です。
PDFlib GmbH
Franziska-Bilek-Weg 9
80339 München, Germany
電話 +49 • 89 • 452 33 84-0
[email protected]
www.pdflib.com
4
www.pdflib.com
2008 - 05 PDFlib GmbH