学術雑誌 XML 出版の現状と課題 SGML, HTML, XML

学術雑誌 XML 出版の現状と課題
2012. 10. 27
時実象一
愛知大学
[email protected]
SGML, HTML, XML
• SGML (Standard Generalized Markup
Language)
– 元は IBM’s Generalized Markup
– 政府文書の作成などで普及
– 学術雑誌の編集も
• HTML (HyperText Markup Language)
– SGML の Web 版とみなされる
– DTD が不要
2
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
XML
• eXtensible Markup Language
– 現在電子文書の中心
– データ交換
– メタデータ記述 (RDF)
– 電子ジャーナル
– 電子書籍 (XHTML, EPUB)
– Microsoft Office
3
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
DTD
• Document Type Definition
– SGML, XML において、文書構造 (文書型) を
定義する
– 具体的には
• 要素 (element)
• 属性 (attribute)
– などを定義する
4
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
NLM DTD
• 学術雑誌における XML の DTD として開
発 (2002)
– PubMed Central 改良計画 (NCBI)
– 学術雑誌の電子的アーカイブ・プロジェクト
• ハーバード大学
• メロン財団
– メンバー
• NCBI、ハーバード大学、メロン財団、Mulberry
Technologies (NCBI コンサルタント)、Inera, Inc.
(ハーバード大学コンサルタント)
5
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
NLM DTD の歴史 (Jeff Beck)
• Version 1.0 (2002/12)
• Version 2.0 (2004/8)
• Version 3.0 (2008/12)
6
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
NLM DTD 3.0
• 3 種のタグセットからなる
– Journal Archiving and Interchange (Green)
– Journal Publishing (Blue)
– Article Authoring (Pumpkin)
• 書籍用
– NCBI Book (Purple)
7
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
なぜ XML?
• 情報の流通のための世界標準
– 出版社とデータベース
• PubMed, Web of Science, Scopus
– 出版社のアウトソース
• 構造タグづけ
– セマンティック・タグ
– リンク
8
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
利用の現状 (Bruce Rosenblum, 2010)
• Version 2.3 が多い
– 2006 年頃から、PubMed Central デポジット
の必要性で
– ツールが充実し始めた
• Version 3.0 はぼちぼち
• Journal Publishing DTD がほとんど
9
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
XML 製作工程
•
•
•
•
•
10
XML タグ付け
組版
校正
電子出版
コンテンツ管理
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
XML タグ付け
• eXtyles
• アウトソース
• その他の方法
11
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
XML タグ付け
• eXtyles
– 米国 Inera 社の製品
– MS Word の論文を解析して、文章クリーニン
グとともに、自動タグ付けをおこなう
– 引用文献もタグ付け可能
• CrossRef Simple Text Query
• Editorial Manager 投稿システム
– 欧米主要出版社が導入
– 雑誌ごとにカスタマイズ必要
12
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
eXtyles
13
•
国際文献印刷社 TeXユーザの集い
HP より
2012/10/27
ユーザの集い2012
2012 京都
TeX
CrossRef Simple Text Query
• 引用文献を自動解析して DOI を取得
14
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
XML タグ付け
• オフショア
– インド、フィリピンなど
– 海外出版社は多く利用
– 半自動
• PDF からテキスト抽出
• Word から解析
• 手作業で補正
15
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
その他の方法
• TeX から
• Word から
16
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
XML 組版と校正
• FrameMaker
• XyVision (AIP, APS など) [#61]
• 3B2 (現在 Arbortext Advanced Print
Publisher)
– 日本でも導入実績あり
• Typefi
• XML ToolWorks (Media Entities)
17
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
FrameMaker
• XML オーサリング・ツール
• SGML/XML を出力
18
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
Typefi
• InDesign のプラグイン
• XML データからテンプレートに従って
InDesign レイアウトを自動生成
• 編集校正後 InDesign XML を出力可能
– NLM DTD にはスタイル・シートで変換
• 日本コンピュータ化学会が採用
19
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
Typefi
20
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
XML ToolWorks
• InDesign のプラグイン
• XML データからテンプレートに従って
InDesign レイアウトを自動生成
• 編集校正後 InDesign から直接 NLM
DTD XML を出力可能
• Science Magazine が採用
21
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
XML ToolWorks
• アトラス社ホームページより
22
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
電子出版
• Web 公開
– XML → XHTML
• PDF
– XML → InDesign 等組版ツール
• モバイル
– アプリ
– HTML5
• MathJax
• EPUB
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
23
学術出版の例
• Article of the Future
• Project Prospec
• モバイル対応
– IOP Article Evolution
– Annual Review
24
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
Article of the Future
• Elsevier の試み
• レイアウト
– 最初はタブ表示
– 最終版は 3 分割画面
• 各種のプレゼンテーション要求に応える
25
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
Article of the Future
26
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
Article of the Future
27
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
28
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
Project Prospect
• 英国王立化学会 (RSC) のプロジェクト
– セマンティック・タグ
• 化合物
• 生医学用
– ChemSpider と結合
29
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
Project Prospect
30
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
IOP Artilce Evolution
31
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
IOP Artilce Evolution
32
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
Annual Review
• HTML5 を利用
33
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
MathJax
• ブラウザ上で数式を表示するオープン・
ソース (APS, OSA, Springer などが利用)
– TeX, MathML に対応
34
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
EPUB
• 米国電子書籍では標準に
– XML から作成
• 日本でも EPUB3 を機に普及のきざし
– XHTML を直接作成
– 将来的には XML から
• XHTML と CSS を zip ファイルとしたもの
• Readium リーダー (Google Chrome)
35
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
Readium
36
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
コンテンツ管理
• Contents Management System (CMS)
– RSuite
• XML データを管理・再利用
• 大手学術出版社が導入
• 一度コンテンツを作れば、Web、雑誌、書
籍、など様々に活用できる
– Create Once, Publish Many
37
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
RSuite
38
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
JATS
• Journal Article Tag Suite (JATS)
– NLM DTD 3.1 (draft) が NISO に移行
– JATS version 0.4
• トライアルが 2011/9/30 で終了
– 1.0 へ向けて検討中
39
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
日本語学術論文の XML 化
• NLM DTD は英語が前提
– 多言語に対応していない
• 日本語論文の特徴
– タイトル、著者名、抄録などが日英併記
– NLM DTD では対応できない
40
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
NLM DTD の問題点
• 著者名に言語属性 (@xml:lang) を指定でき
ない
• 多くの要素が 繰り返しができないので、日英
など多言語での記述ができない
– <kwd-group>, <publisher-name>, etc.
• 複数記述のできる要素でも、それらが同一の
実体を別の書き方をしたということがわから
ない
– <name>, <aff>
41
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
SPJ ワーキング・グループ
• Scholarly Publishing Japan
• 構成
– 印刷会社 (中西、小宮山、三美)
– サービス会社 (アトラス、アルテック、日本プリ
プレス)
– 個人 (林、時実)
– JST (久保田*)
– NII (大山*)
* オブザーバ
42
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
SPJ ワーキング・グループ
• NLM DTD のワーキング・グループに多言
語化を提言
• その結果多言語化が実現
– NLM DTD Version 3.1 Draft (2010. 9)
– NISO JATS 1.0 に移行 (2012. 8)
43
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
多言語サポート
• 日本の WG の意見を参考に
• 要点
– @xml:lang による言語指定がほとんどの要
素で可能
– ほとんどの構造の繰り返し記述可能
– 同一のものが繰り返し記述されている場合に、
それがひとつのものの別言語での記述である
ことを示すためのラッパー
44
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
@xml:lang
• ほとんどの要素に指定可能となった
• 言語コードとスクリプト (IANA)
– xml:lang=“en”
– xml:lang=“ja-Jpan”
– xml:lang=“ja-Kana”
– xml:lang=“ja-Hira”
45
英語
漢字まじり
カタカナ
ひらかな
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
繰り返し記述
• ほとんどの構造が繰り返し可能
<kwd-group xml:lang="en">
<kwd>heated air</kwd>
</kwd-group>
<kwd-group xml:lang="ja">
<kwd>加温空気</kwd>
</kwd-group>
• 論文タイトルだけは繰り返しできない
– <trans-title> を使用
46
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
ラッパー
• 著者名の多言語表記
• <name-alternatives> ラッパー
47
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
ラッパー
• 所属機関の多言語表記
• <aff-alternatives> ラッパー
48
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
J-STAGE
• 科学技術振興機構 (JST) が運用する電子
ジャーナル・サイト
– 1999 年開始
– 2,387,426 記事 / 1,658 誌 (2012/9)
• 新 J-STAGE
– 2012/5 に移行
– JATS 0.4 に準拠
49
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
New J-STAGE
50
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012
学術出版 XML 推進協議会
• SPJ ワーキング・グループの発展
• 学術雑誌の XML 出版を推進
51
2012/10/27 TeXユーザの集い
2012 京都
TeXユーザの集い2012