資料1

複合機でスキャン
貧乏暇無し、自力でのPDF化
奈良女子大学附属図書館電子情報係
森下映理
本日の内容
●奈良女子大学リポジトリについて
立ち上げ当初から現在までのいろいろ
初代担当者は登校拒否寸前?
立ち上げ当初はわからないことだらけの
日々でした。
●本学のPDF化の作業について
貧乏なので、自力で電子化しています
奈良女子大学について
学部・研究科の構成:
文学部、理学部、生活環境学部、大学院人間文化研究科
学生(平成22年5月1日現在):
2,822名(学部学生2,190名、大学院学生632名)
教員総数(平成22年5月1日現在): 206名
鹿総数:最大12頭
奈良女子大学附属図書館について
構成:
情報管理係・情報サービス係・電子情報係
常勤職員:6名
非常勤職員:6名
リポジトリ担当は電子情報係
(常勤1名、非常勤1名)
本学リポジトリについて
平成18年
学内委員会の立ち上げ
「平成18年度次世代学術コンテンツ基盤共同構築事業:領域1」委託業務に採択される!
学内刊行物の調査・把握→公開許諾依頼
リポジトリって何?
近年の刊行物のPDF化
D‐Space 構築(業者に依頼)
平成19年
領域1継続中
10月リポジトリ専任非常勤職員採用
情報収集(DRFメーリングリストへの参加)
学内広報活動の推進
公開許諾依頼 (研究者総覧に登録されている論文について)
平成20年
3月 正式公開
引き続き、個別の著者に対しての公開許諾依頼→登録作業
平成21年
3月末 リポジトリ専任の非常勤退職→後任の学内予算つかず
10月 担当係長交代 (初代担当係長、学外へ)
平成22年
3月 領域1委託業務終了
4月 またもや担当係長交代 (館内の移動)
領域3(近畿領域)と領域2(遺跡リポジトリ)採択される
人員減!!!
累計登録件数
・少しずつではあるが、登録件数は増えてきている。
・アクセス数も月ごとに増加傾向。
・登録件数の割にアクセスが多い?
月別アクセス数 (Item View)
Sep‐10
Jul‐10
May‐10
Mar‐10
Jan‐10
Nov‐09
Sep‐09
Jul‐09
25,000
May‐09
0
Mar‐09
400
Jan‐09
600
Nov‐08
1000
Sep‐08
1200
Jul‐08
1400
May‐08
1600
Mar‐08
Sep‐10
Jul‐10
May‐10
Mar‐10
Jan‐10
Nov‐09
Sep‐09
Jul‐09
May‐09
Mar‐09
Jan‐09
Nov‐08
Sep‐08
Jul‐08
May‐08
Mar‐08
登録件数とアクセス数
2010年3月~6月、
エラーでデータ無
20,000
800
15,000
10,000
200
5,000
0
順風満帆ではないが、少しずつ進歩?
■導入当初
■現在
当初は学内の意識改革が進まず。
・紀要の許諾が取れない。
そのため、業績DB掲載論文の
著者、出版元にそれぞれ許諾確
認。 様々な種類の業績があり、
許諾確認が難航(件数が伸び悩
む)
少しずつ、認知されつつある。
・紀要等の公開許諾増加。
・学内予算が取れず、リポジトリ専
任非常勤減。
知識が追いつかず、試行錯誤。
・最初は「何がわかっていないかも
わからない」状態。
(一件づつ、許諾確認しなくてもいい!)
著者本人や出版団体からの掲載
依頼も増加。
進歩!
・学内予算はつかず・・・
学生アルバイトさんに手伝っても
らったりしながら、少しずつ登録。
やっと、1500件突破
だんだん、わかってきた?
・DRFワークショップやメーリングリ
ストで知識を得て、相談できる人
たちに出会う。でも、まだまだ?
現在の本学でのPDF化作業
使用機器およびソフト
● SCAN : Fuji Xerox カラー複合機 DocuCentre‐III C2205)
● OCR:
Adobe Acrobat 7.0 Professional と e.Typist V.12.0を併用
基本は
Scan→OCR
資料によって、作業手順がかわってくる。
【著者等から提供された資料の形態】
・紙 or 電子媒体
・裁断可能 or 裁断不可(裁断後、製本?)
・カラー, 白黒, グレー?
・PDF , WORD, Power Point?
PDF化の際の注意点
●画質
・荒くなりすぎない。
・重くなりすぎない。
解像度高 → 画質はよいが、サイズが大きい
解像度低 → サイズは小さいが、画質粗い
家からダウンロードすることを考えると、一論文、15MBくらいが
限界?(阪大さんを参考にさせていただいた)
●透明テキスト
付与(できる範囲内で)
PDF化作業の流れ1
【提供された資料の種類】
①電子媒体
(印刷業者が作成したPDF、著者版のワード
ファイルなど)
②紙媒体
(雑誌、図書本体やリプリント等)
PDF化作業の流れ2
①電子媒体
●印刷業者からのPDF
・透明テキスト付→そのまま登録
・透明テキスト無→Adobe AcrobatでOCR化
●著者から提供されたWORD等のファイル
→印刷コマンドでPDF作成。 文字や図がずれにくい
それぞれのソフトの印刷機能で、プリンターをAdobe Acrobatに選択して、印刷して保存。
PDF化作業の流れ3
②紙媒体
SCAN
●裁断可能なもの:
裁断機で裁断→複合機のオートシートフィーダでスキャン
(PDF化) ●裁断不可なもの:
1ページずつ、スキャン
OCR化
(透明テキスト付与)
(透明テキスト付与)
●汚れや影の目立つもの
e.Typistで画像処理→OCR化
●汚れがないもの
Adobe Acrobat Pro.でOCR化
複合機の設定1:基本設定
■解像度:400dpi
関東学院大学の論文データ参考に
論文によって変更する場合も。
(ex. 衛星写真の解析画像など詳細な画像が必要な場合は600dpi)
■裏写り防止設定
■カラーモード
白黒・フルカラー・グレースケールを使い分け
複合機の設定2:カラーモード
(白黒とグレースケールの比較)
No. カラーモード
① 白黒
② グレースケール
③ 白黒
④ グレースケール
⑤ 白黒
⑥ グレースケール
原稿の画質
写真
写真
文字/写真
文字/写真
文字
文字
ファイルサイズ
559.04KB
361.88KB
558.81KB
371.41KB
84.64KB
362.20KB
(参考写真資料:解像度:400Dpi , ファイル形式: PDF, 読み取りサイズ: A6 に設定)
●「原稿の画質」を「写真」や「写真/文字」に設定した場合、「カラーモード」を「白黒」にすると、画
像が粗いだけでなく、ファイルサイズが大きくなってしまう。
●「原稿の画質」を「文字」にした場合、 「カラーモード」を「白黒」にすると、ファイルサイズはかな
り小さいが、黒くつぶれてしまい、画像が見れない状態に。
●画像の重要度にもよるが、写真などの細かい画像がある資料はグレースケールでスキャンし
た方がよい。
●綴じがきつい資料などは白黒でスキャンすると、影がまっ黒に出てしまい、文字が読めない。
グレースケールでスキャンすると、影がグレーになり、文字は読めるようになる。
OCRソフトについて
●Adobe Acrobat 7.0 Professional
(PDF作成ソフト)
●e.Typist v.12.0
(58ヵ国語対応OCRソフト)
現在はこの二つを併用
当初は、Adobe Acrobat Standard を使用していたが、墨消し機能もなく、画像
のゴミを消すのにも苦心。トリミング等で対応。
消しゴム機能のついているDocuworks 6.2 を短期間利用していたが、文書管
理が主体のソフトで使い勝手がよいとはいえず・・・。
結局、Acrobat Professionalを購入。後に複数言語のOCR化のため、e.Typist
を購入して現在に至る。
OCRソフトの比較
(ファイルサイズ)
複合機でスキャンしてPDF化したファイルをe.Typist(デフォルト設定)と
Acrobat Professional でOCR化。OCR 前とのファイルサイズを比較。
ファイルサイズの比較には、
座主果林:“ろう教育における2つの教育方法”, 奈良女子大学社会学論集, 2010, 第17号, p.243 を使用
解像度
OCR前
e.TypistでOCR AcrobatでOCR
200dpi
43.74KB
196.76KB
42.98KB
400dpi
81.67KB
198.26KB
64.35KB
600dpi
127.31
198.25KB
97.75KB
●e.Typistでは、解像度が違っても、OCR化後のファイルサイズの差があまり
ない。PDFから一旦画像化して作業する際に最適化され、ほぼ同一のサイ
ズになっている。
(ちなみにe‐TypistでPDFからtiff画像に変換された画像サイズはそれぞれ200dpi=826KB, 400dpi=980KB, 600dpi=956KB)
●Acrobat Professionalでは、OCR化後に最適化され、OCR化前よりもファイ
ルサイズが小さくなっている。
e.Typistで保存すると劣化する?
e.TypistではPDFファイルを画像に変換するため、解像度の低いPDFファイルを読み込むと
画像が劣化する。←環境設定を操作することによって、改善が可能。
http://pac.mediadrive.jp/faq/index.php?action=artikel&cat=365&id=447&artlang=ja
が、当然、きれいにするほど、ファイルサイズは大きくなる。
元画像の精度等によって、設定を変更する必要がある。
OCR後サイズ
デフォルト
設定
「きれい」
設定
199KB
2,624KB
画面で見るとデフォ
ルトの方は、文字の
後ろに影がうっすら
入っているのが、わ
かる。印刷すると、
あまり違いは目立
たない。(元画像の
精度や、プリンター
にもよる。)
ファイルサイズの比較には、
座主果林:“ろう教育における2つの教育方法”, 奈良女子大学社会学論集, 2010, 第17号, p.243 を使用。
400dpiでスキャンしてPDF化したファイル(198.26KB)をOCR化した。
「きれい」設定では、環境設定の解像度を400dpiにし、認識結果の「図領域の品質」をきれい(最大値)に設定。
OCRソフトの比較
(文字認識の精度)
英語 (661文字/ 1 page)
フランス語 (1420文字/ 1page)
誤認識
文字数
正しく認識された
文字の比率(%)
e.Typist
v.12.0
0
100
e.Typist
v.12.0
0
100
Acrobat 7.0 Pro.
0
100
Acrobat 7.0 Pro.
2
99.9
日本語 (1149文字/ 1 page)
誤認識
文字数
正しく認識された
文字の比率(%)
e.Typist
v.12.0
3
99.8
Acrobat 7.0 Pro.
3
99.8
英語:外国文学研究(奈良女子大学), Vol.28, p.85
仏語:外国文学研究(奈良女子大学), Vol.28, p.113
日本語:前述の座主論文 を利用
誤認識
文字数
正しく認識された
文字の比率(%)
・句読点などを除いた文字数で計算。
・テストデータは400dpiで読み込み。
(200では粗すぎて、誤認識が多い。ま
た、600では、汚れなども読み込んでしま
うため、認識率は低くなる)
・今回のデータはかなり認識率が高く出
て、あまり差は出なかった。実際の作業
中は、若干、e.Typistの方が認識率は高
く、特に図や表などの混じった複雑な
ページの認識率が高い印象がある。
ソフトの長所・短所
(Adobe Acrobat 7.0 Professional)
長所:
短所:
●OCR化が早い。
●複数言語が混在する場合、対
応できない。
●墨消し機能あり。
(画像や文字を墨消し可能なの
で、プライバシーに関係するよ
うな画像や文字等を消すことが
できる。 Standardにはなし。 )
●Wordやエクセルなどのソ
フトに対応。
●出来上がりサイズが小さ
い。
●透明テキストの確認が面倒。
●透明テキストの書き換え方法
が複雑。
ソフトの長所・短所
(e.Typist v.12.0)
長所:
短所:
●OCRソフトなので、文字認識率は
高い。
●多言語対応(58ヶ国語)しており、
Adobe Acrobat Pro. にはない言
語もOCR化可能。
●複数の言語が混ざった文もOCR化
可能。(日英は完璧)
●認識範囲の指定、透明テキストの
確認、修正が可能。
●画像編集機能あり。(トリミング、
消しゴム機能、直線描画等)
●Abobe Acrobatでエラーが起きて
OCR化できないPDFでもOCR化で
きる場合がある。(内緒の話)
●アジア言語(中国語・韓国語等)
は文字認識のみでPDFが作成
できない。(v.13.0では中国語、韓
国語も対応している。)
●言語の組み合わせによってはOC
Rの認識ができない。
●PDFファイルを読み込むと、いっ
たん1Pずつの画像として認識
し、それぞれ分割して処理を行う
ため、作業効率が悪く、認識時間
も長い。
●デフォルトでPDFを処理した場
合、文字の後ろに影が入る場合
がある。(改善は可能だが、ファ
イルサイズが大きくなる。)
ソフトの比較
(どのソフトを選べばいい?)
■一長一短あるので、難しい。
画像処理を頻繁に行うのであれば、e‐typistは便
利だが、アジア言語に弱い、作業効率が悪いな
ど、短所もあり。
■目的に合ったソフトを選択しないとダメ。
■広告を見ているだけではわからないこともある。
体験版やネットの口コミ情報を活用しましょう。
実際に使っているところに聞いてみないとわから
ないことも多いです。
PDF化のまとめ
■正直、PDF化はめんどくさいので、紀要等は事
前に出版団体と相談し、印刷業者さんに透明テ
キスト付PDFも納品してもらった方がよいです。
■利用者のことを考えたPDFを作りましょう!
(重すぎない、粗すぎない)
■検索されるために、OCR化しましょう!
■どんなOCR化ソフトが必要かは、どんな論文が
あるかにもよるので、きちんと検討しましょう。
おわりに
●失敗を繰り返して、今に至っています。
●自分たちで学習したり、他大学の人に教えても
らったりしながら、少しずつ成長してきました。
●資料の電子化を外注するお金がなくても、PDF
はできます。(大変だけど・・・)
●作業は面倒でも、先生方や学生が喜んでくれた
り、海外の人に、面倒なILLの手間をかけずに論
文をお届けできたりと喜びもあります。
一緒にがんばりましょう!