複合機でスキャン 貧乏暇無し、自力でのPDF化 奈良女子大学附属図書館電子情報係 森下映理 本日の内容 ●奈良女子大学リポジトリについて 立ち上げ当初から現在までのいろいろ 初代担当者は登校拒否寸前? 立ち上げ当初はわからないことだらけの 日々でした。 ●本学のPDF化の作業について 貧乏なので、自力で電子化しています 奈良女子大学について 学部・研究科の構成: 文学部、理学部、生活環境学部、大学院人間文化研究科 学生(平成22年5月1日現在): 2,822名(学部学生2,190名、大学院学生632名) 教員総数(平成22年5月1日現在): 206名 鹿総数:最大12頭 奈良女子大学附属図書館について 構成: 情報管理係・情報サービス係・電子情報係 常勤職員:6名 非常勤職員:6名 リポジトリ担当は電子情報係 (常勤1名、非常勤1名) 本学リポジトリについて 平成18年 学内委員会の立ち上げ 「平成18年度次世代学術コンテンツ基盤共同構築事業:領域1」委託業務に採択される! 学内刊行物の調査・把握→公開許諾依頼 リポジトリって何? 近年の刊行物のPDF化 D‐Space 構築(業者に依頼) 平成19年 領域1継続中 10月リポジトリ専任非常勤職員採用 情報収集(DRFメーリングリストへの参加) 学内広報活動の推進 公開許諾依頼 (研究者総覧に登録されている論文について) 平成20年 3月 正式公開 引き続き、個別の著者に対しての公開許諾依頼→登録作業 平成21年 3月末 リポジトリ専任の非常勤退職→後任の学内予算つかず 10月 担当係長交代 (初代担当係長、学外へ) 平成22年 3月 領域1委託業務終了 4月 またもや担当係長交代 (館内の移動) 領域3(近畿領域)と領域2(遺跡リポジトリ)採択される 人員減!!! 累計登録件数 ・少しずつではあるが、登録件数は増えてきている。 ・アクセス数も月ごとに増加傾向。 ・登録件数の割にアクセスが多い? 月別アクセス数 (Item View) Sep‐10 Jul‐10 May‐10 Mar‐10 Jan‐10 Nov‐09 Sep‐09 Jul‐09 25,000 May‐09 0 Mar‐09 400 Jan‐09 600 Nov‐08 1000 Sep‐08 1200 Jul‐08 1400 May‐08 1600 Mar‐08 Sep‐10 Jul‐10 May‐10 Mar‐10 Jan‐10 Nov‐09 Sep‐09 Jul‐09 May‐09 Mar‐09 Jan‐09 Nov‐08 Sep‐08 Jul‐08 May‐08 Mar‐08 登録件数とアクセス数 2010年3月~6月、 エラーでデータ無 20,000 800 15,000 10,000 200 5,000 0 順風満帆ではないが、少しずつ進歩? ■導入当初 ■現在 当初は学内の意識改革が進まず。 ・紀要の許諾が取れない。 そのため、業績DB掲載論文の 著者、出版元にそれぞれ許諾確 認。 様々な種類の業績があり、 許諾確認が難航(件数が伸び悩 む) 少しずつ、認知されつつある。 ・紀要等の公開許諾増加。 ・学内予算が取れず、リポジトリ専 任非常勤減。 知識が追いつかず、試行錯誤。 ・最初は「何がわかっていないかも わからない」状態。 (一件づつ、許諾確認しなくてもいい!) 著者本人や出版団体からの掲載 依頼も増加。 進歩! ・学内予算はつかず・・・ 学生アルバイトさんに手伝っても らったりしながら、少しずつ登録。 やっと、1500件突破 だんだん、わかってきた? ・DRFワークショップやメーリングリ ストで知識を得て、相談できる人 たちに出会う。でも、まだまだ? 現在の本学でのPDF化作業 使用機器およびソフト ● SCAN : Fuji Xerox カラー複合機 DocuCentre‐III C2205) ● OCR: Adobe Acrobat 7.0 Professional と e.Typist V.12.0を併用 基本は Scan→OCR 資料によって、作業手順がかわってくる。 【著者等から提供された資料の形態】 ・紙 or 電子媒体 ・裁断可能 or 裁断不可(裁断後、製本?) ・カラー, 白黒, グレー? ・PDF , WORD, Power Point? PDF化の際の注意点 ●画質 ・荒くなりすぎない。 ・重くなりすぎない。 解像度高 → 画質はよいが、サイズが大きい 解像度低 → サイズは小さいが、画質粗い 家からダウンロードすることを考えると、一論文、15MBくらいが 限界?(阪大さんを参考にさせていただいた) ●透明テキスト 付与(できる範囲内で) PDF化作業の流れ1 【提供された資料の種類】 ①電子媒体 (印刷業者が作成したPDF、著者版のワード ファイルなど) ②紙媒体 (雑誌、図書本体やリプリント等) PDF化作業の流れ2 ①電子媒体 ●印刷業者からのPDF ・透明テキスト付→そのまま登録 ・透明テキスト無→Adobe AcrobatでOCR化 ●著者から提供されたWORD等のファイル →印刷コマンドでPDF作成。 文字や図がずれにくい それぞれのソフトの印刷機能で、プリンターをAdobe Acrobatに選択して、印刷して保存。 PDF化作業の流れ3 ②紙媒体 SCAN ●裁断可能なもの: 裁断機で裁断→複合機のオートシートフィーダでスキャン (PDF化) ●裁断不可なもの: 1ページずつ、スキャン OCR化 (透明テキスト付与) (透明テキスト付与) ●汚れや影の目立つもの e.Typistで画像処理→OCR化 ●汚れがないもの Adobe Acrobat Pro.でOCR化 複合機の設定1:基本設定 ■解像度:400dpi 関東学院大学の論文データ参考に 論文によって変更する場合も。 (ex. 衛星写真の解析画像など詳細な画像が必要な場合は600dpi) ■裏写り防止設定 ■カラーモード 白黒・フルカラー・グレースケールを使い分け 複合機の設定2:カラーモード (白黒とグレースケールの比較) No. カラーモード ① 白黒 ② グレースケール ③ 白黒 ④ グレースケール ⑤ 白黒 ⑥ グレースケール 原稿の画質 写真 写真 文字/写真 文字/写真 文字 文字 ファイルサイズ 559.04KB 361.88KB 558.81KB 371.41KB 84.64KB 362.20KB (参考写真資料:解像度:400Dpi , ファイル形式: PDF, 読み取りサイズ: A6 に設定) ●「原稿の画質」を「写真」や「写真/文字」に設定した場合、「カラーモード」を「白黒」にすると、画 像が粗いだけでなく、ファイルサイズが大きくなってしまう。 ●「原稿の画質」を「文字」にした場合、 「カラーモード」を「白黒」にすると、ファイルサイズはかな り小さいが、黒くつぶれてしまい、画像が見れない状態に。 ●画像の重要度にもよるが、写真などの細かい画像がある資料はグレースケールでスキャンし た方がよい。 ●綴じがきつい資料などは白黒でスキャンすると、影がまっ黒に出てしまい、文字が読めない。 グレースケールでスキャンすると、影がグレーになり、文字は読めるようになる。 OCRソフトについて ●Adobe Acrobat 7.0 Professional (PDF作成ソフト) ●e.Typist v.12.0 (58ヵ国語対応OCRソフト) 現在はこの二つを併用 当初は、Adobe Acrobat Standard を使用していたが、墨消し機能もなく、画像 のゴミを消すのにも苦心。トリミング等で対応。 消しゴム機能のついているDocuworks 6.2 を短期間利用していたが、文書管 理が主体のソフトで使い勝手がよいとはいえず・・・。 結局、Acrobat Professionalを購入。後に複数言語のOCR化のため、e.Typist を購入して現在に至る。 OCRソフトの比較 (ファイルサイズ) 複合機でスキャンしてPDF化したファイルをe.Typist(デフォルト設定)と Acrobat Professional でOCR化。OCR 前とのファイルサイズを比較。 ファイルサイズの比較には、 座主果林:“ろう教育における2つの教育方法”, 奈良女子大学社会学論集, 2010, 第17号, p.243 を使用 解像度 OCR前 e.TypistでOCR AcrobatでOCR 200dpi 43.74KB 196.76KB 42.98KB 400dpi 81.67KB 198.26KB 64.35KB 600dpi 127.31 198.25KB 97.75KB ●e.Typistでは、解像度が違っても、OCR化後のファイルサイズの差があまり ない。PDFから一旦画像化して作業する際に最適化され、ほぼ同一のサイ ズになっている。 (ちなみにe‐TypistでPDFからtiff画像に変換された画像サイズはそれぞれ200dpi=826KB, 400dpi=980KB, 600dpi=956KB) ●Acrobat Professionalでは、OCR化後に最適化され、OCR化前よりもファイ ルサイズが小さくなっている。 e.Typistで保存すると劣化する? e.TypistではPDFファイルを画像に変換するため、解像度の低いPDFファイルを読み込むと 画像が劣化する。←環境設定を操作することによって、改善が可能。 http://pac.mediadrive.jp/faq/index.php?action=artikel&cat=365&id=447&artlang=ja が、当然、きれいにするほど、ファイルサイズは大きくなる。 元画像の精度等によって、設定を変更する必要がある。 OCR後サイズ デフォルト 設定 「きれい」 設定 199KB 2,624KB 画面で見るとデフォ ルトの方は、文字の 後ろに影がうっすら 入っているのが、わ かる。印刷すると、 あまり違いは目立 たない。(元画像の 精度や、プリンター にもよる。) ファイルサイズの比較には、 座主果林:“ろう教育における2つの教育方法”, 奈良女子大学社会学論集, 2010, 第17号, p.243 を使用。 400dpiでスキャンしてPDF化したファイル(198.26KB)をOCR化した。 「きれい」設定では、環境設定の解像度を400dpiにし、認識結果の「図領域の品質」をきれい(最大値)に設定。 OCRソフトの比較 (文字認識の精度) 英語 (661文字/ 1 page) フランス語 (1420文字/ 1page) 誤認識 文字数 正しく認識された 文字の比率(%) e.Typist v.12.0 0 100 e.Typist v.12.0 0 100 Acrobat 7.0 Pro. 0 100 Acrobat 7.0 Pro. 2 99.9 日本語 (1149文字/ 1 page) 誤認識 文字数 正しく認識された 文字の比率(%) e.Typist v.12.0 3 99.8 Acrobat 7.0 Pro. 3 99.8 英語:外国文学研究(奈良女子大学), Vol.28, p.85 仏語:外国文学研究(奈良女子大学), Vol.28, p.113 日本語:前述の座主論文 を利用 誤認識 文字数 正しく認識された 文字の比率(%) ・句読点などを除いた文字数で計算。 ・テストデータは400dpiで読み込み。 (200では粗すぎて、誤認識が多い。ま た、600では、汚れなども読み込んでしま うため、認識率は低くなる) ・今回のデータはかなり認識率が高く出 て、あまり差は出なかった。実際の作業 中は、若干、e.Typistの方が認識率は高 く、特に図や表などの混じった複雑な ページの認識率が高い印象がある。 ソフトの長所・短所 (Adobe Acrobat 7.0 Professional) 長所: 短所: ●OCR化が早い。 ●複数言語が混在する場合、対 応できない。 ●墨消し機能あり。 (画像や文字を墨消し可能なの で、プライバシーに関係するよ うな画像や文字等を消すことが できる。 Standardにはなし。 ) ●Wordやエクセルなどのソ フトに対応。 ●出来上がりサイズが小さ い。 ●透明テキストの確認が面倒。 ●透明テキストの書き換え方法 が複雑。 ソフトの長所・短所 (e.Typist v.12.0) 長所: 短所: ●OCRソフトなので、文字認識率は 高い。 ●多言語対応(58ヶ国語)しており、 Adobe Acrobat Pro. にはない言 語もOCR化可能。 ●複数の言語が混ざった文もOCR化 可能。(日英は完璧) ●認識範囲の指定、透明テキストの 確認、修正が可能。 ●画像編集機能あり。(トリミング、 消しゴム機能、直線描画等) ●Abobe Acrobatでエラーが起きて OCR化できないPDFでもOCR化で きる場合がある。(内緒の話) ●アジア言語(中国語・韓国語等) は文字認識のみでPDFが作成 できない。(v.13.0では中国語、韓 国語も対応している。) ●言語の組み合わせによってはOC Rの認識ができない。 ●PDFファイルを読み込むと、いっ たん1Pずつの画像として認識 し、それぞれ分割して処理を行う ため、作業効率が悪く、認識時間 も長い。 ●デフォルトでPDFを処理した場 合、文字の後ろに影が入る場合 がある。(改善は可能だが、ファ イルサイズが大きくなる。) ソフトの比較 (どのソフトを選べばいい?) ■一長一短あるので、難しい。 画像処理を頻繁に行うのであれば、e‐typistは便 利だが、アジア言語に弱い、作業効率が悪いな ど、短所もあり。 ■目的に合ったソフトを選択しないとダメ。 ■広告を見ているだけではわからないこともある。 体験版やネットの口コミ情報を活用しましょう。 実際に使っているところに聞いてみないとわから ないことも多いです。 PDF化のまとめ ■正直、PDF化はめんどくさいので、紀要等は事 前に出版団体と相談し、印刷業者さんに透明テ キスト付PDFも納品してもらった方がよいです。 ■利用者のことを考えたPDFを作りましょう! (重すぎない、粗すぎない) ■検索されるために、OCR化しましょう! ■どんなOCR化ソフトが必要かは、どんな論文が あるかにもよるので、きちんと検討しましょう。 おわりに ●失敗を繰り返して、今に至っています。 ●自分たちで学習したり、他大学の人に教えても らったりしながら、少しずつ成長してきました。 ●資料の電子化を外注するお金がなくても、PDF はできます。(大変だけど・・・) ●作業は面倒でも、先生方や学生が喜んでくれた り、海外の人に、面倒なILLの手間をかけずに論 文をお届けできたりと喜びもあります。 一緒にがんばりましょう!
© Copyright 2024 Paperzz