電子化 KINTORE に載せる成果を「テキストデータ付き PDF ファイル」に

電子化
KINTORE に載せる成果を「テキストデータ付き PDF ファイル」にすることをここでは電子
化と呼ぶ。
テキストデータ付き PDF ファイル作成手順
・紙媒体をスキャンして作成した画像データファイルを
・OCR ソフトでテキストデータを付与し、
・テキストデータ付き PDF ファイル形式で保存する
紙媒体以外で電子化の作業が不要な成果は、
「Office 系で作成した資料の PDF 保存」と「動
画」がある。以下の方法で電子化できない成果についてはリポジトリ部へ照会すること。
動画のファイルサイズが 512MB を超える場合は、リポジトリ部に連絡すること。
1.必要な備品
1)スキャナ
2)
(必要に応じて)裁断機
3)OCR ソフト
3.製品情報も参照のこと。
2.作業
作業を行う成果がプライバシーを侵害していないか確認する。
レントゲンフィルムに映り込んだ患者氏名、患者を特定できる画像などはないか。
引用などで、論文掲載に対しては許諾を取っていてもリポジトリ公開に対して許諾を
取っていない場合の再許諾→問題があると思ったら著者に確認し、再度許諾申請する。
1)紙媒体の成果をスキャナで読み込めるようにする:裁断機
紙媒体が冊子の場合、裁断すればキレイに読み取ることができる。
例えば残り一冊など裁断できない貴重な冊子の場合は、スキャナのタイプにもよるが、
裁断せずに読み込むのがよい。困ったときはリポジトリ部に相談すること。
裁断機には自動と手動のタイプがあり、手動タイプでは刃が垂直に降りてくる垂直裁
断型が便利である。
2)スキャナで読み取る
解像度 400dpi で読み取り、ファイルサイズは上限 200MB までに収めること。解像度の
数値は大きいほど鮮明だが、ファイルサイズが大きくなる。ダウンロードする利用者の
PC 環境はさまざまでなため、できるだけ軽くしておくことをお勧めする。
ファイルサイズが 200MB を超える場合は、分割して掲載する。分割・結合にはフリー
ソフト CubePDF などを使うとよい、
OCR ソフト側からスキャナを制御することもできるので、使用するソフトや機器によっ
ては、次の3)と合わせて読むこと。
ScanSnap の設定例
ファイル形式:PDF
解像度:400dpi
枠消去:上下左右各 1 ㎝程度
連続読み取り:ON
カラーモード
カラー写真:カラーモード
白黒写真:グレースケール
3)OCR ソフトでテキストデータ付き PDF ファイルにする
スキャナを使って画像化した成果の文字をテキストデータに変換するソフト。
e-typist、Acrobat DC それぞれの使用方法は別途 PDF ファイルでページに掲載
画像ファイルと読み取ったテキストデータを同時に画面上に表示し、誤変換がないか
などを確認しながら修正できる。保存は適宜行い、PC トラブルなどに備え加工後のデー
タを別名で保存するとよい。
4)KINTORE 掲載時のファイル名:統一ルール
KINTORE 内には各機関の成果が掲載されるため、統一ルールを設ける。
半角英数字を使用し、必ず冒頭に 5 ケタの機関コードを含むこと。
例:八尾市立病院年報 1 号 90 ページから 100 ページ
27031nenpo01090.pdf
八尾市立病院年報 25 号 2~21 ページ
27031-nenpo-025-002.pdf
機関コード以降は各機関でソートした際に矛盾の生じないように設定するとよい。
桁数を予想して、ゼロを付与する(例 2 ページ:02、002、0002)とよい。
ハイフン(-)またはアンダースコア(_)で区切るとわかりやすい。
ファイル名に推奨する文字
○半角英字 abcdefghijklmnopqrstuvwxyz
○半角数字 1234567890
○記号 ハイフン-、アンダースコア_
文字化けの可能性がある全角、OS 環境に依存する特殊記号の使用は避ける。
×ABCDEFGHIJKLMNOPQRSTUVWXYZ().,$|\,半角中点
3.製品情報
1)スキャナの種類(一例)
(1)フラットベッドスキャナ
原稿をガラス台に固定し、下から光を当てて読取装置を動かして画像を読み取る。
安価だが、1 枚ずつ取る手間がかかる。
(2)ODF オートドキュメントフィーダスキャナ
自動読み取り装置付きスキャナ。紙をセットすると自動的に取り込むことができる。
両面同時にスキャン出来て便利。
(3)ブックスキャナ
読み取り面が角まであり裁断せずに読み込むことができる。裁断出来ない本などに。
(4)スタンドスキャナー
スキャナの下に本を広げた状で読み取るため、裁断せずに読み込むことができる。
裁断出来ない本などに。
2)OCR ソフト
e.Typist v.15.0
Adobe Acrobat DC
読み取り革命 v.15
などがある。
4.参考資料
「資料の電子化(スキャン、OCR)」
関西福祉大学 西本 朱美 氏
近畿病院図書室協議会第134回研修会 「資料の電子化(スキャン、OCR)」配布資料
「紙資料の電子化(スキャン・PDF化・OCR処理)」
森下 映理 氏
https://ir-suishin.repo.nii.ac.jp/?action=pages_view_main&active_action=
repository_view_main_item_detail&item_id=96&item_no=1&page_id=25&block_i
d=42
「機関リポジトリと著作権 Q&A」
黒澤 節男 氏
http://ir.lib.hiroshima-u.ac.jp/ja/00023065