専門資料論 1.情報の生産サイクルと情報量の増大 (1)情報の生産サイクル 情報の生産者は、ある時点で情報の利用者でもある。情報の受け手である研究者は自分 の研究のために情報を入手し、それを研究のなかに入れて他の人に伝達する。 情報伝達の経路は、フォーマルなものとインフォーマルなものに分かれる。ここで問題 にするのはフォーマルな情報であるが、インフォーマル・コミュニケーションも極めて重 要な要素である。 インフォーマルなコミュニケーション:プレプリントの交換、私信、研究仲間との討 論、学術会議、電子メール・メーリングリスト・掲示板等を利用したコミュニケーション (2)情報量の増大 P ric e によれば、(『リトルサイエンス ビッグサイエンス』創元社 1970)1665年に 最 初の 科 学雑 誌 が創 刊 され た が、その後、世界の科学関係雑誌は、 15年間で2倍という ペースで増大してきた。また、雑誌数が300誌になったとき抄録誌が出現している。その 抄 録誌 も すで に 300誌 を超 えている。世界の一次情報発生件数は、次のように推定され る。 雑誌記事・・・・・・・・・・・・・・・・・・・・・・・・・・・400万件 特許・・・・・・・・・・・・・・・・・・・・・・・・・・・・・100万件 技術レポート、会議資料、学位論文等 ・・・・・・・・・・・・20∼30万件 計 600万件(1980) BLDSCにおける継続受け入れ雑誌の数 1965年 2.6万タイトル 2004年 26万タイトル ほかに、300万冊以上の図書、約50万件の会議録、科学系の500万件の レポートを所蔵。主として複写サービスを目的とする。 2001年には、全世界から約1億件の複写依頼に応じてきた。 注)BLDSC(British Library Document Supply Centre) 英 国 図 書 館 文 献 供 給 セ ン タ ー 。 1973年 に 設 立 さ れ た B L L D ( B r it is h L ibr a r y L e nding D ivision)英国図書館貸出局が1985年改称されてBLD SCとなった。科学技術を初めとして 1 次資 料 を網 羅的 に 収 集し、 イギリス内外から年間約 400万件の文献複写等の依頼を受 け、文献提供の世界的なセンターになっている。 - 1 - このように世界中における情報の生産量は爆発的に伸びてきている。そのためには、能 率よく情報を検索するためのツールみが必要となる。そのための手段として「索引誌・抄 録誌」というものが生まれた。 (3)情報源の分散 1次情報の情報源への分散は、通常図のようなパターンを示す。横軸は、対数目盛りで ある。 縦軸:年間の記事・論文累積件数 横軸:年間記事・論文数の多いものから順に並べたときの、収録雑誌種類数 一般に S(r)=a log(r/p) a は直線の傾き、pは直線を延ばしたとき横軸と交わる位置のr値を示す。これらのパラ メータは、分野の特徴によって変わるのはもちろん、規模やサンプル数によっても変わ る。この経験則はブラッドフォードの法則(Bra dford' s la w )と呼ばれる(直線部分だけが この分布関数によって表される)。この分布から外れた部分のうち,rが小の部分の雑誌を コアージャーナル(Core journal)、 直線部分を重要雑誌(Leading journal)、rが大の部 分の雑誌を周辺雑誌 (P eripheral journal)ということがある。物理・応用物理編と化学・化 学工業分野とでは、グラフを見れば分かるように、分布の様子が顕著に異なる。前者で は、少数の雑誌に情報が集中する傾向が認めらるのに対し、後者では多くの雑誌に情報が 広く分散しているのが認められる。 ブラッドフォードの法則は、研究者の執筆論文数に関するロトカの法則(Lotka's law)と 数学的にはほぼ等しいことが確かめられている。 注)ロトカの法則:Che mic a l Abstra c tsの1907年から1916年の10年間の累積索引の著者の 数を数えることにより見出した著者の生産性に関する法則。 (4)情報伝達メディアの変容 1.印刷媒体資料 中国で紙が2世紀に発明された。その後15世紀ヨーロッパにおけるグーテンベルクの活 版印刷以来、大量印刷・大量出版の紙を用いた印刷媒体資料の黄金時代が到来する。紙は ①記録が容易である、②持ち運びができる、③長期の保存が可能などの点が歓迎され、情 報伝達メディアの変化が進んでも、依然としてまだ他のメディアを圧倒している。 2.電子(磁気)媒体資料 大容量の電子媒体資料が開発され、新技術による種々のニューメディアが出現した。今 後これらのメディアが紙に取って代わることも予想される。 a.磁気媒体(磁気テープ、磁気ディスク、磁気カード) コンピュータが読み書きできる、外部記憶装置としての磁気メディア。フロッピーディ - 2 - スクは記憶容量は小さいが、現在コンピュータの標準的な記憶装置として多く用いられ る。 b.光ディスク 金属薄膜の円盤に微少な穴などの形でデータが記録してあり、レーザー光線を当て反射 する光の変化で信号を読み取るデータ記録メディア。通常、円盤はプラスティックなどで コーティングされている。 LD (レーザーディスク)やD V D 、C D 、P D などが代表的で MO(光磁気ディスク)も広い意味では含まれる。大量の情報を蓄積でき、しかも高速で ランダムなアクセスが可能である。増大する情報の蓄積メディアとして利用が進んでい る。再生専用型、追記型、書き換え可能型の3種類がある。 (1)CD-ROM 直径12c m、8c mのコンパクトディスクで。約640MBの情報が記録できる。CD-ROMは 読込専用だが、他に追記型 ( C D - R ) 、読み書き型 ( C D /R W ) も普及している。書誌データ ベースや娯楽ものなどあらゆる種類のCD-ROMコンテンツが作られている。 (2)DVD CDと同じ直径 12cmのディスク。片面1層方式メディアの容量は4.7Gバイト、片面2層 方式で8.5GB、両面各1層記録で9.4GB、という大容量記憶装置。 DVDには読み込み専用 のDVD-ROMのほか、追記型の DVD-R、DVD+R、書き換え可能型のDVD-RAM、DVDRW、D V D +RW等の規格が乱立している。CD -RO Mに代わる大容量記憶装置の代表格で ある。 d.電子資料の今後 電子資料は、単に文字情報を納めるものにとどまらず、音声や静止画像、動画像なども 同時に収録することができる。この点で、紙メディアとは決定的に異なる。印刷物とは全 く違う新しい表現方法が期待できる媒体である。文字、音声、画像などを一体として収録 したものをマルチメディアという。 また、こういった電子媒体資料は単に固定した容器に納められているとはかぎらない。 どこかに電子的に保存され、それをネットワーク上で(例えばインターネット)、いつで もどこからでも、オンラインで必要に応じて利用するという形態が可能である。 固定的な容器に納められた電子資料をパッケージ系電子資料、ネットワーク上にのみ存 在する電子資料をネットワーク情報資源という。 e.電子資料の問題点 ・媒体自体の耐用年数が未知数である。使われ始めて日が浅く、誰にも本当の耐用年数が 分からない。 ・媒体自体は長持ちしたとしても、次から次へと新しい媒体が生まれ、いつまでその媒体 が生き延びるが分からない。再生装置も10年程度で事実上利用できなくなるおそれがあ る。また記録された内容を再生するための環境として、OSやアプリケーションが必要で あるが、長年経過すれば対応できなくなる可能性がある。したがって本格的に保存しよう - 3 - と思えば、適宜メディア変換していく必要がある。 ・印刷資料をデジタル化した場合、原資料と全く同じものができるわけではない。原資料 とよく似ているというだけのことである。特に芸術系資料の場合、損失度は大きい。 ・ネットワーク情報資源の場合、その存在自体が不安定である。→定期的なアーカイブが 必要となる。 - 4 - 2.主な1次資料 1次資料 (P rimary source) オリジナルな研究成果を記録した資料。 (1)レター論文(速報論文・短報) 教科書p.99 先取権(プライオリティ、priority)の確保とより速い公表を目的とした資料。完成した論 文を発表する前に、その研究の新発見の部分や結論だけを短くまとめ、投稿したものをさ す。学協会誌その他の雑誌にレター論文として投稿される。通常学術雑誌では、内容を審 査する「査読」という制度があるが、レターに関しては査読がないので、素早く掲載され る。レターだけを集めて独立した雑誌をレタージャーナル(Letter journal)という。 原著論文の刊行までの時間的なおくれを解決し、重複研究などを避けるためである。 P hysical review letters. Applied physics lettersといったレタージャーナルがある。 (2)レビュー 教科書p.100 特定主題に関して発表された文献を総覧し評価することによって今後の研究動向を示唆 するもの。総説、展望といもいう。内容的には批評的評価を重視したものと、解説的なも のがある。レビューには、雑誌論文の一部として掲載される場合と、レビュー専門の雑誌 と し て 出 版 さ れ る 場 合 ( レ ビ ュ ー 誌 と い う ) と が あ る 。 レ ビ ュ ー 誌 に は 、 A dva nc e s i n...、Annual Review of...、P rogress in ...といった名称がよく用いられる。 (3)テクニカル・レポート 教科書p.58、134 広義には、研究機関において研究グループあるいは個人の研究成果を管理機関に報告す るとともに、主として機関内や同じ分野の研究者に対する情報伝達を目的とした研究報告 書をいう。狭義には、アメリカにおいて研究助成機関に対する義務として、一定の形式で 研究成果を報告する研究報告書をいう。 速報性がある、内容が豊富、出版形態が特殊である(軽印刷、マイクロフォームなど) の特徴がある。アメリカで政府の援助を受けた研究の報告としてテクニカル・レポートが 提出されるケースが有名である。 テクニカルレポートを対象とした独自の2次資料をもつ。 ・P Bレポート 米国政府各省の委託研究レポートより成る。 ・ADレポート 米国国防省の委託研究レポート。 ・NASAレポート 米国航空宇宙局の委託研究レポート。 ・JAERIレポート 日本原子力研究所 (4)学位論文(thesis、dissertation)教科書p.65、103 学位を取得するための研究成果の報告書。学位を授与する大学に提出され、公刊されな - 5 - い場合が多いので入手し難い1次資料である。日本では「修士」と「博士」がある。独自 の2次資料をもつ。 ・Dissertation abstracts international (University Microfilms International社) P roQuest Dissertations and Theses(データベース版、検索だけなら無料) 同社は学位論文のマイクロフォームによる複製、提供、書誌情報データベース化を行っ ている。さらに近年ではデジタル化も推進している。 日本では、国立国会図書館が1975年以来大学から直接収集し(収集率95% )、『国立国 会図書館所蔵博士論文目録』を刊行している。最近博士論文のデジタル化事業が始まっ た。 (5)特許資料 教科書p.60、136 発明などに関して特許制度に基づいて作成される願書、明細書と図面、特許公報、審査 関係書類の総称。 特許明細書(日本では、特許広報) 発明の内容を詳細に記述したもの。 特許広報 特許庁が行政上の必要から公示する事項を掲載するもので、国によって形式 が異なる。日本では、特許広報が、両者を兼ねている。 抄録誌(日本では、公開特許出願抄録) 明細書の抄録。 索引誌 索引誌には分類から探す分類別索引と、公開番号順索引、出願人索引がある。 特許資料の検索は、特許庁の特許電子図書館(IP D L)で行えるほか、パトリス社が提 供 する P A TL I S等 の 民間 サ ービ ス でも 行 える 。 P A T L I Sは 、 2001年に日本特許情報機構 (Japio)から引き継いだ事業である。。 米国特許商標庁 USP TO P atent Full-Text and Full-P age Image Databasesを通して、 特許情報を提供している。 欧州特許庁 esp@cenetを通して、特許情報を提供している。 (6)会議資料 教科書p.61、106 学術的な内容を持つ会議や研究集会の開催に伴って作成される一連の資料。具体的に は、開催予告(カレンダー)、日程表、要旨集、予稿集、会議録(proc e e dings)などが あり、発表の際に用いられたスライドや配付資料も含まれる。会議資料は、公開されると は限らず入手が困難な場合が多い。会議資料は会議参加者以外には手に入りにくい。この ように入手困難な資料を灰色文献と呼ぶ。 ○灰色文献(gray literature) 発行や所在の確認入手が困難な資料。典型的には、テクニ カルレポート、会議資料など。 - 6 - 会議資料の2次資料 会議出版情報誌、会議論文索引誌、会議録所蔵目録などの種類がある。 ・会議録所蔵目録 科学技術振興機構 資料所蔵目録 2001年版 JST, 2001 雑誌や技術レポートなどとともに、会議資料約53,000件が収録されている。 国立国会図書館所蔵科学技術関係欧文会議録目録 国立国会図書館, 1972− BLDSCは世界最大の会議録コレクションを持ち会議録目録を発行していた。 Index of Conference P roceedings しかし2004年以後廃止され、British Library P ublic Catalogue (BLP C)を通して、会議資 料を無料で検索できる。 (7)規格資料 教科書p.142 ・国際規格 ISO(国際標準化機構) IEC(国際電気標準会議) ・国家規格 JIS(日本工業規格) JAS(日本農林規格) ANSI(アメリカ) BS(イギリス) DIN(ドイツ) ・団体規格 ASME(アメリカ機械学会) IEEE(アメリカ電子電気技術者協会) IEEE規格は事実上国際規格である。 ・地域規格、官公庁規格、社内規格 ・規格の2次資料 JIS総目録(日本規格協会)などがある。 (8)学術雑誌 教科書p.62 雑誌とは、「逐次刊行物の一種で、通常、週刊から季刊程度の刊行頻度で定期的に刊行 される出版物。同一の誌名を掲げ、毎冊、逐次番号を持ち、多数の執筆者による論文・記 事等を収録するもの」 雑誌は、科学技術の分野において、1次情報を伝達する手段としてより多く一般的に用 いられる。そして定期的に出版されることが多いため、最新の情報を自由に報告でき、利 用者の側からみると常に新しい情報が保証されるという媒体である。通常内容の信頼性、 記述の正確さ、質の高さについて審査(レフリー)を経たのちに出版されるので、出版ま でに時間のかかるのが難点(およそ投稿から出版までに9ヶ月)。 ・特性 速報性(図書に比べ)、刊行の継続性、著者の多様性、個々の論文・記事の情報は断片 的 - 7 - ・雑誌の書誌 Ulrich's P eriodicals Directory (Bowker) 雑誌新聞総カタログ 現在刊行中の21,000件以上の雑誌新聞の情報を掲載 メディアリサーチセンター ・所蔵目録・総合目録 学術雑誌総合目録 和文編、欧文編 国立情報学研究所編集 欧文編1998年版、和文編2000年版が印刷体で出版されたが、現在印刷版はない。 NACSIS-CATにおける雑誌データベースを元にWebcat P lusを通して広く提供。 国立国会図書館所蔵欧文雑誌目録 1980年代で発行停止 国立国会図書館所蔵和雑誌目録 〃 雑誌の大規模な所蔵目録は印刷体で発行するのは事実上困難。世界的にWebOP ACを使 う傾向にある。 (8)学術図書 - 8 - 3.目次誌、索引誌、抄録誌 (1)2次資料とは 1次資料:オリジナルな研究成果を記録した資料 2次資料:1次資料を探す手がかりとなる資料 書誌・目録・索引類がある。 ・書誌(bibliography):文献の書誌事項(著者やタイトルなど)を列挙した文献一覧。一般 書誌、特定主題の書誌、特定時代の書誌、特定人物の書誌等がある。 ・目録(catalog):書誌に所在情報がついたもの。catalog ・索引(index):論文や図書中の論文の書誌事項を、ある一定の体系に従って文献を配列し 検索できるようにしたもの。個々の文献の内容を要約した抄録(abstract)が記載されるこ ともある。 目録は通常、図書1冊以上、雑誌全体というように、物的な存在に対しての2次資料であ るのに対し、索引とは「物的な存在」のさらに部分に対して案内するための2次資料(2次 情報)である。 例:図書の巻末索引、詩の語句索引、雑誌記事索引、新聞記事索引。 百科辞典・ハンドブックなどのように、1次資料を整理し圧縮加工して提供するもの も、2次資料に含めることがある。 2次資料のうち、雑誌論文を主とした対象として、定期的に刊行されるものに、索引誌、 抄録誌等がある。 (2)索引誌と抄録誌 教科書p.108 a.目次誌 雑誌の目次だけを集めて速報する雑誌。 個々の記事の正確な書誌事項の記載、内容の詳しい把握等は行わないが、早く情報を知 らせることができるという点ですぐれる。 Cur r e nt Co nte nts 1961− 7分野(Institute for Sc ie ntific Informa tion社→Thomson ISI社→Thomson Scientific社→現在はThomson Reuters社)教科書p.128 KWIC索引で論文中の単語からの検索が行える。 現在では利用の中心は印刷物ではなく、CD-ROMやWebからの検索に移行している。 Web版をCurrent Contents Connectという。 ◎KWIC索引 Keyword in Context 論文や図書のタイトルを、タイトル中の個々の語から検索できるようにした索引であ る。検索の対象となる語を中央に配し、その語の前後のタイトルの一部を所定の範囲内で - 9 - 表示する。IBMのルーン(Hans P eter Luhn)によって1950年代に開発された。 ストップワード・・・冠詞や接続詞、前置詞などのように、検索上意味のない語を省くた めのリスト ◎KWIC索引の特徴 1)タイトルを入力しさえすれば、後の処理はすべてコンピュータが自動的に実行してくれ る、手間のかからない方法である。 2)タイトル中意味のあるどの語からも探せる。 3)検索語の前後の語句が示されており、その語がどういう文脈で用いられているかが分か る。したがってその文献が必要なものかどうかの判断がしやすい。 この特徴を「文脈保持」という。日本語KWICも存在するが、日本語の場合語と語の区切 りが不明確であり、作りにくい。次の例で言えば、科学技術や情報検索、書誌情報といっ た語が1語とするのか、2語とするのかといったことが簡単には決定できない。欧米語の場 合は、語と語の区切りにスペースがあるので、機械的に決定できる。しかしハイフンを含 む複合語の場合などは同様の問題が起こる。 よく似たものに、KWOC(Keyword out of Context) がある 日本語KWIC索引の例 - 10 - b.索引誌 特定の記録資料に含まれる情報を項目として抽出し、書誌的事項を与え、ある一定の体 系に従って配列したリストを雑誌として定期的に刊行するもの。索引項目は主題、著者、 タイトルなどが通常用いられる。索引の対象となるのは主として雑誌論文である。雑誌の 他にテクニカルレポート、学位論文、会議録等が含まれることもある。 I ndex M edicus 1960−2004(National Library of Medicine : NLM 編集)教科書p.117 医学関係の代表的な索引誌。1960年代のMEDLARSの実験で有名。MeSHという著名な シソーラスによりインデクシングされている。またオンライン・データベース名を MEDLIN Eという。2004年に印刷版の発行を停止。MEDLINEあるいはその無料公開版で あるP ubMe dによって利用できる。提供機関は、N LMの一部門である、N CBI(N a tiona l Center for Biotechnology Information)。 Science Citation I ndex 1961− (Thomson Reuters社)教科書p.123 (現在の名称:Science Citation Index Expanted) Arts & Humanities Citation Index Social Science Citation Index 引用索引(c ita tion inde x)の代表的存在であり、極めて重要な雑誌。ユージン・ガー フィールド(Eugene Garfield)が着想し、事業化した。ターゲットとなる一つの文献をま ず決める(Aとする)。次に、Aが後に他の文献によって引用されていくわけであるが、 引用索引を利用すれば、Aがどの文献によって引用されたかを知ることができる。 文献の主題内容を索引項目として検索の手がかりとする索引とは異なり、文献に付与さ れた引用文献を索引項目とするところに特徴がある。 現在ではWeb版データベースしか存在せず、上記3誌等を統合したWeb of Scienceとい うデータベースもある。 著者名や、キーワードから必要な論文を見つけ、その中に引用されている文献から、さ らに文献検索を行うことが出来るほか、こういった引用関係を大規模に遡ることにより、 ある現象に関する研究の影響関係を知ったり、ある研究分野全体の研究進捗関係を見渡し たりすることができる。 また引用索引は、研究者の評価(論文がどの程度引用されているか)や、研究機関全体 の評価(所属研究者の引用総体を調べる)等にも利用される。 インパクト・ファクタ(impa c t fa c tor) 特定のある雑誌が1論文あたり平均何回引用さ れているかを算出し、学術界における雑誌の重要度を示す指標。ストレートに個々の論文 や著者の評価に使えるものではない。 http://mlib.kitasato-u.ac.jp/homepage/seminar1.html - 11 - 雑誌記事索引 人文科学編 科学技術編 1950-1995 (国立国会図書館)教科書p.121 国立国会図書館編集。わが国の代表的な索引誌。人文社会編と科学技術編とがある。印 刷版は1995年に終了し、その後CD -RO M版とオンライン版が提供されている。冊子版当 時は、分類順に配列され、件名参照表により件名から該当する分類項目へ誘導されてい た。索引のない索引誌というお粗末なものであった。オンライン版になって初めて、タイ トル中の単語から検索できるようになり、曲がりなりにキーワード検索が行えるように なった。NDL-OP ACを通して、またNIIのCiNiiを通して、無料で検索できる。 c.抄録誌 索引誌では原論文の内容はほとんど分からないが、抄録誌では、主題内容を簡単にまと めた短文がついているため、論文の内容を即座につかむことができる。しかしその分速報 性に欠けることになる。 ◎抄録 (abstracts) 記事内容の概略を迅速に把握する目的で作られた文章で、主観的な解釈や批判を加え ず、記事の重要な内容を簡潔かつ正確に記述したもの(SIST01による定義)。 内容圧縮のレベルによって、指示的抄録と報知的抄録。作成者によって、著者抄録、第 三者抄録に分類される。 指示的抄録(Indicative abstract) 原記事の主題とその範囲を説明した抄録で、原記事を読む必要の有無を判断するのに役 立つように作成されたもの。 報知的抄録(Informative abstract) 原記事の内容(結果、結論を含む)を記述した抄録で、原記事を読まなくても内容の要 点が理解できるように作成されたもの。 著者抄録(Author abstract) 論文や記事の執筆時に、著者自身によって作成された抄録。原文と同時に同一箇所に作 成されるので、時間と費用がかからない。また著者自身が作成するため、内容に関して誤 解がないなどの長所がある。しかし、客観性に欠ける、著者が必ずしも抄録の作成の基本 を熟知しているとはかぎらない、などの欠点もある。 雑誌によっては、著者抄録を付することが義務づけられており、通常抄録誌ではこの著 者抄録をそのまま採用する。LISAの例。(Library and Insormation Science Abstract) 第三者抄録 著者でない第三者が原記事の内容を読んで作成する抄録。専門知識を有し、かつ抄録作 成の基本を知った人が作れば、内容が客観的でかつ品質のよい抄録が得られる。しかし人 材の確保が困難、作成の時間がかかる、費用がかかる、などの欠点がある。 - 12 - Chemical Abstracts 1907− 教科書p.110 アメリカ化学会(Ame ric a n Che mic a l Soc ie ty:ACS)の下部組織であるCAS(Che mic a l Abstrats Service)が発行する世界最大の抄録誌。化学分野を広く網羅する。 対応するデータベース版には、CA SEARCH、CAplusなど多数がある。 科学技術文献速報 p.115 科学技術振興機構(JST、Ja pa n Sc ie nc e a nd Technology Agenc y )(旧JICST、旧日本 科学技術情報センター、旧科学技術振興事業団情報事業本部)の発行する日本の代表的な 抄録誌。機械工学編など11分野に分かれる。収録対象は、外国雑誌4300種、国内雑誌8000 種で、外国雑誌も多数収録されている。J STの提供するオンライン情報検索システム「J DreamⅡ」では、JST P lusという名称のデータベースとで11分野の統合版が検索できる。 JST科学技術用語シソーラス(2008年版)によって、統制語によるキーワードが付与さ れている。 - 13 - 4.データベース 教科書 p.154 (1)データベースの定義 1.あるデータの集合の一部または全部であり、少なくとも一つのファイルから成るデータ の集合であって、与えられた目的またはデータ処理システムを満足させるもの(JIS情 報処理用語X0004-1981)。 2.論文、数値、図形その他の情報の集合物であって、それらの情報を電子計算機を用いて 検索するように体系的に構成したもの(著作権法)。 b.データベースの種類 (1)文字を中心としたデータベース 書誌データベース、全文データベース (2)数値を中心としたデータベース 統計データベース、株価データベース、物性データベース (3)画像を中心としたデータベース (4)音声を中心としたデータベース もともと文字データベースから始まったが、数値、画像、音声などのデータベースが急 速に整備されつつある。文字データベースの中では、全文データベースの伸びが著しい。 ・書誌データベース タイトル、著者、出版者等の書誌事項と、内容を表す索引語、抄録から構成される。文 字を中心としており、扱うものは2次情報である。主要な索引誌、抄録誌の大多数は書誌 データベース化されており、通信回線を通して直接オンラインで利用するほか、磁気テー プ、CD-ROM等でも頒布されている。 ・全文データベース 図書や雑誌論文といった1次情報が電子媒体に文字情報として収められ、テキストその ものをコンピュータ上で閲覧したり、検索したり、加工したりすることができるもの。も ともと印刷資料であったものをコンピュータに入力して作成されるものと、最初から電子 媒体として作成されるものとがある。また、物ではなく情報の集まりとなっていることか ら、ネットワークを通して、必要なときに自在に流通させることができる。古典的な資料 はどんどん全文データベース化されつつあるが、新しい資料に関しては著作権の制限が あって、全文データベース化は難しい。 図書、雑誌論文、新聞記事、ニュース記事、企業情報、医薬品情報など幅広い全文デー タベースがあり、商業ベースでも提供されている。 (2)データベースの特性 1.公開・共用性 - 14 - データベースは作成者以外に対して公開されなければならない。個人が自分で利用する ために作成したデータベースは単なる「ファイル」であって、データベースとはいえな い。一定の手続きを経て公開され、不特定多数の人々が利用できるようになっている必要 がある。 2.汎用性 データベース自体は特定の目的を持っていない。様々な利用者が様々な目的で利用でき るようになっていなければならない。たとえば経済学分野の雑誌論文のデータベースであ れば、経済学者や経済学部の学生、あるいは官庁や民間のエコノミスト各々が独自の目的 のために利用することになろう。 (3)書誌データベースの要件 1.一定の量がある データベースとして成り立つためには例えば数万件以上というように、ある程度以上の 量が必要である。現在提供されているデータベースの中には、1000万件近い巨大なものも ある。 2.短期間に更新される 3.検索対象となる項目数が多い 現在利用度の高い書誌データベースや、新聞、判例、統計等のデータベースは以上の要 件を満たしている。 (4)書誌データベース発展の経過 1.情報量の増大と索引・抄録誌の創刊 2.索引・抄録誌の利用と編集における問題 文献量の増大により、編集作業を人手で行うのが困難になった。 蓄積される情報量の増大により、印刷物による検索が困難になってきた。 3.米国国立医学図書館の索引誌編集作業の機械化と機械検索 NLM(Na tiona l Libra ry of Me dic ine )は、Curre nt List of Me dic a l Litera tureの編集を機械 化する調査を行った。新しい索引誌 Index Medicusが1960年から刊行された。1962年には コンピュータを用いてデータベースが作成され、これをもとに印刷物も作られるように なった。1964年にはコンピュータを用いたバッチ処理による機械検索サービス (MEDLARS)が始まった。後にMEDLINEというオンラインシステムに移行する。 NLM:LC、NLM、NAL。NAL(National Agricultural Library)とともに、アメリカの 3国立図書館の一つ。NLMとNA Lはそれぞれ医学(N LM)、農学(NAL)分野の蔵書を所蔵 - 15 - し、各分野の専門情報センターの役目を果たす。さらに各分野の索引データベースを作成 ・提供している。図書館機能のほか、抄録・索引サービス機関としての機能を持つ。 この成功は米国の索引・抄録作成サービス機関(Abstra c ting & Inde xing Agency)に刺激 を与え、1979年までには100種類のデータベースが作られた。 4.オンライン文献検索システムの開発 1960年代に、NASAの委託を受けたロッキード社はDIALOGという商用のオンライン文 献検索システムを開発した。1972年に、ロッキード社は、自社のコンピュータとソフト ウェアを利用し、索引・抄録作成機関の提供する磁気テープを入手して、商用オンライン 検索サービスを開始した。これらば順調に成長し、多くの機関が同様なサービスを始め た。 従来の学術中心のデータベースに加え、経済・ビジネス分野のデータベース、判例や新 聞の全文データベース、統計データベースなどが出現し、広く利用されるようになった。 現在では百科事典、各種辞典、人物情報、住所録、古典作品の全文データベース、雑誌論 文の全文データベースのほか、マルチメディアデータベースも出現し、あらゆるデータ ベースが大量に生産され、提供されている。 5.日本のオンライン検索サービス 1) JOIS わが国における商用オンラインシステムの開発は、JICST(日本科学技術情報セン ター、現JST、科学技術振興機構)が先導的役割を果たしてきた。 1968年 抄録誌『科学技術文献速報』の編集を機械化 1973年 JOISの開発開始 1976年 JOIS−Ⅰシステム完成 1997年 JOIS−Ⅳに移行(Webを通して利用可能となる) 2006年 J Dreamと統合し、J DreamⅡという名称になる。 2) 特許情報、経済情報 このほかわが国で独自に開発されたシステムとして、次のようなものがある。 ・P ATOLIS 日本特許情報センター(JA P A TIC)の提供する特許情報検索システム。JAP ATICは後に、 日本特許情報機構(JAP IO)と名称変更。 日本の特許・実用新案・意匠・商標・審判の検索システム 1979年 サービス開始 2000年 民間企業P ATOLISがサービスを引き継ぐ - 16 - ・日経テレコン 日本経済新聞社 1972年、財務情報NEEDS-TS/Iのサービスを開始。 1981年、新聞記事情報NEEDS-IRのサービスを開始。 1983年 日本経済新聞社ニューステレコンとして、自社のデータベースを中心に、国内、 海外の各種データベースを取りそろえビジネス系総合データベースとなっている。 1998年 日経テレコン21と改称 (5)データベース提供サービスのしくみ 1.プロデューサ データベースを作成する機関(企業や研究機関)。データベースの素材を収集し、加工 ・分析を加え、利用に供する形式にする等の工程が必要である。 国立国会図書館や科学技術振興機構、学協会、新聞社、大学の研究機関、CA S, N LM, INSP ECなど ソースデータの収集に当たっては、原データの著作権への対応、データの網羅性、信頼 性や新鮮度の確保、継続的な収集体制の整備が重要である。加工・分析には、検索の効率 や情報の質を一定にするため、書誌的事項、抄録の作成、キーワードや分類の付与、シ ソーラスの整備等も必要となる。 2.ディストリビュータ(ベンダー) プロデューサが作成したデータベースを流通させるために必要な施設つまりこれを蓄積 するホストコンピュータとネットワークを保有し、ユーザーへのサービスを行う。プロ デューサから提供を受けたデータファイルを、そのディストリビュータのサービスシステ ムに対応した形式のデータベースファイルを構築し、そのファイルの内容説明や検索方法 をオンラインガイダンスやニュースレター等でユーザーへ周知する。さらに、同分野に複 数のデータベースファイルがある場合には、1回の検索で多数のデータベースファイルが 検索できるように、キーワードの体系の整備やこの機能に対応するためのソフトウェアを 作成し、ユーザーへの利便をはかったりする。 D IA LO Gや三菱総合研究所がこれにあたる。科学技術振興機構、国立情報学研究所や OCLCはプロデューサとディストリビュータの両方を兼ねている。 3.代行検索業者 情報ブローカーともいい、他人の情報受容に対し検索の実行を目的として、データベー スサービスシステムの選択、データベース検索式の作成、検索の実行、検索結果の評価、 その他コンサルティング等の業務を行う。 - 17 - (6)代表的なデータベース提供システム a.DIALOG(提供機関名、提供システム名) ・運用機関:DIALOG Information Services, Inc.(アメリカ) ・歴史と現状 1972年商用サービス開始。1992年現在、世界100余国で約13万端末ユーザー(約10% が 日本)が利用している。ほぼ全日24時間サービス。日本では丸善と紀伊國屋が販売代理店 となっている。 ・提供サービス 提供するデータベースは、科学技術情報のほか、美術、哲学、歴史、政治、法律など人 文科学、社会科学関係も網羅する。データベースの種類は約400種。 b.OCLC(提供機関名) ・運用機関:Online Computer Library Center, Inc. ・歴史と現状 図書館、教育機関、並びにそのユーザーを対象に、コンピュータ利用に基づく書誌・資 料情報サービスを提供する会員制非営利法人。世界最大の書誌ユーティリティ。1997年現 在、日本を含む63カ国、23,000館以上がオンライン目録作成、相互貸借、情報資料検索 サービス(以上を3大サービスという)および関連サービスを利用。 1967年オハイオ州立大学をを母体として発足。初代所長Fre de ric G. Kilgour。1977年オ ハイオ州立大学から分離し独立の機関となる。1971年オンライン総合目録が稼働し始め る。 ・提供サービス ①Connexion 世界最大の目録データベースであるWorldCa tを中心にした目録作成システム。目録レ コードおよび典拠レコードの作成や維持管理を行うOCLCの中核サービス。 ②First Search オンライン情報検索サービス。O CLC総合目録(WorldCa t)のほか、60以上のデータ ベース群を対象として提供する。現在はインターネットのWebに対応。検索と同時に原文 献提供サービス(Document Delivery Se rvice)も利用できる。イメージ情報(図表、写真な ど)付きのフルテキストが閲覧可能な電子ジャーナルとのリンクも可能。 ③電子出版雑誌 c.JST(科学技術振興機構)(提供機関名) ・JDreamⅡ - 18 - 旧JOIS、2006年4月名称変更。雑誌論文検索のための文献データベース。中心は『科学 技術文献速報』のデータベース版(JSTP lus)であるが、他にJMEDP lus(日本発行の医学 薬学関係論文データベース)、MED LIN E等が利用できる。総計約3800万件(2006年現 在)の科学技術関係雑誌論文を検索できる。 ・J-STAGE JSTが構築した「科学技術情報発信・流通総合システム」。学協会を支援し、学協会の 発行する学会誌・論文誌を容易にかつ低コストで電子化し、JSTのサイトを通して発信す る仕組み。2009年5月現在で、約564タイトルの電子ジャーナルが運用されている。 ・STN ア メ リカの C A S、 ドイ ツ のFI Z K a r ls r uhe と連 携 し、 多 数の 文 献、 数 値、 全 文デ ー タ ベースを検索できる。2007年以後JSTが事業から脱退し、代わって化学情報協会がアメリ カ、ドイツとの連携業務を引き継いでいる。 d.日経テレコン21(日本経済新聞社提供の提供システム名) 旧NEEDS-IR。その後種々変遷を経て1998年日経テレコン21と改称。日経作成の経済・ 各種企業やビジネス情報のほか、他社作成の企業情報。朝日、毎日、読売新聞などの新聞 記事検索。ビジネス系雑誌の記事検索。辞典類の検索。ニュース速報、株価・債権市場。 など多数。 e.G-Search 1991年データベース提供サービス開始 1996年インターネット版サービス開始 提供データベース 新聞記事全文、一部の雑誌記事全文、ビジネス情報など(日経テレコンと同様) その他、学術、特許、ビジネスといった分野で海外のデータベース多数を利用できる。 日経テレコンと並び、商用データベース提供分野における大手サービス機関である。 f.国立情報学研究所(NII) (提供機関名) 1986年に学術情報センター(NACSIS)という名称で発足。その後国立情報学研究所と改 称。大学図書館ネットワークの中心として、各大学の図書、雑誌の所在目録情報のデータ ベース形成・提供機能(NACSIS-CAT)と、2次情報、ファクトデータを研究者に提供する - 19 - 情報検索システムを提供する機能の2つの機能を持つ。 1.目録所在情報データベース形成機能 NACSIS-CAT 国公私立大学図書館の所蔵する図書、雑誌の所在目録を各大学が共同で作り上げ、書誌 情報を共有するとともに、参加大学図書館の総合目録を形成する。 目録情報の中心となるのは、JA P A N MA RCとTRC MA RCである。参加館の内、ある 図書の目録を最初に作成する図書館は、MARCの中にそのデータがあれば、それを利用し てNACSISのフォーマットに変換する。MARCの中になければ、独自に書誌データを作成 する。どちらかの方法でいったん目録情報が作成された図書については、2番目以後に受 け入れた図書館は、その館の所蔵コードだけを入力すればよい。目録情報はダウンロード によって瞬時に自館のデータとして利用できる。 このようにして、目録情報を共有することにより、各館の目録作成の手間を削減でき る。さらに自動的に参加館の総合目録が形成されることになる。 ILL(Inter-library loan)サービスが1992年4月から始まった。目録所在データベースで 検索した図書や雑誌の相互貸借の依頼を掲示板的なシステムを利用し、オンラインで行え るものである。 2.情報検索機能 GeNii(ジ−ニイ) 学術論文、図書・雑誌、研究成果概要など多様な学術情報を統合的に検索できる「ポー タル」(入り口)。 ・論文検索(CiNii、サイニイ) N II論文情報ナビゲータ。検索可能な書誌情報は、「雑誌記事索引」を中心母体とす る論文情報が検索可能。あと、NII-ELS事業の結果作成された各大学の紀要および学協会 雑誌の論文データベース等も含まれている。NII-ELS経由で入力された論文の一部は電子 ジャーナルとして論文本体を直接利用可能。 ・図書・雑誌タイトル検索(Webcat P lus) ・研究課題検索(KAKEN) - 20 - ◎電子ジャーナル 1.電子ジャーナル(Electronic journal)とは 原稿作成、審査、編集、発行まで、つまり雑誌論文の著者の投稿から読者の利用まで、 紙を用いずにすべて電子的に行おうとするもの。ただし現実には、印刷版の雑誌を持ち、 別途その電子版をも提供するような雑誌も電子ジャーナルと呼んでいる。現在約2万タイ トルほどが出版されている。 2.電子ジャーナルの仕組み ①論文の著者:手もとのコンピュータから通信回線を通してホストコンピュータに論文を 入力する。 ②公共ファイル:入力された論文は公共ファイルに収録され、他の研究者はそれを自由に 端末から呼び出し読むことができる。また内容についてのコメントを著者まで送ることが - 21 - できる。 ③編集者:著者は第三者からのコメントにより修正を加え、最終原稿を手もとのコン ピュータから編集者に転送する。編集者は原稿の査読のためにレフェリーを決める。 ④査読者:査読者は手もとのコンピュータから、論文の批評・評価を行い、その内容を編 集者を経由して著者に送る。 ⑤利用者:受理された論文は、編集者によって完全原稿としてファイルに入力される。利 用者はネットワークを介して、手もとのコンピュータから論文を読むことができる。 3.電子ジャーナルの実験例 EIES アメリカのニュージャージー工科大学の実験システムで1976年から1980年にわたり実施 された。 ・個人から他の個人へのメッセージの交換 ・個人の執筆に使用されるノートブック ・共通の話題に関心を持つグループやシステムの全メンバーの意見を交換できる会議 以上のような機能を結合させることによって、電子ジャーナルを作成することが可能に なった。著者はノートブックの機能を利用して、投稿のための原稿を電子的に作成する。 次に意見を交換できる会議の機能を用い、査読者、著者、編集者による意見交換や討議が 行われ、出版が認可されれば利用者(読者)へ提供される。 4.現実の電子ジャーナルの出版形態 電子版のみの雑誌:The O nline Journa l of Curre nt Clinic a l Tria ls(米国科学振興協会と 共同開発し、1992年OCLCが提供を始めた)。学術誌としては、数はそれほど増えていな い。その他インターネットを使った草の根的な「オンライン・マガジン」は急増してい る。 その他多くは印刷版と電子版とを平行して出版する形態である。 5.媒体とサービス形態 ・パッケージ型提供 CD-ROMなどの固定した媒体をとおして提供する。 ・リモートアクセス型の提供 インターネットをとおして、WWWベースで提供するケースが多い。無料のものもある が多くは有料で、パスワード入力やIP アドレスによる認証管理が行われている。 ・データ形式 (1)ページイメージ画像 - 22 - 1ページ分を1枚の画像ファイルとして提供。ファイルサイズが大きくなりがちであ る。電子化コストが安いが、文字としての認識は出来ない。 (2)プレーンテキスト 文字情報のみを提供。ファイルサイズが小さくなるが、数式や図表などは提供されな い。 (3)HTML WWW上のハイパーテキスト文書形式。閲覧用ブラウザが普及しているので、ほとんど 誰でもが利用できる。文字部分はテキストデータなので検索等が可能。マルチメディアを 扱える。冊子版とのレイアウト面での対応が取れない。 (4)P DF Adobe社が開発した電子文書配布用フォーマット。専用の閲覧ソフト(Adobe Reader)を 必要とするが、無償配布されており、多くのパソコンで使用可能。印刷したページのレイ アウトをほぼ忠実に再現できる、比較的高品質の印刷出力が可能、文字部分をテキスト データとして扱える、といった利点がある。印刷版と並行して出版される場合、この フォーマットを用いるものが多い。 6.電子ジャーナルの現況 理工、医学系を中心に多数の電子ジャーナルが発行されている。最近では人文・社会系 も増えてきている。主として印刷版雑誌と並行して発行される。最近号から電子化される 場合が多いが、古い号に遡って電子化されることもある。通常学術出版社のサイトから提 供され、有料のものが多いが、無料で提供される雑誌もある。 ・寄せ集め型提供サービス(アグリゲータ) EBSCOHost(EBSCO社)、P roQue st(P roQue st Information and Le arning 社、UMI社 を吸収した)、など。広く種々の電子ジャーナルを収集し、適当なグループごとに販売提 供する。 ・出版社系提供サービス Science Direct(Elsevier社)、Springer-LNK(Springer社)など。 ・学協会系 ACS P ublications(American Chemical Society発行の電子ジャーナル)など。 ・プラットフォーム型提供サービス 中小の学協会を主な対象として、電子ジャーナルの作成、提供、メンテナンスといった 基盤を提供するサービス。国内では次の2種がある。 - 23 - ○J-STA GE(JST) JST(科学技術振興機構)が中心になり、国内の学協会系雑誌の電 子化を促進して提供する電子ジャーナル提供サービス。無料で利用できる雑誌も多い。 2012年現在で約1500タイトルが電子化。 ○N I I - ELS N I I (国立情報学研究所)が中心になって進めている、J -Sta ge と同様の事 業。2008年に協定が結ばれ、重複してデジタル化をしないようになった。CiN iiを通して 提供される。 - 24 - 5.学術出版の変化 (1)背景 ・学術雑誌の価格高騰 ・電子ジャーナルが激増した結果少数の商業出版社による独占状態を招き、電子ジャーナ ル利用料が高騰した。 ・理工医学系を中心に、資料の中心的な利用形態が電子ジャーナルに移行した。電子 ジャーナルこそが研究の生命線となる。 ・大学図書館は電子ジャーナルの高騰を防ぐため、コンソーシアムなどを組織するが、な お高騰を防ぎきれない。 (2)オープンアクセス運動の出現 ・自由なアクセスを求めて 商業出版社の動きに対抗して、大学や研究機関が独自に論文等を無料で発信しようとい う動きが1990年代末から出てきた。 ・通信環境のインフラ そういうことが実行できる基盤として、インターネットにより情報を誰でもが発信し、 それらを共有しうるという通信環境面でのインフラ整備があげられる。 ・研究者の情報利用 研究者は、一般読者とは異なり、情報の発信者でもあると同時に情報の利用者でもあ る。無料で情報を発信する代わりに、無料で情報を利用するという情報流通形態になじみ やすい側面を持つ。 (2)オープンアクセスの形態 ・オープンアクセス雑誌の発刊 査読を経た研究論文をインターネット上で発表し、読者に無料で提供する学術雑誌。 P ublic Library of Science(P LoS)など。 ・セルフアーカイビング 著者なり、機関なりが各々の管理するWebサイトで、情報を無料で発信する形態。機関 が行うものを機関リポジトリといい、急速に整備されつつある。 (3)事例 ・SP ARC (Scholarly P ublishingand Academic Resources Coalition ) 1998年に米国研究図書館協会(Association of Research Libraries:ARL)によって設立 - 25 - された組織で、現在約200の加盟機関が納める年会費によって運営されている。主として オープンアクセス雑誌の構築や機関リポジトリを推進する。SP A R C Eur ope 、SP A R C / JAP ANも発足している。 (4)機関リポジトリ 大学や学協会など学術機関が自機関で生産された知的生産物を収集し、保存し、配信す るためのデジタルアーカイブ。採録される学術コンテンツとして、①学術雑誌掲載論文、 ②紀要論文、③学位論文、④実験データ、⑤教材、などがある。機関リポジトリの主な機 能として、(a)投稿受理機能、(b)メタデータ付与機能など、(c)検索機能、があ る。出版社やアグリゲータ系の電子ジャーナルが、雑誌単位であるのに対し、機関リポジ トリで提供されるコンテンツは論文単位である、という相違がある。 ・千葉大学 日本における機関リポジトリの草分け。図書館が中心になって、学内情報資源を収集、 蓄積、配信している。国立大学を中心に急速に機関リポジトリ実施校が増えている。 - 26 - 6.電子図書館 (1)電子図書館とは Electronic library, Digital library 必要な情報を、どこにいても、簡単に入手することができ、楽に読むことができるとと もに、関連のある情報へと導いてくれるシステム。(原田勝) 電子的情報資料を収集・作成・整理・保存し、ネットワークを介して提供するととも に、外部の情報資源へのアクセスを可能とする機能を持つもの。(増田祐司) ◎デジタル・ライブラリ 1991年アメリカのゴア上院議員が、「グローバル・ヴィレッジのためのインフラストラ クチャー」という論文を発表。情報スーパーハイウェイや全国情報基盤の重要性を説く中 で、その重要なアプリケーションの一つとして、デジタル・ライブラリーに言及したこと に始まる。アメリカでは電子図書館よりデジタルライブラリの方がよく用いられる。 (2)電子図書館と図書館の違い(原田勝) 1.電子図書館は図書館の単なる電子化ではない。 電子図書館は現在の図書館資料・業務を電子化した電子化図書館とは異なる。 2.電子図書館は孤立した大規模集中システムではない 大小さまざまな情報源が世界中に分散してネットワークで結ばれており、それら全体の 集まりが電子図書館である。 3.電子図書館は単なる情報検索システムではない マルチメディアを含む多様な情報をいかに早く検索したとしても、それだけでは電子図 書館とはいえない。情報源の拡大、読書をしやすくする機能・レファレンスを行う機能な どが必要である。 4.電子図書館は他のシステムやサービスと親和性が高い 電子図書館の要素技術は、電子出版や流通、ビデオオンデマンド、電子新聞、放送など 他のさまざまなシステムやサービスと共通する部分が多いため、電子図書館は旧来の図書 館サービスの枠を越え、他のシステムやサービスとうまく融合しうる。 (3)アメリカにおけるプロジェクト 1.LC NDLP (National Digital Library P rogram)と呼ばれる大規模な資料の電子化プロジェクト - 27 - を開始し、現在では多くの資料がWWWを介して利用できるようになっている。 2.NSF/ARP A/NASA 全米科学財団(N a tiona l Sc ie nc e Founda tion)、A RP A (国防総省)、N A SA (航空宇宙 局)の進めるプロジェクト。DLI-1(Digita l Libra ry Initia tiveフェーズ1)という。1994年 から1998年まで。現在DLL-2が開始。 コンピュータ科学、図書館情報学、図書館から研究者がプロジェクトに参加。大学のみ ならず出版社、政府機関等をも含む多視点からのプロジェクトとして進められた。 ビデオ映像技術、資料や利用者に関するメタデータに基づく柔軟な検索システム 隣接領域間での語彙の相違を越えた全文検索技術 SGMLに基づく学術雑誌記事のデータベース 複数の異なるD Lあるいは情報資源を結ぶ一様な環境のためのメタデータやユーザインタ フェース技術。 1.カーネギー・メロン大学 Informedia Digital Video Library。ビデオ映像を持つ図書館で、これらの資料に知的にア クセスするためのインデクシングや検索の研究を行っている。 2.スタンフォード大学 The Stanford Integrated Digital Library P roject (SIDL)。 3.カリフォルニア大学バークレー校 UC Berkeley Digital Library P roject。写真、衛星写真、ビデオ映像、地図、全文などの 分散して大量の情報への知的なアクセスを可能にする方法を開発することを目的とする。 4.ミシガン大学 University of Michigan Digital Library P roject (UMDL)。 地球科学・宇宙科学を取り上げ、大学生ばかりでなく高校生までを利用対象として含 む。目録検索やコレクションの説明、分野ごとの資料へのアクセス補助などのサービス、 出版社等によって作られたデータベース、ミシガン大学自身で作ったさまざまなデジタル コレクション、医学、工学から人文科学、社会科学まで多数の雑誌など、多様なデジタル コレクションにアクセスできる。 (4)日本におけるプロジェクト 1.情報処理振興事業協会。IP A(Information-technology P romotion Agency) 国立国会図書館では、IP Aと協力してパイロット電子図書館プロジェクトを実施。貴重 資料から現代の週刊誌までを含む多様な資料の電子化を進めている。また国際子ども電子 図書館プロジェクトも進め、明治期の児童書の電子化も進めている。 - 28 - (5)基礎的な技術と規約 SGML(Standard generalized markup language) 文書中に論理構造を示すマークであるタグおよび文書構造の記述文法を指定することに より、電子化された文書の統一的な取り扱いを可能とする規格。出力される文書イメージ にも重点がおかれているが、TeXやHTMLとは異なり、文書の構造を記述することに力点 がおかれている。 これにより、文書の処理や管理,コンピュータ間でのデータ交換など が容易に行なえるようになる。1987年にISO標準8879として承認されており、アメリカ国 防総省などの公文書フォーマットとしても採用されている。HTMLと同様マークアップ言 語の一つであり、HTMLはSGMLを参考にして作られた。 この規約を使うことによって、タイトルや著者、目次といった部分を特定でき、検索上 の役に立つと同時に、それらの部分を抽出して索引等を作成したりできる。また特定のア プリケーションやO Sに依存する規約ではないので、例えばH TMLや他の規約に変換する ことが容易である。さらに、章や節といった文書の構造を指定できるので、章や節単位で の検索が行える。例えば「コンピュータ」と「インターネット」を同時に含むような章を 抜き出すといった検索が行える。いきなり全体に対して全文検索を行うと、あまりにヒッ トしすぎるからこのような絞り込みは大変重要なものとなる。このようにSGMLのよう な、文書構造を論理的に規定する方式に従って電子化する意義は大変大きい。 SGMLはあまりに複雑なので、現在ではやや簡略化したXMLが標準マークアップ言語と して用いられる。 HTML(Hypertext Markup Language) WWWのホームページや、その他のハイパーテキスト文書を作成するために使用される 標準のハイパーテキスト言語。SGMLの系統に属するマークアップ言語の一つだが、表示 を主たる目的とし、ブラウザソフト等のアプリケーションによって記述文法に相違があ る。HTMLはWWWサーバでのドキュメントを記述するための言語として広く知られてい る.WWWサーバのドキュメントでは、このHTMLにより文書の構造や体裁などの要素を 定義し、イメージやURLを貼り込んで、ハイパーテキストを実現している. WWW (World Wide Web) インターネット上の情報提供の仕組みの一つ。情報提供者が不特定多数の利用者に情報 を提供できる。情報提供者はページと呼ばれるひとまとまりの単位に情報を構成して手元 のサーバに置き、利用者はWWWブラウザを用いてサーバにページの転送を要求しそれを 閲覧する。ページの内容はHTMLという規約に基づいて記述されたハイパーテキストであ - 29 - る。ドキュメント中に他のドキュメントへのジャンプコマンドを埋め込むことができる。 このジ ャンプコマンドとしては,URLを使用し、Inte rnetに参加している世界中のWWW サーバのどのドキュメントにもジャンプすることができる。 URL(uniform resource locator) インターネット上のさまざまなリソースのロケーションを指し示す統一的な記述様式。 メタデータ データに関する構造化されたデータである。論文や図書など、データそのものではな く、データを記述するためのデータと考えればよい。目録や索引は典型的なメタデータで ある。ネットワーク上の情報資源に関する記述を行うとき、従来の目録規則では扱えきれ ないので、より一般化したメタデータという概念を作る必要にせまられた。通常「物とし ての存在」を問題としなくてよい、電子資料特にネットワーク情報資源を記述するときに 用いられる用語である。ダブリン・コア(Duhlin Core Metada Element Set)と呼ばれるメタ データに関する標準記載法がある。 (6)電子図書館の別の側面 1.社会的な問題 ・情報格差、情報弱者の問題 ・情報倫理の問題 ・電子図書館と著作権 2.紙はほろびないという見解(上田修一) ・20年前にランカスターは、『紙なし情報システム』の中で、科学技術情報システムの問 題点と電子化によるその解決を論じ、西暦2000年には紙が重要な位置を占めることは確実 になくなっているだろうと予言した。電子メディアの紙に対する優位性を主張した。しか し現実はそのとおりになっていない。近い将来紙の生産が減ったり利用が減ったりする兆 候は全くない。また紙資源の枯渇に関する懸念は、他の資源と同様で、特に紙資源特有の ものではない。 ・活版印刷そのものは、なくなってしまった。その変わり電子組み版が普及した。しか し、これは印刷技術の革新であり、印刷の最後の過程ではやはり紙に印刷して、冊子が作 られている。 ・インターネットの爆発的普及は今後とも進展するのは確実である。豊富なインターネッ ト上の情報源の影響をもろに受けるのは、紙よりもむしろCD -RO Mや光ディスクといっ た電子出版物であろう。しかしインターネットが普及したからといって紙の出版物が大き く影響を受けるとは考えにくい。かつてテレビが出現したときも、新聞の役割は若干変化 - 30 - したが、決して衰退しなかった。 ・紙の印刷物は、機器を利用せずに読むことができるという決定的な違いがある。また1 冊1冊が目に見える形で存在し、たやすく手にとってどこからでもすぐに読むことが可能 である。これは決して電子媒体では達成できない。またわれわれは断片的な事柄の検索だ けを行っているのではない。全体を構想し、ある順序で線形的に記述することにより、著 作を作り出し、読み手は、最初から順に「読み通す」ことにより、はじめてその著作を受 容する。このような読書形態は印刷物でなければできない。 3.「図書館という場所」(根本彰) 昔から存在する壮大で威厳に満ちた「図書館という場所」の持つ効果はそう簡単にはな くならない。 4.電子図書館の本質 ・「電子図書館」でよいのか(田窪直規)。 電子化された媒体を扱うのであれば、図書館も博物館も文書館も区別する必要がなくな る。図書館といってしまえば、従来の図書館のイメージを引きずることになる。したがっ て「電子メディア・センター」とでもいうべきであろう。 あらゆるメディアを統合的に扱うことになったとせよ、従来のように情報の提供機能だ けでよいのか。情報生産機能、その支援機能、情報流通機能まで視野に入れるべきではな いのか。現にインターネットでは、単なる情報源空間ではなく、情報の生産、流通、消費 が一体化した世界になりつつある。とすれば、電子メディア・センターということばも、 情報提供サービスという意味合いが強くふさわしいとはいえなくなる。したがって「電子 メディア空間」という言い方をしたい。 ・人間の認識形式の変化 15世紀の活版印刷以来、印刷活字メディアによる大量印刷大量出版の時代が到来した。 印刷活字メディアは視覚優位の時代であり、経験が分断され、線形でしかとらえられず、 連続性、画一性、連結性といった認識形式が強調された。これに対し電子メディアの時代 は、神話的ビジョン優位の時代をもたらす。神話的ビジョンというのは、特定の視点も、 線形的結びつきも、要素間の序列もないビジョンであり、複数視点、並列、非線形的配 列、全体論的認識を特徴とする。別の言い方をすれば、活字時代は線形的、理性的であ り、電子メディアの時代は、包括的、触覚的、全体論的な形態に認識が移行するであろ う。このような人間の認識形態すら変えるような可能性をはらんでいる。 ・果たして電子メディアの時代は包括的、全体論的な認識形態をもたらすか(吉田) - 31 - 7.情報検索の特徴と技法 (1)情報検索の種類 Information retrieval (IR) 1.文献情報と事実情報 文献情報の検索(Document Retrieval) ある分野、ある著者等に関しどんな文献があるかを検索する。 事実情報の検索(Fact Retrieval) 物質の質量や、物理的・化学的・機械的性質などの数値情報、原料の生産高、商品情 報、企業情報など、さまざまな事実に関する情報の検索 2.情報検索の時代的遡及による種類 遡及検索(Retrospective search) あることがらについて、過去にさかのぼって検索する。研究の初期や周辺的なテーマな どの検索のとき、その分野について歴史的に見通す必要があるときに行なう。 カレントアウェアネス(Current awareness search) あるテーマについて、新しい情報を検索する。 SDI(Selective Dissermination of Information)(選択的情報提供サービス) 知りたいテーマについて、検索内容を図書館や情報センターにあらかじめ登録してお く。そうすれば新しく入手した情報から、そのテーマについて定期的に検索して、利用者 に検索結果を報告する。そのようなサービスをいう。カレント・アウェアネスの一種と考 えられる。 (2)情報検索のオンライン化 文献情報であれ、事実情報であれ印刷物による検索から、オンラインによる検索へと発 展した。歴史的には1967年アメリカでMEDLARSの実験を初めとする。 (3)索引法 Indexing 1.索引言語 Index language 索引言語の種類 自然語による natural language 同義語・語形・同形異義語の統制を行わない。 多くは、タイトルや抄録中の語をコンピュータが自動的に採録。 索引者が独自に付与する場合もある。 統制語による controlled index vocabularies 件名 件名標目表・シソーラス 分類記号 - 32 - 分類記号は統制語の一種と考えられる。 自然語と統制語の優劣 自然語 長所 1.新しい概念や、新物質名など文献上に現われたことばを直接索引語として 採用できるから、新しいことばや、小さい概念で検索できる。 2.統制語の辞書にあたる作業を必要としないから、索引づけの作業が簡単にできる。また 統制語を維持管理するコストもかからない。 短 所 1. 検 索 の と き 、 例 え ば 「 図 書 」 と い う 概 念 で 探 し た い と き 、 「 図 書 」 、 「本」、「書物」、「書籍」と、思いつく同義語で全部探さないと、もれなく検索するこ とができない。 2.ある概念、あるいはその概念の周辺のことばで検索したいとき、その上位語や下位語、 関連語などを表示した辞書がないわけだから、自分の頭の中でそういう関連のことばを見 つけださないといけない。 統制語 長所 1.検索のとき、あることばで検索すると、その概念に相当する文献を全部検 索してくれる。 2.上位語、下位語、関連語などあることばに関係のあることばが、辞書で調べられる。し たがって辞書を使いこなすことによって、検索したいことばをより豊富に、より総合的に 見いだすことができる。 短所 1.新しい概念、新物質、細かい概念などが、必ずしも辞書の中に採用されて いないから、直接そのことばで検索できないことがある。 2.索引づけのとき、統制語の辞書にあたって調べる作業が必要である。また統制語をたえ ず維持管理していく必要がある。 【シソーラスの略語】 交通事故 BT 事故 USE NT 交通事故 UF used for ∼の代わりに用いよ ・海難事故 BT broader term 上位語 ・自動車事故 NT narrower term 下位語 ・鉄道事故 RT related term 関連語 ・踏切事故 SN Scope note 優先語の使用法に関し RT を用いよ て限定する注記 交通違反 - 33 - 高速道路 索引語として用いる語 優先語(ディスクリプタ) 〃 用いない語 非優先語(非ディスクリプタ) 2.事前結合索引と事後結合索引 事前結合索引 P re-coordinate indexing 索引時に索引語の結合を行っておく。例えば「航空機のエンジンの修理」という主題であ れば、航空機−エンジン−修理、という順序の結びつきを作っておく。 文献主題を正確に表現する。 分類法や件名目録法は、事前結合である。 列挙順序を設定する必要がある。 事後結合索引 P ost-coordinate indexing 索引時には、個々の索引語をバラバラに与えておき、検索時にそれを結合して検索する。 例えば、 「航空機」と「修理」を同時に含むような文献 という検索を行なう。 それぞれの索引語は、文献主題を正確には表現しない。 列挙順序を設定する必要がない。 主として、コンピュータによる主題検索時に用いられる。 事後結合の場合は、記入を回転させたり、参照を作ったりする必要はない 一般に件名標目表は事前結合に用いられ、シソーラスは事後結合に用いられるが、絶対的 な区別ではない。シソーラス的言語が事前結合に用いられることもある。 3.索引言語・検索システムの評価 再現率(Recall)と精度(P recision) 再現率=検索された適合文献の数/適合文献の総数 精度 =検索された適合文献の数/検索された文献の数 再現率と精度の関係 両方が100%になることはない。 (4)オンライン検索の特徴 - 34 - 長所 ・マニュアルに比べはるかに高速かつ能率よく検索が行える。 ・種々のデータベースが選べる。 ・新しいデータベースを利用できる。毎週あるいは毎月といったふうにデータが最新のも のに更新される。 ・ANDやORなどの論理演算子による組合せ検索が行える。 ・トランケーション機能により、単語の部分だけをたよりに検索することも行なえる。会 話型検索であるので、試行錯誤しながら検索を進めることができる。 ・Webによる検索が主流であるので、ネット環境さえあればどこからでも検索が出来る。 ・検索した結果をその場で自分のコンピュータに取り込むことが可能である。ダウンロー ド機能。 ・電子ジャーナル論文のように、電子化された原文があれば検索の結果、直ちに原文を入 手することが出来る。ただし多くの場合有料で手続きが必要であるが。 欠点 ・遡及情報に限度がある。通常新しい情報しか利用できない。 ・細かい特定的な検索は得意だが、体系的に順次検索していくようなことは苦手である。 (5)検索の手順 1.検索システムにログインする。 2. 検索したいテーマを理解・確認する。代行検索の場合は、専門辞典などでまずテーマ の把握から始めなければならない。その後質問テーマの主題を分析する。 3.ふさわしいデータベースを選ぶ。 このとき、検索主題の対象分野をカバーしているか、収録情報の範囲(例:雑誌は何タ イトルくらいか、和洋すべてか、特許情報は入っているか、等)、収録期間等を確実に押 さえた上で選択する。そのデータベースの限界を知らなければならない。場合によっては 2つ以上のデータベースを検索することもある。 4. 検索システムの選定。同じデータベースでも、提供者が異なれば、検索の方法が異な る。例えば抄録が検索の対象となったりならなかったり、あるいは近接演算子が使えたり 使えなかったりする。使用料金も変わる。原論文入手体制の有無も変わる。 5. 検索語を選び、検索式をたてる。このとき統制語と自然語とでは検索の戦略が異なる ので注意なければならない。 6.検索する。 7.適合した文献をほどよい件数だけ検索することができれば、検索は完了する。 8.適合文献がでないとか、件数が少なすぎたり多すぎたりするときは、4に戻り、検索語 を選びなおしたり検索式をたてなおしたりする。 9.件数が少なすぎるときは、余りにも特殊(spe c ific )な用語で探していたり(特定性が 大)、AND結合を多く用いすぎている(網羅性が大)等の理由が考えられる。したがっ - 35 - てより一般的な用語で検索したり、結合する用語の数を減らすなどの工夫がいる。 10.件数が多すぎるときは、上記と逆のことが予想される。 11.その結果もう一度検索する。 12.以上の過程を試行錯誤しつつ検索していくことになる。 13.検索用語として何を選んでよいかわからないときは、冊子のシソーラスをみるかオン ラインのシソーラスを参照する。みつかった適合文献につけられたキーワードを参考にす る。 14.検索結果の出力 出力件数が少なければ、その場でオンライン出力する。件数が多い場合や急がない場合 は別途、提供機関のプリンタで出力したものを郵送してもらう。(廉価) 15.オンライン文献検索で見つかるのは通常書誌情報だけである。現論文は、別途入手す ることになる。提供業者自身によっては、原論文を取り寄せるサービスを行なっている。 さらにこの申込をオンラインで、検索のすぐ後に行える場合がある。 なお、2000年以後、急速に電子ジャーナルが普及してきたので、原文献が直接参照でき る場合も多い。 注)数年前までは電話回線により、特定のデータベース提供者へ直接アクセスして、無手 順接続によるコマンド方式で検索し、1行1行繰り上がる対話方式であった。この方式で は文字しか扱うことができず、またコマンドを覚えないと使えないため、初心者には使い にくいものだった(擬似的なメニュー方式もあったが決して使いやすいことはなかっ た)。また前回までの検索を遡って確認することも難しかった。最近では、インターネッ ト経由で、GUI(gra phical user interface)手法による検索が可能となってきている。この方 式では、通常のインターネットの画面と同じく図や説明をはめ込んだ分かりやすい画面が あらかじめ用意されており、必要な部分に穴埋めだけすれば検索できるようになり、コマ ンドを覚える必要もなく、非常に使いやすいものとなってきている。通常のインターネッ トのホームページと同じく画面展開も自由である。しかし、コマンド方式の方が早くしか も複雑な検索が行えるので、上級者用にはコマンド方式も生き残っている。 (6)情報検索の技法 1.論理演算子 論理積 AかつB A and B 論理和 AまたはB A or B 否定 Aでない not A 2.関係演算子 比較演算 数値の大小などを比較する演算 - 36 - 例えば、出版年>=1995 出版年が1995年以後 3.近接演算子 例:図書館(W)経営 「図書館」と「経営」がこの順序で隣接している。 検索のねらい:図書館の経営に関する文献を探したい。 たとえば「図書館経営の基本」 単に「図書館」と「経営」だけで検索すれば、「神奈川県立図書館における中小企業 に対する経営情報の提供」という文献も検索してしまう。このとき近接演算子を用いれ ば、こういうノイズを小さくすることが出来る。 本来無関係な2語がたまたま同一タイトル中、同一抄録中、同一記述中などに含まれる ことがある。自然語による単純な複合検索で、これら2語の組合せで検索した場合、誤っ た文献を検索してしまうことがある。これを防ぐために、「2語が隣同志にある」とか 「3語以内で近接している」とか「同一タイトル中にある」とかの指定を行なって、意味 上のつながりのない2語を含むような文献を、検索から省くことができる。すなわち精度 を上げることができる。このような指定を近接演算子という。近接演算子はかなり高度な 情報検索システムで用意される。 3.トランケーション トランケーションとは、「切り捨てる」という意味であるが、あるキーワードで検索し たとき、完全に一致しなくても一部分だけ一致すれば探せるようにすることをいう。「部 分一致」と訳し、「前方一致」、「後方一致」、「中間一致」、「中間任意」の4種類が ある。通常中間一致と中間任意とは同じ扱いになる。これに対し部分一致を採用せず、完 全に一致するキーワードのみ検索できる方式をか「完全一致検索」という。 トランケーションを表す記号は検索システムによって異なるが、今それを「@」で表す とすると、 前方一致検索 「情報@」 情報検索、情報処理、情報管理、などすべてを検索 後方一致検索 「@情報」 特許情報、経済情報、教育情報、などすべて 中間一致検索(中間任意) 「@情報@」 情報を含む単語のすべてを検索 4.検索式 論理演算子や近接演算子の組み合わせによって、検索質問に対する検索を組み立てるこ と。例えば、論理積を*、論理和を+、で表すとすると、「アメリカの経済政策」に関す る文献は、(アメリカ+アメリカ合衆国+米国)*経済政策、という検索式で表したりす ることになる。 5.1次検索と2次検索 - 37 - 文献集合全体に対する検索を1次検索といい、何らかの1次検索の結果としての検索集 合を対象としてさらに絞り込む検索を2次検索という。文献の言語や発行国に対する検索 などは、膨大な件数になるため、これを1次検索とすると時間がかかりすぎるため、通常 は2次検索扱いとする。 - 38 -
© Copyright 2024 Paperzz