図書館活用法 第9講 検索エンジンとは インターネットと

検索エンジンとは
2005年度
図書館活用法
第9講
Œ
検索エンジンの仕組みと活用
Œ
問題解決のために使われる特殊な仕組みのこと
多くの場合は,何かを動かす為に使われる動力を
意味している.
インターネット上の情報を探し出す為に作られた,特殊な仕組み
(明治大学図書館庶務課システム担当 中林)
では,図書館の目録検索は.......
検索コンセプトは同じ.
だたし,検索手法と検索対象が異なる
インターネットとは?
Œ
Œ
Œ
Œ
Œ
Œ
同じプロトコル(TCP/IP)を利用したネットワーク
の集合体→ネットワークのネットワーク
現在の繁栄は,フリーで開発してきた人々の努
力の賜物
基本的に,参加・利用は自由で無料
インターネット全体を管理する組織・人物はいな
い
自由だが,危険も隠れている
インターネットはトイレの落書き?
検索エンジンの種類
ディレクトリ検索型
全文検索型
代表例
Yahoo!
Google,Goo,
データ収集
方式
更新頻度
登録制(審査あり)
ロボット登録+登録制
(審査なし→ロボット)
随時
検索方式
随時
ディレクトリ優先+
全文検索
セ ー ル ス ポ イ 多彩なディレクトリと
ント
厳選されたページ
全文 検索+デ ィ レク トリ
検索(切り替え方式)
ペー ジランク シ ステ ムに
よる最適検索結果表示
ベンダーは,情報検索の手段を提供しているだけ!
検索エンジンとOPACの違い
OPAC
検索エンジン
コンテンツ
書誌規則による組織化
データ登録
更新
検索方式
人間の判断による
HTML による記述
(非組織化)
半自動登録・自動更新
検索精度
インデックス方式
(正規化処理)
高
全文検索
(非正規化)
低
検索特徴
適合率(近似値ヒット)
呼出率(広範囲ヒット)
同じ検索システムでも,検索対象が違うと,その特色も異なる
●実習①
まずは使ってみる!
●キーワード
明治大学
•漢字でそのまま検索
検索結果を比較して見る
•全角ひらがなで検索
OPACとの相違点は?
•http://www.yahoo.co.jp/
•http://www.google.co.jp
1
検索結果の違いから考える
検索語の生成方式とマッチング
Yhaoo!とgoogleの検索結果表示の違い
Œ
ディレクトリ検索と全文検索の検索方法の違い
Œ
・比較的有名な事項を集中して検索→ディレクトリ検索
・未知数の分野を網羅的に検索→全文検索
検索語表記による結果の違い
Œ
正規化は行われない(図書館←→圖書館)
漢字表記の単語は分割されて検索
EX. 明治大学図書館
→ 明治+大学+図書館
→明治学院大学図書館もヒットする!
単語の分割は辞書任せ.→OPACも同じ
検索語の正規化は行われていない(例外あり)
・検索されるデータと同じ表記でいれることが重要!
検索エンジンと情報取得
検索エンジンは膨大な数のページを拾ってくる.
どうやって必要なページを探し出すのか?
検索エンジンの検索結果表示順には,秘密がある!
●実習2
PageRankシステムを体感する
http://www.google.co.jp/
• まずは, “日本武道館 で検索
• 自分の出身高校名で検索
検索語の相関関係やページの重要度を独自のルールで
重み付けをして,優先度を基準に表示している.
● 殆ど,その機関が持つページが先頭に表示される!
Google人気の秘密!→PageRankシステム
検索エンジンの落とし穴
検索エンジンの行方
Œ
Œ
Œ
Œ
これから検索エンジンはどこへ行くのか?
(ポータル,RSS(自動情報収集),
ディスクトップ検索機能など)
Googleのゆくえ(Googleで調べてみよう)
でも結局,どうして検索エンジンはサービスを維
持できるのだろうか?(広告と検索技術の提供)
著作権と検索エンジン(見出し強制リンク・キャッ
シュ処理)
• 各検索エンジンのページランク付けシステムは完璧か?
• 本当に必要な情報が低ランクになる可能性はないのか?
• いい情報源がみつかった.でもいつまでみられるのか?
• 検索エンジンには探せないものはないのか?
• デジタルディバイド, 情報社会を生き抜く
• 参考資料① → 中日新聞のウソ記事
● 検索エンジンは単なるツール.大切なのは,
゛有益な゛
情報をすばやく手に入れること.
2
検索エンジンと学術情報
●実習3
検索エンジンを活用する
• 学術情報とは? →誰が学術情報と認定するのか?
• 学術情報としての使い方→参考文献リスト
• 学術情報だけを検索エンジンで探し出すには?
最近話題になることの少なかった成果主義
• その情報が真実だと保証するのは誰?
選考導入の会社も岐路に立たされている.
• いつまでその情報は保持されるのか?
(http://www.archive.org)
さて,日本型成果主義はどうなっているのだろうか?
• 情報の裏付けは必要なのか?
●Googleで 成果主義”を検索 → PageRankシステム
● インターネット上の情報を鵜呑みにするのは危険.必ず確認
●本当に,Googleから得られる情報だけで充分か?
● 2次的検索ツールとしての利用には最大級の効果!
●インターネットには,様々な意見や情報があるはずだ.
インターネット情報と図書館
• インターネット上の情報を保証するのは利用者自身
• 根拠のない情報に学術的価値はあるのか?
• 正確な情報を抜き出す為には?
• 図書館に所蔵された資料が,インターネット情報を裏付けする.
今日の授業の要点
Œ
Œ
• ただし,図書館がすべてを保証できるわけではない.
• 積み重なった情報から新たな価値を創造する.
• 作り出された情報の循環こそが図書館の役割.
Œ
検索エンジンは非常に便利,高速に大量の
情報を取得できる.
検索エンジンでの情報収集にはコツがい
る.上手に使わないと必要な情報を見落と
す可能性あり.
インターネット上の情報を使う場合には,
裏付けが必要 → 図書館の重要性
3