情報源としてのウェブページ 検索エンジン

情報源としてのウェブページ
■ Web ページの信頼性
・サーチエンジンで検索をすれば,大抵は検索結果を得ることができる。しかしながら,
Web ページ上の情報は,非常に多くの多種多様な情報が含まれている。信頼できる情報を
えるためには,以下のようなことを注意する必要がある。
・ページの作成者が,収集したい情報を専門に扱っている専門家や著者かどうかを確認
する。
・複数の Web ページを比較したり,図書,新聞記事,雑誌記事など他のメディアからの
情報も照合し,違いがないか調べる。
・信頼できそうな表現方法でも,意図的にゆがめられた情報もあるので,作成者の意図
を汲み取る。
・作成日,更新日付を確認する。とくに,最新情報を得たい場合には,いつ作られたか
により最新情報は変わるので,確認すること。
検索エンジン
■検索エンジンの概要
・検索エンジン 【サーチエンジン】別名 : search engine
インターネットで公開されている情報をキーワードなどを使って検索できる Web サイト
のこと。サーチエンジンはページに掲載する企業の広告料金で運営されるため、利用するた
めに料金を払う必要はない。サーチエンジンは、WWW などで公開されている情報の全文を
貯えておき、キーワードによって検索する全文検索型と、カテゴリー別に分類されているディ
レクトリ型の 2 種類に大別できる。最近では全文検索型でもディレクトリ型の情報提供をし
ているところが増え、またディレクトリ型のサーチエンジンにも検索機能が搭載されるよう
になってきた。日本のサーチエンジンは、全文検索型では Google や goo 等が有名で、ディレ
クトリ型では Yahoo! JAPAN が有名。
(IT 用語辞典 e-Words より )
■ディレクトリ型とロボット型
・ディレクトリ型検索エンジン
・分類体系(ディレクトリ構造)をたどっていくことによって検索を行う
・検索結果は順位付けされていない
・キーワードで検索することもできる
・「登録型」とも呼ばれる
・ロボット型検索エンジン
・検索フォームに検索式(キーワードなど)を入力して検索を行う
・検索結果は検索式とのマッチング・スコア順に出力される
・「自動収集型」、もしくは「全文検索型」とも呼ばれる
・ロボット型とディレクトリ型の境界
・最近ではロボット型でもディレクトリ型を提供する場合が多くなりつつあるため両者
の境界はあいまいになっている
■メタ検索エンジン
・複数のサーチエンジンを同時に一括して検索する検索サービス
・例)CEEK.JP http://www.ceek.jp/
・「最大 12 個のロボット検索エンジンで検索し、整理して表示する、統合型メタサーチ
エンジンです。」(CEEK.JP のトップページより)
1
検索エンジン WWW ロボット
■ WWW ロボット ( クローラー ) の動作
1. スタート地点として与えられたページを「URL リスト」に追加する
2.「URLリスト」から訪問すべきページを取得
3. ページ中のリンクを列挙し、未訪問のリンクがあったら「URLリスト」に登録
基本的にはアンカータグ、フレーム タグを解析する
1. 十分なデータが集まれば終了、または
△
■実際のロボット
・優先:
1. リンクの集中する人気ページ、特に被外部リンクが多いページ
2.URL が短いページ
・非優先:
3.CGI と分かるページ
4.URL に数字を含むページ
■ロボットの問題
1. 辿れない部分の存在
・ロボットはリンクが張られていないページ群を探すことはできない。たとえば図1に
おいてページ A からロボットが収集を開始した場合には中央の島ページ群という枠で
囲まれた 3 ページにはアクセスすることがない。
・サーチエンジンで探せなくても Web ページが存在することもあることに留意する
2. 言語圏によるリンク格差
・英語圏以外のロボット作成者が指摘するように一般的に WWW ではある言語のページ
からのアウトリンクは同じ言語圏内になることが多い。
・以前は、同じ言語圏のサーチエンジンを使った方が良かったが、現在では Google な
どのように国際的なサーチエンジンでかつ登録数が多いものがあるため、必ずしもそ
うでもない
・図1島ページ群
・図2言語圏間のリンク格差
検索エンジンを使うときの留意点
検索エンジンを使ったウェブ検索では
1. 特定性の高い検索式を心がける
・数多くの検索結果が出てしまうが、検索エンジンの順位をそれほど信頼せず、できる
だけ自分の意図する形で検索結果を絞っていく
2. 複数のキーワード
・同義語を複数使うのではなく、より特定性を高めるために
3. 出現しそうなキーワード
・「木村拓也」について探したい ⇒ 「キムタク」
4. 複数の検索エンジンを使う
・最も登録数の多い検索エンジンでもインターネット上のウェブ情報すべてを登録して
いるわけではない ⇒ できるだけ網羅的な検索を行うには複数の検索エンジンを検索
・検索エンジンによって得意な領域が異なっている ⇒ 検索エンジンを使い分ける
5. 検索結果のリンクが見つからなくてもあきらめない
2
・Google などのキャッシュ
・Internet Archive
代表的な検索エンジン
■ Google http://www.google.com/
・概要
・ページランクなどの高度な検索アルゴリズムを用い、検索精度で定評がある検索エン
ジン
・世界的に検索エンジン市場ではほぼ独占的になりつつあるが、日本では Yahoo! Japan
の方が依然として使われているらしい。
・http://www.hyperposition.com/trivia/share.html
・特徴としては、Page rank による検索の正確さ、シンプルなインターフェース、キャッ
シュ、分散検索による高速性、ページ登録数の多さなど
・特殊な検索
・⇒ Google のヘルプ
・路線案内、英和・和英辞典、株価検索など
■ Yahoo! Japan http://www.yahoo.jp/
・概要
・ディレクトリ型検索エンジンの代表的なサービス。
・ロボット型検索サービスには、以前は Google のエンジンを使っていたが、現在は独
自の YST Search エンジンを使っている
・日本でのシェアは相変わらず高い
検索課題
■全体的な課題
1. 誤った情報を掲載しているウェブページを発見しなさい。
・具体的には信頼できると思われる情報源に掲載されている記述と異なる記述を探すこ
ととなる。
・例えば、有名人の生没年、事件の発生年や場所などの記述であれば、間違いが判断で
きるため、探索しやすいと思われる。
2.Google には登録されているが、Yahoo! Japan( のキーワード検索 ) に登録されていないペー
ジを探しなさい。また、その逆のページも探しなさい。
・普通の方法としては、特定性の高い語を入力し、その検索結果を比較する
・他には、Yahoo や Google からあえてはずされているページがどのようなものかを想像
してみる
■検索練習
・⇒インターネット上の情報源課題
・⇒検索エンジン課題
3