ウェブページと検索エンジン

ウェブページと検索エンジン
情報源としてのウェブページ
■ Web ページの信頼性
・サーチエンジンで検索をすれば、大抵は検索結果を得ることができる。しかしながら、
Web ページ上の情報は、非常に多くの多種多様な情報が含まれている。信頼できる情報を
えるためには、以下のようなことを注意する必要がある。
・ページの作成者が、収集したい情報を専門に扱っている人物かどうかを確認する。
・複数の Web ページを比較したり、図書、新聞記事、雑誌記事など他のメディアからの
情報も照合し、違いがないか調べる。
・信頼できそうな表現方法でも、意図的にゆがめられた情報もあるので、作成者の意図
を汲み取る。
・作成日、更新日付を確認する。とくに、最新情報を得たい場合には、いつ作成(更
新)されたかページであるかを確認すること。
検索エンジン
■検索エンジンの概要
・検索エンジン 【サーチエンジン】別名 : search engine
インターネットで公開されている情報をキーワードなどを使って検索できる Web サイト
のこと。サーチエンジンはページに掲載する企業の広告料金で運営されるため、利用するた
めに料金を払う必要はない。サーチエンジンは、WWW などで公開されている情報の全文を
貯えておき、キーワードによって検索する全文検索型と、カテゴリー別に分類されているディ
レクトリ型の 2 種類に大別できる。最近では全文検索型でもディレクトリ型の情報提供をし
ているところが増え、またディレクトリ型のサーチエンジンにも検索機能が搭載されるよう
になってきた。日本のサーチエンジンは、全文検索型では Google や goo 等が有名で、ディレ
クトリ型では Yahoo! JAPAN が有名。
(IT 用語辞典 e-Words より )
■ディレクトリ型とロボット型
・ディレクトリ型検索エンジン
・分類体系(ディレクトリ構造)をたどっていくことによって検索を行う
・検索結果は順位付けされていない
・キーワードで検索することもできる
・「登録型」とも呼ばれる
・ロボット型検索エンジン
・検索フォームに検索式(キーワードなど)を入力して検索を行う
・検索結果は検索式とのマッチング・スコア順に出力される
・「自動収集型」、もしくは「全文検索型」とも呼ばれる
・ロボット型とディレクトリ型の境界
・最近ではロボット型でもディレクトリ型を提供する場合が多くなりつつあるため両者
の境界はあいまいになっている
■メタ検索エンジン
・複数のサーチエンジンを同時に一括して検索する検索サービス
・例)CEEK.JP http://www.ceek.jp/
・「最大 17 個のロボット検索エンジンで検索し、整理して表示する、統合型メタサーチ
1
エンジンです。」(CEEK.JP のトップページより)
検索エンジン WWW ロボット
■ WWW ロボット ( クローラー ) の動作
1. スタート地点として与えられたページを「URL リスト」に追加する
2.「URLリスト」から訪問すべきページを取得
3. ページ中のリンクを列挙し、未訪問のリンクがあったら「URLリスト」に登録
・基本的にはアンカータグ、フレームタグを解析する
4. 十分なデータが集まれば終了、または 2 へ
■実際のロボット
・優先:
1. リンクの集中する人気ページ、特に被リンクが多いページ
2.URL が短いページ
・非優先:
3.CGI と分かるページ
4.URL に数字を含むページ
■ロボットの問題
1. 辿れない部分の存在
・ロボットはリンクが張られていないページ群を探すことはできない。たとえば図1に
おいてページ A からロボットが収集を開始した場合には中央の島ページ群という枠で
囲まれた 3 ページにはアクセスすることがない。
・サーチエンジンで探せなくても Web ページが存在することもあることに留意する
2. 言語圏によるリンク格差
・英語圏以外のロボット作成者が指摘するように一般的に WWW ではある言語のページ
からのリンクは同じ言語圏内になることが多い。
・以前は、同じ言語圏のサーチエンジンを使った方が良かったが、現在では Google な
どのように国際的なサーチエンジンでかつ登録数が多いものがあるため、必ずしもそ
うでもない
・図 1 島ページ群
・図 2 言語圏間のリンク格差
検索エンジン最適化
■検索エンジン最適化とは
・定義
・「サーチエンジンの検索結果のページの表示順の上位に自らの Web サイトが表示され
るように工夫すること。また、そのための技術。」(IT 用語辞典より抜粋)
・SEO(Seach Engine Optimization)、サーチエンジン最適化、検索エンジン対策、検索エンジ
ンポジショニングとも呼ばれる
■検索エンジン最適化の影響
・お金をかければ検索エンジンの検索結果の上位に自分のサイトを出力させることができる
・→ 検索エンジンの順位は操作がされているものと認識し、検索エンジンの順位をあまり信
用しない。
2
検索エンジンを使うときの留意点
検索エンジンを使ったウェブ検索では
1. 特定性の高い検索式を心がける
・数多くの検索結果が出てしまうが、検索エンジンの順位をそれほど信頼せず、できる
だけ自分の意図する形で検索結果を絞っていく
2. 複数のキーワード
・同義語を複数使うのではなく、より特定性を高めるために
3. 出現しそうなキーワード
・「木村拓哉」について探したい ⇒ 「キムタク」
4. 複数の検索エンジンを使う
・最も登録数の多い検索エンジンでもインターネット上のウェブ情報すべてを登録して
いるわけではない ⇒ できるだけ網羅的な検索を行うには複数の検索エンジンを検索
・検索エンジンによって得意な領域が異なっている ⇒ 検索エンジンを使い分ける
5. 検索結果のリンクが見つからなくてもあきらめない
・Google などのキャッシュ機能
・Internet Archive
一般的な検索エンジン
Google http://www.google.co.jp/
■概要
・ページランクなどの高度な検索アルゴリズムを用い、検索精度で定評がある検索エンジン
・世界的に検索エンジン市場ではほぼ独占的になりつつあるが、日本では Yahoo! Japan の
シェアも依然として高い。
・特徴としては、Page rank による検索の正確さ、シンプルなインターフェース、キャッ
シュ、分散検索による高速性、ページ登録数の多さなど
すでに消滅しているページでもキャッシュで閲覧することができる。同様のことは Internet
Archive でも可能であるが、手間がかかる
■検索オプション
・site: サイトを限定して検索する(例:site:asia-u.ac.jp)
・filetype: ファイル形式を限定して検索する(単独で用いることはできず、キーワードと併
用しなければならない)
・intitle: <title> タグに囲まれた文字列限定して検索する(例:intitle: 根性)
・inurl: URL 内の文字列に限定して検索する(例:inurl:2ch)
■特殊な検索
・⇒ Google のヘルプ
・地図、路線案内、英和・和英辞典、株価検索など
Yahoo! Japan http://www.yahoo.co.jp/
・概要
・もともとはディレクトリ型検索エンジンの代表的なサービスであったが、現在はポー
タル的な意味合いが強い。
・ロボット型検索サービスには、Google のエンジンを使っている。
・日本でのシェアは相変わらず高い
3
Bing http://www.bing.com/
・概要
・Microsoft が開発した新しい検索エンジン。
特定分野に関する検索エンジン
学術情報の検索
■ Google Scholar http://scholar.google.co.jp/
・概要
Google Scholar は学術論文を中心とした学術情報専門のサーチエンジンであり、高度な検索技術を
用いて研究分野を限定せずに学術情報を検索可能としている。過去の蓄積も含めたときに、オン
ライン上で閲覧可能な研究成果は現時点で必ずしも多くはないが、閲覧不可能なものに関しても
書誌事項が提供される。研究者は自分の研究成果を登録すること、出版社は学術出版物の登録す
ること、図書館は契約している全文データベースと連携させることで、より多くの研究成果が検
索可能になることが期待されている。
・使い方
・検索結果
・[citation] と表示されるものはオンラインで閲覧できないものである。
・[ 引用元 ] をクリックすることでその文献を引用している文献を探すことができ
る。
・[ ウェブ検索 ] をクリックすることでその文献について普通の Google 検索を行う
ことができる。
・収録対象
・英語論文が中心であったが、最近では徐々に日本語資料も収録対象になりつつあ
る。
・高度な検索方法
・検索ボタン右 ( 下図参照 ) の「Scholar 検索オプション」を押すことで、他の雑誌記事
検索サービスのような著者フィールドや出版年フィールドを対象とした検索を行うこ
とができる
・また、著者名検索を行うためには、最初の検索画面で author: オプション、著者 : オプ
ションを使うこともできるが、引用符 ( ダブルコーテーション ) で囲む必要がある。
・例)著者 :" 長田秀一 "
ニュース記事の検索
■ Google ニュース →新聞記事検索参照
■ Yahoo! ニュース →新聞記事検索参照
■ Google アラート
・予めキーワードとメールアドレスを登録しておけば、そのキーワードに関する最新の
ニュース、検索結果、ニュースグループへの投稿が更新された際に、メールで通知してく
れるサービスも行っている
地図検索
4
■ Google マップ
・住所、店名、業種、ランドマークといった様々なキーワードで地図検索が可能
動画検索
■ Google ビデオ
・YouTube を始めインターネット上で公開された動画ファイルを検索可能。
課題
全体的な課題
1. 誤った情報を掲載しているウェブページを発見しなさい。
・具体的には信頼できると思われる情報源に掲載されている記述と異なる記述を探すこ
ととなる。
・例えば、有名人の生没年、事件の発生年や場所などの記述であれば、間違いが判断で
きるため、探索しやすいと思われる。
2. ある検索エンジンには登録されているが他の検索エンジンには登録されていないページを
探しなさい。(Google には登録されているが、Yahoo! Japan に登録されていない、Bing に
は登録されているが Google には登録されていないページ )
・普通の方法としては、自分のよく知っている分野の特定性の高い語を入力し、その検
索結果を比較する。数件しか検索結果が出てこないものであれば、比較する労力はそ
れほどでもないと思われる ( 自分の名前で検索してみるなども有効な手段? )。
・他には、Yahoo や Google からあえてはずされているページがどのようなものかを想像
してみる
検索練習
次の問題について調べ、検索方法と回答およびその根拠となる URL を答えなさい。対象となるサ
イトは日本語のものとは限らない。
■一般的な検索エンジンを用いた課題
1. 郵便物に記載された郵便番号を自動的に判別して仕分ける装置について、その装置の公的
な名称、国内で実用化された年、その装置の画像が見られるページの URL を答えなさい。
2. 高層ビルについている赤い点滅する照明について知りたい。その名称はなんというか。
またこの照明をつけるのはどんな法律で定められているのか。原文も知りたい。
3.2007 年のノーベル平和賞の受賞者は誰か、答えなさい。通称・正式名称ともに知りたい。
また、受賞者の名前が入った賞状の画像が見られるページの URL を答えなさい。
4. ブルックナーの交響曲第 9 番の総譜を閲覧できるサイトを探しなさい。
■特殊な分野の検索エンジンを用いた課題
1.「東京都大田区羽田 1-2-6」の隣のビルの駐車場には大きな文字列が書いてあるらしいが、
その文字列を調べなさい。
2. 西川氏があるアルコール飲料の酵母を用いて実験を行った成果を書いた ( 学術 ) 論文で
2004 年に出版されたもののタイトルを調べなさい。
3. 情報リテラシー教育の必要性を示した「Did You Know」から始まるタイトルの動画で日
本語字幕が付与されたものを探し、URL を答えなさい。
5