<ディレク トリサービス VS サ ーチ エンジ ン> 1年3組9∼12番 代表:11番 サーチエンジン インターネットで何かを調べたい、つまり Web 上での情報検索に欠かせない機能を提供してくれる のがサーチエンジン(検索エンジン)である。日本語のページだけで数千万URLもあると言われる 膨大な情報の中から必要な情報が簡単に探しだせるなら、インターネットは非常に強力なツール となる。 サーチエンジンとは何か サーチエンジンとは、与えられた検索語に対してそれに適合するサイトやページをリストアップして くれるインターネットのサービスサイトである。サーチエンジンサイトには様々な種類があるが、そ の使い方に大きな違いはない。 • 検索語の入力 • データベースの検索 • 適合サイト(ページ)の出力 • 検索結果リストから適当なサイト(ページ)への移動 といった手順で必要な情報の載っているサイトやページに関する情報を提供してくれるのがサー チエンジンの役目である。使い方は極めて簡単ではある。しかし、サーチエンジンの種類や性格を 正しく把握しておかないと、期待する結果を得ることは難しい。 サーチエンジンの種類 サーチエンジンの種類には大きく分けて次の二つがある。 • サイト検索 : ディレクトリー型(登録系)サーチエンジン o Web サイトを大分類、中分類、小分類のように多数のディレクトリー(カテゴリー) に分けて登録しているメガリンクサイトサービスである。ディレクトリーを何段階か 辿ることによって目的のサイトを探したり、キーワードを指定して特定のサイトを 探し出すこともできる。主なディレクトリー型サーチエンジンのサイト登録数は数 万∼数十万件である。 • ページ検索 : ロボット型(全文検索系)サーチエンジン o ロボット(スパイダー、クローラーともいう)と呼ばれる特殊なプログラムがネット上 を巡回し、Web ページのテキスト情報を収集してデータベース化する全文検索系 のサーチエンジンである。ディレクトリー型のようなカテゴリー分けしたサイト検索 の機能ではなく、検索語として与えられたキーワードが存在するページを網羅的 に探し出す。主なロボット型サーチエンジンのページ登録数は数百万∼数千万件 である。 サーチエンジンの特徴と長所、短所 1. ディレクトリー型の特徴 1. サイト検索である Web 上の「サイト」単位で検索をする。Web を巨大な書籍に喩 えるならばディレクトリー型サーチエンジンは「目次」の役割であると考えてよい。 目次を見て適当な章を選び、その章の各ページを見て必要な情報を得る。 2. 検索対象となる語句ディレクトリー型サーチエンジンでのキーワード検索の対象 となるものは、サイトのタイトル、サマリー(そのサイトに関する紹介、説明文)で ある。サーチエンジンの種類によってはサイト分類のカテゴリー名やサイト運営者 の名前、サイトの URL などが検索対象となることもある。 2. ディレクトリー型の長所、短所 1. 【長所】 o 的確な検索語に対しては的確なサイトが検索される タイトルやサマリーに使われる語句が検索の対象となるので、検索結果 としてヒットしたサイトが検索キーワードに関する情報の濃いサイトである 可能性が高い。 o ディレクトリー階層を辿って目的のサイトを探すことができる 4. o キーワードを指定せずにディレクトリーの階層を順に辿ることに よって求める情報に関するサイトの一覧を表示させることがで きる。 【短所】 登録件数が少ない 基本的に運営者の依頼によってサイトが登録されるので、その数は多く なく、Web を網羅するものではない。 o 特殊な検索語に対しては役に立たない サイトのタイトルやサマリーが検索語の対象となるので、特殊な専門用 語で検索してもその結果は期待できない。 o サイト検索以外のオプションがサポートされていない Web 上に存在する HTML 以外のファイル(画像、音声、PDF、表計算、ワ ープロで使われるフォーマットのファイル)を検索することができない。 3. ロボット型の特徴 0. ページ検索である Web 上の「ページ」単位で検索をする。Web を巨大な書籍に喩 えるならばロボット型サーチエンジンは「索引」の役割であると考えてよい。索引 によって特定の語句のあるページを網羅的に探し、直接のそのページを見て必 要な情報を得る。 1. 検索対象となる語句ロボット型サーチエンジンでのキーワード検索の対象となる ものは、ページタイトル、ページ全体のテキスト部分である。サーチエンジンの種 類によっては HTML のコメントタグ(<!--∼-->)内の語句や画像の ALT 属性、 META タグのキーワード指定などの語句も対象となる。 4. ロボット型の長所、短所 0. 【長所】 o 登録件数が多い サイト運営者の登録もできるが、基本的にはロボットというプログラムに よる Web ページの自動収集である。そのため、ロボットのプログラムの内 容やデータベースの蓄積用のサーバの容量にもよるが、非常に多くのペ ージを検索の対象とすることができる。 o 特殊な検索語でも検索される ページの全文検索であるため、どんな専門用語であろうともその語句が 存在すればそのページを検索結果としてリストアップしてくれる。 o 様々なオプション検索が可能 Web 上に存在する HTML 以外のファイル(画像、音声、PDF、表計算、ワ ープロで使われるフォーマットのファイル)をダウンロードできるページを 探すことができる。また、検索対象ページのドメインの指定やページ更新 日の範囲を指定することができるサーチエンジンもある。 4. 【短所】 o 期待するページとまったく関係の無いページが多く検索される 求める情報とまったく関係のないページであっても検索語として指定した キーワードがあるだけでそのページがリストアップされてしまう。単純なキ ーワードでは検索結果の件数が数千∼数十万件になることもあり、キー ワードの追加による絞り込み作業が必須となる。 このように、ディレクトリー型とロボット型ではその長所と短所がまったく正反対なのである。そこで、 最近ではディレクトリー型でもロボットによる情報収集の結果を提供したり、ロボット型でも独自の 厳選サイトを集めたディレクトリサービスを持つハイブリッドなサーチエンジンが増えてきている。
© Copyright 2024 Paperzz