検索エンジン

検索エンジン
P.N (タイ) 理科一類
要旨
商店街にせよ、駅にせよ、喫茶店にせよ、隅から隅まで、どこにもコネクトできる時代において、
ネット上にあふれる情報を選んで獲得することも同時に難しくなる。そこで、探索エンジンがその
問題を解決するために発展されたとも言える。本論は「検索エンジン」と名乗り書かれたものであ
るけれども、そのほとんどが「グーグル」についての話である。なぜなら、これは未来的な世界先
端検索エンジンであり、
企業の面にも投資家に脚光を浴びる Google Inc.、5 年間に平均成長率 100%
を超える企業であるから、その成功の秘密は誰もが知りたがるものである。最初に、検索エンジン
の一般項目例やその構成、専門の言葉の説明など、そしてグーグルについて名前の由来、成功の秘
密、企業の収入まで記述した。最後に、自分の推測でグーグルの将来を語った。半分の内容はネッ
ト上にある情報を獲得しまとめて書いたものだから、興味深い方は参照文献にあるリンクを自分で
尋ねればもっと面白くなるであろう。
キーワード:インターネット 検索エンジン ページランク グーグル robot
1.はじめに
インターネットの技術が発達するとともに、インターネット上での数え切れないほどの情報が急増し、その
ため情報を整理し、簡単にクライアントの好ましい情報を獲得できるために「検索エンジン」が誕生した。
2.検索エンジンについて
2.1 検索エンジンの意味
検索エンジンとは、インターネットに存在する情報(ウェブページ、ウェブサイト、画像ファイル、ネットニュ
ースなど)の検索機能を提供するサーバーやシステムの総称である。インターネットの普及初期には、検索
エンジンとしての機能のみを提供していたウェブサイトそのものを検索エンジンと呼んだが、現在では様々
なサービスが加わったポータルサイト化が進んだため、検索エンジンをサービスの一つとして提供するウェ
ブサイトを、単に検索エンジンと呼ぶことはなくなっている。
2.2 検索エンジンの構成
検索エンジンが情報を獲得する方法についてはまずウェブマスター
から自分のウェブページを検索エンジンのサーバーに登録しなけれ
ばならない。そして、検索エンジン側からその登録されたウェブページ
に Spiderbot という特別なプログラムを送る。(Spiderbot または Robot
については後で説明する)ウェブページの情報を獲得し検索エンジン
のサーバーに送るのが Spiderbot の役割である。その情報を調理し、
Document サーバーに貯え、どの情報がどこにあるかを瞬間的に利用
者によるキューリーに答えるために、インデックスサーバーが立てられ
ている。
右の図のように、利用者がキューリーを入力した時点で、そのキュー
1
リーがウェブサーバーを通って、インデックスサーバーで関係のあるウェブページの存在する場所を示し、
Document サーバーに命令する。Document サーバーはその命令に従って自分に貯えた情報から関係のあ
るウェブページだけ選び、利用者のパソコンまで結果を表す。
2.3 クローラー(ロボットまたはスパイダー)とは?
クローラーは、WWW 上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラム
である。スパイダーまたは単純にロボットとも呼ばれる。
主に検索エンジンのデータベース(Document server)、インデックス作成に用いられているほか、統計調
査などの目的にも利用される。近年では電子メールアドレス収集業者などもクローラーを利用して、迷惑メ
ールの送信効率を上げている。
一般にクローラーは、既知の HTML 文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の
文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベース(Document server)に登
録する。また、既知のファイルが存在しないことを検出した場合はデータベースから削除する。
3.グーグルについて
Google(グーグル)は、インターネット上での検索エンジンである。1998 年、スタンフォード大学で博士号
候補であったラリー・ページとセルゲイ・ブリンによって設立された。彼らは WWW 上の情報を見つける方法
や、ウェブサイトを閲覧している最中でもすぐさま検索が出来る「Google ツールバー」というツールを開発し、
これら先進的な手法を発展させた。会社はカリフォルニア州の Mountain View を本拠にしている。2002 年に
は最も人気のあるサーチエンジンになり、そのウェブサイトや Yahoo!、AOL といったクライアントを通じてイン
ターネット検索の 80%以上を占めるまでになっている。
3.1 名前の由来
Google という言葉は googol の言葉遊びである。この googol はアメリカの数学者 Milton Sirotta によって
作られたもので、1 のあとに 0 が百個続く数を表す。この言葉を社名に用いることは、WWW 上の膨大な情
報を組織化するという Google の目的を表している。
3.2 検索の方法・使用システム
Google は与えられた検索文字列に一致するページをランク付けするために、ページランクと呼ばれるア
ルゴリズムを用いている。ページランクアルゴリズムは、ウェブページの価値の指標をそこにリンクしている
ページのページランクを加重した値に基づいて、再帰的に計算するものである。これにより、ページランク
は人間の作ったリンクから引き出され、人間の考える「重要さ」とよく関連することになる。ページランクに加
えて、Google は表示結果に現われるページのランキングを決定する別の秘密の基準も用いている。ページ
ランクを見る方法として一番簡単な方法は、Internet Explorer 対応の Google ツールバーをパソコンにインス
トールすることで表示出来る。これは、0 から 10 までの 11 段階の評価式となっている。
Google は検索要求に答えるため、また WWW のインデックス化のために、1 万台以上の GNU/Linux コン
ピュータを使用している(ちなみにディストリビューションはコストパフォーマンスの追求のため、Red Hat
Linux を独自にカスタマイズして使用している)。インデックス化には“Googlebot”というクローラが用いられ
ている。これらのページへのリンクを調査して、そのデータベースに追加する新たなぺージを見つける。イ
ンデックスデータベースとウェブページのキャッシュのサイズは数テラバイトにも及ぶ。初期のころのクローラ、
2
Web サーバはともにプログラミング言語 Python で書かれていた。現在では検索のメイン部分は C++によっ
て書かれており、Web サーバには GWS という専用のサーバソフトウェアが使われている。なお Google のサ
ーバに使われているコンピュータは非常に安価なものであり、信頼性を得るために徹底した多重化が計ら
れている。さらに Google は何十台ものマシンを毎日新たに追加している。
Google はまた、イメージ(画像)検索や「Google グループ」と呼ばれるユーズネット・アーカイブ検索の機
能を備えている他、英語版などでは、実験的な機械翻訳のサービスなども提供している。
3.3 グーグルの人気の秘密
Google は情報の散在を秩序正しくするように設計されている。編集や限定されたディレクトリや、販売さ
れた高額順の検索結果リストではなく、インターネットがもつ独自の構造にしたがってウェブ上の情報を整
理し、検索サービスの本来あるべき姿を実現している。
ウェブでは、どのページも他のウェブページに対し瞬時に、そして仲介を通さずに直接リンクできる。この
リンク構造こそがインターネットから階層性を除いて、情報が支障なくサイトからサイトへ流れるようにしてい
る。
80 億以上の URL で構成される Google のインデックスは、他に類がなく、インターネット上
の最も役に立つ Web ページの包括的な集合体である。インデックスサイズ自体そのものは、検索
結果を表示する鍵ではないが、関連した検索結果を選ぶ上ではもっとも影響力がある。さらに、多
くの検索エンジンとは違い、Google では入力されたキーワードのすべてがテキストかリンクアン
カーと一致するページだけを検索結果に表示する。そして、Google は更新されない Web ページの
概略ではなく、検索のつど一致するテキストの抜粋を、検索語句にハイライトをつけて結果リスト
に表示する。このプレビューによって無関係な Web ページをダウンロードする時間やイライラは
省かれる。
Google の複雑で自動化された検索方法には人為的な介入がない。PageRank を販売したり、商
業的に検索結果を操作するということも一切ない。Google 検索は高品質なウェブサイトを手軽に
探すための、正確で客観的な手段である。
ページランクについて
ページラングはグーグルの一つの成功秘密であり、グーグルが誕生した時に当時の
検索エンジンはこのような機能がついていなかったため、登録されているウェブが多け
れば多いほど不重要なウェブページがたくさん出てくる。しかし、調査して結果によっ
て利用者が最初の 10~20 ウェブしか開かなかったため、ラリー・ページとセルゲイ・
ブリンが最もキューリーとの相似率の高いウェブページを一番上に載せる方法を考え、
ページランク(PageRankTM)アルゴリズムを開発して自分の研究している検索エンジ
ン、グーグル、に導入した。
ページランクアルゴリズムの発想は、引用に基づく学術論文の評価に似ている。
学術論文の重要性を測る指標としては、被引用数がよく使われる。重要な論文はたくさ
んの人によって引用されるので、被引用数が多くなると考えられる。同様に、注目に値
する重要なウェブページはたくさんのページからリンクされると考えられる。
また、被引用数を用いる考え方以外にも、「被引用数の多い論文から引用されている論
文は、重要度が高い」とする考え方が以前から存在した。ウェブページの場合も同様に、
重要なページからのリンクは価値が高いと考えられる。
また、乱発されたリンクはあまり価値がないと考えられる。リンク集のようなとにかく
3
たくさんリンクすることを目的としている場合、リンク先のウェブページに強く注目し
ているとは言い難い。
すなわち、各ページに「流れ込む」リンクの得点の総和と、各ページから「流れ出す」
リンクの得点の総和が等しくなるようにして、その総和をそのページの得点と考えるの
である。 この得点が高いほど、そのページは重要であると考えられる。
全体に亘って矛盾が生じないようにうまく得点を割り振る必要があるが、これは一種の
フローの問題であり、この問題を解法については様々な理論が考え出されているリンク
の得点の総和が等しくなるようにして、その総和をそのページの得点と考えるのである。
この得点が高いほど、そのページは重要であると考えられる。
全体に亘って矛盾が生じないようにうまく得点を割り振る必要があるが、これは一種の
フローの問題であり、この問題を解法については様々な理論が考え出されている。
具体的な計算法
もっとも基本的な考え方として、 リンク関係を行列の形で表わしてみよう。 あるペ
ージ i から別のページ j へリンクが張られている場合には その成分を 1 とし、そうで
ない場合を 0 とする。 すなわち、行列 A の成分 aij は
aij = 1 if (ページ i からページ j へのリンクが「ある」場合)
0 if (ページ i からページ j へのリンクが「ない」場合)
で表わされるとしよう。 文書数を N とするとこの行列は N×N の N 次正方行列に
なる。 これは、グラフ理論で「隣接行列」と呼ばれるものに相当する。 すなわち、Web
のリンク関係を有向グラフ S と見なし、その隣接関係を取ったものである。要するに、
リンクが張られていれば隣接関係があるわけである。
右の図は、黒点が横に連なっているページはすなわち外向け
のリンクが多いページ であることを示し、逆に縦に連なって
いるページは、 たくさんリンクされているページであること
を示している。
PageRank の行列は、この隣接行列を転置し(行と列を入れ替
えること)、 さらにそれぞれの列(column)ベクトルの総和が
1 (全確率)になるように それぞれのリンク数(すなわち、非
零要素数)
で割ったものと言える。作られた行列は「推移確率行列」と呼ばれ、 N 個の確率変数を
持ち、各行ベクトルは状態間の推移確率を表わす。 転置する理由は、PageRank が「ど
れだけリンクしているか」ではなく 「どれだけリンクされているか」を重視しているか
らである。
PageRank の計算は、この推移確率行列の最大固有値に属する 固有ベクトル(優固有ベク
トル)を求めることにほかならない。 なぜなら、線形変換系の t →∞ での漸近挙動は、
変換行列の絶対値最大の固有値とそれに属する固有ベクトルによって 本質的に記述さ
れることがわかっているからである。 言い換えれば、推移確率行列で表わされる確率過
程は、 この行列の掛け算を繰り返したものを調べることで、 行き着く先の状態の確率
4
3.4 グーグルの収入の起源
グーグルが誕生したころ、ラリー・ページとセルゲイ・ブリン自分のお金で資金として開発され、優秀
な機能によって人気が高くなるとともに投資家からの資金も増えてきたが現在ほとんどのグーグルの収入
は広告から入ることになった。
グーグルの広告は二つに分けられる。
3.4.1 Google アドワーズ広告
Google アドワーズ広告では、Google を利用する
度にユーザーによるキューリーに相似する広告主
様の提供する製品やサービスを探して、絞り広告を
表示することである。広告がクリックされた回数に
応じて請求が行われる課金方式を採用している。
したがって、企業側が広告費用を決め、(製品ま
たはサービス)同じ種類であれば、費用の高い広告
が一番見やすいところにあり、出る頻繁度も最も多
いつまり競争式であることとも言える。上の図のよ
うにアドワーズ広告は検索して結果の右側にある。
3.4.2 Google アドセンズ広告
Google アドセンズ広告では、Google のサイトではなく、ウェブマス
ターから Google に要求を出し、自分のサイトを登録して、自分のサイ
トに広告を載せることである。グーグル側はその登録されたウェブサイ
トの内容を検索し、その内容と類似する広告をユーザーに提供する。そ
の広告を表示する回数によってグーグルはその広告する企業から広告
費用をもらい、ある程度ウェブマスタに収益を与えるプログラムである。
3.4.3 グーグルの将来
この図はグーグルの 2002 年度からの年収である。要することに毎年成長率は 100%を超
え激増しており、ドットコムバブルの崩壊以降最も将来性が高いと言われている。
5
そして、上のグラブはグーグルの株価、開始 2004/08/18 日から現在(2005/07/21)までの動きであ
る。グラブによると IPO(Initial Public Offering)の株として売っている日の価格は 85 ドル前後、
それ以来各四半期ごとに場外ホームランをかっ飛ばし続けている。株価も天井知らずで、一体この
集団はつまづくことがあるのだろうかと誰しも思わざるを得ない。急激に増加し現在 313 ドル(約
3.7 倍増)まで至っていることでニューヨーク市場に脚光を浴びるとも言える。
ではこれからグーグルはどのようになるのだろうかというと、グーグルはここ数カ月のあいだに、
いくつかの新しい機能を追加し、拡大する野望を実現しようとしてきたが、米国時間 20 日に発表
された最新の機能は、ユーザーが Google のホームページを自分の好みにあわせてカスタマイズで
きるようにするものだ。これは、Yahoo が提供するポータルページ「My Yahoo」に直接対抗する
ものといえる。だが、Google がこうした機能を追加するなかで、同社のオンラインにおける顔は
ライバル各社のウェブポータ ルにますます似てきている。Google の幹部らは、自社の方向性に対
するライバル各社の影響を否定しているが、業界の観測筋は同社の個性が変わりつつあるとの点で
意見が一致している。ネット広告獲得をめぐる戦いにおいて、Google と競合ウェブポータル各社
との違いは曖昧になりつつある。ところが、Google が Yahoo や MSN と同じような道を歩んでい
くなかで、
「邪悪なことはしない」というグーグルのモットーは真実味を失わないのだろうか。
4.まとめ
IT ネットワークが発達されるとともに、数え切れないほどの情報がネット上にあふれている。
昔は「情報は力の源」とも言われているが、現在インターネットのおかげで情報を手に入れられな
いことはないだろうが問題になっているのは情報が手に入れないのではなく、情報が多過ぎて、す
べてを知るわけにはいかないのである。そこで、その数え切れない情報を整理し必要な情報だけ取
り切って、インターネット利用者に提案する検索エンジンが誕生した。グーグルは検索エンジンの
中で最も圧倒的に使用されているため、グーグルを一例としてその成功の秘密、具体的な仕組みを
以上説明した。そしてこれからグーグルがどのように発展するかについては、あくまで未来のこと
で妥当とは限らないが、現在の情報から予想すると「グーグル、一番の検索エンジン」から、パー
ソナライゼーションのオプションによって「グーグル、一番のウェブポータル」になるのだろうと
私は思う。
6
参考文献
z
S. Brin, L. Page, 'The Anatomy of a Large-Scale Hypertextual Web Search Engine',
http://www-db.stanford.edu/~backrub/google.html
,2005/07/22
z
フリー百科辞典「ウィキペディア」http://ja.wikipedia.org/wiki/Google
z
Google の 秘 密 ‐ ペ ー ジ ラ ン ク
pagerank.html
, 2005/07/22
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/
,2005/07/22
z
CNET Japan http://japan.cnet.com/news/ ,2005/07/22
z
Yahoo!Finance http://finance.yahoo.com ,2005/07/22
z
Googleの人気の秘密
http://www.google.co.jp/intl/ja/why_use.html,2005/07/22
7