ウェブページ検索結果の表示順序

情報処理レポート ウェブページ検索結果の表示順序 10D7101017 (Yahoo!の検索結果順序) アヌグラー・ナビラ・プリマ 10D7101018 (検索エンジン・まとめ係) 鶴谷
里美 徳本
和広 10D7101019 (検査基準、感想) 渡部
裕斗 10D7101025 (ページランクの定義、感想) 樋口
亜紀 10D7101026 (検査基準、感想) 検索エンジン インターネットでファイルやドキュメントを探す時に、検索したり最適な結果を示した
りする手段が必要となる。今我々がよく使っているその手段は検索エンジンである。検
索エンジンに重要なキーワードを入力すると数多くの結果が表示され、自分にとって最
適なリンクが選べる。
インターネットに乗っている多くのファイルやドキュメントの中から表示される結果は
検索エンジンにとって一番良い品質の結果である。もちろん、検索エンジンによって基
準が異なっている。
検索エンジンは2つの仕組みによって分かれている。
1. ディレクトリー型検索エンジン
(Human-powered search engine)
2. ロボット型検索エンジン (Crawler-based search engine)
ディレクトリー型検索エンジンではウェブマスターがウェブサイトをディレクトリーに
登録し、人の判断で検索結果が決まっている。それに対して、ロボット型検索エンジン
は特別のソフトウェアを使っている。これが自動的にネットを巡回し、データを集め、
ウェブサイトを登録する。そのため、ディレクトリー型検索エンジンで表示される結果
はロボット型検索エンジンより比較的に少ない。
ディレクトリー型検索エンジンの例は LookSmart と Open Directory。ロボット型検索
エンジンの例は Google, Alltheweb などである。Yahoo!や MSN はその2つの仕組みを合
1 情報処理・ウェブページの検索結果の表示順序 わせて使っている。Yahoo!の場合はディレクトリー型検索エンジンのほかに、Google
のロボット型検索エンジンを使用している。
ページランク ページランク(PageRank)とは、Google がウェブページを批評し、ランクをつけるため
のソフトウェア・アルゴリズムのことである。このソフトウェアは入力されたキーワー
ドとウェブページの関連性を判断する。
このアルゴリズムは Google の創設者、ラリー・ペイジによって開発された。開発され
たのはラリー・ペイジがスタンフォード大学に在学中のころで、今でもページランクの
特許は大学に帰属している。
ページランクの検査基準
ウェブページを判断するために、様々な要素が見られている。最も大事なのはそのペー
ジがいくつのページからリンクされているのかということである。しかし、それ以外の
大切なことはそのリンクしているページの品質。つまり、質の良い(重要性の高い)ペ
ージから リンクされていると、そのページも「重要性が高い」と判断する訳である。
一般的にはこれを「リンクポピュラリティ」と表現する。
リンクポピュラリティを判断する基準は次の通り。
1.
2.
3.
4.
そのページの被リンク数;そのページの人気や重要性である。
自ページにリンクを貼ってくれている相手の重要性。
リンクを貼ってくれている相手がどれだけ自分以外にリンクを貼っているか。
自分のサイトと、相手サイトの関連性(類似性)
リンク切れがないかどうか。
2 情報処理・ウェブページの検索結果の表示順序 ページランクを決めるために、Google は特別な式を使用している。その式は次の通り。
PR(A) = (1-d) + d(PR(t1)/C(t1) + ... + PR(tn)/C(tn)) もっと簡単な式は(分かりやすい) ウェブページの PageRank = 0.15 + 0.85 *(PageRank のそれへ
のリンクのすべてのページの"共有")
"共有"=リンクページの PageRank のページで外部へのリンクの数で割った値。
この計算から10段階のランク(ページランクは最低0で、最高が10)があり、数値
が高いほうが、評価が高い つまり、ページランクはウェブページの検索結果に比例している。高い数値のウェブペ
ージは何かを検索すると上位に出てくる可能性が高い。 私たちの考えたこと・思ったこと 1. 私たちがあるものを調べるときに、テーマなどを知っておくことが大切だが、そ
の調べたいものに対して、なにも分からないときもある。いくらリンク集が多い
といっても私たちが調べたいことがわからなくては意味がないものになってしま
う。せっかく、ページランクというものがあるので、私たちが知りたいようなテ
ーマでもっと細かく分けて、そしてその分けた中でページランクを作れば、もっ
と使いやすくなると思う。 2. ページランクはやろうと思えば誰でも順位を上げられることが分かった。つまり
検索上位のサイトが常に質のいいサイトかと言うとそうでもないらしい。ですか
ら検索上位にあがるサイトの質を上げるためにページランク自体の質を上げるべ
きだと思った。 3 情報処理・ウェブページの検索結果の表示順序 結論 1.
それぞれの検索エンジンは検索結果の順序を決定する際に独自の基準をしています。
同じキーワードを入力しても、別の検索エンジンでやれば違う結果が出てくるかも
しれない。 2.
ある一つの検索エンジンで検索したら、時々関係のないウェブページのリンクが出
てくる。そのときはキーワードを絞り込む、あるいは別の検索エンジンを使用した
方がいい。 参考文献 http://ezinearticles.com/?Search-­‐Engine-­‐Optimisation-­‐and-­‐Human-­‐Powered-­‐Directories&id=1841373 http://www.blwisdom.com/word/key/000328.html http://info.search.yahoo.co.jp/archives/002874.php http://searchenginewatch.com/3334891 http://seo.seo-­‐search.com/sub/kensaku1.htm http://www.ams.org/samplings/feature-­‐column/fcarc-­‐pagerank http://www.webworkshop.net/pagerank.html http://www.webproguide.com/seo-­‐articles-­‐index/Google-­‐PageRank/index.php http://www.yuanlei.com/studies/articles/is567-­‐searchengine/page2.htm http://www.motive.co.nz/glossary/pagerank.php 4 情報処理・ウェブページの検索結果の表示順序