PDF (220652bytes)

1
WIT2000-G1-2
WWW ロボットの予備評価と高速化の検討
分散型
Experimental Evaluation of the Distributed WWW Robot and an Examination of the Speedup
山名 早人
森 英雄
田村 健人
Hayato YAMANA
Hideo MORI
Kent TAMURA
早稲田大学 理工学部 情報学科
京都大学大学院 情報学研究科
日本 IBM 東京基礎研究所
河野 浩之
村岡 洋一
Hiroyuki KAWANO
Yoichi MURAOKA
京都大学大学院 情報学研究科
早稲田大学 理工学部 情報学科
広域に分散した WWW サーバのデータの高速収集するための一手法として, WWW ロボッ
トと呼ばれる WWW サーバのデータを自動的に収集するプログラムをインターネット上に複数配置
し協調動作させる「分散型 WWW ロボット」について研究開発を実施している. 1998 年度末まで
に, 5ヶ所に分散したロボットを用いた評価を行いその有効性を確認した.本論文では,実用性を
評価するために実験規模を拡大し, 17ヶ所に分散配置された分散型 WWW ロボットを使い 6,500
の WWW サーバ(465 万 URL)を対象として行った結果を示す.この結果,一カ所で集中して収
集する場合に比較し,負荷均一化による分散により, 6.3 ∼ 286 倍の高速化が可能であることがわ
かった.特に, 17 台の分散型ロボットと 6,500 台の WWW サーバ間のデータ転送速度の間には,
同一の WWW サーバを対象とした場合でも平均 67.5 倍の速度差があり,さらなる高速化のために
は、データ転送速度を考慮した分散が重要になることが判明した.
1
はじめに
の 研 究 グ ルー プ
(IRTF-RD) が 中 心 と なっ て、
ARPA(Advanced Research Projects
世界中の WWW サーバから発信されるデータは
2000 年 1 月時点で約 17.8 億ページと予測される.
Agency(現
DARPA) や NSF(National Science Foundation) の
サポートを受け実施された研究である. Gatherer と
これらの WWW サーバのデータを自動的に収集す
呼ぶ WWW ロボットをネットワーク上の複数個所
るプログラムを一般に WWW ロボットと呼ぶ.この
に配置し分散収集をすることができるが,分散収集
WWW ロボットが全 WWW サーバにアクセスし,
必要な Web ページを収集するには,現状技術では
WWW ロボットを動作させるサーバの性能および回
時の WWW サーバの割り当ては静的分散であり,
分散の自動化については研究されていない.一方,
WebAnts は、 Texas
Instruments からの資金を受
線容量の制限などから,日本国内のみの WWW サー
け, John R. R. Leavitt 氏を中心にカーネギーメロ
バを対象とした場合でも 1ヶ月以上の時間を要する
ン大学で行われたプロジェクトである.複数のエー
[1].また,インターネットに与える負荷の約 4 分の
1 が WWW ロボットのアクセスによって占められて
ジェント (Ant と呼ぶ) が協調して WWW サーバ群
に対して索引付けと検索を行う機能を提供し, Web
おり,インターネットに与える影響としても無視で
ページを分散収集する際の重複を避ることができる
きなくなってきている.
が,分散収集による高速化についての研究は実施さ
れていない.
このような問題を解決する方法として,分散型の
WWW ロボットが研究開発されており,代表例と
これに対して本研究では,田村の修士論文 [1] を
して, Harvest [2] や WebAnts [3] が挙げられる.
ベースとし,インターネット上に広域に分散した複
Harvest は, IRTF(Internet Research Task Force)
数の WWW ロボットを協調して動作させることによ
2
WIT2000-G1-2
り, Web ページを高速収集するための研究開発を実
ホスト数増加
施した1 [4] [5] [6] [7] [8] [9] [10].これにより,従
来複数の WWW ロボットが同一の WWW サーバに
WWWサーバ数増加
14
12
アクセスし同じデータを収集するという無駄を無く
し,かつ,分散協調して集めることにより収集の高
ドメイン数増加
16
10
倍(前年比)
速化を目指した.
8
6
4
以下では,分散型 WWW ロボットによる収集高速
2
化の予備評価と,さらなる高速化のための検討を行
0
1992
1993
1994
1995
1996
1997
1998
1999
う.
2
図 2: ホスト数, ドメイン数,WWW サーバ数の毎年の増加
率 (米国 Internet Software Consortium, 英国 Netcraft 社
が公表するデータを元に作成)
Web ページ収集の現状と課題
2.1
インターネットと WWW の発展
イ ン ター ネッ ト に 接 続 す る コ ン ピュー タ 台 数
(ホ ス ト 数) は, 米 国 Internet
sortium
Software
Con-
(http://www.isc.org/) が 半 年 毎 に
公 表 す る デー タ に よ れ ば, 2000 年 1 月 現 在 で
約 7,200 万 台 で あ る. ま た, 英 国 Netcraft 社
(http://www.netcraft.co.uk/) が 毎 月 公 表 し て
い る デー タ に よ れ ば, WWW サー バ 数 は 2000 年
1 月現在で 995 万台であり,全ホストの約 14 % が
WWW サーバとして情報を発信していることにな
1994 年に WWW サーバ数が急増したのは,この
年に Netscape のバージョン1の公開に伴って急激に
ユーザ層が広がり,それに伴ってデータを発信する
WWW サーバ数が増加したためだと考えられる.
その後, WWW サーバ数の増加率は減少したが,
1998, 1999 年とほぼ前年比2倍で推移している.
一方,ホスト数及びドメイン数の増加は 1998, 1999
年とほぼ前年比 1.5 倍で推移している.
る.図 1に半年毎のインターネット接続ホスト台数と
WWW サーバ数の推移を示す.また,インターネッ
トに接続するホスト数,ドメイン数, WWW サーバ
数の毎年の増加率(前年比)を図 2に示す2 .
Num.of Hosts
Hosts
80,000,000
Num.of WWW servers
WWW Servers
12,000,000
10,000,000
情報検索サービスの動向と WWW
サーバから発信されるデータ量
調査によれば, 1999 年 2 月現在の WWW サーバか
ら発信されるデータ量は約 8 億ページと推測される
[11].テキストファイルのみのデータ量は 15TB (タ
グ部分を除けば 6TB ) であり,平均 18.7 KB/page
60,000,000
8,000,000
50,000,000
6,000,000
30,000,000
4,000,000
であるとの結果が得られている.これらの推定の詳
細は文献 [11] [12] に詳しいが,全体のページ数推
定は,複数の検索サービスに対して同じ Query を送
り,得られた検索結果の重複度から統計処理し算出
20,000,000
2,000,000
10,000,000
0
WWW
NEC 北米研究所の Steve Lawrence らの統計的
70,000,000
40,000,000
2.2
0
1993/7 1994/7
1995/7
1996/7
1997/7
1998/7
1999/7
1994/1
1995/1
1996/1
1997/1
1998/1
1999/1 2000/1
図 1: インターネットに接続するホスト数と WWW サー
バ数の推移 (米国 Internet Software Consortium, 英国
Netcraft 社が公表するデータを元に作成)
している.また,各ページの平均の大きさ等は,実
際に 2,500 の WWW サーバのデータを収集し算出し
ている.
1999 年 2 月 時 点 で の WWW サー バ 数 は, 英 国
Netcraft 社 の調査に よれば 430 万台であ り, 2000
年 1 月にはこれが 956 万台になっていることから推
測すると, 2000 年 1 月現在での Web ページ数は全
1 1998 年 度 ∼ 1999 年 度 に 実 施 し た 情 報 処 理 振 興 事 業 協 会
(IPA) の独創的情報技術育成事業の成果である.
2 ドメイン数は, edu, com, gov, mil, org, int, net で終わる
ドメインについては第二レベルで,それ以外のドメインは第三レベ
ルで計算した.
世界で 17.8 億程度となる.
2000 年 1 月 現 在 で の 有 名 な WWW 情 報 検 索
サー ビ ス サ イ ト が 収 集 し て い る Web ペー ジ 数
(各社 の公表 値)を調 査し たとこ ろ,最も 多く の
3
WIT2000-G1-2
ペー ジ を 収 集 し て い る 検 索 サー ビ ス サ イ ト は,
FAST(http://www.alltheweb.com/) で あ り,
3 億 ペー ジ(全 体 の 約 18 %) に とど ま る. 一 方,
1997 年末時点での Web ページ数は 3.2 億,この時
点で最も多くのページを収集していたのは AltaVista
の 1.2 億ページであり,全体の約 38 %をカバーして
1 20 を 越 え る Web ロ ボッ ト が 同 一 の WWW
サーバのデータを収集するのは無駄である点
インターネットの約4分の1を
2
トが利用している点
3 WWW 情報検索サービスがデータとして持つ
いた.このように,年々 Web ページ全体に対するカ
バー率は低下の一途をたどっている.
WWW ロボッ
Web のページのカバー率が低下している点
を考え合わせると,複数の WWW 情報検索サービ
スを提供するサイトが,個別にデータを収集せず協
2.3
Web
ページ収集と問題点
Web ページは,一般的には WWW ロボットと呼
ばれるプログラムを使って収集する.収集の開始点
となる URL を WWW ロボットに渡すことにより,
WWW ロ ボッ ト は, そ の 開 始 点 と な る URL か ら
力して高速に集めるための仕組みの構築が重要なポ
イントとなる.
3 研究開発内容概略
3.1
実験参加者
http プロトコルを用いて順次リンクをたどり WWW
コアメンバとして,早稲田大学,京都大学,北陸
ページを収集する.
公 開 さ れ て い る デー タ (http://info.
webcrawler.com/mak/projects/robots/
active/html/) に よ れ ば, 2000 年 1 月 現 在 で
の WWW ロボットの種類は 218 である.また,電
子技術総合研究所 (http://www.etl.go.jp/) への
アクセスログを元に調査したところ,常に 20 を越え
る Web ロボットが WWW サーバのデータ収集を毎
先端大学院大学,慶應義塾大学,大阪府立大学,日
本 IBM(株) 東 京 基 礎 研 究 所, シャー プ (株), 電 子
技術総合研究所の8研究機関が参加すると共に,
外部協力機関を併せて合計 33 機関(21 大学, 4 イ
ンターネットサービスプロバイダ, 3 企業, 3 ネッ
トワーク機関, 2 国立研究所)が参加している (図
3).
日行っていることが判明した.さらに,電子技術総
合研究所に対してアクセスのある WWW ロボット
を 調査 (1999 年 7 月 12 日 ∼ 18 日) し たと こ ろ,全
3.2
分散型 WWW ロボットの概要
分散型 WWW ロボットでは,
た.詳細を表 1に示す.
表 1: 全アクセスに占める WWW ロボットのアクセ
分散した
アクセスの 37 %が Web ロボットによるものであっ
1 WWW ロボットをネットワーク上に分散して複
数配置する.
2
自動的に決定させると共に協調動作させる.
スの割合 (対象サーバ: 電総研)
WWW
ロボット運営
サイト
Excite
HotBot
Infoseek
FreshEye
全アクセスに
占める割合 (%)
6%
6%
4%
3%
WWW ロボットが担当するサーバを
の2点により,高速に WWW サーバ上のデータを収
集することを目指しており,直接の効果・成果,及
び,波及効果として以下の4点が期待される.
1 WWW サーバ上のデータを高速収集(目標は日
本全国の WWW サーバ上のデータを 24 時間以
WIDE で の 報 告 (http://www.wide.ad.jp/) に
内に収集) することが可能となる.
よ れ ば, http プ ロ ト コ ル は, 全 プ ロ ト コ ル の 70
高速収集により,検索サービスサイトでは,最
%程度を占めているため,電子技術総合研究所の
新のデータを利用した検索サービスの提供が可
WWW サーバへのロボットのアクセスが平均的なも
能となる.つまり,最新性において質の高い検
のであると仮定すると,「インターネットの約4分
索を提供することができるようになり,イン
の1は WWW ロボットが利用している」と推測する
ターネット検索ビジネスの活発化にもつながる
ことができる.このように,
と予想される.
2
4
WIT2000-G1-2
8.シャープ株式会社技術本部ソフトウェア研究所
1.東京大学 工学部 電子情報工学科
9.京都大学大学院情報学研究科
2.学術情報センター研究開発部
3.北陸先端科学技術大学院大学
4.奈良先端科学技術大学院大学情報科学研究科
5.東京大学 生産技術研究所
10.電子技術総合研究所情報アーキテクチャ部
6.岐阜大学工学部応用情報学科
11.慶應義塾大学環境情報学部
7.農林水産省農業研究センター
12.徳島大学工学部
13.岩手県立大学ソフトウェア情報学部
14.東京工業大学 大学院総合理工学研究科
Robot Server (PRSM)
15.横浜国立大学工学部電子情報工学科
core members
16.NTT未来ねっと研究所
17.琉球大学 総合情報処理センター
Another cooperated sites
18.南山大学経営学部情報管理学科
19.大阪府立大学工拡部経営工学科
20.(株)ネットウェーブ四国 技術部
21.トライネットワークインターナショナル(株)
JAIST Waseda Univ.
22.北海道地域ネットワーク協議会
23.ネスク・インターネット
ETL
Kyoto Univ.
24.東北インターネット協議会
25.早稲田大学理工学部情報学科
Osaka Pref. Univ.
26.日本IBM東京基礎研究所
27.Intioプロバイダ
28.九州大学大学院システム情報科学研究科
29.広島大学工学部第二類
Keio Univ.
30.東海地域ハブ研究会
31.東京大学 生産技術研究所
Sharp Corp.
32.筑波大学 学術情報処理センター
33.大阪教育大学 教育学部
21 Universities
4 ISPs
3 Companies
3 Internet Organizations
2 National Laboratories
図 3: 実験参加組織
writtenin Java
Pu b lic R o b o t
Se v e r M a n a g e r
PR S M
S e a rc h
S e rv ic e
S e rv e r( S S S )
data transferspeed
Si
d(Rj,Si)
Rj
c o n t ro l
WWW
Server
wi
PR S
c o n t ro l
Si+1
wi+1
PR S
WWW
Server
PR S
PR S
Lk
PR S
Si+2
PR S
Lk+1
wi+2
PR S
Rj+1
WWW
Server
分散型W W Wロボット
Si : WWW Server
wi : size of documents in Si
Rj : Public Robot Server(PRS)
d(Rj,Si) : data transfer speed between Si and Rj
Lk : Search Service Server that constructs WWW database
図 4: 分散型 WWW ロボットの仕組み
現在各検索サービスサイト毎に独立に動かして
3
与する.
いる WWW ロボットを本研究開発によって開
発された広域分散協調サーチロボットに置き換
えることにより,国レベル,あるいは,世界レ
3.3
分散型 WWW ロボットの動作概要
ベルでの協調収集が可能となる.これにより,
分 散 型 WWW ロ ボッ ト は, 図 4に 示 す よ う
現在インターネットの負荷の4分の1を占める
に,全体を管理する Public Robot Server Man-
WWW ロボットによる負荷を大幅に削減するこ
ager(PRSM) と 個々 の WWW ロ ボッ ト で あ る
とが可能となる.
Public
本ソフトウェアは次世代のコンピューティング
4
Robot
Server(PRS)
か ら構 成さ れる.
PRS・ PRSM は Java1.2 で 実 装 さ れ て お り,
PRSM は WWW サーバ Apache に JServ モジュー
環境として近年研究開発が活発化の兆しを見せ
ルを組み込み,処理は Java servlets で行っている.
ている Globus [13] に代表される「広域分散コ
PRSM は, PRS に 対 し て 担 当 WWW サー バ の
ンピューティング」の一つの重要なアプリケー
分配や,各 WWW サーバと PRS 間との距離計測を
ションとなり,本分野の研究開発の活性化に寄
指示する.一方, PRS で新規に発見された WWW
5
WIT2000-G1-2
サー バ や 距 離 計 測 の 結 果 は, PRSM に 送 ら れ,
ムに抽出したものである.
PRSM 側で PRS への 担当 WWW サー バ 割り 当て
を 行 う. PRS へ の 担 当 WWW サー バ 割 り 当 て 方
表 2: 評価実験に用いた PRS(順不同)
設置場所
式として,ランダム方式と負荷均等化方式の二種類
PRS01
をサポートしている [7].このようにして, PRS は
PRS02
PRSM からの指示に基づき各々互いに重複しない
PRS03
WWW サーバを担当し Web ページを収集する.
PRS04
PRS05
収 集 さ れ た デー タ は, 最 終 的 に 図 中 の Search
Service
PRS06
Server(SSS) に 再 配 布 す る こ と に よ り,
PRS07
検 索 サー ビ ス の た め の 索 引 作 成 を 行 う. 現 在 の
PRS08
HTTP/1.1 準 拠 の サー バ は, 1 回 の 接 続 で 複 数 の
PRS09
PRS10
データを転送する Keep-Alive 機能を持っているが,
PRS11
複数のデータをまとめて転送する機能は持っていな
PRS12
い.このため,各 PRS で収集したデータを SSS に
PRS13
PRS14
再配布する際のオーバヘッドを小さくするため,複
PRS15
数のデータを 1 回の接続でまとめて圧縮して送る機
PRS16
能,及び, SSS からの要求に応じてデータ中の必要
PRS17
慶応大学
Intio プロバイダ
農林水産省 農業研究センター
琉球大学
奈良先端大学院大学
NTT未来ねっと研究所
東北インターネット協議会
広島大学
東京工業大学
通商産業省 電子技術総合研究所
南山大学
岐阜大学
東京大学
徳島大学
京都大学
北海道地域ネットワーク協議会
国立情報学研究所
な部分のみ (例:URL や更新日時の指定による指定)
を送る機能を PRS に持たせる.
PRS は,まず起動時に PRSM にアクセスし,担
当リストを PRSM から取得する.担当のサーバの
表 3: 評価実験の対象とした WWW サーバの分類
ドメイン
ページをすべて 取得し終ると,再び担当 リストを
サーバ数
ac.jp
2,580
取得する.ページ収集は,インターネット及び相手
co.jp
2,371
の WWW サーバへ与える負荷を最小限におさえる
or.jp
606
ne.jp
435
go.jp,kek.jp
137
ため,動作時間を制限し,平日は午前 2 時∼午前 8
時,土日は午前 2 時∼午後 10 時のみページ収集を行
gr.jp
う.これは, Internet Exchange サイトの調査で,
ad.jp
地域名.jp
午前 2 時∼午前 8 時頃の負荷が一番小さいとの結果
合計
に基づいている.さらに, Java のスレッドを用い,
53
27
291
6,500
同時に 200 個のサーバに対して並列にアクセスを行
ない,高速化を実現している.
1 つのサーバに対しては,サーバへの負荷を少な
くするため,連続してアクセスはせず 20 秒おきにア
クセスを行なうが, WWW サーバが HTTP/1.1 の
Keep Alive 機能に対応している場合は可能な限り連
続でアクセスを行なう仕様となっている.
4.2
対象 WWW サーバの特徴解析
対 象 と し た 6,500 の WWW サー バ が 持 つ 総
URL 数 は, 4,653,140URL で あ り, 単 純 平 均 で
615URL/Server, メ ディ ア ン は 82URL/Server で
あっ た. ま た, 総 デー タ 容 量 は 22GB, 単 純 平 均
で 3.5MB/Server, メ ディ ア ン は 339KB/Server で
4
性能評価実験
4.1
実験参加サイトと対象 WWW サーバ
あった.
総容量の分布を図 5に示す.図の横軸は1サーバ当
りのデータ容量 (KB) であり,縦軸が累積 (サーバ数
性能評価実験は,表 2に示す 17 台の PRS(Public
及び容量) である.図から明らかなように,極端に
Robot Server) を用いて行った.また,実験対象と
データ量が多いサーバが存在し,データ量が多い上
して選んだ WWW サーバは,表 3に示す日本国内の
位 1 % (65 台) の WWW サー バ で 総 デー タ 量 の 43
6,500 サーバである.これらの WWW サーバはこれ
%を占めている.すなわち, WWW サーバのデータ
までの実験で把握している 50,000 サーバからランダ
を高速に収集するためには,これら大容量のデータ
6
WIT2000-G1-2
を持つ WWW サーバに対して複数の PRS により並
100.0%
90.0%
列収集することが重要となる.
80.0%
70.0%
60.0%
100.00%
50.0%
99%
40.0%
90.00%
30.0%
80.00%
20.0%
10.0%
70.00%
サーバ数累積
容量累積
0.0%
1
60.00%
10
100
1000
57%
50.00%
データ転送速度の最小値と最大値の差(倍)
40.00%
30.00%
図 6: 17PRS と 6500WWW サーバ間のデータ転送
20.00%
速度差 (倍) の分散
10.00%
.00%
1
10
100
1,000
10,000
100,000
1,000,000
データ容量 (KB) / WWW サーバ
図 5: 各 WWW サーバのデータ量の分布
表 4: 各 WWW サーバについて 17PRS 内で最高速・最低
速のデータ転送速度を持つ WWW サーバ数
PRS 名
最低速
最高速
PRS01
3
PRS02
3
14
PRS03
7
191
PRS04
19
314
PRS05
1
225
PRS06
6
3,040
PRS07
0
152
PRS08
2
290
PRS09
4
200
PRS10
425
0
PRS11
3
76
PRS12
4
229
PRS13
5
336
PRS14
4
114
PRS15
2
1,101
PRS と一番遅い PRS との差は, 2 倍∼ 710 倍,平
PRS16
6,004
15
均 67.5 倍,メディアン 48.2 倍であった.図 6にデー
PRS17
8
40
6,500
6,501(*)
4.3
負荷均等化評価
負荷均等化評価では,まず, 17PRS から 6,500 の
サーバに対してトップページ (例:http://www.etl.
go.jp:80/) から 50URL のみの限定収集を行い,各
PRS と 6,500 サーバ間のデータ転送速度 (byte/s) を
求めた.
同一の WWW サーバに対するデータ転送速度は,
17 個 の PRS で 大 き な 差 が 認 め ら れ た. 一 番 速 い
合計
タ転送速度差の分散を示す.上記より,ランダム分
94
(*) 同一最高転送速度を 2PRS が持つ.
散では,大きな負荷の不均衡が発生することが予測
され,負荷の均等化が必要になることがわかる.
また,表 4に各 WWW サーバについて 17PRS 内
うことにより,実測で 11.1 倍の速度向上が得られる
で最高速・最低速のデータ転送速度を持つ WWW
ことがわかる.予測値と実測値の間の誤差は平均 25
サーバ数を各 PRS 毎に集計したサーバ数を示す.こ
%であり,これは,ネットワーク及び WWW サーバ
の表から明らかなように, 6,500 の WWW サーバに
の動的負荷変動が原因と考えられる.
対する各 PRS のデータ転送速度に大きな片寄りがあ
ることがわかる.
負荷均等化では, [9] のアルゴリズムを用いて各
PRS へのスケジューリングを求め,得られたスケ
ジューリング結果を用いて評価を行った.
評価においては,ランダム分散時に比較して負荷
均等化により,どの程度負荷が均等化されるかを調
べた.表 5に,ランダム分散(予測値)及び均等化分
散 (予測値及び実測値) を示す.
表 5より,ランダム分散に比較して負荷均等化を行
4.4
分散型 WWW ロボット総合評価
単一の PRS を用いて 6,500 台の WWW サーバの
全データを収集する時間は,各 PRS によって異な
り,各 PRS が 1 スレッドを用い逐次に収集した場
合,最小 28 日 (京都大学) ∼最大 712 日 (北海道地域
ネットワーク協議会) と推定される3 .
3 17PRS か ら 6500 の WWW サー バ に 対 す る 転 送 速 度 を
50URL のみのページを収集することによって求め,Σ{(WWW
サーバが持つデータ容量) ÷ (転送速度)}により逐次で収集した場
7
WIT2000-G1-2
表 5: 均等化分散の効果 (単位:hour)
表 6:
6,500WWW
サーバを収集した時の収集時間 (hour)
スレッド時 200 スレッド時
1
ランダム分散
(予測)
均等化分散
(予測)
均等化分散
(実測)
PRS01
68.8
41.7
28.2
PRS02
71.1
107.9
104.5
PRS03
88.3
35.0
43.7
PRS04
61.5
55.1
29.6
PRS05
51.7
63.7
53.7
PRS06
33.8
146.2
96.7
PRS07
57.6
55.2
44.7
PRS08
50.8
80.7
71.1
PRS09
43.1
39.0
38.7
PRS10
335.5
32.8
11.0
PRS11
51.8
38.3
28.8
PRS12
63.9
39.3
46.2
PRS13
70.6
56.1
13.7
PRS14
66.4
61.7
40.8
PRS15
37.1
51.4
52.4
PRS16
1216.1
107.9
109.5
PRS17
61.0
61.0
52.1
1216.1
146.2
109.5
-
8.3
11.1
最大値
ランダム
分散を基準
とした
速度向上
PRS01
1,008
32
PRS02
1,518
55
PRS03
1,201
55
PRS04
975
32
PRS05
987
24
PRS06
793
23
PRS07
1,066
59
PRS08
953
27
PRS09
1,033
34
PRS10
6,121
244
PRS11
1,158
42
PRS12
904
26
PRS13
1,025
31
PRS14
904
26
PRS15
691
26
PRS16
17,085
544
PRS17
1,663
53
均等化分散
109.5
1.9
集が可能な地点に PRS を配置することが効率化の点
で重要であることが数値的に証明された.
なお,現在各 PRS では 200 のサーバに対して同
時にアクセスできる仕組みを持っており,この 200
一方,各 PRS が 200 スレッドで並列に収集した場
スレッドを効率よく利用する均等化アルゴリズムに
合でも最小 23 時間 (NTT 未来ねっと研究所) ∼最大
ついても,今後さらなる検討が必要である.すなわ
23 日 (北海道地域ネットワーク協議会) が必要とな
る4 .
表 6 5 に 1 スレッド及び 200 スレッド時の収集時間
ち, 200 スレッドを並列に動作させる場合には,収
集に時間のかかる WWW サーバの収集を先行させて
開始させ,負荷均等化を図る必要がある.
を示す.これを負荷均等化分散によって,高速化す
ることにより,図 7に示すように, 17 台の PRS で
5 おわりに
6.3 倍 (NTT 未来ねっと研究所を基準) ∼ 286 倍 (北
海道地域ネットワークを基準) の高速化を達成するこ
とができた.
イ ン ター ネッ ト 上 の 17ヶ 所 に 配 置 さ れ た 分 散
型 WWW ロ ボッ ト を 用 い, 日 本 国 内 の 6,500 の
本結果から,もともと高速に収集可能な PRS を
WWW サーバを対象とした収集実験を行い,実際の
基準とした場合には, 17 台に分散しても,必ずし
分散型 WWW ロボットの有効性を確認した.この結
も 17 倍の高速化が達成できないことがわかる.これ
果,一カ所で集中して収集する場合に比較し,負荷
は,例えば,処理能力 100 の計算機と処理能力 50 の
均一化を行った場合, 6.3 ∼ 286 倍の高速化が可能
計算機を使って並列計算した時に最大でも 1.5 倍にし
であることがわかった.
かならないことと同等である6 .
インターネットに広域に分散したシステムは,イ
以上から,分散型 WWW ロボットを使って高速な
ンターネットの接続の不確実性,及び,複数システ
収集を実現するためには,ネットワーク的に高速収
ムの安定動作の確保の問題から,常に全てのシステ
合の実行時間を算出.
4 MAX {((1 スレッ ド で の 収集 時 間) ÷ 200),MAX(PRS が
担当する各 WWW サーバの収集時間)}により算出した.各 PRS
で 200 スレッドに最適な分散ができたと仮定.
5 掲載の数値はデータ転送に必要な時間であり, PRS の仕様で
ある「接続切れ時の待ち時間 (20 秒)」は含まれない.
6 ここでの処理能力が PRS のデータ転送速度に対応する.
ムを動作させることは極めて困難となる.このた
め, (1) どのようにして広域に分散したシステムのメ
ンテナンスを行っていくか,また, (2) そのような状
況でどのような評価をすべきか,さらに, (3) 負荷の
均等化をさらに進めるための研究開発,の 3 点が本
8
WIT2000-G1-2
50.0
56
(倍)
45.0
128
156
258
200thread/PRS
40.0
1thread/PRS
35.0
30.0
25.0
20.0
15.0
10.0
5.0
0.0
PRS01 PRS02 PRS03 PRS04 PRS05 PRS06 PRS07 PRS08 PRS09 PRS10 PRS11 PRS12 PRS13 PRS14 PRS15 PRS16 PRS17
図 7: 分散収集による速度向上率 (倍)(各々の PRS で全データを収集した場合を基準)
研究の実運用を開始するにあたって残された課題で
[6] Hayato
ある.
Hideki
今後は,上記のような問題点を解決し,国内での
Hiroyuki
[7]
Hiroyuki
and
Yoichi
参考文献
田村健人: 分散 WWW ロボットに関する研究, 早稲田
大学修士論文, 早稲田大学 (1997.3)
Danzig,
Darren
[9]
The
Harvest Information Discovery and Access System, Computer Networks and ISDN Systems,
Vol.28, pp.119-125 (1995)
http://polarbear.eng.pgh.lycos.
com/webants/
[3] WebAnts:
Eectiveness of Cooperative Resource Collecting Robots for
Web Search Engines, Proc. of Pacrim'97, Vol.1,
[4] S.Kamei,H.Kawano and T.Hasegawa:
pp.410{413 (1997)
山名早人, 田村健人, 河野浩之, 亀井聡, 原田昌紀, 西村
英樹, 浅井勇夫, 楠本博之, 篠田陽一, 村岡洋一 : 分散
型 WWW ロボットによる WWW 情報収集, データ工
学ワークショップ DEWS98, No.24 (1998.3.5-7)
山 名, 田 村, 森, 河 野, 黒 田, 西 村, 浅 井, 楠 本, 篠 田, 村
岡: 国内の全 WWW データを 24 時間で収集する分
散型 WWW ロボットの試み ,North シンポジウム'99
論文集 (1999.3.6-7)
森 英雄,河野 浩之: 実測データに基づく分散協調型
WWW データ収集アルゴリズムの性能評価, 日本ソフ
トウェア科学会 The
Second Workshop on Internet
Technology (1999.8.25-27)
R.
Hardy, Udi Manber and Michael F.Schwartz:
森 英雄:
分散協調型 Web データ収集アルゴリズ
ムの性能評価, 京都大学 情報学科 特別研究報告書
(1999.2)
[8]
Peter B.
ASAI,
380, (1998.8.24-28)
御協力をいただきました.実験参加組織 (図 3) の皆
Bowman,
Isao
SHINODA
Proc. of SIGIR'98, Melbourne, Australia, pp.379-
様に感謝いたします.
Mic
Yoichi
Experiments of Collecting WWW
Information using Distributed WWW Robots,
本研究実施にあたっては,様々な面での御助言,
[5]
TAMURA,
MURAOKA:
謝辞
[2] C.
Kent
NISHIMURA,
KUSUMOTO,
実運用サービスを開始する予定である.
[1]
YAMANA,
KAWANO, Satoshi KAMEI, Masanori HARADA,
[10]
山名: 広域分散コンピューティングの現状と課題−分
散型 WWW ロボットを例に とって−,North シンポ
ジウム 2000 論文集 (2000.3.6-7)
[11] S.Lawrence and C.L.Giles:
mation on the Web,
Accessibility of Infor-
Nature, Vol.400, pp.107-109
(1999.7.8)
Lawrence, C. Lee Gilesd:
Searching the
World Wide Web,Science, Vol,280, No.5360, Issue
[12] Steve
3, pp. 98 - 100 (1998.4)
C.Kesselman:
The Globus Project: A
Status Report, Proc. of IPPS/SPDP'98 Heteroge-
[13] I.Foster,
neous Computing Workshop, pp.4-18 (1998)