平成 15 年度卒業研究発表会(日本大学工学部情報工学科) H-11 Pure 型 P2P ネットワークにおける Power-Law 特性とその要因 Power-Law Characteristic in Unstructured P2P Network 126086 弘幸 [竹中研究室] f = はじめに 現在のコンピュータネットワークは基本的に情報を蓄 積するサーバとサーバから情報を受信する端末 (クライ アント)で構成されるサーバ・クライアントモデルである。 こ れ に 対 し て 端 末 同 士 が 対 等 に 通 信 を 行 う P2P (Peer-to-Peer)ネットワークが最近注目されている。 近年の研究によってインターネットは Power-Law(べ き乗則)の性質を持つことが明らかになっている[1][2]。 さらにこの上で動作する Pure 型 P2P ネットワークも同 様に Power-Law の性質があると報告されている。この 性質を利用して、リンクの集中するノードを特定し、検 索メッセージを送ることで効率的に他ノードへメッセー ジを転送することができるのではないかと考えている。 そこで本研究では、リンクの集中するノードの特性を シミュレーションにより明らかにした。 …(1) C ik zipf の法則は式(1)で表される。この式によって人気順 位 i の参照頻度 f が決定される。k は人気の偏りを表し、 k が大きいほど参照頻度の偏りは大きくなる(図 1)。 この法則は web の世界も当てはまる。例えば、人気の あるサイトはユーザが集まり、参照回数が非常に多くな る一方で、大多数のサイトの参照回数は非常に少ない[1]。 100000 10000 参照回数 f 1 小林 1000 k=0.8 k=2.0 100 10 1 1 10 100 1000 10000 順位 i 2 P2P ネットワークと Power-Law 図 1.zipf と Power-Law の例 2.1 P2P ネットワーク 3 リンクが集中するノード特性 P2P ネットワークを利用したサービスとしてファイル の交換・共有、グリッドコンピューティングの CPU 共 有、ディスクの共有などがある。特に最近注目されてい るのがファイルの交換・共有である。 ネットワーク形態には大きく分けて Hybrid 型 P2P と Pure 型 P2P の 2 つのシステムがある。 最近の研究では Gnutella や Freenet といった Pure 型 P2P において、リンク数の多い少数のノードとリンク数 の少ない大多数のノードで構成され、Power-Law の性質 が現れることが明らかになっている[2]。しかしリンクが 集中し易いノードの特性は明らかになっていない。そこ で、リンクが集中すると考えられる特性を以下に予想し た。 Hybrid 型 P2P サーバを併用するので Hybrid と呼ばれる。共有され るリソースはクライアント側に配置され、そのインデ ックスはデータベース化されサーバ側で管理する。検 索はサーバに対して行われるため、検索が容易である。 ダウンロードはサーバを介さず、クライアント同士で 直接行われる。サーバがダウンするとシステム全体が 停止するデメリットもある。Napster や WinMX がこ れにあたる。 z Pure 型 P2P クライアント、サーバといった役割分担が存在せず、 サーバとクライアント両機能を備えたノード(サーバ ント)同士で情報やファイルの送受信を連携して行う。 検索メッセージによるネットワークの負荷は大きく検 索に時間を要するが、サーバを設置する必要が無く、 耐久性に優れている。Gnutella や Freenet、Winny が これにあたる。 z (1) 人気度の高いコンテンツを持つ 人気度の高いコンテンツ(音楽、動画、ソフトウェア等) を所有するノードはリンク数が増えると予想される。 人気のあるコンテンツをリクエストするユーザは多い。 そのためそれを持つノードへのリンクは増加すると考え られる。逆に人気度の低いコンテンツを所有していても 接続してくるノードは少ないと考えられる。 (2) コンテンツの所持数が多い コンテンツの所持数が多いノードは他のノードからの リンク数が増えると予想される。 所有しているコンテンツの種類が豊富なため、ユーザ の要求に答えられる確率が高いためと考えられる。人気 度の高いコンテンツを所有していればなおさらだが、人 気度の低いコンテンツでも所持数が多ければ、その分、 接続数が増加すると考えられる。 本稿はこの Pure 型 P2P ネットワークについて研究を 行った。 2.2 (3) リクエストを出す回数が多い コンテンツの収集を目的としたノードは、リクエスト を出す回数が多いためリンク数は増えると予想される。 コレクター的な性質を持つこのノードは様々なコンテ ンツを集めるために他ノードへリクエストを多く出す。 そのため自分から他ノードへ積極的にリンクを張ること になる。その結果リンク数が増加すると考えられる。 zipf の法則と Power-Law 新聞などのテキスト中における英単語の出現率とその 順位には相関関係があり、これを両対数グラフにすると 右下がりの直線になる。これを zipf の法則という[1]。 また、このような性質のグラフを Power-Law 特性と いう(図 1)。 22 平成 15 年度卒業研究発表会 H-11 4 シミュレーション 4.1 を表した図 3(c)のグラフを見ると、リンク数の多いノー ドは、初期状態で持っていたコンテンツ数も多いことが わかる。また、ダウンロードされた回数との関係のグラ フである図 3(d)では、コンテンツ数の多いノードは、他 ノードにダウンロードされている回数が多いことも明ら かになった。これは所持しているコンテンツ数の多いノ ードは他ノードからのリクエストに応えられる確率が高 くなるためだと考えられる。以上より、コンテンツを多 く持つノードにリンクが集中し、Power-Law 特性になる ということを確認した。 シミュレーションモデル 3 節で示した(1)、(2)、(3)の予想をシミュレーションで 確認した。シミュレーションは、ランダムに選ぶ一様乱 数、または偏りを持たせる zipf の法則を用いて行う。シ ミュレーション条件はノード数を 10,000 台、コンテンツ の種類は 2,000 種類、試行回数は 20,000 回とする。 4.2 シミュレーション結果 (1)人気度の高いコンテンツを持っている場合 (3)リクエストを出す回数が多いノード ノード#1 には人気順位 1 位のコンテンツを、ノード#2 には人気順位 2 位のコンテンツというようにノード#1 か ら#2000 までコンテンツを人気順に割り当てる。リクエ ストを出すノードはランダムに選択し、そのノードは zipf の法則に従ってコンテンツをリクエストする。 ノードが初期状態で持つコンテンツ数はランダムに決 定する。最多のノードでもコンテンツ数は 6 個となった。 リクエストを出すノードは zipf を用いて選択し、そのノ ードはリクエストするコンテンツをランダムに選択する。 1000 10 10 リクエストを出した回数(回) 15 100 リンク数(個) リンク数(個) 20 リンク数(個) 1000 100 25 10 5 1 1 2000 4000 6000 ノード番号 (a) リンク数(並び替え前) 図2 8000 10 100 1000 ノードの順位 (b) リンク数 リンク数(個) コンテンツ数(個) 10 1 10 100 1000 ノード番号 (a) 初期状態での各ノードのコンテンツ数 10 1 10 100 1000 10000 100 1000 10000 ノードの順位 (b) リンク数 100 10 1 10 100 1000 ノードの順位 (c) 初期状態でノードが持っているコンテンツ数 図3 10000 10000 1000 10000 100 10 100 1000 10000 1 10 100 ノードの順位 (d) ダウンロードされた回数 リクエストを出す回数の多いノードの場合 むすび 今回のシミュレーションによりリンクが集中するノー ドは、コンテンツを多く持つノード、リクエストを出す 回数が多いノードであることを明らかにした。今後はノ ードの参加と離脱、そして接続している時間などを考慮 し、より実際の環境に近い状態でのシミュレーションを 行い、この特性を利用した効率的な検索アルゴリズムを 考案することである。 100 10 ノードの順位 (d) ダウンロードされた回数 1000 シミュレーション結果を図 4 に示す。 図 4(a)と(b)より、 リンク数の多いノードはリクエストを出す回数も多いこ とが確認できる。ダウンロードされた回数との関係のグ ラフである図 4(d)では、リンク数の多いノードほどダウ ンロードされた回数が多いことが明らかになっている。 これは図 4(c)からわかるようにノードが所持しているコ ンテンツ数の増加により、他ノードからのリクエストに 応えられる確率が高くなったためだと考えられる。 人気度の高いコンテンツだけを集める場合(リクエス トするコンテンツを zipf により選択)のシミュレーショ ンでも、上記と同様にリンク数の多いノードはリクエス トを出す回数も多いことを確認した。 1 1 100 1 10 図4 5 1 100 ノードの順位 (c) シミュレーション後の各ノードのコンテンツ数 1000 ダウンロードされた回数(回) コンテンツ数(個) 1000 10 1000 1 10 10000 1 ノードの順位 (b) リクエストを出した回数 1 1 1 10000 10 初期状態でのコンテンツの所持数は zipf の法則を用い て偏らせる。図 3(a)がそのグラフで、ノード 1 のコンテ ンツ数が最多で 210 であった。リクエストを出すノード はランダムに選択し、そのノードはリクエストするコン テンツをランダムに選択する。 100 1000 1000 (2)コンテンツの所持数が多い場合 100 100 ノードの順位 (a) リンク数 シミュレーション結果を図 2 に示す。ノード番号ごと のリンク数のグラフを見るとリンクが集中しやすい傾向 が、若干ではあるが見て取れる。しかし、人気順位 1 位 のコンテンツを持つノード#1 のリンク数が一番多い結 果にはならなかった。ノードをリンク数について降順に 並び替えても Power-Law の性質は強く現れないことを 確認した。これは他ノードによるダウンロードに伴い、 高人気度のコンテンツを持つノードが増加したためだと 考えられる。以上より人気度の高いコンテンツを所持し ているノードにリンクは集中しないことを確認した。 1000 10 10000 人気度の高いコンテンツを持っている場合 1000 10 1 1 1 10000 コンテンツ数 0 ダウンロードされた回数(回) 0 100 参考文献 [1] Lada A. Adamic, Bernardo A. Huberman, “Zip’s law and the Internet”,Glottometrics 3, 2002, 143-150 [2] Lada A. Adamic, Rajan M. Lukose, Amit R. Puniyani, Bernardo A. Huberman, “Search in Power-Law Networks”, Physical Review E, 6446135, 2001. コンテンツの所持数が多い場合 シミュレーション結果を図 3(b)、(c)に示す。図 3(b)は リンク数の多い順に並び替えたグラフである。このグラ フからはノードの順位とリンク数の間に Power-Law 特 性が見られる。ノードの順位と初期状態のコンテンツ数 23
© Copyright 2024 Paperzz