Pure 型 P2P ネットワークにおける Power

平成 15 年度卒業研究発表会(日本大学工学部情報工学科)
H-11
Pure 型 P2P ネットワークにおける Power-Law 特性とその要因
Power-Law Characteristic in Unstructured P2P Network
126086
弘幸
[竹中研究室]
f =
はじめに
現在のコンピュータネットワークは基本的に情報を蓄
積するサーバとサーバから情報を受信する端末 (クライ
アント)で構成されるサーバ・クライアントモデルである。
こ れ に 対 し て 端 末 同 士 が 対 等 に 通 信 を 行 う P2P
(Peer-to-Peer)ネットワークが最近注目されている。
近年の研究によってインターネットは Power-Law(べ
き乗則)の性質を持つことが明らかになっている[1][2]。
さらにこの上で動作する Pure 型 P2P ネットワークも同
様に Power-Law の性質があると報告されている。この
性質を利用して、リンクの集中するノードを特定し、検
索メッセージを送ることで効率的に他ノードへメッセー
ジを転送することができるのではないかと考えている。
そこで本研究では、リンクの集中するノードの特性を
シミュレーションにより明らかにした。
…(1)
C
ik
zipf の法則は式(1)で表される。この式によって人気順
位 i の参照頻度 f が決定される。k は人気の偏りを表し、
k が大きいほど参照頻度の偏りは大きくなる(図 1)。
この法則は web の世界も当てはまる。例えば、人気の
あるサイトはユーザが集まり、参照回数が非常に多くな
る一方で、大多数のサイトの参照回数は非常に少ない[1]。
100000
10000
参照回数 f
1
小林
1000
k=0.8
k=2.0
100
10
1
1
10
100
1000
10000
順位 i
2 P2P ネットワークと Power-Law
図 1.zipf と Power-Law の例
2.1 P2P ネットワーク
3 リンクが集中するノード特性
P2P ネットワークを利用したサービスとしてファイル
の交換・共有、グリッドコンピューティングの CPU 共
有、ディスクの共有などがある。特に最近注目されてい
るのがファイルの交換・共有である。
ネットワーク形態には大きく分けて Hybrid 型 P2P と
Pure 型 P2P の 2 つのシステムがある。
最近の研究では Gnutella や Freenet といった Pure 型
P2P において、リンク数の多い少数のノードとリンク数
の少ない大多数のノードで構成され、Power-Law の性質
が現れることが明らかになっている[2]。しかしリンクが
集中し易いノードの特性は明らかになっていない。そこ
で、リンクが集中すると考えられる特性を以下に予想し
た。
Hybrid 型 P2P
サーバを併用するので Hybrid と呼ばれる。共有され
るリソースはクライアント側に配置され、そのインデ
ックスはデータベース化されサーバ側で管理する。検
索はサーバに対して行われるため、検索が容易である。
ダウンロードはサーバを介さず、クライアント同士で
直接行われる。サーバがダウンするとシステム全体が
停止するデメリットもある。Napster や WinMX がこ
れにあたる。
z
Pure 型 P2P
クライアント、サーバといった役割分担が存在せず、
サーバとクライアント両機能を備えたノード(サーバ
ント)同士で情報やファイルの送受信を連携して行う。
検索メッセージによるネットワークの負荷は大きく検
索に時間を要するが、サーバを設置する必要が無く、
耐久性に優れている。Gnutella や Freenet、Winny が
これにあたる。
z
(1) 人気度の高いコンテンツを持つ
人気度の高いコンテンツ(音楽、動画、ソフトウェア等)
を所有するノードはリンク数が増えると予想される。
人気のあるコンテンツをリクエストするユーザは多い。
そのためそれを持つノードへのリンクは増加すると考え
られる。逆に人気度の低いコンテンツを所有していても
接続してくるノードは少ないと考えられる。
(2) コンテンツの所持数が多い
コンテンツの所持数が多いノードは他のノードからの
リンク数が増えると予想される。
所有しているコンテンツの種類が豊富なため、ユーザ
の要求に答えられる確率が高いためと考えられる。人気
度の高いコンテンツを所有していればなおさらだが、人
気度の低いコンテンツでも所持数が多ければ、その分、
接続数が増加すると考えられる。
本稿はこの Pure 型 P2P ネットワークについて研究を
行った。
2.2
(3) リクエストを出す回数が多い
コンテンツの収集を目的としたノードは、リクエスト
を出す回数が多いためリンク数は増えると予想される。
コレクター的な性質を持つこのノードは様々なコンテ
ンツを集めるために他ノードへリクエストを多く出す。
そのため自分から他ノードへ積極的にリンクを張ること
になる。その結果リンク数が増加すると考えられる。
zipf の法則と Power-Law
新聞などのテキスト中における英単語の出現率とその
順位には相関関係があり、これを両対数グラフにすると
右下がりの直線になる。これを zipf の法則という[1]。
また、このような性質のグラフを Power-Law 特性と
いう(図 1)。
22
平成 15 年度卒業研究発表会 H-11
4
シミュレーション
4.1
を表した図 3(c)のグラフを見ると、リンク数の多いノー
ドは、初期状態で持っていたコンテンツ数も多いことが
わかる。また、ダウンロードされた回数との関係のグラ
フである図 3(d)では、コンテンツ数の多いノードは、他
ノードにダウンロードされている回数が多いことも明ら
かになった。これは所持しているコンテンツ数の多いノ
ードは他ノードからのリクエストに応えられる確率が高
くなるためだと考えられる。以上より、コンテンツを多
く持つノードにリンクが集中し、Power-Law 特性になる
ということを確認した。
シミュレーションモデル
3 節で示した(1)、(2)、(3)の予想をシミュレーションで
確認した。シミュレーションは、ランダムに選ぶ一様乱
数、または偏りを持たせる zipf の法則を用いて行う。シ
ミュレーション条件はノード数を 10,000 台、コンテンツ
の種類は 2,000 種類、試行回数は 20,000 回とする。
4.2
シミュレーション結果
(1)人気度の高いコンテンツを持っている場合
(3)リクエストを出す回数が多いノード
ノード#1 には人気順位 1 位のコンテンツを、ノード#2
には人気順位 2 位のコンテンツというようにノード#1 か
ら#2000 までコンテンツを人気順に割り当てる。リクエ
ストを出すノードはランダムに選択し、そのノードは
zipf の法則に従ってコンテンツをリクエストする。
ノードが初期状態で持つコンテンツ数はランダムに決
定する。最多のノードでもコンテンツ数は 6 個となった。
リクエストを出すノードは zipf を用いて選択し、そのノ
ードはリクエストするコンテンツをランダムに選択する。
1000
10
10
リクエストを出した回数(回)
15
100
リンク数(個)
リンク数(個)
20
リンク数(個)
1000
100
25
10
5
1
1
2000
4000
6000
ノード番号
(a) リンク数(並び替え前)
図2
8000
10
100
1000
ノードの順位
(b) リンク数
リンク数(個)
コンテンツ数(個)
10
1
10
100
1000
ノード番号
(a) 初期状態での各ノードのコンテンツ数
10
1
10
100
1000
10000
100
1000
10000
ノードの順位
(b) リンク数
100
10
1
10
100
1000
ノードの順位
(c) 初期状態でノードが持っているコンテンツ数
図3
10000
10000
1000
10000
100
10
100
1000
10000
1
10
100
ノードの順位
(d) ダウンロードされた回数
リクエストを出す回数の多いノードの場合
むすび
今回のシミュレーションによりリンクが集中するノー
ドは、コンテンツを多く持つノード、リクエストを出す
回数が多いノードであることを明らかにした。今後はノ
ードの参加と離脱、そして接続している時間などを考慮
し、より実際の環境に近い状態でのシミュレーションを
行い、この特性を利用した効率的な検索アルゴリズムを
考案することである。
100
10
ノードの順位
(d) ダウンロードされた回数
1000
シミュレーション結果を図 4 に示す。
図 4(a)と(b)より、
リンク数の多いノードはリクエストを出す回数も多いこ
とが確認できる。ダウンロードされた回数との関係のグ
ラフである図 4(d)では、リンク数の多いノードほどダウ
ンロードされた回数が多いことが明らかになっている。
これは図 4(c)からわかるようにノードが所持しているコ
ンテンツ数の増加により、他ノードからのリクエストに
応えられる確率が高くなったためだと考えられる。
人気度の高いコンテンツだけを集める場合(リクエス
トするコンテンツを zipf により選択)のシミュレーショ
ンでも、上記と同様にリンク数の多いノードはリクエス
トを出す回数も多いことを確認した。
1
1
100
1
10
図4
5
1
100
ノードの順位
(c) シミュレーション後の各ノードのコンテンツ数
1000
ダウンロードされた回数(回)
コンテンツ数(個)
1000
10
1000
1
10
10000
1
ノードの順位
(b) リクエストを出した回数
1
1
1
10000
10
初期状態でのコンテンツの所持数は zipf の法則を用い
て偏らせる。図 3(a)がそのグラフで、ノード 1 のコンテ
ンツ数が最多で 210 であった。リクエストを出すノード
はランダムに選択し、そのノードはリクエストするコン
テンツをランダムに選択する。
100
1000
1000
(2)コンテンツの所持数が多い場合
100
100
ノードの順位
(a) リンク数
シミュレーション結果を図 2 に示す。ノード番号ごと
のリンク数のグラフを見るとリンクが集中しやすい傾向
が、若干ではあるが見て取れる。しかし、人気順位 1 位
のコンテンツを持つノード#1 のリンク数が一番多い結
果にはならなかった。ノードをリンク数について降順に
並び替えても Power-Law の性質は強く現れないことを
確認した。これは他ノードによるダウンロードに伴い、
高人気度のコンテンツを持つノードが増加したためだと
考えられる。以上より人気度の高いコンテンツを所持し
ているノードにリンクは集中しないことを確認した。
1000
10
10000
人気度の高いコンテンツを持っている場合
1000
10
1
1
1
10000
コンテンツ数
0
ダウンロードされた回数(回)
0
100
参考文献
[1] Lada A. Adamic, Bernardo A. Huberman, “Zip’s law
and the Internet”,Glottometrics 3, 2002, 143-150
[2] Lada A. Adamic, Rajan M. Lukose, Amit R.
Puniyani,
Bernardo A. Huberman, “Search in
Power-Law Networks”,
Physical Review E,
6446135, 2001.
コンテンツの所持数が多い場合
シミュレーション結果を図 3(b)、(c)に示す。図 3(b)は
リンク数の多い順に並び替えたグラフである。このグラ
フからはノードの順位とリンク数の間に Power-Law 特
性が見られる。ノードの順位と初期状態のコンテンツ数
23