複数サイトからの並列ファイル転送の データグリッド環境における評価

複数サイトからの並列ファイル転送の
データグリッド環境における評価
○多田 知正 今瀬 真
大阪大学 大学院情報科学研究科
2005/5/26
ITRC研究会
1
データグリッド
• 目的
– 世界中に分散したストレー
ジ資源を統合し,膨大な
データを扱う
• 特徴
– 非常に大きいファイルサイ
ズ(GBクラス)
– 比較的少数のデータフロー
– 広帯域のネットワーク
– データの更新はほとんどな
い
• データの作成と参照が主
→複製のコストが小さい
2005/5/26
ITRC研究会
2
複数サイトからの並列転送
• 複数のサイトからファイルの断片を同時に転送
する
• 一つのサイトに複数のコネクションを張る並列転
送とは異なる
2005/5/26
ITRC研究会
3
動機
• データグリッドではファイルサイズが巨大
– (1GB∼数10GB)
→ファイルの転送時間が長い
– 1GBのファイルを転送→100Mbpsで80秒
• 転送時間を短くできないか?
2005/5/26
ITRC研究会
4
目的
• データグリッドに適したファイルの並列転
送手法の開発
– インターネットにおいてこれまでに提案された
並列転送手法をデータグリッド環境で評価す
る
• どの手法が適しているか?
• 既存の手法の問題点は何か?
2005/5/26
ITRC研究会
5
インターネットにおける並列転送
• インターネット上のミラーサーバからファイルを並
列に転送する手法
– ミラーサーバの選択アルゴリズムの発展
• これまでにいくつかの手法が提案されている
– WWW(HTTP)の並列ダウンロード
– 並列FTPクライアント
• 並列転送の特性の評価も行われている
– 多数のファイルの並列転送が同時に行われた場合の
影響
2005/5/26
ITRC研究会
6
手法1
• 全てのミラーサーバから並列に転送
– 各サーバの転送速度を計測し,履歴として蓄
えておく
– 転送速度の履歴に基づき,どのサーバから
ファイルのどの部分を転送するか決める
• 過去の転送速度に応じた大きさにファイルを分割
する
→静的な割り当て
P. Rodriguez, A. Kirpal, and E. W. Biersack.
“Parallel-access for Mirror Sites in the Internet.”
IEEE INFOCOM 2000
2005/5/26
ITRC研究会
7
手法1の特徴
• ミラーサーバの選択アルゴリズムが不要
• 転送速度の履歴と実際の転送速度が異な
る場合に転送時間が長くなる
– 1台のサーバの転送が遅れると全体に響く
– 転送速度の変動が小さい場合に有効
2005/5/26
ITRC研究会
8
手法2
• 全てのミラーサーバから並列に転送
– ファイルを多数の小さなブロックに分割
– ブロックを一つずつ全てのサーバに要求
– ブロックの転送が終了したサーバに次のブ
ロックを要求
→動的な割り当て
P. Rodriguez, A. Kirpal, and E. W. Biersack.
“Parallel-access for Mirror Sites in the Internet.”
IEEE INFOCOM 2000
2005/5/26
ITRC研究会
9
手法2の特徴
• ミラーサーバの選択
アルゴリズムが不要
• サーバの実際の転送
速度に応じたサイズ
のデータが転送され
る
• 1ブロック転送ごとに
1RTT分の空き時間が
発生
2005/5/26
ITRC研究会
10
手法3
• 一部のミラーサーバからのみ転送
– 全ミラーサーバのRTTを計測
– RTTに基づきいくつかのミラーサーバを選択
– RTTに応じた大きさにファイルを分割し,選択したミ
ラーサーバから転送
→静的な割り当て
– 極端に転送速度の遅いサーバは転送を中止し,すで
に転送が終了したサーバから再転送
A. Zeitoun, H. Jamjoom, and M. El-Gendy.
“Scalable Parallel-Access For Mirrored Servers.”
The 20th IASTED International Conference on Applied Informatics
2005/5/26
ITRC研究会
11
手法3の特徴
• スケーラビリティが高い
• 同時に並列転送するファイルの数
• ミラーサーバの数
– 1つのファイル転送で用いるサーバが少ない
ためにサーバの負荷が小さい
– RTTの計測は比較的容易
• 転送速度の予測が外れた場合の回復機
構を備える
– 予測より転送が遅いサーバは使用しない
2005/5/26
ITRC研究会
12
並列転送手法の分類
• 並列転送は2つの段階に分けられる
– サイト選択
• 並列にファイルを転送するサイトをどのように選択
するか?
– ファイル転送
• 選択したサイトからどのようにファイルを転送する
か?
2005/5/26
ITRC研究会
13
既存の並列転送手法の整理
• サイト選択
転送速度の予測値に基づいてサイトを決定
– RTTに基づく予測(RBASE)
– 転送速度の計測値に基づく予測(MBASE)
– 全てのサイトから転送(ALL)
• ファイル転送
ファイル分割とサイトへの割り当て
– 転送前にファイルを分割し静的に割り当て(PRT)
• 回復機構を備える
– ファイルを小さいブロックに分割して動的に割り当て(BLK)
• これまで紹介した手法はこれらの組み合わせで表せる
2005/5/26
ITRC研究会
14
シミュレーション
• データグリッド環境において
– 並列転送を行うサイトが少数でも上手に選べ
ば十分な性能が出るか?
– RTTは計測は簡単であるが転送速度の予測
値として使えるか?
– 静的な割り当ては実用的か?
• 回復機構は機能するか?
2005/5/26
ITRC研究会
15
シミュレーションモデル
•
•
サイト間の経路にただ1つのボトルネックリンクが存在する
経路の通信遅延はリンクの伝送遅延の和とする
– ルータのバッファリング遅延は考えない
•
•
あるサイト間で転送を開始すると,データフローが1つ発生する
あるデータフローの転送速度はボトルネックリンクの回線容量とそこを流れ
る各データフローの経路の通信遅延で決まる
– 通信遅延の大きい経路を通るフローの転送速度は遅くなる
•
送信サイト(サーバ)の負荷は考えない
送信 受信 ボトルネック 遅延
リンク
s1
s2
b1
10ms
s1
s3
b2
30ms
:
:
:
2005/5/26
ITRC研究会
送信サイト
ボトルネック
リンク
受信サイト
16
パラメータ設定
• データグリッドを想定したパラメータ設定
ファイルサイズ
平均2GB
ボトルネックリンクの数
50
ボトルネックリンクの回線容量
平均550Mbps
ファイル転送要求の発生間隔
平均5s
ファイルの複製を持つサイト数
20
転送速度の計測値のエラー率
5%
並列転送を行うサイト数
4
2005/5/26
ITRC研究会
17
シミュレーション結果
(平均転送時間)
• 静的な割り当ては非
常に性能が低い
– 転送速度の予測をす
べてのサイトについて
当てるのは難しい
→動的割り当てが有効
• 回復機構の効果は小
さい
– ファイルサイズが大き
いため再転送の開始
までに時間がかかる
2005/5/26
ITRC研究会
18
シミュレーション結果
(平均転送時間)
• RTTを用いた予測と
計測値を用いた予測
の差が小さい
– RTTは転送速度の予
測値としてそれなりに
有効
– 予測が必ずしもあたっ
ているわけではないが
動的割り当てによりカ
バーされている
2005/5/26
ITRC研究会
19
シミュレーション結果
(平均転送時間)
• 全てのサイト(20サイ
ト)から転送した場合
と少数(4サイト)のサ
イトを選択した場合で
あまり差が無い
– 少数のサイトでも十分
な性能が出る
2005/5/26
ITRC研究会
20
データフローの集中
• 転送速度の測定値に基づく予測の問題点
– 転送速度の測定は一定の間隔ごとに行う
→転送速度を測定する時刻と実際にファイル転送を行う
時刻に差がある
→測定時に空いているリンクにデータフローが集中し,
転送速度が著しく低下
Mukund Seshadri and Randy H. Katz
Dynamics of Simultaneous Overlay Network Routing
Techinical Report. University of California, Berkeley
No. UCB//CSD-03-1291, November 2003
2005/5/26
ITRC研究会
21
データフロー集中の対策
• ファイル転送中にファイル転送を行うサイトを変
更する(CS)
– 特定のリンクにデータフローが集中した場合にいくつ
かのデータフローを別のサイトに移す
• 最初にランダムに絞り込んだサイトの中からファ
イル転送を行うサイトを決定する(SM)
– 特定のリンクにデータフローが集中するのを防ぐ
Mukund Seshadri and Randy H. Katz
Dynamics of Simultaneous Overlay Network Routing
Techinical Report. University of California, Berkeley
No. UCB//CSD-03-1291, November 2003
2005/5/26
ITRC研究会
22
シミュレーション結果
(平均転送時間)
• 対策の効果はあまり
ない
• データフローの集中
は大きな問題には
なっていない
– 並列転送によりデータ
フローの集中が緩和さ
れている
2005/5/26
ITRC研究会
23
まとめ
• 既存の並列転送手法をデータグリッド環境
で評価
– 転送するファイルサイズが大きい場合は静的
な割り当ては実用的でない
– RTTは転送速度の予測値として有効
– 少数のサイトで十分な転送速度が得られる
→適切なサイトを選択し,サーバの負荷を減
らすのが望ましい
2005/5/26
ITRC研究会
24