複数サイトからの並列ファイル転送の データグリッド環境における評価 ○多田 知正 今瀬 真 大阪大学 大学院情報科学研究科 2005/5/26 ITRC研究会 1 データグリッド • 目的 – 世界中に分散したストレー ジ資源を統合し,膨大な データを扱う • 特徴 – 非常に大きいファイルサイ ズ(GBクラス) – 比較的少数のデータフロー – 広帯域のネットワーク – データの更新はほとんどな い • データの作成と参照が主 →複製のコストが小さい 2005/5/26 ITRC研究会 2 複数サイトからの並列転送 • 複数のサイトからファイルの断片を同時に転送 する • 一つのサイトに複数のコネクションを張る並列転 送とは異なる 2005/5/26 ITRC研究会 3 動機 • データグリッドではファイルサイズが巨大 – (1GB∼数10GB) →ファイルの転送時間が長い – 1GBのファイルを転送→100Mbpsで80秒 • 転送時間を短くできないか? 2005/5/26 ITRC研究会 4 目的 • データグリッドに適したファイルの並列転 送手法の開発 – インターネットにおいてこれまでに提案された 並列転送手法をデータグリッド環境で評価す る • どの手法が適しているか? • 既存の手法の問題点は何か? 2005/5/26 ITRC研究会 5 インターネットにおける並列転送 • インターネット上のミラーサーバからファイルを並 列に転送する手法 – ミラーサーバの選択アルゴリズムの発展 • これまでにいくつかの手法が提案されている – WWW(HTTP)の並列ダウンロード – 並列FTPクライアント • 並列転送の特性の評価も行われている – 多数のファイルの並列転送が同時に行われた場合の 影響 2005/5/26 ITRC研究会 6 手法1 • 全てのミラーサーバから並列に転送 – 各サーバの転送速度を計測し,履歴として蓄 えておく – 転送速度の履歴に基づき,どのサーバから ファイルのどの部分を転送するか決める • 過去の転送速度に応じた大きさにファイルを分割 する →静的な割り当て P. Rodriguez, A. Kirpal, and E. W. Biersack. “Parallel-access for Mirror Sites in the Internet.” IEEE INFOCOM 2000 2005/5/26 ITRC研究会 7 手法1の特徴 • ミラーサーバの選択アルゴリズムが不要 • 転送速度の履歴と実際の転送速度が異な る場合に転送時間が長くなる – 1台のサーバの転送が遅れると全体に響く – 転送速度の変動が小さい場合に有効 2005/5/26 ITRC研究会 8 手法2 • 全てのミラーサーバから並列に転送 – ファイルを多数の小さなブロックに分割 – ブロックを一つずつ全てのサーバに要求 – ブロックの転送が終了したサーバに次のブ ロックを要求 →動的な割り当て P. Rodriguez, A. Kirpal, and E. W. Biersack. “Parallel-access for Mirror Sites in the Internet.” IEEE INFOCOM 2000 2005/5/26 ITRC研究会 9 手法2の特徴 • ミラーサーバの選択 アルゴリズムが不要 • サーバの実際の転送 速度に応じたサイズ のデータが転送され る • 1ブロック転送ごとに 1RTT分の空き時間が 発生 2005/5/26 ITRC研究会 10 手法3 • 一部のミラーサーバからのみ転送 – 全ミラーサーバのRTTを計測 – RTTに基づきいくつかのミラーサーバを選択 – RTTに応じた大きさにファイルを分割し,選択したミ ラーサーバから転送 →静的な割り当て – 極端に転送速度の遅いサーバは転送を中止し,すで に転送が終了したサーバから再転送 A. Zeitoun, H. Jamjoom, and M. El-Gendy. “Scalable Parallel-Access For Mirrored Servers.” The 20th IASTED International Conference on Applied Informatics 2005/5/26 ITRC研究会 11 手法3の特徴 • スケーラビリティが高い • 同時に並列転送するファイルの数 • ミラーサーバの数 – 1つのファイル転送で用いるサーバが少ない ためにサーバの負荷が小さい – RTTの計測は比較的容易 • 転送速度の予測が外れた場合の回復機 構を備える – 予測より転送が遅いサーバは使用しない 2005/5/26 ITRC研究会 12 並列転送手法の分類 • 並列転送は2つの段階に分けられる – サイト選択 • 並列にファイルを転送するサイトをどのように選択 するか? – ファイル転送 • 選択したサイトからどのようにファイルを転送する か? 2005/5/26 ITRC研究会 13 既存の並列転送手法の整理 • サイト選択 転送速度の予測値に基づいてサイトを決定 – RTTに基づく予測(RBASE) – 転送速度の計測値に基づく予測(MBASE) – 全てのサイトから転送(ALL) • ファイル転送 ファイル分割とサイトへの割り当て – 転送前にファイルを分割し静的に割り当て(PRT) • 回復機構を備える – ファイルを小さいブロックに分割して動的に割り当て(BLK) • これまで紹介した手法はこれらの組み合わせで表せる 2005/5/26 ITRC研究会 14 シミュレーション • データグリッド環境において – 並列転送を行うサイトが少数でも上手に選べ ば十分な性能が出るか? – RTTは計測は簡単であるが転送速度の予測 値として使えるか? – 静的な割り当ては実用的か? • 回復機構は機能するか? 2005/5/26 ITRC研究会 15 シミュレーションモデル • • サイト間の経路にただ1つのボトルネックリンクが存在する 経路の通信遅延はリンクの伝送遅延の和とする – ルータのバッファリング遅延は考えない • • あるサイト間で転送を開始すると,データフローが1つ発生する あるデータフローの転送速度はボトルネックリンクの回線容量とそこを流れ る各データフローの経路の通信遅延で決まる – 通信遅延の大きい経路を通るフローの転送速度は遅くなる • 送信サイト(サーバ)の負荷は考えない 送信 受信 ボトルネック 遅延 リンク s1 s2 b1 10ms s1 s3 b2 30ms : : : 2005/5/26 ITRC研究会 送信サイト ボトルネック リンク 受信サイト 16 パラメータ設定 • データグリッドを想定したパラメータ設定 ファイルサイズ 平均2GB ボトルネックリンクの数 50 ボトルネックリンクの回線容量 平均550Mbps ファイル転送要求の発生間隔 平均5s ファイルの複製を持つサイト数 20 転送速度の計測値のエラー率 5% 並列転送を行うサイト数 4 2005/5/26 ITRC研究会 17 シミュレーション結果 (平均転送時間) • 静的な割り当ては非 常に性能が低い – 転送速度の予測をす べてのサイトについて 当てるのは難しい →動的割り当てが有効 • 回復機構の効果は小 さい – ファイルサイズが大き いため再転送の開始 までに時間がかかる 2005/5/26 ITRC研究会 18 シミュレーション結果 (平均転送時間) • RTTを用いた予測と 計測値を用いた予測 の差が小さい – RTTは転送速度の予 測値としてそれなりに 有効 – 予測が必ずしもあたっ ているわけではないが 動的割り当てによりカ バーされている 2005/5/26 ITRC研究会 19 シミュレーション結果 (平均転送時間) • 全てのサイト(20サイ ト)から転送した場合 と少数(4サイト)のサ イトを選択した場合で あまり差が無い – 少数のサイトでも十分 な性能が出る 2005/5/26 ITRC研究会 20 データフローの集中 • 転送速度の測定値に基づく予測の問題点 – 転送速度の測定は一定の間隔ごとに行う →転送速度を測定する時刻と実際にファイル転送を行う 時刻に差がある →測定時に空いているリンクにデータフローが集中し, 転送速度が著しく低下 Mukund Seshadri and Randy H. Katz Dynamics of Simultaneous Overlay Network Routing Techinical Report. University of California, Berkeley No. UCB//CSD-03-1291, November 2003 2005/5/26 ITRC研究会 21 データフロー集中の対策 • ファイル転送中にファイル転送を行うサイトを変 更する(CS) – 特定のリンクにデータフローが集中した場合にいくつ かのデータフローを別のサイトに移す • 最初にランダムに絞り込んだサイトの中からファ イル転送を行うサイトを決定する(SM) – 特定のリンクにデータフローが集中するのを防ぐ Mukund Seshadri and Randy H. Katz Dynamics of Simultaneous Overlay Network Routing Techinical Report. University of California, Berkeley No. UCB//CSD-03-1291, November 2003 2005/5/26 ITRC研究会 22 シミュレーション結果 (平均転送時間) • 対策の効果はあまり ない • データフローの集中 は大きな問題には なっていない – 並列転送によりデータ フローの集中が緩和さ れている 2005/5/26 ITRC研究会 23 まとめ • 既存の並列転送手法をデータグリッド環境 で評価 – 転送するファイルサイズが大きい場合は静的 な割り当ては実用的でない – RTTは転送速度の予測値として有効 – 少数のサイトで十分な転送速度が得られる →適切なサイトを選択し,サーバの負荷を減 らすのが望ましい 2005/5/26 ITRC研究会 24
© Copyright 2024 Paperzz