グリッドコンピューティング環境における 分散ファイルの効率

グリッドコンピューティング環境における
分散ファイルの効率的配備と管理法の一検討
D-10
Study on distributed file data transfer and back up in Grid Computing Environment
國分 建介*1 宮保 憲治*1 鈴木 秀一*1 柴田 良一*2
Kensuke Kokubun, Noriharu Miyaho, Shuichi Suzuki, Ryouichi Shibata
分散値
*1:東京電機大学情報環境学部:School of Information Environment, Tokyo Denki University
*2:岐阜工業高等専門学校:Gifu National College of Technology
せた。複製数はファイル内容の多数決判定が可能となる
1. はじめに
様、1,3,5
の 三種類の奇数 値とし 、フ ァイル 分割数 は
PC 等の遊休リソースを有効活用し、単一の PC では不
5,15,25 の三種類をそれぞれ設定した。また、実験ネットワ
可能な大規模な処理を行わせる技術がグリッドコンピュー
ークは、昼間は他の研究用途に使用しており、余分なトラ
ティング技術である。本検討ではこの技術を用い、地震等
フィック負荷が発生している為、本実験では夜間から早朝
の災害発生時に備え、予め官公庁・病院等の公共施設に
存在する重要データを複数の PC に分散バックアップさせ、 にかけて処理時間を測定することとした。
必要時に即座にデータ復旧を可能とする為のディザスタ・
5. 実験結果と考察
リカバリ・システムの性能検証を行った結果を述べる。
図 3 は、S_1,S_2 の連続 20 回の試行結果の分散を表し
2. 実験ネットワーク環境
たものである。この結果から、複製数よりも分割数を増加さ
実験ネットワーク環境を図 1 に示す。データ伝送時のセ
せた場合の方が、分散値が低く処理時間が安定する事が
キュリティを確保する為に、ルータをトライアングル構造で
判明した。図 4a は、分割数を 5 に固定し、複製数を 1→5
冗長配備し、それぞれを VPN(OPEN VPN を使用)で接続
と変化させた場合の実験結果である。この結果から S_1,
する構成とし、NAT によるアドレス変換機能を装備した。こ
S_2 共に処理時間は増加するが、S_2 の処理時間は S_1 の
の機能配備により、通常は他の処理を実施している PC が
場合を上回ることが判明した。この理由は複製ファイル同
グリッド・クライアントとしても有効に活用することができる。
士を比較する為の処理時間の影響が僅少では無いことに
Grid Server
起因する。図 4b は、図 4a の条件とは逆に、ファイル分割
Grid Client
数を変化させ、複製数を固定した場合の実験結果である。
NAT
VPN Network
Grid Router
この結果から分割数を 5→25 に変化させた場合、S_1,S_2
図 1.ネットワーク環境
共に、ファイル容量の増加に加え処理時間が低下するこ
3. ファイルバックアップの処理
とが判明した。以上から、処理時間を Z とし、S_1 の処理時
図 2 にファイルデータのバックアップ処理フローを
間を X、S_2 の処理時間を Y、ファイル分割数をα(5≦α
示す。ファイル自体の改竄、盗聴等の対策の為、ファ
≦25)、複製数をβ(1≦β≦5)とし、ファイル容量を M と
イルを暗号化してクライアントに格納する方式を用
すれば、Z=X+Y が成立し、X、Y は、X∝(M/α)k1β、Y∝
いた。暗号化用処理時間を高速化する為、ストリーム
(M/α)k2β の算出式で概算できることが判明した。グラフ
暗号を用いた独自方式を採用し、バックアップを行う
表示された処理結果からは、k2≧k1 であり、βの値を増
ファイルが膨大な容量である場合にも分割化による
加させた場合が、Y の値が大半を占める全体処理時間の
対応を可能とした。更に、転送先 PC の中の一部が破
増加に、より大きい影響を及ぼすという知見が得られた。
S_1(分割数:5,複製数:1)
10000
損した場合でも、復元可能とする複製方法を多数決論
S_1(分割数:5,複製数:5)
1000
S_1(分割数:25,複製数:1)
理で実現した。ファイル転送は、Sun Microsystems
100
S_2(分割数:5,複製数:1)
10
S_2(分割数:5,複製数:5)
社が開発した Sun One Grid Engine 6.0 を使用し、ジ
S_2(分割数:25,複製数:1)
1
100
150
200
250
300 ファイル容量(MB)
ョブ登録を行い、共有ディレクトリを作成した。
S_1
ジョブ
ファイル暗号化、
分割、複製、
分割ファイル
個別暗号化
1-2.スクリプトを
ジョブとして登録
1-3.各クライアントへジョブを振り分け
図 3.分散値(S_1 , S_2)
Client
ジョブ
ジョブ
ジョブ
1-4.NFS共有ディレクトリ
へアクセス
1-5.分割ファイルを取得
1-6.スクリプト削除
ジョブ
ジョブ
2-4.NFS共有ディレクトリへ
分割ファイルを転送
ジョブ
S_2
2-1.スクリプト生成
ジョブ
分割ファイル
2-2.スクリプトを
個別復号化、
ジョブとして登録
比較、結合、
復号化、
元ファイルと比較
2-5.スクリプト削除
2-3.各クライアントへジョブを振り分け
NFS共有ディレクトリ
図 2.ファイルデータのバックアップ処理フロー
4. グリッド環境における実験条件
ファイル容量、複製数、分割数の増加が処理時間にど
の程度の影響を与えるかを定量的に検証する為、ファイ
ルの暗号化からクライアントへの転送までのシーケンスを
S_1、サーバへのファイル転送から復元完了までのシーケ
ンスを S_2 とし、処理時間を測定した。測定結果は信頼精
度を考慮し、連続 20 回の試行平均値を採った。クライアン
ト数は 9 に固定し、ファイル容量を 100~300MB に変化さ
処理時間(s)
Server
処理時間(s)
1-1.スクリプト生成
510
390
270
150
30
100
150
200
S_1(分割数:5,複製数:1)
S_1(分割数:5,複製数:5)
S_2(分割数:5,複製数:1)
S_2(分割数:5,複製数:5)
250
300
ファイル容量(MB)
図 4a.分割数固定、複製数 1,3,5
210
150
90
30
100
150
200
S_1(複製数:1,分割数:5)
S_1(複製数:1,分割数:25)
S_2(複製数:1,分割数:5)
S_2(複製数:1,分割数:25)
250
300
ファイル容量(MB)
図 4b.分割数 5,15,25、複製数固定
図 4 処理時間測定結果(S_1 , S_2)
6. 今後の予定
本実験で得られた結果を元に、今後、遠隔地における
地域分散グリッド環境を構築する為の実験検証を行う。
7.参考文献
[1]http://gridengine.sunsource.net/
[2]http://openvpn.net/
[3]鈴木秀一,”加法的な暗号とWorld Wide master key”