仮想チャネル接続の違いによるルータの性能比較 3ZB−3 ZB−3 水戸部 理 吉永 努 電気通信大学 曽和 将容 情報システム学研究科 1 はじめに 我々は,マルチコンピュータ環境におけるメッセー ジのルーティングについて研究している.メッセージ のルーティングアルゴリズムには,非適応ルーティン グと適応ルーティングがある.非適応ルーティングの 中でも,次元順ルーティング(Dimension-order)はよ く実システムに採用されており,2次元メッシュを例 にとると,X 方向のルーティングが完了した後に,Y 方向のルーティングを行う方式である.一方,適応ル ータは非適応ルータに比べてハードウェア構成がや や複雑になる場合があるが,ルーティング自由度を大 きく確保することができ,送信ノードから宛先ノード までのメッセージのルーティング経路をネットワー クの状態に応じて動的に選択することができる. 従来のルータ構成では,入出力ポート間を結合する クロスバスイッチ(Xbar)のポート数を少なく抑える ために,仮想チャネル(VC)と Xbar 間にマルチプレク サ(MUX)を配置する場合が多い.しかし,この構成 では MUX において VC 間のメッセージ出力調停が生 じるために,メッセージの転送効率が低下する.そこ で,MUX を配置した場合と,MUX を用いずに VC 数と同一のポート数を有する Xbar で入出力ポートを 接続した場合のルータ性能比較を試みた. West Port From S To S North Port From East Port E To W To E Xbar From W PE PE I/F South Port To N From N 図1: ルータのハードウェア構成(変更前) Address Decoder(AD) Multiplexer(MUX) Virtual Channel(VC) Output Channel From To Net Xbar Net Xbar From To From To Net Xbar Net Xbar (a)変更前 2 ルータ構成 図1は,VC−Xbar 間に MUX を配置したルータの ハードウェア構成を示している.各ネットワークポー ト及び PE インターフェース(PE I/F)は,VC をそれ ぞれ3本,2本実装している.VC はメッセージの入 力バッファを持ち,VC に先に格納したメッセージか ら処理を行う FIFO 方式を採用している.また,各 VC にはアドレスデコーダ(AD)が1つ付いている.ポ ート及び PE I/F におけるメッセージ処理は,次のよ うに行われる. 1) AD は,隣接ノードから到着したメッセージのヘ ッダからその宛先を読み取り,出力ポートの出力 ”Performance comparison of routers by changing virtual channel connection” Osamu Mitobe, Tsutomu Yoshinaga, and Masahiro Sowa The Graduate School of Information Systems, University of Electro-Communications Arbiter(OCA) To From (b)変更後 図2: ポート構成 チャネル調停回路(OCA)へ出力要求を行う. 2) AD からの出力要求を受けた OCA は,その他の 出力要求との調停を行い,1つのメッセージに対 する出力を許可する. 3) OCA からの許可応答を受け取った AD は,VC に 対してメッセージ出力を許可する. 4) MUX はポート内の VC 間の出力調停を行い,1 つの VC に対してメッセージ出力を許可し,許可 を受けた VC はメッセージを Xbar 経由で出力ポ ートへ送る. 図2に,MUX を用いた場合(a)と用いない場合(b) のポート構成を示す.図2(a)では,ポート内の VC を MUX へ接続しているため,先のメッセージ処理フ ェーズの4)において,ポート内で複数の VC が出力 可能な場合に,出力可能となるのは1つの VC のみと なり,その他の VC においてメッセージの出力待ちが 生じる.この出力待ちは,ルータの性能を低下させる. 図2(b)では,MUX は用いずに,各 VC と出力ポー トを直接に接続している.これにより,ポート内の各 VC がそれぞれ異なる出力ポートに対して出力可能な 場合には,各 VC からメッセージを並列に出力するこ とが可能となり,変更前に MUX において生じていた メッセージの出力待ちを解消することができる. 3 論理合成結果 2.で述べたポート構成を持つルータについて,適 応ルータ Recover-x[1]と非適応 Dimension-order ル ータを Verilog-HDL で設計した.表1に,その論理 合成結果を示す.論理合成は以下の条件で行った. シンセザイザ: Synopsys HDL Compiler ver2000.11 ライブラリ: LSI Logic 0.6μm Gate Array 回路の動作条件: 民生用最悪条件(WCCOM) マッピング最適化: Medium effort 表中の最大クロック周波数とは,論理合成結果がタ イミング条件を満たす中で,クロック周波数が最も大 きかったものである.また,表中の面積は最大動作周 波数時のゲート数を表す.表中では,ルータ構成変更 前の Dimension-order 及び Recover-x ルータをそれ ぞ れ , Dimension-order(MUX) と Recover-x(MUX) ルータと呼び,変更後は Dimension-order(No MUX) と Recover-x(No MUX)ルータと呼んでいる. 合成結果から,最大クロック周波数は Dimensionorder,Recover-x ルータともに,No MUX が MUX よりそれぞれ 16%,20%高速化している.これは, No MUX では,ルータロジックが簡単化されたため である.一方でルータの総面積は,No MUX が MUX よりも若干増加している.これは,VC と出力ポート を直接に結合したことによるクロスバ面積の増大が 影響している. 表1: 論理合成結果 Dimension-order Recover-x ルータの動作周波数: 100MHz ネットワーク: 10×10 トーラス 通信パターン: random 通信---各ノードが 100 個のメ ッセージをランダムな宛先に送信する. ノード間ケーブル遅延(fly time): 1clock cycle ネットワークの定常状態における評価を行うため, シミュレーション開始から,2000 番目までの到着メ ッセージを除いて,それ以降の 5000 メッセージを評 価対象とする. 図3にバンド幅と平均レイテンシのシミュレーシ ョン結果を示す.図3(a)では,Dimension-order 及 び Recover-x ルータともに,No MUX が MUX より バンド幅が増加している.これは No MUX では,VC と出力ポートを直接に結合しているために,VC にお いてメッセージを並列に出力可能になり,チャネル利 用率が増大した結果と考えられる.図3(b)では, Dimension-order,Recover-x ルータともに,No MUX が MUX より低レイテンシを達成している.また, Dimension-order より Recover-x ルータの方が,ルー タ構成を変更したことによるルータ性能の向上が大 きい.これは,Recover-x ルータが適応ルーティング を行うことに起因する.他の通信パターンにおいても, No MUX が MUX よりも,ルータ性能が優れている ことを示す評価結果が得られた. (a)バンド幅 (b)平均レイテンシ 図3: random 通信時のシミュレーション結果 5 おわりに 本稿では,ルータ構成を変更することによる,ルー Max Frequency(MHz) 138.8 161.2 121.9 147.0 タスピード及びルータ性能の比較を行った.論理合成 Cell Area(Kgates) 69.0 72.6 71.6 75.7 結果より,ルータスピードが高速化していることが確 Net Interconnect 認できた.一方で,面積の増加が確認されたが,ルー Area(Kgates) 40.2 42.2 42.3 44.7 タスピードの高速化のメリットを考えれば,許容でき Total area(Kgates) 109.2 114.8 113.9 120.4 る範囲内である.また,シミュレーションを通して, ルータ性能が向上していることが確認できた. 4 シミュレーション結果 参考文献 図3にルータ性能のシミュレーション結果を示す. [1] 堀田真貴,吉永努,大津金光,馬場敬信:仮想チャネ シミュレーションは次の条件で行った. ル数と動作周波数を考慮した適応ルータの性能評価, シミュレータ: Cadence verilog-XL 情報処理学会論文誌,Vol.42,No.4,pp.714-723 (2001). MUX No MUX MUX No MUX
© Copyright 2024 Paperzz