仮想チャネル接続の違いによるルータの性能比較

仮想チャネル接続の違いによるルータの性能比較
3ZB−3
ZB−3
水戸部 理
吉永 努
電気通信大学
曽和 将容
情報システム学研究科
1 はじめに
我々は,マルチコンピュータ環境におけるメッセー
ジのルーティングについて研究している.メッセージ
のルーティングアルゴリズムには,非適応ルーティン
グと適応ルーティングがある.非適応ルーティングの
中でも,次元順ルーティング(Dimension-order)はよ
く実システムに採用されており,2次元メッシュを例
にとると,X 方向のルーティングが完了した後に,Y
方向のルーティングを行う方式である.一方,適応ル
ータは非適応ルータに比べてハードウェア構成がや
や複雑になる場合があるが,ルーティング自由度を大
きく確保することができ,送信ノードから宛先ノード
までのメッセージのルーティング経路をネットワー
クの状態に応じて動的に選択することができる.
従来のルータ構成では,入出力ポート間を結合する
クロスバスイッチ(Xbar)のポート数を少なく抑える
ために,仮想チャネル(VC)と Xbar 間にマルチプレク
サ(MUX)を配置する場合が多い.しかし,この構成
では MUX において VC 間のメッセージ出力調停が生
じるために,メッセージの転送効率が低下する.そこ
で,MUX を配置した場合と,MUX を用いずに VC
数と同一のポート数を有する Xbar で入出力ポートを
接続した場合のルータ性能比較を試みた.
West
Port
From S
To S
North
Port
From
East
Port
E
To W
To E
Xbar
From
W
PE
PE I/F
South
Port
To N
From N
図1: ルータのハードウェア構成(変更前)
Address Decoder(AD)
Multiplexer(MUX)
Virtual Channel(VC)
Output Channel
From
To
Net
Xbar
Net
Xbar
From
To
From
To
Net
Xbar
Net
Xbar
(a)変更前
2 ルータ構成
図1は,VC−Xbar 間に MUX を配置したルータの
ハードウェア構成を示している.各ネットワークポー
ト及び PE インターフェース(PE I/F)は,VC をそれ
ぞれ3本,2本実装している.VC はメッセージの入
力バッファを持ち,VC に先に格納したメッセージか
ら処理を行う FIFO 方式を採用している.また,各
VC にはアドレスデコーダ(AD)が1つ付いている.ポ
ート及び PE I/F におけるメッセージ処理は,次のよ
うに行われる.
1) AD は,隣接ノードから到着したメッセージのヘ
ッダからその宛先を読み取り,出力ポートの出力
”Performance comparison of routers by changing virtual
channel connection”
Osamu Mitobe, Tsutomu Yoshinaga, and Masahiro Sowa
The Graduate School of Information Systems, University of
Electro-Communications
Arbiter(OCA)
To
From
(b)変更後
図2: ポート構成
チャネル調停回路(OCA)へ出力要求を行う.
2) AD からの出力要求を受けた OCA は,その他の
出力要求との調停を行い,1つのメッセージに対
する出力を許可する.
3) OCA からの許可応答を受け取った AD は,VC に
対してメッセージ出力を許可する.
4) MUX はポート内の VC 間の出力調停を行い,1
つの VC に対してメッセージ出力を許可し,許可
を受けた VC はメッセージを Xbar 経由で出力ポ
ートへ送る.
図2に,MUX を用いた場合(a)と用いない場合(b)
のポート構成を示す.図2(a)では,ポート内の VC
を MUX へ接続しているため,先のメッセージ処理フ
ェーズの4)において,ポート内で複数の VC が出力
可能な場合に,出力可能となるのは1つの VC のみと
なり,その他の VC においてメッセージの出力待ちが
生じる.この出力待ちは,ルータの性能を低下させる.
図2(b)では,MUX は用いずに,各 VC と出力ポー
トを直接に接続している.これにより,ポート内の各
VC がそれぞれ異なる出力ポートに対して出力可能な
場合には,各 VC からメッセージを並列に出力するこ
とが可能となり,変更前に MUX において生じていた
メッセージの出力待ちを解消することができる.
3 論理合成結果
2.で述べたポート構成を持つルータについて,適
応ルータ Recover-x[1]と非適応 Dimension-order ル
ータを Verilog-HDL で設計した.表1に,その論理
合成結果を示す.論理合成は以下の条件で行った.
シンセザイザ: Synopsys HDL Compiler ver2000.11
ライブラリ: LSI Logic 0.6μm Gate Array
回路の動作条件: 民生用最悪条件(WCCOM)
マッピング最適化: Medium effort
表中の最大クロック周波数とは,論理合成結果がタ
イミング条件を満たす中で,クロック周波数が最も大
きかったものである.また,表中の面積は最大動作周
波数時のゲート数を表す.表中では,ルータ構成変更
前の Dimension-order 及び Recover-x ルータをそれ
ぞ れ , Dimension-order(MUX) と Recover-x(MUX)
ルータと呼び,変更後は Dimension-order(No MUX)
と Recover-x(No MUX)ルータと呼んでいる.
合成結果から,最大クロック周波数は Dimensionorder,Recover-x ルータともに,No MUX が MUX
よりそれぞれ 16%,20%高速化している.これは,
No MUX では,ルータロジックが簡単化されたため
である.一方でルータの総面積は,No MUX が MUX
よりも若干増加している.これは,VC と出力ポート
を直接に結合したことによるクロスバ面積の増大が
影響している.
表1: 論理合成結果
Dimension-order
Recover-x
ルータの動作周波数: 100MHz
ネットワーク: 10×10 トーラス
通信パターン: random 通信---各ノードが 100 個のメ
ッセージをランダムな宛先に送信する.
ノード間ケーブル遅延(fly time): 1clock cycle
ネットワークの定常状態における評価を行うため,
シミュレーション開始から,2000 番目までの到着メ
ッセージを除いて,それ以降の 5000 メッセージを評
価対象とする.
図3にバンド幅と平均レイテンシのシミュレーシ
ョン結果を示す.図3(a)では,Dimension-order 及
び Recover-x ルータともに,No MUX が MUX より
バンド幅が増加している.これは No MUX では,VC
と出力ポートを直接に結合しているために,VC にお
いてメッセージを並列に出力可能になり,チャネル利
用率が増大した結果と考えられる.図3(b)では,
Dimension-order,Recover-x ルータともに,No MUX
が MUX より低レイテンシを達成している.また,
Dimension-order より Recover-x ルータの方が,ルー
タ構成を変更したことによるルータ性能の向上が大
きい.これは,Recover-x ルータが適応ルーティング
を行うことに起因する.他の通信パターンにおいても,
No MUX が MUX よりも,ルータ性能が優れている
ことを示す評価結果が得られた.
(a)バンド幅
(b)平均レイテンシ
図3: random 通信時のシミュレーション結果
5 おわりに
本稿では,ルータ構成を変更することによる,ルー
Max Frequency(MHz)
138.8
161.2
121.9
147.0
タスピード及びルータ性能の比較を行った.論理合成
Cell Area(Kgates)
69.0
72.6
71.6
75.7
結果より,ルータスピードが高速化していることが確
Net Interconnect
認できた.一方で,面積の増加が確認されたが,ルー
Area(Kgates)
40.2
42.2
42.3
44.7
タスピードの高速化のメリットを考えれば,許容でき
Total area(Kgates)
109.2
114.8
113.9
120.4
る範囲内である.また,シミュレーションを通して,
ルータ性能が向上していることが確認できた.
4 シミュレーション結果
参考文献
図3にルータ性能のシミュレーション結果を示す. [1] 堀田真貴,吉永努,大津金光,馬場敬信:仮想チャネ
シミュレーションは次の条件で行った.
ル数と動作周波数を考慮した適応ルータの性能評価,
シミュレータ: Cadence verilog-XL
情報処理学会論文誌,Vol.42,No.4,pp.714-723 (2001).
MUX
No MUX
MUX
No MUX