主記憶バンド幅がプロセッサ性能に与える影響の評価

Vol. 41
情報処理学会論文誌
No. 6
June 2000
主記憶バンド幅がプロセッサ性能に与える影響の評価
江口修平†
五島正裕†
1. 概
塩谷亮太†
坂井修一†
表 1 主記憶，および，キャッシュに関するパラメータ
Table 1 Parameters of main memory and caches
要
近年，プロセッサの処理速度の向上に伴い，新たな
主記憶モジュールの規格が出る度に広いバンド幅を持
つ主記憶モジュールが登場している．また，複数のチャ
パラメータ
値
L1I
64Bytes line, 2Way, 64kB
3cycles Access latency
64Bytes line, 2Way, 64kB
3cycles Access latency
64Bytes line, 16Way, 1MB
25cycles Access latency
DDR2-5300 × 2 2GB，
200 cycles Access Latency
5.3GB/s（シングル・チャネル）
10.6GB/s（デュアル・チャネル）
L1D
ネル上の主記憶モジュールに同時にアクセスすること
L2
によりバンド幅を広げる技術も存在する．しかし，主
記憶のバンド幅の変化が，実際にどのような影響を与
主記憶
えるかについては，詳細な評価がなされて来なかった．
そこで，今回我々は実機とシミュレーションを用いて，
主記憶バンド幅がプロセッサ性能に与える影響を評価
した．今回は，プロセッサの性能評価に一般的に用い
表 2 シミュレータのパラメータ
Table 2 Parameters for Simulator
られる SPEC20004) を用いた。その結果，バンド幅
を半減したとしても，プロセッサの動作速度に与える
影響は少ないという結果が得られた．
2. 評価環境
2.1 ベンチマーク
ベンチマークとしては SPEC2000 を主に用いた．そ
パラメータ
値
ISA
Fetch Width
Issue Width
Integer Units
FP Units
Register Files
Insn Windows
Alpha
4
INT:2, FP:2, MEM:2
ALU:2, iMUL:1, iDIV:1
fADD:1, fMUL:1, fDIV :1
INT:192, FP:128
INT:32, FP:32, Mem:32
の他，より基本的な性質を把握するために，主記憶リー
ド (連続アドレスの読み込み)，主記憶コピー (連続ア
はデュアル・コアであり，表 1 の L1I，L1D，L2 キャッ
ドレスのコピー)，行列積の 3 種マイクロ・ベンチマー
シュのパラメータは，1 コア分のものである．
クを合わせて用いた．
2.2 実
2.3 シミュレータ
機
シミュレータには，本研究室で開発した cycle-
実機として，AMD Athlon 64 X21) 5200+（動
accurate なシミュレータである「鬼斬弐6) ,5) 」を用
作周波数 2.6GHz）を搭載 PC を使用した．
いた．
主記憶は，DDR2-5300 1GB モジュールを 2 枚用
主記憶，および，キャッシュに関するパラメータは
いた．メモリ・モジュール単体で 5.3GB/s のバンド
実機に合わせてある（表 1）．命令セットやプロセッサ
幅を持つ．これをデュアル・チャネルで動作させるこ
内部の演算器の個数など，その他のパラメータは表 3
とにより，バンド幅は 10.6GB/s となる．2 枚のメモ
の通りである．
リ・モジュールを一方のチャネルに差すことにより，
2.4 評価方法
シングル・チャネル動作となる．
実機では，実行時間を測定した．実機での測定では，
Athlon 64 X2 の主記憶，および，キャッシュに関係
OS などの影響のため，ときおり異常に遅い結果が出
するパラメータは表 1 の通りである．Athlon 64 X2
ることがある．そのため，1 つのベンチマークにつき
5 回ずつ実行し，良いほうの 3 つの結果の平均値を
† 東京大学大学院情報理工学系研究科
Graduate School of Information Science and Technology, The University of Tokyo
とった．
シミュレータでは，主に，実行サイクル数を測定し
1234
Vol. 41
No. 6
1235
表 3 速度低下率
Table 3 Speed down of execution speed
ベンチマーク
シミュレータ
実機
SPEC2000INT 平均
SPEC2000FP 平均
行列積
主記憶リード
主記憶コピー
1.1%
5.1%
4.1%
50.0%
7.9%
1.3%
5.1%
6.1%
37.6%
1.3%
た．ベンチマーク全体を実行することは時間的に困
難であるので，先頭の 1G 命令をスキップして後の
100M 命令を実行した．
2.4.1 評価結果
1
0.8
値測
実0.6
度
速
対
相0.4
)
(
0.2
0
0
0.2
0.4
0.6
相対速度予測値
(
0.8
1
)
図 1 相対速度の予測値と実測値の相関
2.5 主記憶バンド幅を半減させた場合の速度低下率
表 3 に，デュアル・チャネルかシングル・チャネルへ
と，主記憶バンド幅を半減させた時の，各ベンチマー
クの相対実行速度の．平均低下率をまとめた．
クにあたる．
3. おわりに
SPEC2000int では，バンド幅を半減させても，全
主記憶バンド幅がプロセッサに与える影響を明らか
てのベンチマークで速度の低下は 10%以内にとどまっ
にするため，シミュレータと実機で主記憶バンド幅を
た。SPEC2000fp では，一部で大幅に速度が低下した
変化させて，速度低下率を測定した．その結果，主記
ベンチマークもあったが，多くのベンチマークで速度
憶バンド幅を半減させたにも関わらず，速度低下率は
の低下は少なかった．
わずかであった．行列積のような，主記憶を大量に消
また，行列積のようなメモリを多く使うベンチマー
クでも速度の低下は大きくなかった．
2.6 予測速度低下率
費する数値処理の典型のようなプログラムであっても，
主記憶バンド幅に対する要求は厳しくはない場合もあ
ることを述べ，その原因も明らかにした．
主記憶バンド幅が 5.3GB/s であるということは，コ
今後は，HPC 向けのベンチマークである姫野
アの動作周波数が 2.6GHz であるので，64B のキャッ
ベンチ3) や，組み込み向けのベンチマークである
シュ・ラインを転送するのに 30 サイクルかかること
EEMBC2) でも評価を行う予定である．
になるる．
このことから，主記憶へのアクセス間隔の統計を取
れば，バンド幅の影響により，どれだけ実行時間が増
加するか推定することができる．すなわち，前回から
今回までの主記憶アクセスの間隔が n サイクルであ
るとすれば，n ≥ 30（シングル・チャネル）であれ
ば，コアは待たされることがない．n < 30 であれば，
(30 − n) サイクルだけ余計に待たされることになる．
図 1 は予測速度低下率から求めた相対速度の予測値
と，シミュレータで測定した相対速度の実測値の相
関を表したものである．同図中横軸が予測値を，縦軸
が実測値であり，各点は 1 つのベンチマークに対応
する．同図では，全ての点がほぼ一直線上に並んでお
り，このような単純な計算によって，速度低下率が高
精度に推定できることを示している．
このことから，主記憶消費量が大きく，キャッシュ・
ミス率が高いベンチマークであっても，短い間隔での
主記憶へのアクセスが少なければ，バンド幅の影響を
受けにくいと言える．行列積はこのようなベンチマー
参
考
文
献
1) Amd athlon x2 dual-core processor product data sheet. http://www.amd.com/us-en/
assets/content type/white papers and tech
docs/43042.pdf.
2) Eembc – the embedded microprocessor benchmark consortium.
http://www.eembc.org/
home.php.
3) Himeno benchmark xp - 姫野ベンチと
は. http://accc.riken.jp/HPC/HimenoBMT/
index.html.
4) Standard performance evaluation corporation. http://www.spec.org.
5) 渡辺憲一. プロセッサ・シミュレータ「鬼斬２」
の設計と実装. 修士論文, 東京大学大学院情報理
工学系研究科, 2008.
6) 渡辺憲一, 一林宏憲, 五島正裕, 坂井修一. プロ
セッサ・シミュレータ「鬼斬」の設計. 先進的計算基
盤システムシンポジウム SACSIS, pp. 194–195,
2007.

Download Report