主記憶バンド幅がプロセッサ性能に与える影響の評価

Vol. 41
情報処理学会論文誌
No. 6
June 2000
主記憶バンド幅がプロセッサ性能に与える影響の評価
江 口 修 平†
五 島 正 裕†
1. 概
塩 谷 亮 太†
坂 井 修 一†
表 1 主記憶,および,キャッシュに関するパラメータ
Table 1 Parameters of main memory and caches
要
近年,プロセッサの処理速度の向上に伴い,新たな
主記憶モジュールの規格が出る度に広いバンド幅を持
つ主記憶モジュールが登場している.また,複数のチャ
パラメータ
値
L1I
64Bytes line, 2Way, 64kB
3cycles Access latency
64Bytes line, 2Way, 64kB
3cycles Access latency
64Bytes line, 16Way, 1MB
25cycles Access latency
DDR2-5300 × 2 2GB,
200 cycles Access Latency
5.3GB/s(シングル・チャネル)
10.6GB/s(デュアル・チャネル)
L1D
ネル上の主記憶モジュールに同時にアクセスすること
L2
によりバンド幅を広げる技術も存在する.しかし,主
記憶のバンド幅の変化が,実際にどのような影響を与
主記憶
えるかについては,詳細な評価がなされて来なかった.
そこで,今回我々は実機とシミュレーションを用いて,
主記憶バンド幅がプロセッサ性能に与える影響を評価
した.今回は,プロセッサの性能評価に一般的に用い
表 2 シミュレータのパラメータ
Table 2 Parameters for Simulator
られる SPEC20004) を用いた。その結果,バンド幅
を半減したとしても,プロセッサの動作速度に与える
影響は少ないという結果が得られた.
2. 評 価 環 境
2.1 ベンチマーク
ベンチマークとしては SPEC2000 を主に用いた.そ
パラメータ
値
ISA
Fetch Width
Issue Width
Integer Units
FP Units
Register Files
Insn Windows
Alpha
4
INT:2, FP:2, MEM:2
ALU:2, iMUL:1, iDIV:1
fADD:1, fMUL:1, fDIV :1
INT:192, FP:128
INT:32, FP:32, Mem:32
の他,より基本的な性質を把握するために,主記憶リー
ド (連続アドレスの読み込み),主記憶コピー (連続ア
はデュアル・コアであり,表 1 の L1I,L1D,L2 キャッ
ドレスのコピー),行列積の 3 種マイクロ・ベンチマー
シュのパラメータは,1 コア分のものである.
クを合わせて用いた.
2.2 実
2.3 シミュレータ
機
シ ミュレ ー タ に は ,本 研 究 室 で 開 発 し た cycle-
実機として,AMD Athlon 64 X21) 5200+(動
accurate なシミュレータである「鬼斬弐6) ,5) 」を用
作周波数 2.6GHz)を搭載 PC を使用した.
いた.
主記憶は,DDR2-5300 1GB モジュールを 2 枚用
主記憶,および,キャッシュに関するパラメータは
いた.メモリ・モジュール単体で 5.3GB/s のバンド
実機に合わせてある(表 1).命令セットやプロセッサ
幅を持つ.これをデュアル・チャネルで動作させるこ
内部の演算器の個数など,その他のパラメータは表 3
とにより,バンド幅は 10.6GB/s となる.2 枚のメモ
の通りである.
リ・モジュールを一方のチャネルに差すことにより,
2.4 評 価 方 法
シングル・チャネル動作となる.
実機では,実行時間を測定した.実機での測定では,
Athlon 64 X2 の主記憶,および,キャッシュに関係
OS などの影響のため,ときおり異常に遅い結果が出
するパラメータは表 1 の通りである.Athlon 64 X2
ることがある.そのため,1 つのベンチマークにつき
5 回ずつ実行し,良いほうの 3 つの結果の平均値を
† 東京大学大学院 情報理工学系研究科
Graduate School of Information Science and Technology, The University of Tokyo
とった.
シミュレータでは,主に,実行サイクル数を測定し
1234
Vol. 41
No. 6
1235
表 3 速度低下率
Table 3 Speed down of execution speed
ベンチマーク
シミュレータ
実 機
SPEC2000INT 平均
SPEC2000FP 平均
行列積
主記憶リード
主記憶コピー
1.1%
5.1%
4.1%
50.0%
7.9%
1.3%
5.1%
6.1%
37.6%
1.3%
た.ベンチマーク全体を実行することは時間的に困
難であるので,先頭の 1G 命令をスキップして後の
100M 命令を実行した.
2.4.1 評 価 結 果
1
0.8
値測
実0.6
度
速
対
相0.4
)
(
0.2
0
0
0.2
0.4
0.6
相対速度 予測値
(
0.8
1
)
図 1 相対速度の予測値と実測値の相関
2.5 主記憶バンド幅を半減させた場合の速度低下率
表 3 に,デュアル・チャネルかシングル・チャネルへ
と,主記憶バンド幅を半減させた時の,各ベンチマー
クの相対実行速度の.平均低下率をまとめた.
クにあたる.
3. お わ り に
SPEC2000int では,バンド幅を半減させても,全
主記憶バンド幅がプロセッサに与える影響を明らか
てのベンチマークで速度の低下は 10%以内にとどまっ
にするため,シミュレータと実機で主記憶バンド幅を
た。SPEC2000fp では,一部で大幅に速度が低下した
変化させて,速度低下率を測定した.その結果,主記
ベンチマークもあったが,多くのベンチマークで速度
憶バンド幅を半減させたにも関わらず,速度低下率は
の低下は少なかった.
わずかであった.行列積のような,主記憶を大量に消
また,行列積のようなメモリを多く使うベンチマー
クでも速度の低下は大きくなかった.
2.6 予測速度低下率
費する数値処理の典型のようなプログラムであっても,
主記憶バンド幅に対する要求は厳しくはない場合もあ
ることを述べ,その原因も明らかにした.
主記憶バンド幅が 5.3GB/s であるということは,コ
今 後 は ,HPC 向 け の ベ ン チ マ ー ク で あ る 姫 野
アの動作周波数が 2.6GHz であるので,64B のキャッ
ベンチ3) や,組み込み向けのベンチマークである
シュ・ラインを転送するのに 30 サイクル かかること
EEMBC2) でも評価を行う予定である.
になるる.
このことから,主記憶へのアクセス間隔の統計を取
れば,バンド幅の影響により,どれだけ実行時間が増
加するか推定することができる.すなわち,前回から
今回までの主記憶アクセスの間隔が n サイクル であ
るとすれば,n ≥ 30(シングル・チャネル)であれ
ば,コアは待たされることがない.n < 30 であれば,
(30 − n) サイクル だけ余計に待たされることになる.
図 1 は予測速度低下率から求めた相対速度の予測値
と,シミュレータで測定した相対速度の実測値 の相
関を表したものである.同図中横軸が予測値を,縦軸
が実測値 であり,各点は 1 つのベンチマークに対応
する.同図では,全ての点がほぼ一直線上に並んでお
り,このような単純な計算によって,速度低下率が高
精度に推定できることを示している.
このことから,主記憶消費量が大きく,キャッシュ・
ミス率が高いベンチマークであっても,短い間隔での
主記憶へのアクセスが少なければ,バンド幅の影響を
受けにくいと言える.行列積はこのようなベンチマー
参
考
文
献
1) Amd athlon x2 dual-core processor product data sheet. http://www.amd.com/us-en/
assets/content type/white papers and tech
docs/43042.pdf.
2) Eembc – the embedded microprocessor benchmark consortium.
http://www.eembc.org/
home.php.
3) Himeno benchmark xp - 姫 野 ベ ン チ と
は. http://accc.riken.jp/HPC/HimenoBMT/
index.html.
4) Standard performance evaluation corporation. http://www.spec.org.
5) 渡辺憲一. プロセッサ・シミュレータ「鬼斬2」
の設計と実装. 修士論文, 東京大学大学院情報理
工学系研究科, 2008.
6) 渡辺憲一, 一林宏憲, 五島正裕, 坂井修一. プロ
セッサ・シミュレータ「鬼斬」の設計. 先進的計算基
盤システムシンポジウム SACSIS, pp. 194–195,
2007.