温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

温度制約を考慮した積層構造
マルチコア・プロセッサの性能評価
花田高彬† 井上弘士‡ 村上和彰‡
† 九州大学大学院 システム情報科学府
‡ 九州大学大学院 システム情報科学研究院
‡ 九州大学大学院
1
発表内容
• 研究背景
– 三次元積層マルチコア・プロセッサ
– 温度問題
• 評価実験
– プロセッサ想定
– 温度解析
– 温度制約下における性能評価
• 発表のまとめ
発表 まとめ
2
三次元積層技術
• プロセッサの性能向上を実現する手段の一つ
• 三次元積層集積回路の特徴:
集積回路同士を積層し接合
積層回路間は垂直に配線
三次元積層 16Gbit NAND Flash
16Gbi NAND Fl h
(Samsung Electronics)
※ここでは例として
層間金属柱Through‐Silicon Via (TSV)による
垂直方向配線
• 三次元積層の利点
• ダイ面積を維持しつつ搭載可能トランジスタ数を向上
• 三次元方向配線&積層ダイの薄膜化により
総配線長を短縮
3
実現が期待されている
三次元積層(3D)プロセ サ
三次元積層(3D)プロセッサ
• 主記憶
主記憶DRAM積層プロセッサ
積層
ッサ[[Loi’06][Loh’08]
][
]
– オンチップ主記憶アクセス
の実現
– 多数本の層間配線によって
広いバス幅を確保可能
DRAM. die
積層
DRAM
メモリ
コントローラ
プ
プロセッサ・ダイ
• 3Dマルチコア・プロセッサ
– 小さい実装面積に積層ダイ数
に比例したプロセッサ・コアを
例
を
搭載可能
– 高速なプロセッサ
高速なプロセッサ・コア間通信
コア間通信
Proc. die
積層
プロセッサ
ダイ
発表者はこちらの3Dプロセッサに着目している
4
3Dプ セッサの温度問題
3Dプロセッサの温度問題
• 3Dプロセッサは2つの要因により高温化
ッサは
の要因 より高温化
– 温度上昇要因
• ダイ面積当たりの消費電力密度の増加
• 垂直方向熱抵抗の増加
– 積層ダイ数に伴い増加
放熱の方向
積層ダイ数増加に伴い
積層ダイの
消費電力密度が増加
消費電力が追加
放熱の方向
発熱
2D プロセッサ
積層ダイ数に比例し
熱抵抗増加
発熱
発熱
発熱
L2$ 発熱
Core
4層 3D プロセッサ
5
温度制約下における
3Dマルチコア プロセ サの性能
3Dマルチコア・プロセッサの性能
例えば,以下の想定を置く
温度制約を満たしつつ3Dマルチコア・プロセッサを動作
⇒温度低減のため動作周波数を調整
この時,積層ダイが増えると…
2層積層
コア数は倍!
4層積層
コア数さらに倍!!
低
プロセッサ・コア数(並列度)
高
高
動作周波数
低
並列度と動作周波数のトレード・オフ関係
並列度と動作周波数
ド オ 関係
⇒積層ダイ数増加によって性能向上するかどうかわからない!!
6
性能評価の目的と手順
• 目的
目的:
温度制約下における3Dマルチコア・プロセッサの
性能評価
– プロセッサ・ダイ積層によるコア数増加が
性能へ与える影響を明らかにする
• 評価手順:
1. 温度解析
⇒温度制約を満たす動作周波数を得る
温度制約を満たす動作周波数を得る
2. 温度制約下における性能評価
7
発表内容
• 研究背景
– 三次元積層マルチコア・プロセッサ
– 温度問題
• 評価実験
– プロセッサ想定
– 温度解析
– 温度制約下における性能評価
• 発表のまとめ
発表 まとめ
8
3Dマルチコア・プロセッサの想定
3Dマルチ
ア プ セッサの想定
• 積層構造
ヒ トシンク
ヒートシンク
Size: 10 x 10 x 2.5cm
熱伝導率: 240 W/m℃
層間接合層
ヒートスプレッダ
Size: 3 x 3 x 0.1cm
熱伝導率: 400 W/m℃
熱伝導率: 400 W/m℃
厚: 2um
熱伝導率: 60.24W/m℃
想定プロセッサ 層間接続構造
断面図(4層構成)
• フロアプラン
※パラメータは既存研究[Black’06]にて扱われた値を用いた
L2 Shared Cache
Core #1
Core #1
Core #2
Int
L1
Cache MMU
FPU
ホットスポット
り易
になり易い
プロセッサ・ダイのフロアプラン(各層)
Non Flip
Non‐Flip
Flip
2種類の積層パタン (4層8コアの場合)
9
温度解析実験の概要
• 目的:
目的
温度制約を満たす3Dマルチコア・プロセッサの
最大動作周波数を得る
• 手段:
温度[℃]
制限温度
■
●
8コア(3D) ■ 2コア(2D)
●
●
■
■
●
●
※熱伝導シミュレーションには,
プロセッサ熱伝導シミュレータ
“HotSpot‐5.0”[Skadron’03]を用いる
●
■
■
●
1.熱伝導シミュレーションより,
熱伝導シミ レ ションより,
動作周波数と温度の
相関プロットを作成
●
2.プロットより,近似曲線を作成
●
動作周波数[Hz]
3.近似曲線より,制限温度
近似曲線より,制限温度
での動作周波数を求める
10
消費電力,動作周波数,電源電圧の想定
• 消費電力(@
消費電力(@1.2GHz):120.11W×
)
{ダイ数}
– 各ダイの消費電力内訳
L2 Cache 9.17W
7.89W
Core #2
55.27W
Core #1
55.27W
14.45W
FPU
OoO
Issue Logic
9.98W
MMU
7 78W
7.78W
Int Exe. Unit
Int.
Exe Unit
15.36W
L1 Cache
• 基準動作周波数:1.2GHz
• 基準電源電圧:1.5V
基準電源電
※コア,L2キャッシュの消費電力は,Alpha21364のピーク消費電力[Jain’01]を参考にした
11
消費電力と電源電圧の
動作周波数依存想定
• 消費電力と動作周波数,電源電圧の関係
P  fVdd
2
f: 動作周波数
f:
動作周波数
V: 電源電圧
• 動作周波数を120MHz変動させる毎に
電源電圧は0 05V変動すると想定
電源電圧は0.05V変動すると想定
12
温度解析結果
プロセッ
ッサ温度 (deg C)
100
90
80
2Cores(2D)
4Cores
4Cores(Flip)
8Cores
8Cores(Flip)
16Cores
16Cores(Flip)
70
60
50
40
30
0
0.24
0.48
0.72
0.96
1.2
1.44
1.68
プロセッサ動作周波数
プ
セッサ動作周波数 (GHz)
1.92
2.16
2.4
• コア数増加(積層ダイ数増加)に伴い温度上昇
• 熱分散を考慮に入れた積層パタンでは比較的低温
13
温度解析結果
プロセッ
ッサ温度 (deg C)
100
制限温度 88.0 (deg C)
90
80
2Cores(2D)
4Cores
4Cores(Flip)
8Cores
8Cores(Flip)
16Cores
16Cores(Flip)
70
60
50
40
30
0
0.24
プロセッサ・
コア数
動作周波数(GHz)
(@ 制限温度)
0.48
0.72
0.96
1.2
1.44
1.68
プロセッサ動作周波数
プ
セッサ動作周波数 (GHz)
2Cores 4Cores(3D 2Layers)
(2D)
Non‐Flip
o
p
Flip
p
2.00
0.98
1.18
1.92
2.16
2.4
8Cores(3D 4Layers) 16Cores(3D 8Layers)
Non‐Flip
o
p
0.61
Flip
p
0.75
Non‐Flip
o
p
0.37
Flip
p
0.4714
Flipによる熱分散効果(3D,8コア@0.6GHz)
pによる熱分散効果( , ア@
)
ヒートシンク側
第1層
第2層
第3層
第4層
Non‐
Flip
ホットスポット
ホ
トスポ ト
(温度)
FPU
(87.58 deg C)
FPU
(87.25 deg C)
FPU
(86.59 deg C)
FPU
(85.60 deg C)
Int. Exe. Unit (72.04 deg C) 部分
L1 Cacheの一部分
(71.76 deg C)
Int. Exe. Unit
(71.33 deg C)
L1 Cacheの一部分
(70.68 deg C)
Flip
ホットスポット
(温度)
※赤字はそのプロセッサ内で最も高温となった部分(と,その温度)
発表内容
• 研究背景
– 三次元積層マルチコア・プロセッサ
– 温度問題
• 評価実験
– 温度解析
– 温度制約下における性能評価
• 発表のまとめ
16
性能評価実験環境
• 評価方法:性能モデルを用いた評価
評価方法 性能 デルを用 た評価
– 指標:1秒間当たりのギガ命令実行数 (GIPS)
– モデル:
モデル
GIPS  IPC  F
3D
実ベンチマーク・プログラムを用いた
実ベンチマ
ク プログラムを用いた
プロセッサ・シミュレーションから求める
温度制約下動作周波数
[GHz]
• プロセッサ
プロセッサ・シミュレータ:M5
シミ レ タ M5
• ベンチマーク・プログラム:
Splash‐2より6種のプログラムを選択
※ GIPS: Giga Instructions Per Second, IPC: Instructions Per Cycle
17
シミュレータに与えた
ア キテクチャ想定パラメ タ
アーキテクチャ想定パラメータ
• プロセッサ・コア
ッサ ア
– 命令発行方式:In‐Order, 発行幅=1
– L1命令/データ・キャッシュ:32KB, 2Ways
L1命令/デ タ キャッシュ 32KB 2Wa s
– コア数:{ダイ数}×2コア
• 共有L2キャッシュ
– 容量: {ダイ数}×2MB
容量: {ダイ数}×2MB
– 連想度: 8ways
– L2アクセス時間:
アクセス時間
10.4nsec, 13.2nsec, 17.7nsec, 24.6nsec
2D 2コア
2D 2コア
3D 4コア
3D 4コア
3D 8コア
3D 8コア
3D 16コア
3D 16コア
18
2Coress (2D)
4Coress(3D)
8Coress(3D)
16Coress(3D)
2Coress (2D)
4Coress(3D)
8Coress(3D)
16Coress(3D)
2Coress (2D)
4Coress(3D)
8Coress(3D)
16Coress(3D)
2Coress (2D)
4Coress(3D)
8Coress(3D)
16Coress(3D)
2Coress (2D)
4Coress(3D)
8Coress(3D)
16Coress(3D)
2Coress (2D)
4Coress(3D)
8Coress(3D)
16Coress(3D)
性能評価結果
正規化GIPS
2
1.75
Barnes
■■■:GIPS値(Non ‐ Flip)
□□□:GIPS値(Flip)
+ :IPC値
Cholesky
FFT
正規化IPC
8
7
1.5
6
1 25
1.25
5
1
4
0.75
3
0.5
2
0.25
1
0
0
Ocean
Contig
Raytrace
Water
Spatial
19
2Coress (2D)
4Coress(3D)
8Coress(3D)
16Coress(3D)
2Coress (2D)
4Coress(3D)
8Coress(3D)
16Coress(3D)
2Coress (2D)
4Coress(3D)
8Coress(3D)
16Coress(3D)
2Coress (2D)
4Coress(3D)
8Coress(3D)
16Coress(3D)
2Coress (2D)
4Coress(3D)
8Coress(3D)
16Coress(3D)
2Coress (2D)
4Coress(3D)
8Coress(3D)
16Coress(3D)
性能評価結果
正規化GIPS
2
1.75
Barnes
正規化IPC
コア数増加につれて
ア数増加
れて
8
性能向上!!
7
1.5
6
1 25
1.25
5
1
4
0.75
3
0.5
2
0.25
1
0
0
コア数増加に伴うIPC向上率が大きい
※具体的には,(IPC向上>動作周波数低下)の関係が成り立っている
But.. コア数増加に見合った性能向上は得られていない
Cholesky
FFT
Ocean
Contig
Raytrace
Water
Spatial
20
2Coress (2D)
4Coress(3D)
8Coress(3D)
16Coress(3D)
2Coress (2D)
4Coress(3D)
8Coress(3D)
16Coress(3D)
2Coress (2D)
4Coress(3D)
8Coress(3D)
16Coress(3D)
2Coress (2D)
4Coress(3D)
8Coress(3D)
16Coress(3D)
2Coress (2D)
4Coress(3D)
8Coress(3D)
16Coress(3D)
2Coress (2D)
4Coress(3D)
8Coress(3D)
16Coress(3D)
性能評価結果
正規化GIPS
Barnes
正規化IPC
2
コア数増加につれて
ア数増加に れて
1.75
Cholesky
FFT
Ocean
Contig
Raytrace
8
性能低下…
7
1.5
6
1 25
1.25
5
1
4
0.75
3
0.5
2
0.25
1
0
0
コア数増加に伴う
ア数増加に伴うIPC向上率が小さい
※具体的には,(IPC向上<動作周波数低下)の関係が成り立っている
Water
Spatial
21
発表のまとめ
• 概要:
温度制約下における3Dマルチコア・プロセッサの
性能評価
• 結論:
– 性能を高めるには熱を分散するフロアプランが有効
– 動作周波数削減による温度低減においては,
コア数増加に見合う性能向上は望みにくい
• 今後の予定:
– 低消費電力なプロセッサをベースとした性能評価
低消費電力なプ
サをベ
と た性能評価
– Dynamic Thermal Managementのように性能への影響
の少ない温度低減手法を取り入れた場合の性能評価
少な 温度低減手法を取り入れた場合 性能評価
22
御清聴ありがとうございました
23