Intel® Core™ i7 プロセッサ 920 Preliminary Performance Report

Intel® Core™ i7 プロセッサ 920
Preliminary Performance Report
スケーラブルシステムズ株式会社
ノード性能評価
• ノード性能の評価
– NAS Parallel Benchmark Class B
– OpenMP版での性能評価
– 実行スレッド数を4で固定(デュアルソケットでは各プロセッサに2
スレッド)
– 全て、2.66GHzのコアとなるため、コアあたりのピーク性能は同じ
• 評価システム
– Intel® Core™ 2 Extreme QX6700 (シングルソケット)
• 2.66GHz、1066MHz FSB、2x4MB L2キャッシュ
– Intel® Xeon 5150(デュアルソケット構成)
• 2.66GHz、1333MHz FSB、4MB L2キャッシュ
– Intel® Xeon 5430(デュアルソケット構成)
• 2.66GHz、1333MHz FSB、2x6MB L2キャッシュ
– Intel® Core™ i7 920 (シングルソケット)
• 2.66GHz、8MB L3キャッシュ、3 チャネル DDR3 1066 MHz
スケーラブルシステムズ株式会社
評価システム構成
Core 0
Core 2
6MB shared
L2 Cache
Bus I/F
Core 0
Core 2
Core 0
6MB shared
L2 Cache
Bus I/F
Core 2
6MB shared
L2 Cache
Bus I/F
MCH FSB
Core 0
Core 2
6MB shared
L2 Cache
Bus I/F
MCH FSB
Xeon 5430(デュアルソケット)
Core 0
Core 2
4MB shared
L2 Cache
Bus I/F
Core 0
Core 2
4MB shared
L2 Cache
Bus I/F
MCH FSB
Core 0
Core 2
Core 0
Core 2
Core 0
Core 2
4MB shared L2
Cache
Bus I/F
4MB shared L2
Cache
Bus I/F
4MB shared L2
Cache
Bus I/F
MCH FSB
MCH FSB
MCH FSB
Xeon 5150(デュアルソケット)
Core 2 Extreme QX6700 Core 2 Duo
(シングルソケット)
スケーラブルシステムズ株式会社
Intel® Core™ i7 プロセッサ 920
(Nehalemプロセッサ)
Memory Controler
Core
QPI 1
QPI 0
L3 Cache
Core
MISC IO
Core
Queue
MISC IO
Core
スケーラブルシステムズ株式会社
マルチスレッド向けシステム強化
• 完全にモジュール化されたシステム設計
• マイクロアーキテクチャ拡張
– マルチスレッドアプリケーションで重要となる同期
プリミティブの高速化
• キャッシュ階層
– L1、L2、L3の3階層のキャッシュ構成
– 256KBの専用L2キャッシュ
– CPU中の全てのCPUコアで共有する大容量のL3
キャッシュ
• プロセッサ上のメモリコントローラ
スケーラブルシステムズ株式会社
性能評価について
このレポートでの性能評価は、以前に弊社で実行した
ベンチマークの結果とCore i7搭載システムの性能を
比較したものです。コンパイラは、そのテストを実施し
た時点での最新版を利用しているため、各システムの
性能評価毎に違ったバージョンでの性能評価となって
います。
利用しているコンパイラオプションは、-O3 –openmp
だけを指定しています。
また、このベンチマークレポートは、マイクロプロセッ
サとチップセットの世代毎の違いの概要を評価するた
めだけに行っています。
スケーラブルシステムズ株式会社
性能評価結果(相対性能)
2008.03 実施
65nm プロセッサ
7
Core2Duo/2
Core2Quad/4
45nm プロセッサ
Xeon5150/4
Xeon5430/4
Xeon5430/8
相対性能(Core 2 Duoの性能=1)
6
5
4
3
2
1
0
BT
CG
EP
FT
IS
LU
MG
SP
スケーラブルシステムズ株式会社
性能評価結果(相対性能)
• Core 2 Duoなどの65nmプロセッサと比較しても、同
一クロックでも性能向上が45nmプロセッサは示して
いる。
– LUベンチマーク:2x6MB キャッシュでの性能向上
– EPベンチマーク:マイクロアーキテクチャ+コンパ
イラによる性能向上
• 全般的に、同一のFSB速度にも関わらず、高い性能
向上を示している。
• Intel Xeon 5400番台プロセッサの高い潜在能力を
示す。
スケーラブルシステムズ株式会社
性能評価結果(相対性能)
2008.12 実施
NPB OpenMP – 4スレッドベンチマーク性能比較
相対性能(Core 2 Extreme QX6700 =1)
Core 2 Extreme QX6700
Xeon 5150 DP
Xeon 5430 DP
Core i7
7.0
6.0
5.0
同じクァッドコアプロセッ
サに対して、同一クロック
で2-3倍の性能
4.0
3.0
2.0
1.0
0.0
BT
CG
EP
FT
IS
LU
MG
SP
スケーラブルシステムズ株式会社
性能評価結果(相対性能)
2008.12 実施
NPB OpenMP – 2スレッドベンチマーク性能比較
相対性能(Core 2 Extreme QX6700 =1)
Core 2 Extreme QX6700
Xeon 5150 DP
Xeon 5430
Core i7
4
3.5
3
2.5
2
1.5
1
0.5
0
BT
CG
EP
FT
IS
LU
MG
SP
スケーラブルシステムズ株式会社
Intel® Core™ i7 プロセッサ 920
OpenMPスケーラビリティ
NPB OpenMP – スケーラビリティ評価
スケーラビリティ(シングルスレッドに対する性能比)
1
2
4
4.0
従来のプロセッサを大きく
上回るマルチスレッドで
のスケーラビリティ
3.5
3.0
2.5
2.0
1.5
1.0
0.5
0.0
BT
CG
EP
FT
IS
LU
MG
SP
スケーラブルシステムズ株式会社
Intel® Core™ i7 プロセッサ 920
OpenMPスケーラビリティ
NPB OpenMP – スケーラビリティ評価
スケーラビリティ(Core 2 Extreme QX6700 =1)
QX6700/1
QX6700/2
QX6700/4
Core i7/1
Core i7/2
Core i7/4
8.0
シングルコアでの性能差 << マルチスレッドでの性能差
7.0
6.0
5.0
4.0
3.0
2.0
1.0
0.0
BT
CG
EP
FT
IS
LU
MG
SP
スケーラブルシステムズ株式会社
性能評価結果(相対性能)
• Core i7-920の圧倒的な性能
– 従来のCore2プロセッサやXeonプロセッサと比較
して、その高いメモリバンド幅による並列処理での
高いスケーラビリティ
– シングルプロセッサ内の複数コアでのスレッド処理
での高いスケーラビリティ
• 高いメモリバンド幅
• 新しいマイクロアーキテクチャの拡張
• キャッシュシステム
スケーラブルシステムズ株式会社
SMP LINPACKベンチマーク
SMP LINPACK Efficiency
Efficiency (% to Peak)
1スレッド
4スレッド
高いメモリバンド幅と低い
メモリレイテンシ
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
1000
2000
5000
10000
15000
18000
Matrix Size
スケーラブルシステムズ株式会社
メモリ階層ベンチマーク
• メモリ階層の簡単なベンチマークツール
• Cachebench
– http://icl.cs.utk.edu/projects/llcbench/cachebench.h
tml
– Cachebenchは、現在は、LLCbench として公開され
ている
• LLCbench - Low Level Architectural
Characterization Benchmark Suite
• http://icl.cs.utk.edu/projects/llcbench/index.html
• Xeon 5160/Core2Quad/Opteronなどと比較
スケーラブルシステムズ株式会社
メモリ階層ベンチマーク
double Read Cache Test
40000
Opteron 2.8GHz
Xeon 5160 3.0GHz
35000
Core2Quad 2.6GHz
Core i7 2.6GHz
30000
MB/sec
25000
20000
15000
10000
5000
0
100
400
1600
6400
25600
102400
409600
1638400
6553600
26214400
C Size (bytes)
スケーラブルシステムズ株式会社
メモリ階層ベンチマーク
double write Cache Test
50000
Opteron 2.8GHz
Xeon 5160 3.0GHz
45000
Core2Quad 2.6GHz
40000
Core i7 2.6GHz
35000
MB/sec
30000
25000
20000
15000
10000
5000
0
100
400
1600
6400
25600
102400
409600
1638400
6553600
26214400
C Size (bytes)
スケーラブルシステムズ株式会社
メモリ階層ベンチマーク
Double read/modify/write Cache Test
70000
Opteron 2.8GHz
Xeon 5160 3.0GHz
60000
Core2Quad 2.6GHz
Core i7 2.6GHz
50000
MB/sec
40000
30000
20000
10000
0
100
400
1600
6400
25600
102400
409600
1638400
6553600
26214400
C Size (bytes)
スケーラブルシステムズ株式会社
Core i7 プロセッサ
• メモリ階層のベンチマーク結果は、Core i7 プロセッ
サの高い性能を裏付ける結果となっています。
• 非常に優れたキャッシュ性能と従来製品を大きく上
回るメモリ性能は、HPC分野のアプリケーション性能
を大きく向上させることが可能となります。
注)
このベンチマーク結果は、弊社が独自に行ったベン
チマーク結果であり、その妥当性についての責任は
弊社にあります。また、この結果は特定の製品の性
能を保証するものではありません。
スケーラブルシステムズ株式会社
Himeno Benchmark ***)
メモリコントローラ内蔵では先行した
AMD社のプロセッサと比較しても、
Core i7プロセッサは、マイクロアー
キテクチャの優位性と今回のメモリ
バンド幅の大幅な向上によって、非
常に大きな性能面での優位性を示す
ことになる。
最新のOpteronプロセッサ2台よりも
シングルプロセッサで高い性能を示
す。(Opteronの4スレッドは、2ソケッ
トを利用した結果)
7000
6000
MFLOPS値
5000
4000
3000
2000
1000
0
1
AMD Opteronプロセッサ 2384(Shanghai, 2.7GHz)x 2P
4
スレッド数
8
AMD Opteronプロセッサ 2380(Shanghai, 2.5GHz)x 2P
Intel Core i7 プロセッサ 920(Nehalem, 2.66GHz)x 1P
Opteron のデータは、これらのシステムを所有する販売会社が実施し、ホームページに公開されているデータを参照しました。
***) Himeno Benchmark (http://w3cic.riken.go.jp/HPC/HimenoBMT/index.html)
スケーラブルシステムズ株式会社
マルチスレッドアプリケーション
VOXELCON/Voxel Analysis Solver**
1:04:48
Core2 Quad Q6700
Core i7
0:57:36
Intel® Core™ i7 920 (シングルソケット)
2.66GHz、8MB L3キャッシュ、3 チャネル
DDR3 1066 MHz
12GB メモリ構成
Red Hat Enterprise Linux 4.7(for x64)
0:50:24
経過時間
0:43:12
0:36:00
Intel® Core2 Quad Q6700 2.66GHz
2.66GHz、2x4MB L3キャッシュ
1066 MHz FSB
8GB メモリ構成
Red Hat Enterprise Linux 5(for x64)
0:28:48
0:21:36
0:14:24
0:07:12
0:00:00
1
2
4
スレッド数
**株式会社くいんと
http://www.quint.co.jp
スケーラブルシステムズ株式会社
Technology Partners for HPC
高い性能(High Performance )
スケーラブルなアプリケー
ション性能
プロセッサの性能を最大限
に引き出すことが可能
高いIOとネットワーク性能
‘使い易さ’
充実した運用管理機能
開発環境
豊富なアプリケーション
オープンなシステム環境
高い生産性(High Productivity)
スケーラブルシステムズ株式会社