Intel® Core™ i7 プロセッサ 920 Preliminary Performance Report スケーラブルシステムズ株式会社 ノード性能評価 • ノード性能の評価 – NAS Parallel Benchmark Class B – OpenMP版での性能評価 – 実行スレッド数を4で固定(デュアルソケットでは各プロセッサに2 スレッド) – 全て、2.66GHzのコアとなるため、コアあたりのピーク性能は同じ • 評価システム – Intel® Core™ 2 Extreme QX6700 (シングルソケット) • 2.66GHz、1066MHz FSB、2x4MB L2キャッシュ – Intel® Xeon 5150(デュアルソケット構成) • 2.66GHz、1333MHz FSB、4MB L2キャッシュ – Intel® Xeon 5430(デュアルソケット構成) • 2.66GHz、1333MHz FSB、2x6MB L2キャッシュ – Intel® Core™ i7 920 (シングルソケット) • 2.66GHz、8MB L3キャッシュ、3 チャネル DDR3 1066 MHz スケーラブルシステムズ株式会社 評価システム構成 Core 0 Core 2 6MB shared L2 Cache Bus I/F Core 0 Core 2 Core 0 6MB shared L2 Cache Bus I/F Core 2 6MB shared L2 Cache Bus I/F MCH FSB Core 0 Core 2 6MB shared L2 Cache Bus I/F MCH FSB Xeon 5430(デュアルソケット) Core 0 Core 2 4MB shared L2 Cache Bus I/F Core 0 Core 2 4MB shared L2 Cache Bus I/F MCH FSB Core 0 Core 2 Core 0 Core 2 Core 0 Core 2 4MB shared L2 Cache Bus I/F 4MB shared L2 Cache Bus I/F 4MB shared L2 Cache Bus I/F MCH FSB MCH FSB MCH FSB Xeon 5150(デュアルソケット) Core 2 Extreme QX6700 Core 2 Duo (シングルソケット) スケーラブルシステムズ株式会社 Intel® Core™ i7 プロセッサ 920 (Nehalemプロセッサ) Memory Controler Core QPI 1 QPI 0 L3 Cache Core MISC IO Core Queue MISC IO Core スケーラブルシステムズ株式会社 マルチスレッド向けシステム強化 • 完全にモジュール化されたシステム設計 • マイクロアーキテクチャ拡張 – マルチスレッドアプリケーションで重要となる同期 プリミティブの高速化 • キャッシュ階層 – L1、L2、L3の3階層のキャッシュ構成 – 256KBの専用L2キャッシュ – CPU中の全てのCPUコアで共有する大容量のL3 キャッシュ • プロセッサ上のメモリコントローラ スケーラブルシステムズ株式会社 性能評価について このレポートでの性能評価は、以前に弊社で実行した ベンチマークの結果とCore i7搭載システムの性能を 比較したものです。コンパイラは、そのテストを実施し た時点での最新版を利用しているため、各システムの 性能評価毎に違ったバージョンでの性能評価となって います。 利用しているコンパイラオプションは、-O3 –openmp だけを指定しています。 また、このベンチマークレポートは、マイクロプロセッ サとチップセットの世代毎の違いの概要を評価するた めだけに行っています。 スケーラブルシステムズ株式会社 性能評価結果(相対性能) 2008.03 実施 65nm プロセッサ 7 Core2Duo/2 Core2Quad/4 45nm プロセッサ Xeon5150/4 Xeon5430/4 Xeon5430/8 相対性能(Core 2 Duoの性能=1) 6 5 4 3 2 1 0 BT CG EP FT IS LU MG SP スケーラブルシステムズ株式会社 性能評価結果(相対性能) • Core 2 Duoなどの65nmプロセッサと比較しても、同 一クロックでも性能向上が45nmプロセッサは示して いる。 – LUベンチマーク:2x6MB キャッシュでの性能向上 – EPベンチマーク:マイクロアーキテクチャ+コンパ イラによる性能向上 • 全般的に、同一のFSB速度にも関わらず、高い性能 向上を示している。 • Intel Xeon 5400番台プロセッサの高い潜在能力を 示す。 スケーラブルシステムズ株式会社 性能評価結果(相対性能) 2008.12 実施 NPB OpenMP – 4スレッドベンチマーク性能比較 相対性能(Core 2 Extreme QX6700 =1) Core 2 Extreme QX6700 Xeon 5150 DP Xeon 5430 DP Core i7 7.0 6.0 5.0 同じクァッドコアプロセッ サに対して、同一クロック で2-3倍の性能 4.0 3.0 2.0 1.0 0.0 BT CG EP FT IS LU MG SP スケーラブルシステムズ株式会社 性能評価結果(相対性能) 2008.12 実施 NPB OpenMP – 2スレッドベンチマーク性能比較 相対性能(Core 2 Extreme QX6700 =1) Core 2 Extreme QX6700 Xeon 5150 DP Xeon 5430 Core i7 4 3.5 3 2.5 2 1.5 1 0.5 0 BT CG EP FT IS LU MG SP スケーラブルシステムズ株式会社 Intel® Core™ i7 プロセッサ 920 OpenMPスケーラビリティ NPB OpenMP – スケーラビリティ評価 スケーラビリティ(シングルスレッドに対する性能比) 1 2 4 4.0 従来のプロセッサを大きく 上回るマルチスレッドで のスケーラビリティ 3.5 3.0 2.5 2.0 1.5 1.0 0.5 0.0 BT CG EP FT IS LU MG SP スケーラブルシステムズ株式会社 Intel® Core™ i7 プロセッサ 920 OpenMPスケーラビリティ NPB OpenMP – スケーラビリティ評価 スケーラビリティ(Core 2 Extreme QX6700 =1) QX6700/1 QX6700/2 QX6700/4 Core i7/1 Core i7/2 Core i7/4 8.0 シングルコアでの性能差 << マルチスレッドでの性能差 7.0 6.0 5.0 4.0 3.0 2.0 1.0 0.0 BT CG EP FT IS LU MG SP スケーラブルシステムズ株式会社 性能評価結果(相対性能) • Core i7-920の圧倒的な性能 – 従来のCore2プロセッサやXeonプロセッサと比較 して、その高いメモリバンド幅による並列処理での 高いスケーラビリティ – シングルプロセッサ内の複数コアでのスレッド処理 での高いスケーラビリティ • 高いメモリバンド幅 • 新しいマイクロアーキテクチャの拡張 • キャッシュシステム スケーラブルシステムズ株式会社 SMP LINPACKベンチマーク SMP LINPACK Efficiency Efficiency (% to Peak) 1スレッド 4スレッド 高いメモリバンド幅と低い メモリレイテンシ 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 1000 2000 5000 10000 15000 18000 Matrix Size スケーラブルシステムズ株式会社 メモリ階層ベンチマーク • メモリ階層の簡単なベンチマークツール • Cachebench – http://icl.cs.utk.edu/projects/llcbench/cachebench.h tml – Cachebenchは、現在は、LLCbench として公開され ている • LLCbench - Low Level Architectural Characterization Benchmark Suite • http://icl.cs.utk.edu/projects/llcbench/index.html • Xeon 5160/Core2Quad/Opteronなどと比較 スケーラブルシステムズ株式会社 メモリ階層ベンチマーク double Read Cache Test 40000 Opteron 2.8GHz Xeon 5160 3.0GHz 35000 Core2Quad 2.6GHz Core i7 2.6GHz 30000 MB/sec 25000 20000 15000 10000 5000 0 100 400 1600 6400 25600 102400 409600 1638400 6553600 26214400 C Size (bytes) スケーラブルシステムズ株式会社 メモリ階層ベンチマーク double write Cache Test 50000 Opteron 2.8GHz Xeon 5160 3.0GHz 45000 Core2Quad 2.6GHz 40000 Core i7 2.6GHz 35000 MB/sec 30000 25000 20000 15000 10000 5000 0 100 400 1600 6400 25600 102400 409600 1638400 6553600 26214400 C Size (bytes) スケーラブルシステムズ株式会社 メモリ階層ベンチマーク Double read/modify/write Cache Test 70000 Opteron 2.8GHz Xeon 5160 3.0GHz 60000 Core2Quad 2.6GHz Core i7 2.6GHz 50000 MB/sec 40000 30000 20000 10000 0 100 400 1600 6400 25600 102400 409600 1638400 6553600 26214400 C Size (bytes) スケーラブルシステムズ株式会社 Core i7 プロセッサ • メモリ階層のベンチマーク結果は、Core i7 プロセッ サの高い性能を裏付ける結果となっています。 • 非常に優れたキャッシュ性能と従来製品を大きく上 回るメモリ性能は、HPC分野のアプリケーション性能 を大きく向上させることが可能となります。 注) このベンチマーク結果は、弊社が独自に行ったベン チマーク結果であり、その妥当性についての責任は 弊社にあります。また、この結果は特定の製品の性 能を保証するものではありません。 スケーラブルシステムズ株式会社 Himeno Benchmark ***) メモリコントローラ内蔵では先行した AMD社のプロセッサと比較しても、 Core i7プロセッサは、マイクロアー キテクチャの優位性と今回のメモリ バンド幅の大幅な向上によって、非 常に大きな性能面での優位性を示す ことになる。 最新のOpteronプロセッサ2台よりも シングルプロセッサで高い性能を示 す。(Opteronの4スレッドは、2ソケッ トを利用した結果) 7000 6000 MFLOPS値 5000 4000 3000 2000 1000 0 1 AMD Opteronプロセッサ 2384(Shanghai, 2.7GHz)x 2P 4 スレッド数 8 AMD Opteronプロセッサ 2380(Shanghai, 2.5GHz)x 2P Intel Core i7 プロセッサ 920(Nehalem, 2.66GHz)x 1P Opteron のデータは、これらのシステムを所有する販売会社が実施し、ホームページに公開されているデータを参照しました。 ***) Himeno Benchmark (http://w3cic.riken.go.jp/HPC/HimenoBMT/index.html) スケーラブルシステムズ株式会社 マルチスレッドアプリケーション VOXELCON/Voxel Analysis Solver** 1:04:48 Core2 Quad Q6700 Core i7 0:57:36 Intel® Core™ i7 920 (シングルソケット) 2.66GHz、8MB L3キャッシュ、3 チャネル DDR3 1066 MHz 12GB メモリ構成 Red Hat Enterprise Linux 4.7(for x64) 0:50:24 経過時間 0:43:12 0:36:00 Intel® Core2 Quad Q6700 2.66GHz 2.66GHz、2x4MB L3キャッシュ 1066 MHz FSB 8GB メモリ構成 Red Hat Enterprise Linux 5(for x64) 0:28:48 0:21:36 0:14:24 0:07:12 0:00:00 1 2 4 スレッド数 **株式会社くいんと http://www.quint.co.jp スケーラブルシステムズ株式会社 Technology Partners for HPC 高い性能(High Performance ) スケーラブルなアプリケー ション性能 プロセッサの性能を最大限 に引き出すことが可能 高いIOとネットワーク性能 ‘使い易さ’ 充実した運用管理機能 開発環境 豊富なアプリケーション オープンなシステム環境 高い生産性(High Productivity) スケーラブルシステムズ株式会社
© Copyright 2024 Paperzz