東北大学サイバーサイエンスセンターの 新スーパーコンピュータシステムの概要と 高性能計算に関する研究開発活動 小林広明 センター長・教授 東北大学サイバーサイエンスセンター [email protected] 2014年11月11日 1 Hiroaki Kobayashi, Tohoku University 東北大学サイバーサイエンスセンターの歴史 1969年に日本で2番目の全国共同利用型大型計算機センターとして設立 • 汎用大型計算機の運用 1985年よりスーパーコンピュータセンターとして活動 • 大規模科学計算システムとしてベクトル型のスーパーコンピュータ を運用 2008年に情報シナジーセンターからサイバーサイエンスセンターへ改組 • / / 2010年より「学際大規模情報基盤共同利用・共同研究拠点」として 文科省より認定を受け,2012年よりHPCIに資源提供を開始し,HPC に関する共同利用・共同研究拠点活動を強化 First Computer in 1969 SX-1 in 1985 SX-2 in 1989 SX-3 in 1994 SX-4 in 1998 SX-7 in 2003 SX-9 in 2008 SENAC-1 in 1958 ACOS 1000 in 1982 NEC SP研究会 2 平成26年11月11日 サイバーサイエンスセンターのHPCに関する取り組み ~:RsH _\-sps3AH e$PWGrbmu > CE*98f ?2ey}sU5DWG|}s0^>f y}{ f 3 ! 7 *2+45"$%.,14'! }x}{ f >M.,S(CEMO&f #3! z`@.,f (2/)&0(6) ZLs1f =4>.,f 7e$PWGBsCE`@f ~/Nq>Mrtu CEs1f F%Bqns>)TrbmuCEs+]f HPCI{|v8f >MV9p'kshig;s0j >M{ws#&f HPCI|}XW^>f e$PWGBsCE`@rbmuHKa sJIf HPCIYdCEM., s6bqs CEs1f _<c/Of _c%DCED CED CEDsZ"qlo[AQ!A/OCE s+] NEC SP研究会 3 平成26年11月11日 Hiroaki Kobayashi, Tohoku University 東北大学大規模科学計算システム (H26.4.1~) 最先端のスーパーコンピュータ設備の整備・運用 スカラ並列型 ベクトル並列型 クラスタシステム スーパーコンピュータ NEC SP研究会 4 平成26年11月11日 Hiroaki Kobayashi, Tohoku University なぜ我々は「ベクトル型」スーパーコンピュータにこだわるのか! ~東北大SX-9システムの特徴~ System 29.4TF 18TB Node 1.6TF 1TB CPU 102.4GF NEC SP研究会 高バンド幅専用ネットワーク (128GB/s per direction) 大規模・高性能SMP ノード 世界最高のシングルコア性能+高いメモリバンド幅(2.5BF) 平成26年11月11日 Hiroaki Kobayashi, Tohoku University スパコンに関する誤信と落とし穴:その1 単にピーク性能が高ければ良いってもんじゃない SX-ACE 1B/F (256Gflop/s) 256.0 128.0 6 m ea Str 64.0 性能上限(Gflops/s) /s GB BW 25 B/s m rea St 32.0 B/s G .95 72 Sandy Bridge 0.27B/F (187.5Gflop/s) K computer 0.5B/F(128Gflop/s) SX-9 2.5B/F (102.4Gflop/s) B/s e Str Tesla C1060 1.3B/F (78Gflop/s) G 4.7 6 BW am BW am e Str B/s G 3.3 4 BW Nehalem EX 0.47B/F (72.48Gflop/s) B/s Nehalem EP 0.55B/F (46.93Gflop/s) .8G 34 FX-1 1.0B/F (40.32Gflop/s) SX-8 4B/F (35.2Gflop/s) G .61 8 m 5 ea B/s Str BW G /s m 6 . ea 17 .0GB Str BW 17 B/s G m BW a .0 e 10 Str eam BW Str m a e Str BW 16.0 8.0 4.0 Power7 0.52B/F(245.1Gflop/s) FX-10 0.36B/F (236.5Gflop/s) 2.0 高メモリバンド幅 アプリ 1.0 演算指向アプリ Source: 2012 report of computational science roadmap 0.5 8 NEC SP研究会 4 2 1 0.5 6 0.25 0.125 0.063 0.03 0.01 アプリ B/F (アプリメモリ要求度) 平成26年11月11日 Hiroaki Kobayashi, Tohoku University スパコンに関する過信と落とし穴:その2 単に数を増やせば良いってもんじゃない 超大規模数値計算に基づく核融合炉先進ブランケットデザイン条件における高精度 Parallel Effi c Sustaine d Gflop/ s MHD 熱伝達データベースの構築(山梨大学 山本教授とのJHPCN共同研究) iency(%) Efficiency 20% Efficiency 10% タ ピュー Kコン Efficiency 2.5% NEC SP研究会 7 9 SX- ュータ Kコンピ ,%)' *' '!'#, ,*+"& $'(* SX- 9 Efficiency 5% ,%)' '*' '%(,+) Y. Yamamoto, Progress Report of JHPCN12 - NA14 平成26年11月11日 Hiroaki Kobayashi, Tohoku University 東北大学におけるスパコンサービス状況と 主な利活用分野 Upper Limit of 24/7 service 産業利用 アンテナ・電磁解析 浮動小数点演算量(×1015) シミュレーションに活用された 航空機設計 学術利用(学内) 学術利用(学外) 材料・物性 気象・気候 地震 ターボ機械 磁気デバイス 燃焼 NEC SP研究会 年度 8 8 平成26年11月11日 大学の知・設備の民間活用支援事例 MRJ MHI Eco-wave TDK 国際競争力のある製品開発へ貢献 毎年10%程度を 民間利用支援へ NEC SP研究会 9 平成26年11月11日 Hiroaki Kobayashi, Tohoku University 東北大学サイバーサイエンスセンターの 今後のスーパーコンピュータ整備・運用・研究開発計画 ~次の10年間の活動計画~ 基本戦略: Supercomputers for the rest of usの研究開発・整備・運用を目指して... 第2階層に位置するNISとして, 特にflop/s指向のフラグシップマシンを補完すべく,flop/sとバランスしたメモリ性能を有するマシンの研究・開発に取 組み,導入時にリーディングマシンの1/10程度のシステムでも高い生産性(Short time to Solution)を提供できるシステムの整備・運用を目指す システム運用と開発を両輪に,ユーザ支援・共同研究で得た知見を,次のシステムの設計・開発に生かす 教員・技術系職員・ベンダー技術者が一体となった現ユーザ支援体制のさらなる強化 社会貢献として産業利用支援の強化 学部・研究科(リーディング大学院等)と連携したHPC教育プログラムへの参画 全国共同利用型の学内スパコン連携体制の構築, およびHPCI基盤を活用した学外スパコン機関との連携のさらなる推進 sxp|}q~w(1,500m2)5 4}+ 4*q~w}yno{q~w} 30.)v~u;k/ H241 rstz7" RT@IKM=HBHSN?< CGBSJ?<GFBSJA_>< OT<FBGQWD=ECSN>< R`\^UXW<Rb_`W[_< =FPJ>< EL<SYZWV<LY_]ZUb rstz54} }68-f '$ckHPCIrstzk< el6&(dk NEC SP研究会 FSkm "gi R&Dk,-< &(9:k5. 10 rstz7" CJAN j< DBak/< m#h %2m r "gi stz5 4 SX-9(!rstz)7" 平成26年11月11日 Hiroaki Kobayashi, Tohoku University 新スパコン棟の完成予定図 The design of the building is underway, and may be subject to change. NEC SP研究会 11 平成26年11月11日 Hiroaki Kobayashi, Tohoku University 東北大学新スーパーコンピュータシステムの構成 NEC SP研究会 IXS IXS Cluster 0 Cluster 4 13 平成26年11月11日 Hiroaki Kobayashi, Tohoku University SX-ACEプロセッサの特徴 4つの高性能ベクトルコア&オンチップメモリ機構の強化 272Gflop/s of VPU + 4Gflop/s of SPU per socket • 4-core configuration, 68Gflop/s + 1Gflop/s per core SX-ACE Processor Architecture 256 GB/s memory bandwidth • Core 0 1B/F in 4-core Multiply-Add operations VPU SPU 256GB/s 1MB private ADB per core (4MB per socket) Core 2 Core 3 4GB/s ADB 1MB 4GB/s MSHR 4x compared with SX-9 256GB/s 4-way set-associative Crossbar MSHR with 512 entries (address+data) MC MC MC MC MC MC MC MC MC MC MC MC MC 4B/F for Multiply-Add operations MC • MC 256GB/s to/from Vec. Reg. 256GB/s MC • • • • Core 1 RCU ~ 4B/F in 1-core Multiply-Add operations 256GB/s 短ベクトル処理および間接メモリ参照処理の強化 Source: NEC Out of Order execution for vector load/store operations Advanced data forwarding in vector pipes chaining Shorter memory HPC Activities of Cyberscience Center latency NEC SP研究会 than SX-9 14 March 26, 2014 平成26年11月11日 Hiroaki Kobayashi, Tohoku University センタ利用者の実コードを用いたSX-ACEの評価 評価のポイント ソケット性能の向上&マルチベクトルコア化の効果は? • Is there any negative effect of the reduction in B/F from 2.5(SX-9) to 1.0(SX-ACE) on the sustained performance? ADB強化の効果は? • • Exploitation of locality in the inner-most loop Enlarged Capacity (4x compared with SX-9) 間接参照,短ベクトル処理に対する効果は? • • • NEC SP研究会 OoO Vector Load/Store Operations Shorter Memory Latency (1/2 of SX-9) Direct Data Forwarding in Vector Pipe Chaining 15 平成26年11月11日 Hiroaki Kobayashi, Tohoku University 評価対象システム一覧 NEC SP研究会 Remarks: Listed performances are obtained based on total Multiply-Add performances of individual systems 16 平成26年11月11日 Hiroaki Kobayashi, Tohoku University 評価に用いたアプリケーション一覧 NEC SP研究会 17 † for single-node evaluation ‡ for multi-node evaluation 平成26年11月11日 Hiroaki Kobayashi, Tohoku University Sustained Single CPU Performance SX-9 SX-ACE LX 460 SR16K M1 47% 45.9% 45 41.1% 39.4% 35.6% 32.2% 30.1% 29.4% 30 27.4% 17.5% 17.5% 10.4% 6.7% 9% 3.5% 7.7% 5.5% 7.9% 2.8% 7.0% 3% 12.3% 15 Efficiency [%] Sustained Performance [Gflop/s] 60 9.8% 5.9% 3.4% 2.5% 3% 3.5% 0 NEC SP研究会 18 平成26年11月11日 Hiroaki Kobayashi, Tohoku University Stream Memory Bandwidth • STREAM (TRIAD) Stream memory bandwidth (GB/sec.) 300 SX-ACE LX406 SR16K M1 FX10 225 150 75 0 0 2 4 6 8 10 12 14 16 Number of threads NEC SP研究会 19 平成26年11月11日 Hiroaki Kobayashi, Tohoku University Sustained Performance of SX-ACE Processor 1core (4B/F) 60 57.4% 49.7% 53.4% NEC SP研究会 4core (1B/F) 52.3% 47.9% 47.2% 45 41.5% 45.9% 37.9% 41.1% 30.6% 29.5% 32.2% 27.4% 30 22.2% 15.3% 15 17.5% 12.8% 10.4% Efficiency [%] Sustained Performance [Gflop/s] 57.9% 2core (2B/F) 12.3% 0 20 平成26年11月11日 Hiroaki Kobayashi, Tohoku University Effects of ADB on Sustained Performance 2 cores 4 cores Speedup Ratio 1 Core NEC SP研究会 21 平成26年11月11日 Hiroaki Kobayashi, Tohoku University l Impact of ADB/MSHR on BCM Performance (Stencil & Indirect Memory Accesses) (j, k, l+1) k (j, k+1, l) (j-1, k, l) (j+1, k, l) j (j, k, l) 2cores (2B/F) 4cores (1B/F) Sustained Performance [Gflop/s] 22.2% 22.5 18.4% 15 12% 10.5% (j, k, l-1) 30 29.5% 17% (j, k-1, l) 12.3% Efficiency [%] 1core (4B/F) 7.5 6.2% 5.2% 0 NEC SP研究会 22 平成26年11月11日 Hiroaki Kobayashi, Tohoku University Sustained Performance [Gflop/s] Performance of Indirect Memory Accesses in TURBINE DO 200 K=1,KF; DO 200 J=1,JF; DO 200 L=lstart,lend; ADB ON DO 200 I=IS(L),IT(L) ADB OFF DQL = RH(AMIN0(I-2,IS(L)),J,K) - RH(AMIN0(I-3,IS(L)),J,K) DQM = RH(I-1,J,K) - RH(AMIN0(I-2,IS(L)),J,K) DQN = RH(I,J,K) - RH(I-1,J,K) DQP = RH(AMIN0(I+1,IT(L)),J,K) - RH(I,J,K) DQR = RH(AMIN0(I+2,IT(L)),J,K) - RH(AMIN0(I+1,IT(L)),J,K) ・・・・・・・・・・・・・ SX-9 DQLM=SQL*DMAX1(0.0D0,DMIN1(AQL,COEFQ*SQL*DQM, COEFQ*SQL*DQN)) DQMM=SQM*DMAX1(0.0D0,DMIN1(AQM,COEFQ*SQM*DQL, COEFQ*SQM*DQN)) DQNM=SQN*DMAX1(0.0D0,DMIN1(AQN,COEFQ*SQN*DQM, COEFQ*SQN*DQL)) DQNN=SQN*DMAX1(0.0D0,DMIN1(AQN,COEFQ*SQN*DQM, COEFQ*SQN*DQP)) SX-ACE SX-ACE ・・・・・・・・・・・・・ SX-ACE 1core 2cores 4cores DDQM=DQNM-2.0D0*DQMM+DQLM DDQN=DQPN-2.0D0*DQNN+DQMN ・・・・・・・・・・・・・ QLL(I,J,K,M)=DQL0+COEFB*DPQM0+COEFC*DMQN0 QRR(I,J,K,M)=DQR0-COEFB*DMQP0-COEFC*DPQN0 200 CONTINUE NEC SP研究会 23 平成26年11月11日 Hiroaki Kobayashi, Tohoku University Performance of Indirect Memory Accesses in TURBINE on Modern HPC Processors 20 15 11.1% 10.6% 9.6% 10 5 Efficiency [%] Sustained Performance [Gflop/s] 18% 0 NEC SP研究会 24 平成26年11月11日 Hiroaki Kobayashi, Tohoku University Sustained Performance [Gflop/s] Performance of Short-Vector Processing in TURBINE ADB OFF DO 10 M=MMIN,MMAX; ADB ON DO 10 K=KSTA,KEND; DO 10 I=ISTA,IEND UC11=U(I-1,J,K,1)*XIX(I-1,J,K,1) & +U(I-1,J,K,2)*XIX(I-1,J,K,4) & +U(I-1,J,K,3)*XIX(I-1,J,K,7) UC22=U(I,J,K,1)*XIX(I,J,K,1) & +U(I,J,K,2)*XIX(I,J,K,4) & +U(I,J,K,3)*XIX(I,J,K,7) ・・・・・・・・・・・・ SX-9 SX-ACE SX-ACE SX-ACE 1core 2cores 4cores AJXIX1=(AJR(I-1,J,k)*XIX(I-1,J,k,1) & +AJR(I,J,k)*XIX(I,J,k,KL))*0.5D0 AJXIX2=(AJR(II,JJ,kk)*XIX(II,JJ,kk,KL+3) & +AJR(I,J,k)*XIX(I,J,k,KL+3))*0.5D0 ・・・・・・・・・・・・ 10 continue NEC SP研究会 25 平成26年11月11日 Hiroaki Kobayashi, Tohoku University Performance of Short-Vector Processing in TURBINE on Modern HPC Processors NEC SP研究会 8.3% 7.5 5.6% 5 2.7% 1.8%2.5 Efficiency [%] Sustained Performance [Gflop/s] 10 0 26 平成26年11月11日 スパコンを活用した学際的R&Dの取り組み: リアルタイム津波浸水・被害予測・災害情報 配信による自治体の減災力強化の実証事業 27 Hiroaki Kobayashi, Tohoku University • 本事業の目的 東日本大震災における津波被害の教訓を踏まえ,世界最先端のシ ミュレーション・センシング・ICTを融合し,迅速かつきめ細やか な被害情報の推計・把握と配信によるG空間防災モデルを構築 • 沿岸部10mメッシュの分解能での「世界初」のリアルタイム津波浸 水予測とG空間情報の活用による建物被害予測を,地震発生から20 分以内に完了させ,実証自治体での災害対応の基盤情報に組み込 み,準天頂衛星からのメッセージ送信や災害に強いワイヤレスネッ トワークを活用し,ユーザに対して確実に情報を配信 NEC SP研究会 28 東北大 越村教授提供 平成26年11月11日 Hiroaki Kobayashi, Tohoku University リアルタイム津波浸水・被害予測・災害情報配信 による自治体の減災力強化の実証事業体制図 4ZL' *89"K?A! > [=< [= 5,^7 * 5@V?A! ebo|ebczghzi| VG, dr D T%; *+ vawibr21{M3 F5 ybtxgsjfu kgmqjn Y O&)l|i 4Z Y{[= J{*{&BN! L'hze]_`M#$ &BSI{[=[ *X?{UO 021P3 [=<{[=Q >Q * W/R?A.- *+Q H:E %C(apv \6 YQ 事業代表者: 東北大学災害科学国際研究所 越村俊一教授 NEC SP研究会 29 平成26年11月11日 Hiroaki Kobayashi, Tohoku University リアルタイム津波浸水シミュレーションの実現に向けて 例えば,静岡市の場合: 領域4 領域3 領域2 領域1 地震・ 津波発生 シミュレーション領域 領域5 G空間情報を活用した次世代防災・被災地支援システム研究会 NEC SP研究会 第3回シンポジウム 太平洋沖 1404Km×845km 741万格子(810mから10m) ΔT = 0.05 432,000ステップ(6時間) 浮動小数点演算数 2.5× 1015回 30 平成26年11月11日 Hiroaki Kobayashi, Tohoku University リアルタム津波浸水・被害予測システム処理フロー (!&# 地震発生後20分以内に ,3$&+. lC`W @iOBY@ /'!.B{D z|V[< • Qog }P~ • ZG^hR45#.%#z|>?0%5{D 地震断層モデルに基づく津 波発生予測 SX-ACEによる10mメッ シュの津波浸水予測および 被害推計 +- %. @iOBY @ /'!.B{D Qog }`W @ m0%5)3/#{D /$1!z|VXf<UFKe 7,$& XfAI%# a_@u%# nq\%# J%# z|>?y =S8N ( 7 "7# z|:: &,$& Xf]c;I%# z|tBC z|V z|Vw 7,$& AI%# 9d%# j\%# &,$& ;I%# VrF9d j\pkT NEC SP研究会 31 )'*",$ VrF9dj\pkTsE{X pkHT )7*1#4 5#.z|V-16 27]cVw<%# 9dj\%#Lp kHTpkB{X v j\b x j\M 平成26年11月11日 Hiroaki Kobayashi, Tohoku University 津波浸水予測プログラム プログラムフロー 地震による海面水位の変動を入力として,津波が到達す る時刻,津波の高さ等を計算 • • 時刻更新 計算モデル:非線形長波理論 計算スキーム:Staggered leap-frog法 プログラムの特徴 • • Xeonサーバ用に開発されたコードがベース • メモリバンド幅制約:B/F = 1.82 (単精度) 質量保存の式とナビエ・ストークスの式において, 計算負荷とメモリ負荷が非常に高い チューニングのポイント • • • 初期評価結果 (single core) ADBの効果的な活用 • 差分式での局所性活用 高ベクトル化率:99.6%,平均ベクトル長:235 ループ内条件式の削減,インライン展開等 NEC SP研究会 LX 406Re-2 32 SX-9 SX-ACE 平成26年11月11日 Hiroaki Kobayashi, Tohoku University 津波浸水予測プログラムの実行結果 LX 406Re-2 SX-9 SX-ACE 160 実行時間(分) 140 120 100 80 60 40 20 0 10分ライン 32 64 128 256 512 プロセス数 NEC SP研究会 33 平成26年11月11日 Hiroaki Kobayashi, Tohoku University 今後の予定 • 12月末 プロトタイプシステム完成 • 1月~3月 対象自治体を交えての実証実験の実施 • 3月16~18日 国連防災会議で成果発表 • 3月末 運用システムとして整備 • 4月以降 サービス開始,対象エリア・対象自治体の拡大 NEC SP研究会 34 平成26年11月11日 高メモリバンド幅アプリケーションのための 次世代スーパーコンピュータR&D 35 Hiroaki Kobayashi, Tohoku University 高メモリバンド幅アプリケーションのための次世代スーパーコンピュータに関する取り組み ~文科省「将来のHPCIシステムのあり方に関する調査研究」~ HPCI調査研究の背景と東北大チームがめざすところ y y NGV 1B/F (256Gflop/s) 256.0 128.0 m ea Str 64.0 BW 6 25 GB /s SX-9 2.5B/F (102.4Gflop/s) m ea Str 32.0 72 .9 5G B/s B 1G /s BW 64 .7G BW B/s 43 .3 Power7 0.52B/F(245.1Gflop/s) FX-10 0.36B/F (236.5Gflop/s) Sandy Bridge 0.27B/F (187.5Gflop/s) K computer 0.5B/F(128Gflop/s) Tesla C1060 1.3B/F (78Gflop/s) /s GB 3 m ea BW Str m a e Str '201$&+ '201$&+ '201$&+ *4,33$-,5,-278 )2..3/$-,5,-278 (,60/$-,5,-278 y GB 4.8 /s Nehalem EX 0.47B/F (72.48Gflop/s) Nehalem EP 0.55B/F (46.93Gflop/s) FX-1 1.0B/F (40.32Gflop/s) SX-8 4B/F (35.2Gflop/s) BW .6 m 58 ea /s Str BW GB s m 7.6 GB/ ea 1 r t 0 . S /s B W 17 GB m BW .0 ea 10 Str eam BW Str m ea r t S 16.0 8.0 4.0 多くのアプリがメモリ性能律速の状況を打破! 2.0 For Memory intensive applications 1.0 For Computationintensive applications 4 2 1 0.5 0.25 0.125 0.063 0.03 Application B/F (Memory Access Intensity) 0.01 NEC SP研究会 36 WX Za= CJ@S U BGGi IN [Y_ U HPCI L9TDHbcd^g\U#OR @JLPQiK!QFH:R UBi ]h\f`eML"R@JUI>RE?< A;iKV_dI#:UCR 0.5 8 Source: 2012 report of computational science roadmap Attainable Performance (Gflops/s) p % 平成26年11月11日 Hiroaki Kobayashi , Tohoku Univ. 東北大チームの調査研究の背景 ~ハイエンドHPCシステムの「脳梗塞」状態からの脱却~ データ転送隘路(メモリ制約)で膨大な数の演算器に十分データが届いていないた め,演算器が無駄になっている • 例外としてLINPACK:90%以上の実行効率を達成できるので,CPU単体とシステ ム規模のピーク性能が意味を持つが... 数%の効率を前提にシステム規模で必要性能をリカバーするまえに,チップ内に眠っ ている演算器を有効活用することを考えるべき.そのためには メモリサブシステム設計(先進デバイスとアーキテクチャ技術の融合)と利用技術(ソ フトウェアによるデータ管理)のコデザインによるシステム再設計をする時期 SIMDをワイド化してベクトルユニットを強化する方向性はIBM/AMD/INTELなども 目指すところ.我々のFSはそれをすでに先取りしており,重要なポイントはそれ を生かすメモリサブシステムをいかに他に先駆けて実現するかである メモリから撤退したといわれているインテルが次期プロセッサ向けメモリサブシ ステム設計/開発に取り組んでいる IBMはメモリインタフェースを強化し大容量・高バンド幅のpower8プロセッサを 開発 >OG/P>?EB8DK?AF@L7O9@:>J(0,654 %#$&%#%# -(135+'4N!,*+P"HIKC MANHIK;D<[email protected]@:>J.2-)+'4 NEC SP研究会 平成26年11月11日 Hiroaki Kobayashi , Tohoku Univ. 東北大HPCI FSチームの調査研究の目的 幅広い応用分野で高い実効性能を実現するHPCIシステムの実現を目指し, ピーク演 算性能とバランスのとれた高メモリバンド幅を有するHPCIシステムの検討・開発 ロードマップの策定 特に,高メモリバンド幅を必要とする,地震・津波,集中豪雨など都市災害の被害予測と避難予測に不可欠 なアプリケーションがHPCIシステムに必要とする性能・機能を明らかにし,その実現のためのアーキテク チャおよびデバイス技術の検討を通じて,2018年頃にシステムを実現するための開発ロードマップの策定を 行う. ターゲットアプリケーションの性能要件(例えば,1B/F以上のメモリバンド幅・演算スループット比)を低 消費電力で実現するためのアーキテクチャの調査研究 大容量・低消費電力・階層型メモリサブシステムアーキテクチャ検討 アーキテクチャ,およびデバイスレベルでの低消費電力技術や耐故障技術と,OS,アプリケーションが協調 してその効果の最大化を可能とするシステムソフトウェア技術の検討 オフラインシミュレーションの高速化に加え,様々な時間制約の中でリアルタイムシミュレーションを実現 する上で必要な将来のHPCIシステムが備えるべき機能・性能の明確化 ターゲットアプリケーションによるシステムの評価と2018年頃の実現を目指す開発ロードマップの策定 高メモリバンド幅HPCシステムを活用して,2020年頃に解決が求められる社会的・科 学的課題の明確化とその解決のためのアプリケーションの検討・開発ロードマップ の策定 自然災害,とりわけ地震津波による災害軽減を目指すため,沿岸データを使用したリアルタイム津波予測・ 地震シナリオを含む津波ハザード予測・地震津波に伴う複合被害予測・集中豪雨等を含めた都市災害と避難 の予測といった課題に取り組む. 我が国の産業界の国際競争力の維持・強化のために必要な先端ものづくりを実現するための課題に取り組む 自然災害に対する防災・減災,および先進ものづくり分野での社会的・科学的課題の明確化 ターゲットアプリケーションの実行に適したHPCI システムの機能・性能要件の明確化 システム評価用ベンチマーク開発 NEC SP研究会 38 平成26年11月11日 Hiroaki Kobayashi , Tohoku Univ. 研究開発体制 アプリ・システム・デバイス三位一体でスパコンをバランス良く再設計! & ldwldenop * -NE'! ;8<; 2;R8< #%;D 8<op S.K8< S.K8<-+ 108<M6-+ -NEYL5AC $S.(: -NEY,$g & O !" B=8<M6-+ Q>;DP &zdhsrh(: .J 4 8< |}|f :7 ;7I Tb!9_Z\`G /cy`)H^M6 vzry`? pkrucy_ zrqZ]VXUWmns{ `)H^\`M6 vzry`? cgshq~b 3[aF@twdn D`)H^\`M6 vzry`? cyjm)H lxiy NEC SP研究会 mns{)H lxiy 39 twdnD)H lxiy 平成26年11月11日 Hiroaki Kobayashi, Tohoku University 総合防災シミュレーションの実現 DILNQDMO !**&" !-0132%(" !,-)(/" $ !-.+'#'&(*&-" ,-)(/ <>?HNQF =DILNQDMOB54=KCGEJ B9A MMA, 8 <9A=DILNQDMOB6 **& ;:=;=DILNQDMOB6 -.+'#'&(*&- RSGDX -0132%( MMA2 STOC-CADMAS (STOC-ML,NS,CADMAS) NEC SP研究会 (Micro-scale) (Macro-scale) MMA1 RSDGX Seism3D ( 7@P=DILNQDMOB6 40 平成26年11月11日 Hiroaki Kobayashi , Tohoku Univ. HPCI FSで得られたシステム概念設計結果 ikpztscepfn} @> I2& Ncw;(7XSQikpz@> Node0 4TFlop/s CPU01 TFlop/s core core core core J^aR>4C,b!JX*1TP`i kpz • ikpzvf7N100PF • ikpz{|7N 100 ~ 200 PB/s • ikpz{|HNM3.2PB ~ 6.4PB Node xxxx CPU0 1 2 3 24B/F 1 2 3 core core core core VLSB VLSB 12B/F Shared memory Shared memory Storage $?U5#ikpz. H"{|Y0 tsR_Y{|H128256GB ts-474TFlop/s {|us48TB/s UMAcepfn} LFD9b1OR+BK ts E 4CPU(16gc)X]`SMPts% CPUZ8/YLOyngcxfrw loh 2.5'3'39WV<qudk 9b1OR1{||j~:X]` L{|usY0 )1|j~ 1|j~Y1 \$? ikpzqudkA@> -4[Yqm67G=@> NEC SP研究会 41 平成26年11月11日 Hiroaki Kobayashi, Tohoku University FS検討システムとXeonベース推定システムの比較 高次元トーラス 40GB/s x2 20GB/s 10GB/s x2 Socket: 1TF 2~4 B/F Socket: 1.6TF core : 90GF 1 B/F 1~2TB/s 0.05TB/s 0.1TB/s 128GB x 2 (NUMA) 検討中のFS機 SMP(UMA)アーキテクチャ 4TF, ~8TB/s(~2B/F), ~512GB, 1~1.6KW NEC SP研究会 Xeon推定@2018 NUMAアーキテクチャ 3.3TF, 0.2TB/s(0.1B/F), 128GBx2, 0.4KW 42 平成26年11月11日 Hiroaki Kobayashi, Tohoku University 高メモリバンド幅システムの優位性(1/2) ~INTEL Xeonベースのシステムとの性能比較~ 全体実行時間(=通信時間+演算処理時間)を評価 Xeon(推定)で正規化 Xeon推定 正規化性能/Watt 正規化性能 FS機 ◆ 要求B/Fが高いSeism3D,RSGDXの消費電力 あたりの性能は,FS機の方が4~8倍高い ◆ 要求B/Fが低い数値タービンににおいても FS機はXeonと同等の性能/消費電力 NEC SP研究会 43 平成26年11月11日 Hiroaki Kobayashi, Tohoku University 高メモリバンド幅システムの優位性 ~INTEL Xeonベースのシステム(2018年頃)との性能比較~ 実行時間(hour) Seism3D Xe プ on: ロ セ ス 数 → 増 加 Su に pe よ rs ca りキ ャ la ッ bi シ lit ュ yが ヒ 得 ッ ら ト れ 率 る up 要求時間: 8時間以内 FS機 Xeon推定 Xeon: キャッシュ ヒット率変 わらず プロセス数 (並列処理規模) プロセス数を増やす事でキャッシュヒット率が向上し,実行時間が短縮されるが,最終的にはキャッシュヒットしないリクエストのメ モリアクセス時間が性能を決める HWの持つメモリ帯域が大きいシステムが有効 Xeon推定機を用いてFS機(100Pflop/s)と同等の実行時間を実現するためには,FS機の64倍のプロセス数, すなわち640万プロセスを処理できる640万ノードのシステム,ピーク性能3.2EFlop/sの性能が必要 :そのときの消費電力は291MW(14nmを想定) → 非現実的 NEC SP研究会 44 平成26年11月11日 Hiroaki Kobayashi, Tohoku University 東北大学サイバーサイエンスセンターの目指す役割 現在のHPCIシステムの安定運用・高度化への貢献 NEC SP研究会 将来のHPCIシステムの研究開発への貢献 45 平成26年11月11日 Hiroaki Kobayashi, Tohoku University HPCに関する研究・人材育成機能の強化 高性能計算技術開発(NEC)共同研究部門の新設 設置期間: H26.7.1~H30.6.30 % ( # , 8 C 9 D . , 8 C 9 / D . & ' ! 6 7 ; @ + " ) = : 0 - < B D / 3 - - 7 D > D 5 C ? A D ; 2 C 4 - サイバーサイエンスセンター 組織図 46 * - % - 1 $ ' ! % 0 - / ・小林 広明 (教授) ・滝沢 寛之 (情報科学研究科・准教授〕 ・江川 隆輔 (准教授〕 ・撫佐 昭裕 (客員教授, NEC〕 ・横川 三津夫(客員教授, 神戸大学〕 ・百瀬 真太郎 (客員准教授, NEC〕 NEC SP研究会 % 平成26年11月11日 Hiroaki Kobayashi, Tohoku University 7rxh<t_Ò Ócf §l£H5©¨L ynH / Ó • P ¶Ñ¿Ñ²Ï ÁÈѹvk<t ¨cf_ ³¾Ñ ³¯Ï¶ ·Ï¹Ñ ZG][# E] ¨cf_ ´¶ »ÇE ') ] 1 – – • I q9 : !b3Ô¥ ËѼ¬ ϱŴÏcf_¡{Y &$xhe&ocf aÔ´ÆÈÍÑ´ÉÏe&1 {Y – – xhe&cfo1´ ÆÈÍÑ´ÉÏ<t¨cf_ DqÐcfB • xhe&oÐM<tocf 8" e& cf e NEC SP研究会 & c f ; % & & $ c f O Q M 47 – • g ªU]˫̹ÇTS´ÆÈÍÑ´É ÏÒW,e& cf;cfÓ WÐVW|¨¶Ñ¿Ñ²ÏÁÈѹ´¶» Çcf_ÒÐJ%lm`B)Ô R~cfONcfÔÓ D=4¨8"e&cfe !0Ðz2Ôxhe&Ðxh Oe&j~&`Ô *}`Iq9 – & $ . ´¶»Ç1¨cf_*F Ķ½ ©ªu(¨´¶»Çn ¦©¨ËѼ¬Ï±Å´Ïcf_¡{Y ¥ $O¦+D >pcfÐDq6 /18"e&cfeÂε®°½Àº±¼Ñ ¹wKU]¸ËÈÑ´ÉÏÊÃNi¡^ ª~\&Bcf?XNi – – PH¶¿²Ï¨cf ©¢Ô-¨sgO_CAª¤ d¡¶¿²Ï@Ð]CAª*F 平成26年11月11日 Hiroaki Kobayashi, Tohoku University さいごに・・ $!(.$!"-%&-'.),#+* ユーザ支援体制 :EC?B1")\% 'A>8QXGV SB3#Z2,\ $0B ,+ "* 5B\<EA> 82@/(TNWB &\.A9=,7 777777B%'3# !IJMS"B5Z 2",B%'Z3# !IJMSB 2\6 "A 4;D,B RYL[,* 77771"?=$-77 7777FA J[O[HYPU[KI JMSB%'3# 高速化支援実績 NEC SP研究会 48 お問い合わせ先: [email protected] 平成26年11月11日 ユーザー支援・講習会・利用相談 遠隔地への配信型講習会の実施 講習会(平成26年度18回実施予定) 大阪大学、秋田大学 UNIX入門 (5/26&11月~) 他大学での出張講習会の実施 大規模科学計算システムの紹介と利用法(5/27&11月~) 大規模科学計算システムにおける高速化技法の基礎(5/ 28&11月~) 岩手大学、弘前大学、山形大学、秋田大学、会津大学 並列プログラミングの概要とOpen MP プログラミング入門 (5/29&11月~) MPIプログラミング入門(5/30&11月~) 可視化システムの利用法(6/3&11月~) 岩手大学・山形大学での出張講習 (2007年から) MATLAB入門 (6/6) ネットワークとセキュリティ入門 (8/6) 大阪大学との講習会の遠隔 相互配信(2009年度) プログラム相談・利用相談 Gaussian入門 (8/29) Mathematica入門 ((9/3) 利用相談窓口・メールでの相談 MARC入門 (9/4) プログラミング相談,ライブラリ,アプリケーショ ン,統計解析,ネットワーク等の相談 計算サーバにおける高速化技法の基礎(11月~) どなたでも受講できます.11月以降の開催情報他はこちらを参照ください: NEC SP研究会 http://www.ss.cc.tohoku.ac.jp 49 平成26年11月11日 情報処理学会分散コンピュータ博物館 先端コンピュータ/ネットワーク機器の保存・展示の取り組み(アウトリーチ活動) サイバーサイエンスセンター展示室の充実 ~情報処理学会分散コン ンピュー ータ博物館の の認定~ D@NXD@AVFGVHX# 1998.;GVHX/6)"2W240 3CVPSXH[MIKUXB>7# SENAC-1)"*& !CVPSXH(,EFJR$ FXOXCVPSXH(,EFJR$ MIKUXB *'&Y,QLS?TZ /+624% \*/%1=4-< ]59 :48% NEC SP研究会 50 平成26年11月11日 Hiroaki Kobayashi, Tohoku University 謝辞 • • • • • • • • • • • • • • • • • • • • Tohoku University Hiroyuki Takizawa Kentaro Sano Ryusuke Egawa Kazuhiko Komatsu Mitsumasa Koyanagi Shunichi Koshimura Fumihiko Iwamura Takafumi Fukushima Kangwook Lee Hiroaki Muraoka Takahiro Hanyu Hiroshi Matsuoka JAMSTEC Yoshiyuki Kaneda Kunihiko Watanabe Keiko Takahashi Takane Hori Mamoru Hyodo Kenichi Itakura Hitoshi Uehara PARI Taro Arikawa NEC SP研究会 • • • • • • • • • • • • • • • Riken AICS Mitsuo Yokokawa Atsuya Uno University of Tokyo Takashi Furumura Muneo Hori JAXA Kazuhiro Nakahashi JAIST Yukinori Sato Osaka University Go Hasegawa Shinichi Arakawa JMA Hideo Tada Chiashi Muroi Keiichi Katayama Eiji Toyoda Junichi Ishida Takafumi Kanehama Meisei University Kanji Otsuka 51 • • • • • • • • • • • • • • • • • • • NEC Yukiko Hashimoto Shigeyuki Aino Hiroshi Takahara Akihiro Musa Osamu Watanabe Takashi Hagiwara Yoko Isobe Shintaro Momose Akihiro Yamashita Yasuhisa Masaoka Yasuharu Hayashi Shinji Tanaka Takashi Abe Hiroshi Matsuoka Takashi Soga Other NEC Engineers Kanazawa Institute of Tech. Daisuke Sasaki Tohoku Micro-Tech Makoto Motoyoshi Yamagata Univ. Jubee Tada 平成26年11月11日
© Copyright 2024 Paperzz