Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
NECスーパーコンピュータ
~ 現在と今後
NECスーパーコンピュータ
~ 現在と今後
NEC C&Cシステム SP研究会 第133回
2014年11月11日
NEC ITプラットフォーム事業部 第三サーバ統括部
愛野 茂幸
NECのHPC製品
nアプリケーション特性に応じて、最適なプラットフォームをお客様にご提供
計算密度
メモリーアクセス密度
多体問題、天体
化学系
物性、ナノ物理
気象・気候流 体
アクセラレータ系が適している領域
粒子系
電磁場
HPCクラスタソリューション
ベクトルが適している領域
ベクトル型スーパーコンピュータ
Page 2 © NEC Corporation 2014
SXシリーズのロードマップと技術の進化
Perf
orm
ance
1990 2000 2010
SX-1/2
SX-3
SX-4
SX-5SX-6
製品発表
(2013年11月)
SX-8/8R
SX-9
バイポーラ水冷
マルチノードCMOS空冷
1チップベクトルプロセッサ
3Dノードモジュール
マルチコアAll in One ChipECOスパコン
SX-7100GF
プロセッサ
ES
ES2
分散並列化(MPI-SX)
100+ノードクラスタ対応
1000+ノードクラスタ対応
自動ベクトル化コンパイラ
マルチレーンIXS対応MPI
自動共有並列化SUPER-UX
NECは一貫して、ベクトルアーキテクチャに基づくスーパーコンピュータSXにより、高い実効性能をご提供しています
Page 3 © NEC Corporation 2014
SX-ACEの特長
低消費電力スパコン世界トップクラスの省エネスパコン
省スペーススパコンお客様フロアコストの削減
高実効性能スパコン世界トップクラスのCPUコア性能(64GFLOPS)世界トップクラスのメモリバンド幅(64GB/s)
従来機比同演算性能で
110
従来機比同演算性能で
15
SX-DNAの継承
SXのDNA である「実アプリケーションでの高い実効性能」を継承しつつ、低消費電力化、省スペース化を実現
© NEC Corporation 2014Page 4
CPUアーキテクチャ(ビッグコア、高メモリバンド幅)
core core core
RCURCU
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
クロスバ
ADB(Assignable Data Buffer)
SPU VPU
256GB/s
256GB/s
256GB/s
256GB/s
8GB/s x2
8GB/s x2
メモリ (DDR3)
インターコネクト
CPUアーキテクチャ ベクトル型
コアの仕様
性能 64GFlops
ADB容量 1MB
ADBバンド幅 256GB/s
メモリバンド幅 64~256GB/s
Byte/Flop 1.0 ~ 4.0
CPUの仕様
コア数 4
性能 256GFlops
メモリバンド幅 256GB/s
Byte/Flop 1.0
ベクトル処理部
スカラ処理部
リモートアクセス制御部
メモリ制御部
Page 5 © NEC Corporation 2014
n メモリアクセス効率優先のレイアウト
n 仕様lデザインルール: 28nmlクロック周波数: 1GHzl基板サイズ:
23.05 x 24.75mmlトランジスタ数: 20億
n インターフェイスlDDR3 x 16ch.lIXSlPCIe x8 x2ch.
CORE1CORE1
DDR3DDR3
DDR3DDR3
DDR3DDR3
DDR3DDR3
DDR3DDR3
DDR3DDR3
DDR3DDR3
DDR3DDR3
ADBADB
CORE0CORE0
ADBADB
ADBADB ADBADB
CORE2CORE2 CORE3CORE3
CrossbarCrossbar
PCIEPCIE
I/O padsI/O pads
PLLPLL RCURCU IXSIXS
DDR3DDR3
DDR3DDR3
DDR3DDR3
DDR3DDR3
DDR3DDR3
DDR3DDR3
DDR3DDR3
DDR3DDR3 SX-9 CPUのLSIに対して5.5倍の集積度を実現
CPUレイアウト
Page 6 © NEC Corporation 2014
ノードカード
11cm
37cmメモリ制御部
超高帯域メモリ転送
256GB/sバンド幅制御
世界最高のバンド幅 256GB/s
オールインワンプロセッサ
memory
CPUコア
ネットワーク制御部
I/O制御部
世界トップレベルのCPUコア64GF x 4コア1MB ADB/コア
8GB/s(1方向当り), Fat-tree
ストレージ装置、イーサネット等へ接続
n4つのCPUコア、メモリ・I/O・ネットワークの制御部を単一LSIに搭載するオールインワンプロセッサ化。大幅な省電力化を実現nコンパクトな基板設計による省スペース
演算性能: 256GFメモリバンド幅: 256GB/s
省電力化を実現するオールインワンプロセッサ
Page 7 © NEC Corporation 2014
V V
MemoryMemory
HPC CacheHPC Cache
SX-ACEベクトル演算方式による高電力効率
HPC専用キャッシュ
(ソフト制御)
高バンド幅・高B/F
ノード・アーキテクチャノード・アーキテクチャ
気象・気候/流体アプリに適した演算性能とメモリバンド幅バランスを提供気象・気候/流体アプリに適した演算性能とメモリバンド幅バランスを提供
S SCacheCache
MemoryMemory
V V
MemoryMemory
スカラ(x86, Power, etc)
SX
Memory wall + Power wall
Small for HPCNarrow for HPC
© NEC Corporation 2014Page 8
高実効性能を支持するADB高実効性能を支持するADB
実効
性能
[GF]
SX-ACEHPC専用設計キャッシュ(ADB)再利用性の高いデータのみを格納し、キャッシュの高利用効率を実現V V
MemoryMemory
ADB(Cache)ADB(Cache)
HPC専用設計キャッシュ(ADB) + 高メモリバンド幅高実効性能を維持しつつ、メモリウォールを打破
Scalar(x86 etc.)
高メモリバンド幅キャッシュに収まりきらない大規模データにおいても、高速なメモリアクセスを実現
ADBtune
データサイズ
© NEC Corporation 2014Page 9
設置面積 1/5消費電力 1/10
同一性能(131TF)でのシステム諸元比較
省電力設計とコンパクトな実装によって、SX-9比で設置面積を5分の1、消費電力を10分の1に削減
省スペース/省電力
12m
24m
8m
7m
131TF288m2
2.4MW
131TF56m2
0.24MW
SX-9 SX-ACE
25mプールの大きさ 会議室の大きさ
80ノード 512ノード
Page 10 © NEC Corporation 2014
コンパクトな設計仕様
メモリネットワークスイッチ (LSI数 32)
メモリ制御部 (LSI 512個)RAM
プリント配線
CPU (LSI数 16、 コア数 16)
ケーブル
SX-9 1ノード 1.6TF
n オールインワンプロセッサの採用により、SXシリーズのDNAである高性能を継承しつつ、LSI数を100分の1に削減
n 省電力、省スペースを実現
LSI数 56030KW
電力
の70
%以
上が
メモ
リネ
ットワ
ーク
メモリ
6LSI2.8KW
SX-ACE 6ノード 1.5TF
SXDNA
高い電力効率
LSI数を1/100に削減
高性能を維持
Page 11 © NEC Corporation 2014
ノード筐体構造ノード筐体構造
オールインワンプロセッサ、コンパクト設計により、SX-9の半分以下のラックサイズで、10倍の演算性能を実現
CPU部は水冷。システムとしては、空冷+水冷のハイブリッド冷却
SX-ACE64ノード256コア16TF4TB
SX-91ノード16コア1.6TF1TB
1.8m
1.1m
1.8m
0.75m
1.5m
2m
© NEC Corporation 2014Page 12
SX-ACEの構成SX-ACEの構成
ノードカード1CPU, 256GF, 256GB/s
2ノードモジュール2 nodes = 2 CPUs
16ノードケージ8 modules = 16 nodes = 16 CPUs
ラック
64 nodes = 16TF, 16TB/s
システム
ラックの仕様16TF, 16TB/s, 64 CPUs0.75m x 1.5m x 2.0m30KW
16ノードケージ x44 cages = 32 modules = 64 nodes = 64CPUs
© NEC Corporation 2014Page 13
クラスタ構成(512ノードモデル)
システム構成: 131TFLOPS (8ラック=計512ノード、2,048ベクトルコア)高実効性能コア、超高速インターコネクトにより、高スケーラビリティを提供
memory
core core
core core memory
core core
core core
memory
core core
core core
4GB/s x2(双方向)
512ノード /8ラック
memory
core core
core core
IXS (専用インターコネクト)集団通信
高速化機構
・ ノ ー ド 数 :
・ コ ア 数 :
・ 演算性能:
・ メ モ リ B W :
・メモリ容量:
512
2,048
131TF
131TB/s
32TB64ノード×8ラック=512ノード
IXS
© NEC Corporation 2014Page 14
アーキテクチャの工夫・改善による性能強化アーキテクチャの工夫・改善による性能強化
n 短ベクトル性能・リストベクトル性能を強化n 実効メモリ帯域向上のための新機能
短ベクトル性能評価短ベクトル性能評価
ベクトル命令発行能力強化
ベクトル演算器間バイパスパス強化
リストベクトル性能強化リストベクトル性能強化
メモリレイテンシ短縮
命令追い越し制御強化
実効メモリ帯域強化実効メモリ帯域強化ADBADB容量拡張
冗長なメモリロードの回避 (MSHR)冗長なメモリストアの回避 (store merge)
CPU
Page 15 © NEC Corporation 2014
気象予報プログラムの中核処理 (ルジャンドル陪関数の計算)SX-ACE 1コア/SX-9 1CPU性能比で1.8倍の性能向上を実現
【例】
06: +------> DO K = 1, L31: |+-----> DO J = 1, M32: ||V----> DO i = 1, N33: ||| X( i, K ) = X( i,K ) &34: ||| & + A( i,J ) * B( C(i),J ) &35: ||| & + A( i,J+1 ) * B( C(i),J+1 ) &36: ||| & + A( i,J+2 ) * B( C(i),J+2 ) &37: ||| & + A( i,J+3 ) * B( C(i),J+3 ) &・・・72: ||| & + A( i,J+38) * B( C(i),J+38) &73: ||| & + A( i,J+39) * B( C(i),J+39)74: ||V---- ENDDO75: |+----- ENDDO76: +------ ENDDO
SX-9(1CPU)
SX-ACE(1core)
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
1.8
2.0
1.8倍
SX-ACE/SX-9 性能比較(SX-9性能で正規化)
SX-9 SX-ACE 性能比
Peak性能 102.4GF 64GF 0.63
性能向上(例)
n ADB、メモリレイテンシ短縮、命令追い越し機能強化等によりリストベクトル性能が向上
Page 16 © NEC Corporation 2014
Page 17
CPU
コア
メモリNW
・・・
コア
コア コア
メモリ制御×16
DRAM
CPU
コア
メモリNW
・・・
コア
コア コア
メモリ制御×16
DRAM
ソフトウエア制御
l 1コア単位で動的に切離 (休止状態)
l 休止状態のコアのみ再初期化して、組み込み
HWによる動的な資源制御を実現
(Node#)
#1
#3
#5
#7
#2
#4
#6
#8
Job
Job
Job
Job
Job
Job
Job
(time)
n 運用中ノードも常時省電力ジョブ実行予定がない運用中ノードの稼働コア数を制御(休止)して省電力化
l 稼働コア数自動変更(4→1)l ジョブ実行開始予定前に復帰
省エネスパコンを更に省エネ運用
n 消費電力のマニュアル調整即時または、実行中ジョブの終了を待って指定稼働数上限まで運用ノードを停止
l 最短で終了する実行中ジョブの終了を待って稼働上限数変更(8→6)
© NEC Corporation 2014
小規模モデル SX-ACE Lite (16ノード/32ノード構成)小規模モデル SX-ACE Lite (16ノード/32ノード構成)
▌モデル構成l16ノード、及び32ノード
▌ラックlSX-ACE標準ラックに搭載
lWxDxH = 0.75m x 1.5m x 2.0m
▌オールインワンラックlノード部・ネットワーク部等の全機能を
1ラックに搭載
▌空冷環境動作lラジエータをラック内に搭載することにより、水冷設備不要で空冷環境により動作
16ノードモデル 32ノードモデル
16 nodes 16 nodes
16 nodes
IXSIXS
RadiatorRadiator
10KVA 18KVA
16、32ノード構成による小規模モデルSX-ACEの1ラックにノード部・インターコネクト部・ラジエータ部等の
全コンポーネントを実装し、空冷環境で動作
Page 18 © NEC Corporation 2014
スカラクラスタフロントエンド
ソフトウェア開発環境
分散共有ファイルシステム
統合スケジューラ
演算処理
データ処理 前・後処理
ベクトル,スカラ処理・連成利用
n高い実効性能のアプリケーション開発を支援するソフトウェア開発環境nシステム全体でデータ共有を可能とする分散共有ファイルシステムnクラスタ、サーバ群を有機的に統合(容易に適所利用を可能に)する統合スケジューラ
大規模な科学技術計算に最適なシステム環境を実現
大容量・高速・高信頼
シングルシステム
高い実効性能のアプリケーション
システムソフトウェアの特長
SX-ACEクラスタ
Page 19 © NEC Corporation 2014
Page 21 © NEC Corporation 2014
バイポーラ水冷
バイポーラ水冷
次世代ベクトル型スーパーコンピュータの開発に着手
ハードウェアの進化
ソフトウェアの進化
SX-1/2(1983年発売)から9世代
最新機種SX-ACEを2014年7月出荷Aurora
Perf
orm
ance
1990 2000 2010
SX-1/2
SX-3
SX-4SX-5
SX-6
SX-8/8R
SX-9
自動共有並列化SUPER-UX
自動共有並列化SUPER-UX
分散並列化(MPI-SX)分散並列化(MPI-SX)
マルチノードCMOS空冷
マルチノードCMOS空冷
1チップベクトルプロセッサ
1チップベクトルプロセッサ
3Dノードモジュール3Dノード
モジュール
マルチコアAll in One ChipECOスパコン
マルチコアAll in One ChipECOスパコン
SX-7
ES2
100GFプロセッサ100GF
プロセッサ
自動ベクトル化コンパイラ
自動ベクトル化コンパイラ
マルチレーンIXS対応MPIマルチレーンIXS対応MPI
100ノード超クラスタ対応100ノード超クラスタ対応
ES
SX-ACE
スーパーコンピュータSX-ACEの後継機となる次世代機(開発プロジェクト名:Aurora)を2017年に発売予定
次期プロセッサ・システムのコンセプト
SX-1/2SX-3
SX-4SX-5 SX-6
SX-7 SX-8SX-9
SX-ACE
NEXT
n アプリケーション実行における高い実効性能(SXのDNA継承)• 高いコア性能、高いメモリ帯域を維持しつつ、アーキテクチャを刷新
n 使いやすいシステム• プログラミングの容易性(SXの従来資産はリコンパイルで動作)• 容易なチューニング• 定評あるSXシステムソフトウェア(コンパイラ、スケジューラ等)
n マーケット領域の拡大• スパコン領域は主ターゲットとして継続
(研究室、民間レベルにも展開)• 社会インフラを支えるべく領域を拡大
Page 22 © NEC Corporation 2014
Page 23
アプリケーション要求性能とプロセッサトレンド
nアプリケーション性能特性は、演算重視型からメモリ重視型まで多様nスカラCPUのByte/Flopは0.2前後と低く、将来はさらに低下傾向nスカラCPUでは、効率よく実行できないアプリケーション領域が拡大
スカラCPUが得意な領域演算密度が高く、理論演算性能を必要とする領域 (B/Fは要しない領域)
ベクトルCPUが得意な領域メモリ帯域と演算性能の比率(B/F)の
高いプロセッサを必要とする領域
現在のスカラCPUのByte/FlopスカラCPU
トレンド
© NEC Corporation 2014
NECの目指す方向性 ~ 高メモリバンド幅を要する領域
low
highlow
high
メモリバンド幅/core
演算性能/core
NECの主要ターゲット領域
n汎用CPUは、“メモリ帯域よりも処理スループット重視”の方向性(本質的には、オンライン・トランズアクションなどビジネス向けに適合)nNECは、高いコア性能と高メモリ帯域のHPC向けプロセッサを目指す
Page 24 © NEC Corporation 2014
▌民間企業、研究室単位で導入可能な小型・低価格モデルを準備
▌柔軟なシステム構成により、様々な要件にも対応可能
スケーラブルな構成で小規模~大規模まで対応
HPC市場 研究者プログラム開発・実行
研究室プログラム開発・実行
計算センタ・気象サイトなど大規模プログラムの実行
システム価格システム価格
シス
テム
性能
シス
テム
性能
エントリモデル
ラックモデル
データセンターモデル
スパコン領域
サーバ領域
領域を拡大
システムイメージ
Page 25 © NEC Corporation 2014
Page 26 © NEC Corporation 2014
ビッグデータ領域への展開
新サービス・ビジネス創出、社会の高度化・安定化
流通 金融 安全 資源 環境
ビッグデータ時代の到来で、⼤量データを⼀括処理するベクトル技術の重要性が高まる
Auroraではビッグデータ領域にも展開
SX-1/2 SX-3 SX-ACE Aurora
スーパーコンピュータ製品
ビッグデータ解析製品
未来に向かい、人が生きる、豊かに生きるために欠かせないもの。
それは「安全」「安心」「効率」「公平」という価値が実現された社会です。
NECは、ネットワーク技術とコンピューティング技術をあわせ持つ類のないインテグレーターとして
リーダーシップを発揮し、卓越した技術とさまざまな知見やアイデアを融合することで、
世界の国々や地域の人々と協奏しながら、
明るく希望に満ちた暮らしと社会を実現し、未来につなげていきます。