スーパーコンピュータのネットワーク

スーパーコンピュータのネットワーク情報ネットワーク特論

1

スーパーコンピュータ開発の歴史

スーパーコンピュータのネットワーク

今後のスーパーコンピュータ開発

今日の講義内容

2

" スーパー " な計算機　＝　その時点で、一般的な計算機の性能をはるかに　　　　超える性能を持つ計算機

スーパーコンピュータの用途　＝　主に科学技術計算◦ 例えば

分子構造のシミュレーションによる創薬構造シミュレーション等による車の設計熱力学シミュレーション等による気候予測...

スーパーコンピュータとは？

3

より高い性能のスーパーコンピュータを持つ

計算技術の向上◦ 汎用の計算機への応用◦ ソフトウェア効率化の推進

経済的な競争力の向上：◦ 創薬◦ 新素材の開発◦ 気候予測◦ 製品設計

etc.

スーパーコンピュータの開発競争

「計算機の性能」とは？

4

理論的な演算性能：　１秒間に実行できる演算の数　＝ OPS (Operations Per Second)　　　特に実数計算（ Floating Operation) の性能の場合　　　 FLOPS (FLoating Operations Per Second)

実際の性能：　プログラムを実行する際の性能

計算機の理論的な演算性能と実際の性能

FLOPS ＝　プロセッサの周波数 x 同時実行可能演算数 x プロセッサ数

　例） 4 演算同時実行可能な 1GHz のプロセッサ 1,000 個によるシステム　　　⇒　 1GHz x 4 x 1,000 = 4,000GFLOPS = 4TFLOPS

G: Giga T: Tera(=1,000G), P: Peta(=1,000T), E: Exa(=1,000P)

5

理論演算性能：　全ての演算器が休むことなく働き続けることが前提

実際のプログラムの性能：　様々な要因で演算器が休止◦ メモリからのデータ到着待ち◦ 他のプロセスの計算完了待ち

プロセス間の負荷の不均衡◦ 通信の完了待ち◦ ファイル入出力待ち

理論演算性能と実際の性能の違い

理論演算性能による比較は、ほとんど意味が無い 6

プログラムによって傾向が変わる。　例えば。。。

◦ 仕事を複数のプロセッサに分担させるのが難しい計算：　とても高速なプロセッサ 1 個による計算機が有利

◦ たくさんのプロセッサに分担させることができる計算：　低速なプロセッサを多数搭載した計算機が有利　

実際のプログラムの性能？

どのプログラムを使って比較するか？

7

最も有名な、スーパーコンピュータ性能比較リスト　　 http://www.top500.org◦ 稼働中のスーパーコンピュータの上位 500 台を掲載。

LINPACK ベンチマークプログラムの性能で順位付け◦ 連立一次方程式の解を求める計算◦ 比較的、理論性能に近い性能が出る

キャッシュヒット率が高い、通信が少ない、負荷が均等

他の計算機との比較や傾向の分析などが容易◦ 1993 年からほとんど同じ条件で更新を継続。◦ 世界中のほぼ全てのスーパーコンピュータが登録。

Top500 List

スーパーコンピュータ開発競争に利用8

スーパーコンピュータの例）　地球シミュレータ

稼動開始時点（ 2002 年 3月）時点で，世界最高速のスーパーコンピュータ◦ 日本の計算機メーカ（主に NEC ）が開発

開発目標： 10km四方 (赤道近辺 ) の精度で地球全体の大気循環をシミュレート

それまでは 100km四方◦ 例えば台風の発生過程：

100km四方だと台風が台風に見えない

9

地球シミュレータの成果台風進路予測

◦ 5.5km四方で地球全体をシミュレート（日本近辺は 2.78km四方）

◦海底探査船「ちきゅう」に , 台風進路の予測結果を到達予定の 3 日前に提供

台風発生予測◦過去 10 年間についてシミュレーションによる台風発生回数が実際の値とほぼ一致

CO2 の増加に伴う温暖化の予測◦ 2040 年には年間の真夏日日数が約 20 日増加，平均気温が約 2度上昇．

10

Top500 における地球シミュレータの性能

35 TFLOPS (Tera Floating Operations Per Second)　＝　 1 秒あたりの 35兆回の実数計算◦断トツの 1 位◦ 2 位から 10 位までの計算機の演算性能の合計を上回る性能

(2002 年 6月時点 )

“Computenik”　 = 「計算機分野でのスプートニクだ！」　 (in New York Times ）◦ by Jack 　 Dongarra教授

　テネシー大学教授、 Top500 サイトの創始者

USA の開発意欲に火を付けた11

USA の逆襲（ 2004 年）

IBM Blue Gene/L (2004 年 11月～ )http://www.research.ibm.com/bluegene/ ◦ 70TFLOPS

ちなみに地球シミュレータ (35TFLOPS) は 3 位に後退◦ 「まだ完成形ではない」：

2005 年前半に、さらに 4倍高速化する計画

日本のすべてのスーパーコンピュータをかき集めても追いつかない規模になる

12

http://www.research.ibm.com/bluegene/

USA の逆襲（ 2005 年） IBM Blue Gene/L (2005 年 11月 )

◦ 理論最高性能　 280TFLOPS 世界で初めて 100TFLOPS を越えた計算機地球シミュレータは 7 位に後退

◦本当に日本のすべてのスーパーコンピュータをかき集めても追いつかない規模に世界 500 位に入った計算機の性能の国別合計：

1 位 USA 68.3% 2 位 Japan 5.68 % 3 位 UK 5.41% 4 位 Germany 3.10% 5 位 China 2.59% 以下、　 Australia, Switzerland, Netherland, Korea, ...

13

2010 年までの経緯

～ 2010 年 6月　 USA の時代◦ 2004～ 2007 IBM BlueGene/L 478

TFLOPS◦ 2008 IBM RoadRunner 1.1 PFLOPS◦ 2009～ 2010.6 Cray Jaguar 1.8 PFLOPS

2010 年 11月　中国の台頭◦ 2010.11 中国　 Tianhe-1A 2.6

PFLOPS 　日本勢は東京工業大学の TSUBAME2.0 が

1.2 PFLOPS で 4 位

14

2011 年 6月　スーパーコンピュータ ”京”の登場

1 位　 K computer(Japan) 8.2 PFLOPS2 位　 Tianhe-1A (China) 2.6 PFLOPS3 位　 Jaguar(USA) 1.8 PFLOPS

国別合計： 1 位 USA 42.87% (25.3 PFLOPS)2 位 Japan 18.98% (11.2

PFLOPS)3 位 China 12.11% ( 7.1

PFLOPS)4 位 Germany 5.50% ( 3.2 PFLOPS)5 位 France 5.40% ( 3.2 PFLOPS)

◦以下， UK, Russia, Korea, Canada, ...

15

最新情報：　 2013 年 6月 1 位　 Tianhe-2(China) 33.9 PFLOPS

2 位　 Titan (USA) 17.6 PFLOPS3 位　 Sequoia (USA) 16.3 PFLOPS4 位　 K Computer(Japan) 10.5 PFLOPS

国別合計： 1 位 USA 47.8% (106.8 PFLOPS)2 位 China 21.2% ( 47.5 PFLOPS)3 位 Japan 9.1% ( 20.3 PFLOPS)4 位 Germany 5.1% ( 11.4PFLOPS)5 位 France 4.0% ( 8.9 PFLOPS)

◦以下， UK, India, Italy, Australia, Russia, Canada, ...

16

来週、更新予定

構成： (24 プロセッサコア + アクセラレータ ) x 約1万6千ノード◦ CPU: Intel Xeon E5-2692 2.2GHz x 12cores x 2chips ◦ アクセラレータ : Intel Xeon Phi 31S1P

理論演算性能に対する実性能比： 0.617 　 (= 33.9PF / 54.9PF)

電力あたり性能：　 1.90GF / W

ネットワーク： Fat Tree◦ 名称： TH Express-2

Tianhe-2 (天河 2)

出典： http://eng.mod.gov.cn/Database/Academies/2013-06/18/content_4455818_2.htm

17出典： http://www.china.org.cn/top10/2013-06/21/content_29187340_10.htm

製品名： Cray XK7

構成： (16プロセッサコア + GPU) x 約1万8千ノード◦ CPU: AMD Opteron 6274 2.2GHz ◦ GPU: NVIDIA Tesla K20X

理論演算性能に対する実性能比： 0.65　 (= 17.6PF / 27.1PF)

電力あたり性能：　2.14GF / W

ネットワーク：　3次元トーラス構造◦ 名称： GEMINI

Titan

出典： http://www.olcf.ornl.gov/titan/

18

製品名： IBM BlueGene/Q◦ Top500 List の 2 位，4 位，5 位，9 位

構成： 16 プロセッサコア x 約10万ノード◦ CPU: IBM PowerBQC 1.6GHz

理論演算性能に対する実性能比：　 0.81(= 16.3 PF / 20.1 PF )

電力あたり性能： 2.1GFLOPS / W

ネットワーク：　 5 次元トーラス構造

Seq uoia

出典： https://www.llnl.gov/news/aroundthelab/2012/Jun/ATL-061812_sequoia.html

19

K Computer (京 )

理化学研究所と富士通が開発http://www.aics.riken.jp 互換機： Fujitsu PRIMEHPC FX10

九大情報基盤研究開発センターで利用可能

構成： 8 プロセッサコアｘ約8万ノード CPU: Fujitsu SPARC64 VIIIfx 2.0GHz

理論演算性能に対する実性能比：　0.93 (=10.5PF / 11.3PF)

消費電力 : 0.83GFLOPS / W

ネットワーク : 6 次元トーラス／メッシュ構造名称： Tofu インターコネクト

出典：　 http://www.nsc.riken.jp/K/diary.html

SPARC64TM VIIIfx チップ

Tofu インターコネクトネットワーク出典：　 http://www.ssken.gr.jp/MAINSITE/download/newsletter/2011/20110825-sci-1/lecture-5/ppt.pdf20

Tianhe-2 vs Titan vs Sequoia vs 京　 vs 地球シミュレータ

天河 2 Titan Sequoia 京地球シミュレータ

総 CPUコア数

384,000 299,008 1,572,864 705,024 5,120

ノード数 16,000 18,688 98,304 88,128 640

アクセラレータ

Xeon Phi Tesla No No No

理論性能 54.9 PF 27.1 PF 20.1 PF 11.3 PF 0.041 PF

実性能 33.9 PF 17.6 PF 16.3 PF 10.5 PF 0.036 PF

実性能 /理論 0.61 0.64 0.81 0.93 0.88

電力 17.8MW 8.2MW 7.9MW 12.7MW 3.2 MW

実性能 /電力 1.9 GF/W

2.1 GF/W 2.1 GF/W 0.83GF/W

0.01GF/W

21

クロック周波数の向上命令レベル並列処理の向上

アクセラレータの利用

プロセッサコア数の増加◦ スレッド並列◦ プロセス並列

計算機の高速化手段

22

電力、熱の限界

命令レベル並列性の限界

アクセラレータ基本的な考え方：

　低性能、低機能だが、電力効率の高いコアを　多数並べて並列計算する

Top500 に登場する主なアクセラレータ：◦ NVIDIA Tesla◦ Intel Xeon Phi

23

NVIDIA Tesla

GPGPU (General Purpose Graphic Processing Unit)◦ グラフィック用の GPU を汎用計算にも使用する

高い電力効率◦ メモリ量を制限して高速メモリアクセスを実現

１〜 6GB 程度◦ 演算の種類を制限して回路を単純化

主に加算，乗算の性能重視複雑な処理は制限

24

メモリからアクセラレータのメモリへのデータ転送が遅い◦ Tesla C2015 で 515GFLOPS に対して　 8GB/sec

アクセラレータ上のメモリへのアクセスは 144GB/sec◦ NEC のベクトルプロセッサは　 100GFLOPS に対して　 256GB/sec◦ 京のスカラープロセッサは　　　 128GFLOPS に対して 64GB/sec

性能に対するメモリ量が少ない◦ Tesla C2015 で 515GFLOPS に対して 6GB◦ NEC のベクトルプロセッサは 100GFLOPS に対して 64GB◦ 京のスカラープロセッサは　　　 128GFLOPS に対して 16GB

プログラムが複雑◦ ホスト PC側とアクセラレータ側双方のプログラム◦ データの移動も全てプログラムに明記

GPGPU の問題

性能を活かすためには高度なチューニングが必要 25

古い Pentium のアーキテクチャ + ベクトル演算器を最新の回路技術で実装◦ ベクトル演算器： 1度に 8 個の実数計算を実行可能

高い電力効率小さい実装面積

最新 CPU とアーキテクチャ互換

将来は CPU とメモリを共有

Intel Xeon Phi

26

高密度実装が可能　（ Intel Xeon Phi 5110P で 60 コア）

既存のプログラムが動く

それでも、性能を活かすためには高度なチューニングが必要

データのコピーが不要

性能比較

27

NVIDIA Tesla K20X

Intel Xeon Phi 5110P

Intel Xeon E5 -2687

単精度実数演算性能

4.0TF 2.0TF 0.33TF

倍精度実数演算性能

1.3TF 1.0TF 0.33TF

メモリ容量 6GB 8GB 16～ 128GB

消費電力 235W 225W 150W

現在のスーパーコンピュータ　＝多数（数千～数万）の " 計算ノード " をネットワークで接続した「並列計算機」◦ アクセラレータは計算ノード内に搭載される

　

もう一つの高速化：プロセッサを増やす

CPUコア

メインメモリ

CPUコア

CPUコア

メインメモリ

CPUコア

CPUコア

メインメモリ

CPUコア

CPUコア

メインメモリ

CPUコア

ネットワークネットワーク

28

アクセラレータ

アクセラレータ用メモリ

仕事を複数のプロセッサに分担させて高速化　＝　並列処理

並列処理をするには？　⇒　並列プログラムが必要

並列計算機

仕事１

仕事２

仕事３

仕事１

仕事２

仕事３

普通の処理並列処理

うまく分担できればプロセッサの数に応じて性能向上

29

並列プログラム並列処理に必要な事項を含むプログラム

◦各ＣＰＵコアへの仕事の分担のさせ方、◦相互の情報交換、◦ CPU コアの間の同期等

普通のプログラム（＝並列じゃないプログラム）とどう違う ?

30

普通のプログラムの例：　２つのベクトルの和を計算０番目から９９番目までの要素を順に計算

A

B

C

=+

=+

=+

=+

=+

=+

=+

=+

=+

=+

=+

=+

=+

=+

=+

=+

=+

=+

=+

=+

0 99...

double A[100], B[100], C[100]; ...for (i = 0; i < 100; i++) A[i] = B[i] + C[i];

プログラム

31

並列プログラムの例：　複数の「スレッド」で並列処理

スレッド：　同じ記憶空間を共有しながら進行する流れ

A

B

C

=+

=+

=+

=+

=+

=+

=+

=+

=+

=+

=+

=+

=+

=+

=+

=+

=+

=+

=+

=+

...0 24 25 ... 49 50 ... 74 75 ... 99

double A[100],B[100],C[100]; ...for (i=0; i<25; i++) A[i] = B[i] + C[i];



double A[100],B[100],C[100]; ...for (i=75; i<100; i++) A[i] = B[i] + C[i];スレッド０スレッド１スレッド２スレッド３

スレッド０スレッド１スレッド２スレッド３全スレッドが同じ配列を共有

32

スレッドによる並列化の利点と欠点

利点：　簡単に並列化◦ コンパイラにお任せ、もしくは若干の変更だけ

欠点：　基本的に「共有メモリ型並列計算機」向け　⇒　「分散メモリ型並列計算機」では使えない　　　　＝　大規模な計算機で利用できない

33

共有メモリ型並列計算機

１つのメインメモリを複数のＣＰＵコアで共有◦ マルチ CPU コアのＰＣ等

CPUコア

メインメモリ

CPUコア

CPUコア

CPUコア

CPUコア

CPUコア

CPU コアからメインメモリへの経路が共有　⇒　規模（＝ CPU コア数）に限界

34

分散メモリ型並列計算機複数の独立したメインメモリで構成

CPUコア

メインメモリ

CPUコア

CPUコア

メインメモリ

CPUコア

CPUコア

メインメモリ

CPUコア

CPUコア

メインメモリ

CPUコア

ネットワーク

規模に応じて経路の数も増加⇒　大規模化が比較的容易

35

プロセス並列プログラム分散メモリ型並列計算機における並列処理に必要

プロセス並列　独立した記憶空間をもつ「プロセス」を　単位とした並列処理

36

「プロセス並列」プログラムの特徴　（１）

処理だけでなくデータも分割

double A[25],B[25],C[25]; ...for (i=0;i<25;i++) A[i] = B[i] + C[i];プロセス０

A

B

C

=+

=+

=+

=+

=+

...0 24

プロセス０

A

B

=+

=+

=+

=+

=+

...0 24

プロセス１

A

B

=+

=+

=+

=+

=+

...0 24

プロセス２

A

B

=+

=+

=+

=+

=+

...0 24

プロセス３

double A[25],B[25],C[25]; ...for (i=0;i<25;i++) A[i] = B[i] + C[i];



プロセス１プロセス２

プロセス３

C C C

各プロセスが別の配列を利用

37

「プロセス並列」プログラムの特徴　（２）

他のプロセスのデータは直接参照できない

必要に応じてプロセス間通信

A

プロセス０

A

プロセス１

A

プロセス２

A

プロセス３X

ネットワーク

送信受信

38

ＭＰＩ (Message Passing Interface)並列プログラム用に用意された通信関数群の定

義

例）　プロセス０からプロセス１にデータを転送MPI_Comm_rank(MPI_COMM_WORLD, &myid);

...if (myid == 0) MPI_Send(&(a[5]), 1, MPI_DOUBLE, 1, 0, 　 MPI_COMM_WORLD);if (myid == 1) MPI_Recv(&(a[3]), 1, MPI_DOUBLE, 0, 0, MPI_COMM_WORLD, &status);

自分のプロセス番号を取得

プロセス１に送信

プロセス０から受信

39

並列化手段と並列計算機

利用可能な並列化手段

共有メモリ型

分散メモリ型

自動並列化、

OpenMP○ ×

MPI ○ ○MPI プログラムは、作るのに苦労するがどこでも実行できる

40

並列計算機の利点と欠点利点：　理論的な性能は、比較的容易に向上

◦極端な話，単純に数を増やせば向上する

欠点：　実質的な性能向上には工夫が必要◦並列プログラムの作成

計算の分担データの分割計算結果の通信

◦並列処理のための時間増加他の CPU との同期待ちや通信

スーパーコンピュータの構成は、今のところ分散メモリ型並列計算機

41

通信性能◦遅延時間を短く

　≒ なるべく短い経路で接続

◦ 経路の帯域幅を大きく

◦ 経路の本数を多く

費用◦ なるべく安く

経路数やスイッチ数、経路の帯域幅に依存

スーパーコンピュータのネットワークへの要求

topology 　（＝　ネットワークの形状）が重要

42

経路長い経路短い

帯域幅細い帯域幅太い

競合競合

経路数少ない経路数多い

一本の Bus を全ノードで共有両端をつなげたものが Ring

長所：構成が簡単なので 1本あたりの帯域幅を太く出来る経路とスイッチの数はノード数と同じなので費用は低い

短所：同時に利用可能な通信経路は 1本だけ

双方向の場合、 2本プロセッサ内部のコア間ネットワーク（ 8 コア）のような小規模なネットワークで利用

Bus / Ring Topology

43

全ノード間で、一対一に接続長所：

◦遅延時間 (≒ 通信距離）最小短所：

◦ 高価ノード数の 2乗に応じた

経路数各ノードでノード数分の接続が可能な大規模スイッチ

小規模の CPU 間ネットワーク（ 4CPU 程度）で利用

Full Direct Connection

44

行列上の switch を介して全ノードを接続長所：

◦遅延時間（≒通信距離）はほぼ最小◦ノード数に比例した同時通信帯域幅

短所：◦ 高価

ノード数の２乗に比例した結線数とスイッチ数

最大で、地球シミュレータ（ 640ノード）程度まで利用◦ 通常は数十ノード程度まで

Crossbar Switch

45

多段の crossbar switch による木構造で構成長所：

◦ 比較的、遅延時間が低い通信距離はスイッチの段数 x 2

◦ 比較的、同時通信帯域幅が高い上位層のスイッチ数と経路数による

◦ 比較的、費用が安価短所：

◦ 数万ノード以上のシステムでは、まだ高価大規模なシステムでは上位層の経路数を削減

通常、数千ノード規模まで◦ Tianhe-2 は特別

Fat Tree

46

多次元の格子状にノードを配置し、隣接ノード間を直接接続◦両端を接続したものがトーラス

長所：◦費用が安価

ノード数 N に比例した経路数◦ リングやバスより格段に高速

特に隣接ノードとの通信短所：

◦ 通信パターンによっては、通信衝突が多発　⇒ プログラムの高度な　　　チューニングが必要　　　

主に数万ノード規模で利用

多次元メッシュ / トーラス

47

High-Radix switch( ポート数の多いスイッチ ) の利用◦段数小 ⇒ 通信遅延の低減◦ 同時通信帯域幅の維持◦ 例）

多段全対全結合

DragonFly

さらなる大規模化に向けて

出典：　 http://www.unixer.de/publications/img/ibm-percs-network.pdf

出典： http://research.google.com/pubs/archive/35154.pdf 48

スーパーコンピュータ開発の今後

膨大な開発費：　京の場合， 7 年間で約 1,200 億円◦ 事業仕分けでの指摘

「 2番じゃダメなんですか？」次の目標：

　 2018 年に 1 Exa FLOPS を達成　　（ 1 Exa = 1,000 Peta)◦ 予算は？？？

49

富士通：　京の商用機発表http://www.hpcwire.com/hpcwire/2011-11-07/fujitsu_unveils_post-k_supercomputer.html

NEC ：　 SX-9 後継のベクトル計算機開発計画を発表http://www.perfect-abs.info/news/Vector-Processor.html

IBM ：　 BlueGene/Q で 100PFLOPS を狙うhttp://www.theregister.co.uk/2011/11/16/ibm_bluegene_q_power_775/

Cray: 　 Blue Water http://wjbc.com/cray-replaces-ibm-on-u-of-illinois-supercomputer/

Barcelona Supercomputing Center: Tegra + GPGPU でスーパーコンピュータ開発http://latimesblogs.latimes.com/technology/2011/11/nvidia-supercomputer.html

中国：　自国製 CPU ShenWey SW1600http://www.hpcwire.com/hpcwire/2011-11-01/china_s_indigenous_supercomputing_strategy_bears_first_fruit.html

今後の開発計画

50

米国の変化 PCAST (President’s Council of Advaisors on Science

and Technology) の指摘http://insidehpc.com/2010/12/22/pcast-report-supercomputing-arms-race-may-be-the-wrong-path-forward/

"an arms race that is very expensive and may not be a good use of funds."

TOP500 創設者が LINPACK ベンチマークの限界を指摘http://www.top500.org/blog/top500-founder-erich-strohmaier-on-the-lists-evolution/

"It is expected to debut this November in tandem with SC13.""you will need to keep learning, changing and adapting to the rapidly changing hardware and software environments of HPC."

ゲームのルールが変わる可能性51

HPC Challengehttp://icl.cs.utk.edu/hpcc/◦ 複数の部門でそれぞれ順位づけ

Linpack, Matrix Multiply, Memory Bandwidth,Matrix Transpose, Random Access, Fast Fourier Trans,Communication Bandwidth and Latency

京は HPC Challenge の 5部門でも 1 位 Graph500

http://www.graph500.org◦ 組み合わせ最適化問題の計算性能比較

Green500http’//www.green500.org◦ Top500 の性能を消費電力で割った電力対性能比を比較

Top500 に代わる指標

52

Gordon Bell 賞：実プログラムでの性能競争◦ 2011 年：　京を用いてシリコンナノワイヤをシミュ

レート　（理化学研究所、筑波大、東大、富士通のチーム）　　 http://ajw.asahi.com/article/economy/biz_briefs/AJ201111180034

東工大も TSUBAME2.0 を用いた新素材形成のシミュレーションで特別賞を受賞http://cloud.watch.impress.co.jp/docs/news/20111118_492092.html

◦ 2012 年：京を用いてダークマターの動きを解析　（筑波大、理化学研究所、東工大のチーム） http://www.nikkei.com/article/DGXNASGG1600O_W2A111C1000000/?dg=1

実用面の評価

53

米国http://www.exascale.org

ヨーロッパhttp://www.prace-project.eu

日本http://www.open-supercomputer.org/workshop/purpose.html

予算が問題http://sankei.jp.msn.com/politics/news/111116/plc11111611240003-n1.htm

次のスーパーコンピュータ開発に向けた議論

54

Documents

スーパーコンピュータ の ネットワーク

スーパーコンピュータのネットワーク