Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
スーパーコンピュータにおける電力性能最適化フレームワークの評価
稲富雄一、井上弘士
(九州大学大学院システム情報科学研究院)
九州大学UIプロジェクト Kyudai Taro,2007
謝辞
• 九大情報基盤研究開発センターならびに日立SEの皆様には大変お世話になりました• 色々ご迷惑もおかけして、すいませんでした・・・
2
一部管理者権限が必要な実験を大規模計算機を用いて行うことは、九大センターを除く他大学計算機センターのシステムではできないこと
本研究は、本センターの「先端的計算科学研究プロジェクト(ベンチマーク課題)」ならではの成果
おかげさまでSC’15のtechnical paperに採択されました!Y.Inadomi, T. Patki, K. Inoue, M. Aoyagi, B. Rountree, M. Schulz, D.Lowenthal, Y. Wada, K. Fukazawa, M. Ueda, M. Kondo, I. Miyoshi,“Analyzing and Mitigating the Impact of Manufacturing Variability in Power-Constrained Supercomputing”
九州大学UIプロジェクト Kyudai Taro,2007
研究概要
p プロセッサ製造ばらつきは電力制約型スパコンにおいて重大な問題であるü 4つのスパコンに対して製造ばらつきを解析ü 製造ばらつきが電力制約下で最大64%の性能ばらつきに
p 適切な電力配分により製造ばらつき問題が解決出来るü 電力制約下での性能ばらつきを解消するために、低コスト、スケーラブルなばらつきを考慮した電力配分手法を提案
ü 提案手法により最大5.4倍、平均1.8倍の性能向上を達成
3
九州大学UIプロジェクト Kyudai Taro,2007
もくじ
1. 研究背景2. 実験環境3. 電力消費特性のばらつき解析4. 電力ばらつきを考慮した電力配分5. 性能評価6. まとめ
4
九州大学UIプロジェクト Kyudai Taro,2007
研究背景=「スパコンの消費電力問題」
• Exa-scaleスパコンでは京コンピュータの2倍程度の消費電力(20-30MW)で100倍の性能向上が必要- 電力性能比(FLOPS/W)は「京」の50倍!
• 現状のスパコンシステム設計では与えられた電力バジェットをうまく使えない- 計算機へ要求する資源がアプリ依存であることを反映しにくい・・・
5
九州大学UIプロジェクト Kyudai Taro,2007
ポストペタスケールシステムのあるべき姿
} 最大負荷時電力が電力制約を超過することを積極的に許容} 電力性能ノブを自動制御することで実効電力を制約以下に抑制} 電力資源を計算・記憶・通信へ適応的に配分することで実効性能向上へ
電力制約適応型システム
} ハードウェア資源の有効利用から電力資源の有効利用へのパラダイムシフト
・ヘテロ化・局所性利用・省電力技術
最大負荷 アプリAアプリB
ポストペタスケール(従来型)
GPU
最大許容電力
最大負荷 アプリA
CPU
Mem.
NW
ペタスケール
Base
差の拡大
ポストペタスケール(電力制約適応型)
最大負荷 アプリAアプリB
電力制約適応型
Power
ノード数などのハードウェアではなく消費電力こそが最重要資源!
6
与えられた電力バジェットを効率的に利用してアプリの性能を最適化(=電力最適化)する必要がある!
電力制約を適用してアプリを動かすと、面倒な問題が生じる・・・
九州大学UIプロジェクト Kyudai Taro,2007
実験環境7
p HPC Challenge: star DGEMM, star STREAM(Triad)p NPB: BT, SP, EPp Magneto Hydro-Dynamics(MHD) simulation
• Typical stencil app. to simulate space plasma• Calculations and communications appear in turn
p Fiber benchmark suite: mVMC-mini (mVMC)• Variational Monte-Carlo simulation for strongly correlated electron system
Site Node Micro-Architecture Total nodes
Procs. Per Node
Cores Per Procs.
Power Msrmt.
Cab(LLNL) Intel E5-2670 Sandy Bridge 1,296 2 8 RAPL
BG/Q Vulcan (LLNL) IBM PowerPC A2 24,576 1 16(compute) EMON
Teller (SNL) AMD A10-5800K Piledriver 104 1 4 PI
HA8K(Kyushu Univ.) Intel E5-2697v2 Ivy Bridge 965 2 12 RAPL
Blue=EP typeRed=With Comm. & Sync.
対象アプリ
対象計算機
九州大学UIプロジェクト Kyudai Taro,2007
制御対象8
CPU = プロセッサ(チップ)モジュール = CPU+「CPUに直接繋がっているDRAM」
• 本発表での用語の定義
• 本来の電力制約対象はモジュール• 実際に電力制約を適用しているのはCPUのみ• DRAM消費電力は間接的に制約
DRAM消費電力はCPU電力制約値から推定
CPUcore
core
core
core
cache
MC
mem
ory module
mem
ory module
mem
ory module
mem
ory module
core
core
core
core
cache
MC
mem
ory module
mem
ory module
mem
ory module
mem
ory module
CPU
モジュールモジュール
九州大学UIプロジェクト Kyudai Taro,2007
50#
60#
70#
80#
90#
100#
110#
120#
1.0## 1.5## 2.0## 2.5##
CPU#Power#[W
]�
CPU#clock#frequency#[GHz]�
No#power#constraint�CPU#power#cap�
電力制約時のCPU動作周波数ばらつき9
非電力制約時の消費電力ばらつきが一律電力制約時の周波数ばらつきに置き換わる
50#
60#
70#
80#
90#
100#
110#
120#
1.0## 1.5## 2.0## 2.5##
CPU#Power#[W
]�
CPU#clock#frequency#[GHz]�
No#power#constraint�CPU$power$cap�
0""
20""
40""
60""
80""
100""
120""
140""
0" 300" 600" 900" 1200" 1500" 1800"
Power""[W]�
Module"IDs�
Module"(CPU+DRAM)"power"
CPU$power$
DRAM%power%
30%
一律電力制約時のCPU消費電力と平均動作周波数(HA8K, *DGEMM実行時)
出典:Y.Inadomi et al., “Analyzing and Mitigating the Impact of Manufacturing Variability in Power-Constrained Supercomputing”, SC’15 (2015), Austin
九州大学UIプロジェクト Kyudai Taro,2007
電力制約時の処理性能ばらつき10
40#
50#
60#
70#
80#
90#
100#
110#
120#
130#
140#
0.8## 1.2## 1.6## 2.0## 2.4## 2.8## 3.2##
Module#(CPU+DRAM)#Power#[W]�
Normalized#ExecuIon#Time�
No#power#constraint�
Cm=110W�
1.0�
Cm=Target#Average#Power#
Constraint#for#Module�
40#
50#
60#
70#
80#
90#
100#
110#
120#
130#
140#
0.8## 1.2## 1.6## 2.0## 2.4## 2.8## 3.2##
Module#(CPU+DRAM)#Power#[W]�
Normalized#ExecuIon#Time�
No#power#constraint�
Cm=110W�
Cm=100W�
1.0�
Cm=Target#Average#Power#
Constraint#for#Module�
40#
50#
60#
70#
80#
90#
100#
110#
120#
130#
140#
0.8## 1.2## 1.6## 2.0## 2.4## 2.8## 3.2##
Module#(CPU+DRAM)#Power#[W]�
Normalized#ExecuIon#Time�
No#power#constraint�
Cm=110W�
Cm=100W�
Cm=90W�
1.0�
Cm=Target#Average#Power#
Constraint#for#Module�
40#
50#
60#
70#
80#
90#
100#
110#
120#
130#
140#
0.8## 1.2## 1.6## 2.0## 2.4## 2.8## 3.2##
Module#(CPU+DRAM)#Power#[W]�
Normalized#ExecuIon#Time�
No#power#constraint�
Cm=110W�
Cm=100W�
Cm=90W�Cm=80W�
1.0�
Cm=Target#Average#Power#
Constraint#for#Module�
40#
50#
60#
70#
80#
90#
100#
110#
120#
130#
140#
0.8## 1.2## 1.6## 2.0## 2.4## 2.8## 3.2##
Module#(CPU+DRAM)#Power#[W]�
Normalized#ExecuIon#Time�
No#power#constraint�
Cm=110W�
Cm=100W�
Cm=90W�Cm=80W�
Cm=70W�
1.0�
Cm=Target#Average#Power#
Constraint#for#Module�
64%
実行性能とモジュール消費電力(HA8K, *DGEMM実行時)
出典:Y.Inadomi et al., “Analyzing and Mitigating the Impact of Manufacturing Variability in Power-Constrained Supercomputing”, SC’15 (2015), Austin
九州大学UIプロジェクト Kyudai Taro,2007
問題点と目標
p 電力制約型スーパーコンピューティングü 将来のスパコンは電力制約のもとで運用される可能性あり
p 製造ばらつきü 製造ばらつきが電力制約時の性能ばらつきを引き起こす
11
将来の電力制約型スパーコンピュータ利用時のHPCアプリの性能が低下する・・・
目標電力制約型スパコンでのHPCアプリ性能に対する製造ばらつきの影響を小さくする=電力制約下でのアプリ性能最適化(電力性能最適化)
九州大学UIプロジェクト Kyudai Taro,2007
提案手法の概念12
Performance (=CPU Frequency)
Pow
er
W/ power-constraint(Conventional)
W/O power-constraint
Power variation
W/ power-constraint(Proposed)
Mitigate Variability Same total power budget
ばらつきを考慮した電力配分
九州大学UIプロジェクト Kyudai Taro,2007
周波数と電力の関係(電力モデル)13
f =α ( fmax − fmin )+ fminPcpu =α (Pmax
cpu − Pmincpu)+ Pmin
cpu
Pdram =α (Pmaxdram − Pmin
dram)+ Pmindram
(0 ≤α ≤1)
31
*DGEMM� MHD�
Imported�
6""7""8""9""10""11""12""13""14""
40""50""60""70""80""90""
100""110""120""
1.2"" 1.4"" 1.6"" 1.8"" 2.0"" 2.2"" 2.4"" 2.6""
"Mod
ule"and"CP
U"Pow
er"[W
]�
CPU"clock"frequency�
"DRA
M"Pow
er"[W
]�
Module"R²"="0.999"
R²"="0.999"CPU"
R²"="0.996"DRAM"
8""9""10""11""12""13""14""15""16""
20""30""40""50""60""70""80""90""100""
1.2"" 1.4"" 1.6"" 1.8"" 2.0"" 2.2"" 2.4"" 2.6""
"Mod
ule"and"CP
U"Pow
er"[W
]�
CPU"clock"frequency�
"DRA
M"Pow
er"[W
]�R²"="0.999"Module"
R²"="0.999"CPU"
R²"="0.991"DRAM"
仮定• CPU消費電力、DRAM消費電力は動作周波数に比例
• 動作周波数が同じであれば処理性能も同じ
f =動作周波数Pcpu, Pdram =CPU, DRAM消費電力
fmax , fmin =最高動作周波数、最低動作周波数Pmaxcpu, Pmax
dram =非電力制約時のCPU, DRAM消費電力Pmincpu, Pmin
dram =最低動作周波数時のCPU, DRAM消費電力
α 10
Power
fmax
fmin Pmaxcpu
Pmaxdram
Pmincpu
Pmindram
CPU Frequency
f
Pcpu
Pdram
この4点の情報は何らかの方法で推定
出典:Y.Inadomi et al., “Analyzing and Mitigating the Impact of Manufacturing Variability in Power-Constrained Supercomputing”, SC’15 (2015), Austin
九州大学UIプロジェクト Kyudai Taro,2007
ModuleID
NormalizedPower
1 1.0
k 1.2
N 0.8
電力モデル補正14
Module ID PowerConsumption
k 120
Pwr
Perf.
Module 1
Pwr
Perf.
Module 2
Pwr
Perf.
Module 3
Pwr
Perf.
Module N
ModuleID
PowerConsumption
1 100
k 120
N 80
....
....
....
....
アプリ非依存Power Variation Table (PVT)
モジュール kで得られた消費電力情報
アプリ依存推定消費電力
九州大学UIプロジェクト Kyudai Taro,2007
電力制御ノブの選択肢15
2種類の電力制御ノブを検証• Power Capping (Pc) using RAPL• Frequency Selection (Fs) using CPUFreqlibs
Power Capping (Pc) Frequency Selection (Fs)Power Constraint ◎ Guaranteed △ Not guaranteedPerformance Equivalence △ Not guaranteed ◎ Guaranteed
九州大学UIプロジェクト Kyudai Taro,2007
適用した電力配分手法16
手法名 アプリ依存? モジュール依存? 電力モデル補正 制約手法
Naive No No No Power Cap
Pc Yes No Yes Power Cap
VaPc Yes Yes Yes Power Cap
VaFs Yes Yes Yes Freq. Sel.
VaPcOr Yes Yes No Power Cap
VaFsOr Yes Yes No Freq. Sel.
Va=Variation-Aware, Pc=Power Capping, Fs=Frequency SelectionOr=Observed power data are used
九州大学UIプロジェクト Kyudai Taro,2007
0.0##
0.5##
1.0##
1.5##
2.0##
0.0##1.0##2.0##3.0##4.0##5.0##6.0##
0.0##
0.5##
1.0##
1.5##
2.0##
0.0##1.0##2.0##3.0##4.0##5.0##
0.0##0.5##1.0##1.5##2.0##2.5##3.0##
0.0##0.5##1.0##1.5##2.0##2.5##3.0##3.5##
速度向上比 (1920モジュール実行時)17
5.4x
• 6アプリ平均で1.8倍の速度向上• NPB-BTだと最大5.4倍の速度向上
様々な電力制約下での各配分手法適用時における性能向上比(対 naïve手法、HA8K)
出典:Y.Inadomi et al., “Analyzing and Mitigating the Impact of Manufacturing Variability in Power-Constrained Supercomputing”, SC’15 (2015), Austin
九州大学UIプロジェクト Kyudai Taro,2007
性能が向上した理由18
ばらつきを考慮した電力配分適用前後の実行性能とモジュール消費電力(HA8K, *DGEMM実行時)
• ばらつき考慮電力配分により性能ばらつきが改善
before after
40#
50#
60#
70#
80#
90#
100#
110#
120#
130#
140#
0.8## 1.2## 1.6## 2.0## 2.4## 2.8## 3.2##
Module#(CPU+DRAM)#Power#[W]�
Normalized#ExecuIon#Time�
No#power#constraint�
Cs=211.2KW�
Cs=192.0kW�
Cs=172.8kW�Cs=153.6kW�
Cs=134.4kW�
1.0�
64%�
Cs=ApplicaIon#level#power#constraint�
40#
50#
60#
70#
80#
90#
100#
110#
120#
130#
140#
0.8## 1.2## 1.6## 2.0## 2.4## 2.8## 3.2##
Module#(CPU+DRAM)#power#[W]�
Normalized#ExecuIon#Time�
No#power#constraint�
Cs=211.2KW�
Cs=192.0kW#
Cs=172.8kW�
Cs=153.6kW�
Cs=134.4kW�
1.0�
12%�
Cs=ApplicaIon#level#power#constraint�
出典:Y.Inadomi et al., “Analyzing and Mitigating the Impact of Manufacturing Variability in Power-Constrained Supercomputing”, SC’15 (2015), Austin
九州大学UIプロジェクト Kyudai Taro,2007
まとめ19
• 現代のHPCシステムでは製造ばらつきが原因のモジュール間消費電力ばらつきが見られ、それが電力制約時の処理性能ばらつきを生じることが分かった
• 提案した低コスト、スケーラブルなばらつきを考慮した電力配分によって電力制約下でのHPCアプリ性能が最大で5.4倍、平均でも1.8倍向上した
九州大学UIプロジェクト Kyudai Taro,2007
謝辞20
本研究は、JST,CREST の研究領域「ポストペタスケール高性能計算に資するシステムソフトウェア技術の創出」の研究課題「ポストペタスケールシステムのための電力マネージメントフレームワークの開発」の支援を受けています