Upload
others
View
8
Download
0
Embed Size (px)
����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����
����� ����� ����� ����� ����� ����� ����� �����
HPC Benchmarking
Vladimir Marjanovic, Colin W. Glass, Jose Gracia
18.11.2015:: :: ::V.Marjanovic HPGMG BoF
����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����
����� ����� ����� ����� ����� ����� ����� ����� Goals of TOP500 HPC Benchmarking
• Ranking supercomputers
• One number all properties
18.11.2015:: :: ::V.Marjanovic HPGMG BoF 2
����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����
����� ����� ����� ����� ����� ����� ����� ����� HPC Benchmarking Approaches
• Two approaches:
– single application (kernel) :
HPL, HPCG, HPGMG
– many applications (kernels):
HPGMG, NAS benchmark, HPC Challenge, MPI SPEC 2007 etc
18.11.2015:: :: ::V.Marjanovic HPGMG BoF 3
����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����
����� ����� ����� ����� ����� ����� ����� ����� Real App Representation
• HPL ‐ direct solver O(n3)
• HPCG, HPGMG(FV, FE) – iterative solver O(n)
• HPL is n2 times slower than HPCG and HPGMG
18.11.2015:: :: ::V.Marjanovic HPGMG BoF 4
����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����
����� ����� ����� ����� ����� ����� ����� ����� HPC Reference Codes
MPI OpenMP External lib Metric
HPL yes BLAS MT BLAS GFLOP/s
HPCG yes SpMV no GFLOP/s
HPGMG‐FV yes yes no DoF/s
HPGMG‐FE yes no PETSC GFLOP/s
• Well written balanced codes• HPCG – MG only 3 levels• HPGMG – MG many levels
Level 1
level 2
18.11.2015:: :: ::V.Marjanovic HPGMG BoF 5
Level 1
����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����
����� ����� ����� ����� ����� ����� ����� ����� Important System Properties
• Compute power (Flop/s)
• Main Memory BW (B/s)
Nodes
………..
• IC BW(B/s)
• IC latency(s)
• IC message rate Network
………..
One number = f(properties)
18.11.2015:: :: ::V.Marjanovic HPGMG BoF 6
����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����
����� ����� ����� ����� ����� ����� ����� ����� Memory/Compute bound – Byte/FLOP 1/2
memorybenchmark kernel Byte/FLOP
HPL DGEMM 12/n = f(n)
HPCG SpMV, SYMGS > 4memory BW
cache
p ,
HPGMG GSRB >1
• Modern hardware ≈ 0.3 Byte/Flop
coree.g E2680v3 has 0.14 Byte/Flop
NEC SX‐ACE 1Byte/Flop
• HPCG & HPGMG kernels are memory bound on modern hardware
18.11.2015:: :: ::V.Marjanovic HPGMG BoF 7
����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����
����� ����� ����� ����� ����� ����� ����� ����� Memory/Compute bound – Byte/FLOP 2/2
18.11.2015:: :: ::V.Marjanovic HPGMG BoF 8
����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����
����� ����� ����� ����� ����� ����� ����� ����� HPL, HPCG, HPGMG core&node
HPCG:
Gflops 2.75x
BW 2 63xBW 2.63x
HPGMG:
Gflops 4.78x
BW 4 77BW 4.77x
HPL
~8x
18.11.2015:: :: ::V.Marjanovic HPGMG BoF 9
����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����
����� ����� ����� ����� ����� ����� ����� ����� HPCG Intel Optimized Version
18.11.2015:: :: ::V.Marjanovic HPGMG BoF 10
����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����
����� ����� ����� ����� ����� ����� ����� ����� HPGMG‐FV NEC‐ACE versus CRAY XC30
Ivy Bridge 5576
NEC SX‐ACE
• 4 cores for 256GFlops4 cores for 256GFlops peak performance
• 1 GHz
• 16 vectore pipes per core• 16 vectore pipes per core
• 32 memory channels for 256GB/s bandwidth, one core or sharablecore or sharable
18.11.2015:: :: ::V.Marjanovic HPGMG BoF 11
����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����
����� ����� ����� ����� ����� ����� ����� ����� Communication HPL
• MPI communicators
• whole range of message sizes
(few bytes < size < 100 MB)(few bytes < size < 100 MB)
• large number of small messages
(fact > 256)
stresses bandwidth, latency and message rate
18.11.2015:: :: ::V.Marjanovic HPGMG BoF 12
����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����
����� ����� ����� ����� ����� ����� ����� ����� Communication HPCG
• small and large messages
(few bytes < size < 512 KB (4 MB))(few bytes < size < 512 KB (4 MB))
• number of messages
(ex.halos max is 26)
stresses latency
18.11.2015:: :: ::V.Marjanovic HPGMG BoF 13
����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����
����� ����� ����� ����� ����� ����� ����� ����� Communication HPGMG‐FV
• MPI communicators
• small and medium messages few (bytes < size < 4 MB)(bytes < size < 4 MB)
• large number of small messages
(> 800 for mpi64)n3
stresses latency and message rate
18.11.2015:: :: ::V.Marjanovic HPGMG BoF 14
����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����
����� ����� ����� ����� ����� ����� ����� ����� Communication HPGMG‐FE
• MPI communicators
• small and medium messages few (bytes < size < 4 MB)(bytes < size < 4 MB)
• large number of small messages
stresses latency and message rate
18.11.2015:: :: ::V.Marjanovic HPGMG BoF 15
����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����
����� ����� ����� ����� ����� ����� ����� ����� HPL HPCG HPGMG Overview
Representation
ComputePower
Memory BW
IC BW
ICLatency
ICRouting
HPL X X
HPCG X X X
HPGMG X
• Potential of overlapping of communication and computation
• What will happened in poor IC ( Data Center, Cloud) ?
18.11.2015:: :: ::V.Marjanovic HPGMG BoF 16
����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����
����� ����� ����� ����� ����� ����� ����� ����� Arbitrary problem size issue• HPL complexity: computational O(n3) communication O(n2)
l i i l ( ) i i ( 2/3)• HPCG,HPGMG complexity: computational O(n) communication O(n2/3)
• Large problem size ‐> computation dominates communicationLarge problem size > computation dominates communication
• Uniform behavior of routines or single dominant routine
• HPL ‐ > DGEMM
• HPCG ‐ > SpMV, SYMGS
• HPGMG ‐> GSRB
18.11.2015:: :: ::V.Marjanovic HPGMG BoF 17
����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����
����� ����� ����� ����� ����� ����� ����� ����� Conclusions
• Stresses memory bandwidth, compute unit and routing
• Representation of real applications
• Arbitrary problem size (weighting or integral as solution)
• Clear rules for benchmarking
18.11.2015:: :: ::V.Marjanovic HPGMG BoF 18