18
HPC Benchmarking Vladimir Marjanovic, Colin W. Glass, Jose Gracia 18.11.2015 :: :: :: V.Marjanovic HPGMG BoF

HPC Benchmarks Profiling HPGMG Bof · ˜˜˜˜˜ ˜˜˜˜˜ ˜˜˜˜˜ ˜˜˜˜˜ ˜˜˜˜˜ ˜˜˜˜˜ ˜˜˜˜˜ ˜˜˜˜˜ Memory/Compute bound – Byte/FLOP 1/2 benchmark kernel

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����

����� ����� ����� ����� ����� ����� ����� �����

HPC Benchmarking

Vladimir Marjanovic, Colin W. Glass, Jose Gracia

18.11.2015:: :: ::V.Marjanovic HPGMG BoF

����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����

����� ����� ����� ����� ����� ����� ����� ����� Goals of TOP500 HPC Benchmarking

• Ranking  supercomputers

• One number all properties 

18.11.2015:: :: ::V.Marjanovic HPGMG BoF 2

����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����

����� ����� ����� ����� ����� ����� ����� ����� HPC Benchmarking Approaches

• Two approaches:

– single application (kernel) : 

HPL, HPCG, HPGMG

– many applications (kernels): 

HPGMG, NAS benchmark, HPC Challenge, MPI SPEC 2007 etc

18.11.2015:: :: ::V.Marjanovic HPGMG BoF 3

����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����

����� ����� ����� ����� ����� ����� ����� ����� Real App Representation 

• HPL ‐ direct solver  O(n3) 

• HPCG, HPGMG(FV, FE) – iterative solver O(n)

• HPL is n2 times slower than HPCG and HPGMG 

18.11.2015:: :: ::V.Marjanovic HPGMG BoF 4

����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����

����� ����� ����� ����� ����� ����� ����� ����� HPC Reference Codes

MPI OpenMP External lib Metric

HPL yes BLAS MT BLAS GFLOP/s

HPCG yes SpMV no GFLOP/s

HPGMG‐FV yes yes no DoF/s

HPGMG‐FE yes no PETSC GFLOP/s

• Well written balanced codes• HPCG – MG only 3 levels• HPGMG – MG many levels

Level 1

level 2

18.11.2015:: :: ::V.Marjanovic HPGMG BoF 5

Level 1

����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����

����� ����� ����� ����� ����� ����� ����� ����� Important System Properties

• Compute power (Flop/s)

• Main Memory BW (B/s)

Nodes

………..

• IC BW(B/s)

• IC latency(s)

• IC message rate Network

………..

One number = f(properties)

18.11.2015:: :: ::V.Marjanovic HPGMG BoF 6

����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����

����� ����� ����� ����� ����� ����� ����� ����� Memory/Compute bound – Byte/FLOP 1/2

memorybenchmark kernel Byte/FLOP

HPL DGEMM 12/n = f(n)

HPCG SpMV, SYMGS > 4memory BW

cache

p ,

HPGMG GSRB >1

• Modern hardware ≈ 0.3 Byte/Flop

coree.g E2680v3 has 0.14 Byte/Flop

NEC SX‐ACE    1Byte/Flop

• HPCG & HPGMG kernels are memory bound on modern hardware

18.11.2015:: :: ::V.Marjanovic HPGMG BoF 7

����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����

����� ����� ����� ����� ����� ����� ����� ����� Memory/Compute bound – Byte/FLOP 2/2

18.11.2015:: :: ::V.Marjanovic HPGMG BoF 8

����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����

����� ����� ����� ����� ����� ����� ����� ����� HPL, HPCG, HPGMG  core&node

HPCG:

Gflops 2.75x

BW 2 63xBW 2.63x

HPGMG:

Gflops 4.78x

BW 4 77BW 4.77x

HPL

~8x

18.11.2015:: :: ::V.Marjanovic HPGMG BoF 9

����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����

����� ����� ����� ����� ����� ����� ����� ����� HPCG Intel Optimized Version 

18.11.2015:: :: ::V.Marjanovic HPGMG BoF 10

����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����

����� ����� ����� ����� ����� ����� ����� ����� HPGMG‐FV NEC‐ACE versus CRAY XC30

Ivy Bridge 5576

NEC SX‐ACE

• 4 cores for 256GFlops4 cores for 256GFlops peak performance

• 1 GHz

• 16 vectore pipes per core• 16 vectore pipes per core

• 32 memory channels for 256GB/s bandwidth, one core or sharablecore or sharable

18.11.2015:: :: ::V.Marjanovic HPGMG BoF 11

����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����

����� ����� ����� ����� ����� ����� ����� ����� Communication  HPL

• MPI communicators

• whole range of message sizes

(few bytes < size < 100 MB)(few bytes < size < 100 MB)

• large number of small messages 

(fact > 256)

stresses bandwidth, latency and message rate

18.11.2015:: :: ::V.Marjanovic HPGMG BoF 12

����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����

����� ����� ����� ����� ����� ����� ����� ����� Communication HPCG

• small and large messages 

(few bytes < size < 512 KB (4 MB))(few bytes < size < 512 KB (4 MB))

• number of messages 

(ex.halos  max is 26)

stresses latency

18.11.2015:: :: ::V.Marjanovic HPGMG BoF 13

����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����

����� ����� ����� ����� ����� ����� ����� ����� Communication HPGMG‐FV

• MPI communicators

• small and medium messages  few (bytes < size < 4 MB)(bytes < size < 4 MB)

• large number of small messages

(> 800 for mpi64)n3

stresses latency and message rate 

18.11.2015:: :: ::V.Marjanovic HPGMG BoF 14

����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����

����� ����� ����� ����� ����� ����� ����� ����� Communication HPGMG‐FE

• MPI communicators

• small and medium messages  few (bytes < size < 4 MB)(bytes < size < 4 MB)

• large number of small messages

stresses latency and message rate 

18.11.2015:: :: ::V.Marjanovic HPGMG BoF 15

����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����

����� ����� ����� ����� ����� ����� ����� ����� HPL HPCG HPGMG Overview

Representation

ComputePower

Memory BW

IC BW

ICLatency

ICRouting

HPL X X

HPCG X X X

HPGMG X

• Potential of overlapping of communication and computation

• What will happened in poor IC ( Data Center, Cloud) ?

18.11.2015:: :: ::V.Marjanovic HPGMG BoF 16

����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����

����� ����� ����� ����� ����� ����� ����� ����� Arbitrary problem size issue• HPL complexity: computational O(n3) communication O(n2)

l i i l ( ) i i ( 2/3)• HPCG,HPGMG complexity: computational O(n) communication O(n2/3)

• Large problem size ‐> computation dominates communicationLarge problem size  > computation dominates communication

• Uniform behavior of routines or single dominant routine

• HPL ‐ > DGEMM

• HPCG ‐ > SpMV, SYMGS

• HPGMG ‐> GSRB

18.11.2015:: :: ::V.Marjanovic HPGMG BoF 17

����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� ����� �����

����� ����� ����� ����� ����� ����� ����� ����� Conclusions 

• Stresses memory bandwidth, compute unit and routing

• Representation of real applications

• Arbitrary problem size (weighting or integral as solution)

• Clear rules for benchmarking

18.11.2015:: :: ::V.Marjanovic HPGMG BoF 18