Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
1© 2018 Mellanox Technologies | Confidential
Sept 2018 – Darren J. Harkins
High Performance InterconnectMapping Applications to the Cluster :- Understanding the choices for Topology with Scaling and Processor
7© 2018 Mellanox Technologies | Confidential
Linking boxes
Adaptor
Adaptor
Adaptor
Adaptor
Adaptor
Adaptor
8© 2018 Mellanox Technologies | Confidential
Linking more boxes
Switch
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
9© 2018 Mellanox Technologies | Confidential
Linking more boxes – Non-blocking or 1:1
Switch
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Switch
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Switch
10© 2018 Mellanox Technologies | Confidential
Linking more boxes – Non-blocking 36 ports
Switch
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Switch
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Switch
11© 2018 Mellanox Technologies | Confidential
Linking more boxes – Non-blocking or 2:1
Switch
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Switch
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Switch
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Switch
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
12© 2018 Mellanox Technologies | Confidential
Linking more boxes – 2:1 – Island of 24
Switch
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Switch
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Switch
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Switch
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
13© 2018 Mellanox Technologies | Confidential
Linking more boxes – Non-blocking 36 ports
Switch
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Switch
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Switch
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Switch
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
Ada
pto
r
14© 2018 Mellanox Technologies | Confidential
Variety of Topologies
Torus DragonflyFat TreeHypercube
15© 2018 Mellanox Technologies | Confidential
Linking lots of boxes – 3D-Torus
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
16© 2018 Mellanox Technologies | Confidential
Linking lots of boxes – Hyper Cube
Switch Switch
Switch Switch
Switch Switch
Switch Switch
Switch Switch
Switch Switch
Switch Switch
Switch Switch
Switch Switch
Switch Switch
Switch Switch
Switch Switch
17© 2018 Mellanox Technologies | Confidential
Linking lots of boxes – Fat TreeSwitch Switch
Switch Switch Switch Switch
Switch Switch Switch Switch Switch Switch Switch Switch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
18© 2018 Mellanox Technologies | Confidential
Linking lots of boxes – DragonFly+
Switch Switch Switch Switch SwitchSwitch
Switch
Switch
Switch
Switch
Switch
Switch
Switch Switch Switch Switch SwitchSwitch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch
Switch Switch Switch Switch SwitchSwitch
Switch Switch Switch Switch SwitchSwitch
19© 2018 Mellanox Technologies | Confidential
Linking different boxes
X86AMD,
Other
ARM(Advanced RISC
Machine)
Lots of
People
FPGA(Fiel d Programm able
Gate A rray)
Xilinx, Altera
GPU
AMD, NVidia
TPU
POWERIBM,
OpenPOWER
Adaptor Adaptor Adaptor Adaptor Adaptor Adaptor
Adaptor Adaptor Adaptor Adaptor Adaptor Adaptor
X86AMD,
Other
ARM(Advanced RISC
Machine)
Lots of
People
FPGA(Fiel d Programm able
Gate A rray)
Xilinx, Altera
GPU
AMD, NVidia
TPU
POWERIBM,
OpenPOWER
Switch
20© 2018 Mellanox Technologies | Confidential
Transporting data between boxes (TCP/IP)
Application
Transport
Internet
Link
ProcessorMemory
Adaptor
Switch
Application
Transport
Internet
Link
ProcessorMemory
Adaptor
Switch
21© 2018 Mellanox Technologies | Confidential
Transporting data between boxes (RDMA)
RDMA over InfiniBand or
Ethernet
KE
RN
EL
HA
RD
WA
RE
US
ER
RACK 1
OS
NIC Buffer 1
Application
1Application
2
OS
Buffer 1
NICBuffer 1
TCP/IP
RACK 2
HCA HCA
Buffer 1Buffer 1
Buffer 1
Buffer 1
Buffer 1
24© 2018 Mellanox Technologies | Confidential
Middleware – keeping programming simple
Adaptor
Switch
Processor
Memory
Adaptor
Switch
Processor
Memory
App
licatio
n
MP
I
RDMA
InfiniBand
App
licatio
n
MP
IRDMA
InfiniBand
28© 2018 Mellanox Technologies | Confidential
Middleware – MPI for AI
Framework (Torch, TensorFlow, Caffe, CNTK, Paddle, .)
MPI
TCP/IP
Interconnect
RDMACuda
rCUDA
30© 2018 Mellanox Technologies | Confidential
Scalability – too long on the Interconnect
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Node
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
31© 2018 Mellanox Technologies | Confidential
Scalability – Simplifying one to many
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Node
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
32© 2018 Mellanox Technologies | Confidential
Scalability – Compute in the interconnect
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Sw
itch
Node
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
NodeNode
Collective tree created to nodes
Nodes send data up the tree to leaf switches,
where collectives operation is run
Leaf switches send data up the tree to spine,
where collectives operation is run
Result is sent to egress leaf
Result arrives at Requester node where no
operation is needed
34© 2018 Mellanox Technologies | Confidential
Storage : More than just xPUs on the Interconnect
100usec 200usec 6000usec
25
usec
1 us
20 usec
10
usec
Mechanical Disks
(~6msec)
Software Disk
With SSDs
(~0.5msec)
With Fast Network
(~0.2msec)
With RDMA
(~0.05msec)
Network
100usec 200usec
200usec25
usec
25
usec
180 IOPs
3000 IOPs
4300 IOPs
20,000 IOPs
Synchronous (back to back)
With Full OS Bypass &
NV-Dimm/Cache
(~0.007msec)
1 us
6
us
3
us
>100,000 IOPs
Synchronous
41© 2018 Mellanox Technologies | Confidential
Questions?
42© 2018 Mellanox Technologies | Confidential
Darren J. Harkins
Staff Systems Engineer
+44 7944 786208
Thank You
43© 2018 Mellanox Technologies | Confidential
Thank You