18
PCCC20 Symposium 14 th Dec 2020 HPC/AI Network Product Marketing Masaki Iwatani HPC/AI の技術を加速する NVIDIA クノロジーのご紹介と将来動向 データセンターを加速するネットワークソリューション~

HPC/AIの技術を加速するNVIDIAテ クノロジーのご紹介と将来動向

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: HPC/AIの技術を加速するNVIDIAテ クノロジーのご紹介と将来動向

PCCC20 Symposium 14th Dec 2020

HPC/AI Network Product Marketing

Masaki Iwatani

HPC/AIの技術を加速するNVIDIAテクノロジーのご紹介と将来動向

~データセンターを加速するネットワークソリューション~

Page 2: HPC/AIの技術を加速するNVIDIAテ クノロジーのご紹介と将来動向

2

NVIDIAによるMELLANOXの買収が完了

2020年4月27日に、NVIDIAによるMellanoxの買収が完了しました

製品ラインナップや、今後の製品開発の変更はありません

Mellanoxは、NVIDIA Mellanox® ブランドになります

Mellanoxは、ネットワーク部門として引き継がれています

GTC2020 Keynoteで、Mellanox製品を真っ先に発表するジェンスン ファン(CEO)

写真の製品は、NVIDIA Mellanox SN4700 イーサネットスイッチ

これまでもこれからもMellanoxをよろしくお願い申し上げます

Page 3: HPC/AIの技術を加速するNVIDIAテ クノロジーのご紹介と将来動向

3NVIDIA CONFIDENTIAL. DO NOT DISTRIBUTE.

IN-NETWORKによるスーパーコンピューティングの加速化

SUPERCOMPUTER

スパコン

NET GPU

CPU

INFINIBAND

Software-Defined

Hardware-Accelerated

In-Network Computing

Pre-configured EnginesProgrammable Engines

データセンターは、コンピューティングユニットの一つ

高速な高いセキュリティの通信が重要

Page 4: HPC/AIの技術を加速するNVIDIAテ クノロジーのご紹介と将来動向

4NVIDIA CONFIDENTIAL. DO NOT DISTRIBUTE.

IN-NETWORKコンピューティングがスパコンを加速

INFINIBAND

Software-Defined

Hardware-Accelerated

In-Network Computing

Pre-configured Engines

Programmable Engines

新技術

アクセラレーション

スループット性能向上

DPU cores

Data pre-processing

User-defined algorithms

SHARP (data reductions)

MPI Tag-Matching

Self Healing Network (resiliency)

NVMe over fabric

Data security and tenant isolations

200G end-to-end, extremely low latency

RDMA and GPUDirect

Enhanced Adaptive Routing and Congestion Control

Smart topologies

Page 5: HPC/AIの技術を加速するNVIDIAテ クノロジーのご紹介と将来動向

5NVIDIA CONFIDENTIAL. DO NOT DISTRIBUTE.

IN-NETWORK COMPUTINGの技術で大きな性能向上を実現

INFINIBAND

Software-Defined

Hardware-Accelerated

In-Network Computing

Pre-configured Engines

Programmable Engines

SHARP

MPI Tag-Matching

GPU Direct

7倍

1.8倍

10倍

MPI with Hardware Tag Matching

+ TM

Page 6: HPC/AIの技術を加速するNVIDIAテ クノロジーのご紹介と将来動向

6NVIDIA CONFIDENTIAL. DO NOT DISTRIBUTE.

HDR 200G INFINIBANDが次世代スパコンで続々採用に

8K HDR NodesDragonfly+ Topology

9 PFlops3K HDR NodesDragonfly+ Topology

19.5 PetaFLOPS2.5K HDR NodesDragonfly+ and Fat Tree

35.5 PFlops2K HDR NodesFat-Tree Topology

23 PFlops5.6K HDR NodesDragonfly+ Topology

HPC/AI CloudHDR InfiniBand

HDR InfiniBandSupercomputers

23.5 PFlops8K HDR NodesFat-Tree Topology

27.6 PFlops3K HDR NodesFat-Tree Topology

16 PFlops3K HDR NodesDragonfly+ Topology

HDR 200G InfiniBandが次世代スパコンで続々採用に

SC20のTop100の60%の環境で採用!!

Page 7: HPC/AIの技術を加速するNVIDIAテ クノロジーのご紹介と将来動向

7

世界のセンターで採用されるInfiniBand最新版 NDR(400Gb/s)

DPU LinkXConnectX-7 IB Switch

400G/s NDR

200G/s NDR200

PCIe Gen5 & Gen4をサポート

In-Network Computing

Programmable Datapath

400G NDR,

200G NDR200

16 Arm Cores

DDR5, PCIe Gen5 & Gen4

AI Acceleration Engines

In-Network Computing

Programmable Datapath

64ポート 400G NDR

128ポート 200G NDR200

In-Network Computing

M: 2048ポート 400G

(4096 x 200G)

M: 1024-ポート400G

(2048 x 200G)

カッパーケーブル

アクティブなカッパーケーブル

光トランシーバ

次世代型の最新InfiniBandアーキテクチャー

Page 8: HPC/AIの技術を加速するNVIDIAテ クノロジーのご紹介と将来動向

8

NDR 400G INFINIBAND

HDRの2倍のデータスループット

400 Gigabit per Second

4 倍のMPI 性能

New MPI All-to-All In-Network Computing

Acceleration Engine

5倍のスイッチ システム容量

>1.6 Petabit per Second (Bi-Directional)

with 2048 NDR Ports Switch System

6.5x 高い拡張性

百万nodes を3 ホップで接続可能

(Dragonfly+ ネットワークトポロジー)

32 倍の AI アクセラレーション

SHARP In-Network Computing Technology

MPI性能データスループット性能 消費電力・設置スペース削減

EXASCALE大規模環境対応 ACCELERATED DEEP LEARNING

様々な性能値の世界的な記録を達成

Page 9: HPC/AIの技術を加速するNVIDIAテ クノロジーのご紹介と将来動向

9NVIDIA CONFIDENTIAL. DO NOT DISTRIBUTE.

NDR InfiniBand ケーブル概要

Switch

64 ports of NDR (4x100Gb/s PAM4)

32 OSFP connectors – 2 ports per connector

Switch-to-HCA

OSFP to 2x OSFP

or

OSFP to 4x OSFP

Images for ilustration only

Switch-to-switch

Optical cables

Transceivers two MPOs

HCA

NDR and NDR200 OSFP connectors

NDRを2本の200Gb/sに分割

NDRを4本の100Gb/sに分割

スイッチ間用のポートが1/2に削減

消費電力・省スペースかつ希望のスループットでの柔軟な構成が可能

Page 10: HPC/AIの技術を加速するNVIDIAテ クノロジーのご紹介と将来動向

10

INFINIBANDの拡張ソリューション

SKYWAYInfiniBand to Ethernet Gateway

8 x 100G / 200G ports InfiniBand

8 x 100G / 200G ports Ethernet

METROX-2Extending InfiniBand to

40km Reach

UFM CYBER-AICyber Intelligence and Analytics

Management and Monitoring

最大40KmのIB

ネットワークが構成可能

InfiniBandとEthernet

の混在環境の構築が可能

AI学習機能による

ネットワーク予兆管理を実現

様々なニーズに対応可能なInfiniBandソリューション

Page 11: HPC/AIの技術を加速するNVIDIAテ クノロジーのご紹介と将来動向

11NVIDIA CONFIDENTIAL. DO NOT DISTRIBUTE.

INFINIBANDは最高の性能とROIを実現します

➢ 高データスループット、非常に低い待ち時間、高いメッセージレート、RDMA、GPUダイレクトRDMA、GPUダイレクトストレージ

➢ 高度な適応ルーティング、輻輳制御、およびサービス品質を高いネットワーク効率化

➢ In-Network Computing アプリケーションのパフォーマンスとスケーラビリティを加速するためのアクセラレーションエンジン

➢ 最高のネットワーク復元力を実現するセルフヒーリング ネットワーク

➢ 標準 - 下位互換性と上位互換性 – データセンターへの投資を保護

➢ Skyway 高速イーサネットゲートウェイ, METROX-2で40 Kmまでの長距離InfiniBand接続

➢ UFM Cyber-AIによるインテリジェンスのあるネットワーク監視

InfiniBand

NVMe / Storage

InfiniBand High Speed Network

Advanced In-Network Computing

Extremely Low Latency

Ethernet

NVMe / Storage

High Speed Gateway

InfiniBand to Ethernet

Compute Servers

InfiniBand

Long-Haul InfiniBandUFM Cyber-AI

METROX-2

SKYWAY

Page 12: HPC/AIの技術を加速するNVIDIAテ クノロジーのご紹介と将来動向

12

DPUクラウドに対応した

データプロセッシングユニット

Page 13: HPC/AIの技術を加速するNVIDIAテ クノロジーのご紹介と将来動向

13

BLUEFIELD DPU – 通信機能オフロード概要従来CPUが担っていたネットワーク機能をNIC側にオフロード

BLUEFIELD-2

ConnectX-6 DX + ARM

Page 14: HPC/AIの技術を加速するNVIDIAテ クノロジーのご紹介と将来動向

14

ソフトウェアデファイン、ハードウェアアクセラレーション

Software Defined Security

Distributed

NG Firewall

IDS/IPS DDOS

Prevention

Software Defined Storage

vRouter vSwitch VMs &

Containers

Software Defined Networking

NVMe-oF

Storage Direct

Data

Encryption

DeDup Micro

Segmentation

Telco/NFV Elastic

Storage

Root of

Trust

CompressionNAT/Load

Balancer

ハードウェアとソフトウェアの使用により性能劣化することなくオフロードを実現

Page 15: HPC/AIの技術を加速するNVIDIAテ クノロジーのご紹介と将来動向

15

➢ BlueField DPUs用の開発キット

➢ Open-source APIs – DPDK, SPDK, P4に対応

➢ 認定リファレンスアプリ&サードパーティソリューション

➢ マルチOSをサポート

NVIDIA DOCAデータセンターインフラストラクチャオンチップアーキテクチャ

StorageSPDK

SecurityDPDK

NetworkingDPDK / P4

DOCA SDK

INFRASTRUCTURE APPLICATIONS

ASAP2 CRYPTO RoT RDMASNAP

ManagementTelemetry

Infrastructure

Management

Software-defined

StorageSoftware-defined

Security

Software-defined

Networking

Page 16: HPC/AIの技術を加速するNVIDIAテ クノロジーのご紹介と将来動向

16

NEXT GENERATION CLOUD FOUNDATION ARCHITECTURE

Today’s Environment

Performance NIC

Network and

Security:

NSX Svcs

Compute

Hypervisor

Storage:

VSAN Data

ESXi

Host

ManagementBare Metal

Linux & Windows

Isolation Layer

Today’s Environment

Network and

Security:

NSX Svcs

Compute

Hypervisor

Storage:

VSAN Data

ESXi

Host

Management

BlueField DPU

Project Monterey

OR

仮想環境の管理、ストレージ、セキュリティ機能のオフロード

ESXiの機能DPUにオフロード

Page 17: HPC/AIの技術を加速するNVIDIAテ クノロジーのご紹介と将来動向

17

これからも最高の性能と拡張性を提供します

200G HDR

400G NDR

800G XDR

これからも最高の性能と拡張性を提供します

SHARP SHIELD

DPU

HPC-X

Page 18: HPC/AIの技術を加速するNVIDIAテ クノロジーのご紹介と将来動向

Thank You