20171109 Amazon EC2 GPUインスタンス最新動向 P3 instance

Amazon EC2 GPUインスタンス祭り

Amazon EC2 GPUインスタンス最新動向

2017/11/9Amazon Web Services Japan

Elastic Compute Cloud(EC2)とGPU

クラウドでGPUを使う理由

Time to Science必要な規模・種類の計算リソースを数分で利⽤可能

Low Cost使っただけの費⽤

Elastic簡単にリソースを増減可能

Globally Accessible世界中の研究者と同じ環境で

コラボレーション可能

Secureデータ暗号化などセキュリティ対策の機能とコンプライアンス

Scalable⼤規模なリソースを

利⽤可能

計算リソースが⾜りない

従来のGPU基盤の課題

GPU環境の運⽤が⾯倒

本当に必要なリソースは予測できない計算リソースが空くまで待つことを強いられる

運⽤の⼿間でモデル開発・改善に注⼒できない電⼒・熱などの管理が⼤変

イノベーションを加速させるには新しいモデルが必要

御社独⾃の差別化に集中

スタートアップ企業のような変⾰スピード

リスクを低減

AWS のグローバルなインフラ16 リージョン – 44 アベイラビリティゾーン– 101 エッジロケーション

Amazon EC2(Elastic Compute Cloud)

• 数分で起動し、1時間ごとの従量課⾦で利⽤可能な仮想マシン• ノード追加・削除、マシンスペック変更も数分で可能• 管理者権限(root/Administrator)で利⽤可能

1任意のゾーンに分散配置可能

リージョン

EC2

アベイラビリティゾーンBアベイラビリティゾーンA

既存のOS/アプリ/ミドルウェアが利⽤可能

HTML5×

開発⾔語フロントUI

×

フレームワーク

OS

AWS インスタンスタイプの概要

M4

汎⽤ Compute最適化

Storage IO最適化

⾼速計算GPU/FPGA

Memory最適化

X1 F1

P3T2

I3 D2

R4

C5

C4

P2

グラフィックス

G3

EG

G2

P3 GPUインスタンスの詳細

© 2017, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Compute GPU インスタンスの主な⽤途機械学習/AI High Performance Computing

⾃然⾔語処理画像・動画認識

⾃動運転リコメンデーション

流体計算⾦融・データ分析

気象予測分⼦動⼒学

GPUインスタンスの変遷

P2

G2

Compute

GraphicsG3

2017

NVIDIA Tesla K80

NVIDIA GRID K2 NVIDIA M60

NVIDIA Volta V100

20162010

CG1

NVIDIA Tesla M2050

2013

P3


P3 は最新世代のNVIDIA GPUを搭載

P3

NVIDIA Roadmap （GTC 2017）


Accelerated Computing インスタンスP3: NVIDIA Volta GPU Compute Instance• 1台のインスタンスに最⼤8個のNVIDIA Tesla V100 GPUを搭載• deep learning, HPCシミュレーション, ⾦融計算, レンダリングなど

G3: NVIDIA Maxwell GPU Graphics (and Compute) Instance• 1台のインスタンスに最⼤4個の NVIDIA M60 GPUとGRID Virtual Workstation機能を搭載• 3Dレンダリング,リモートグラフィックワークステーション,ビデオエンコーディング, VR, 単精度

HPC

P2: NVIDIA Kepler GPU Compute Instance• 1台のインスタンスに最⼤16個の NVIDIA GK210 (8 X K80) GPUを搭載• deep learning, HPCシミュレーション, ⾦融計算, レンダリングなど

G3

P2

P3


• NVIDIA GPU アーキテクチャ:• Kepler > Maxwell > Pascal > Volta

• P2 インスタンス： K80 (Kepler アーキテクチャ)• P3 インスタンス： V100 (Volta アーキテクチャ)

0

20

40

60

80

100

120

140

K80 P100 V100

Mixed/FP16 Perf (TFLOPS)

GPU 性能⽐較

0

2

4

6

8

10

12

14

16

K80 P100 V100

FP32Perf(TFLOPS)

0

1

2

3

4

5

6

7

8

K80 P100 V100

FP64Perf(TFLOPS)

0

1000

2000

3000

4000

5000

6000

K80 P100 V100

Resnet-508GPU(Images/sec)

14X over K80ʼs max perf.

1.7X 2.6X

7.2X

FP32


P3 インスタンスの仕様

InstanceSize GPU数 Accelerator(V100)

GPUPeertoPeer

GPUメモリ(GB)

vCPUメモリ(GB)

ネットワーク帯域

EBS帯域

P3.2xlarge 1 1 No 16 8 61 最⼤10Gbps 1.7Gbps

P3.8xlarge 4 4 NVLink 64 32 244 10Gbps 7Gbps


• P2 はK80、P3はV100• P2.16xlarge は8枚の K80 (16 GPU)




GPUPeertoPeer

GPUメモリ(GB)

vCPUメモリ(GB)


EBS帯域




• P3 はGPU間のデータ転送にNVLinkを利⽤可能• P2 はGPU間のデータ転送に PCI Expressを経由




GPUPeertoPeer

GPUメモリ(GB)

vCPUメモリ(GB)


EBS帯域




• P3.16xlargeは25Gbpsのネットワーク帯域• EBSとの帯域もP2に⽐較し40% 向上

nvidia-smi


P3.16xlarge P2.16xlarge P3GPU性能比

GPU数 8(V100) 16(GK210) -

GPUカード数 8(V100) 8(K80)

GPU– PeertoPeer NVLink – 300GB/s PCI-Express - 32GB/s 9.4倍

CPUtoGPUスループット(GPU単体） 8GB/s 1GB/s 8倍

CPUtoGPUスループット（インスタンス全体)

64GB/sPCIex16Gen3 x4

16GB/sPCIe Gen3 x1

4倍

Peer-to-Peer ⽐較（P3 vs P2）

P2とP3のp2p帯域⽐較P2.8xlarge(8GPUPCIe)

P3.16xlarge(8GPUNVLink)

ソース：/usr/local/cuda/samples/1_Utilities/p2pBandwidthLatencyTestNVIDIADriver384.81,CUDA9

すぐにGPUインスタンスを利用するには

GPUインスタンスでGPUを使うには標準のAMIを起動し、NVIDIADriverやCUDAを”普通に”インストールすれば利⽤可能ですが。。

AMI

NVIDIADriver

NVIDIACUDA

GPUフレームワークGPUアプリケーション

AWSMarketplace

•各種ソフトウェアをセットアップ済みのOSイメージ(AMI)をラインアップ• CUDA⼊りのAMIも多数

https://aws.amazon.com/marketplace/

AWS Deep Learning AMI• EC2上で深層学習の環境を簡単に利⽤可能•主なフレームワークやツールをプリインストール済み• CUDA8版AMIに加え、P3に合わせたCUDA9のAMIを提供

https://aws.amazon.com/jp/amazon-ai/amis/https://aws.amazon.com/jp/blogs/ai/announcing-new-aws-deep-learning-ami-for-amazon-ec2-p3-instances/#more-2093

NVIDIA製AMI

https://aws.amazon.com/marketplace/seller-profile?id=c568fe05-e33b-411c-b0ab-047218431da9

• WindowsServer+Driver• CUDA7.5+AmazonLinux• DIGITS4+Ubuntu14.04• etc.

NVIDIA VoltaDeepLearningAMI

https://aws.amazon.com/marketplace/pp/B076K31M1Shttps://docs.nvidia.com/deeplearning/ngc/ngc-aws-setup-guide/launching-vm-instance-from-console.html

CUDA9,nvidia-dockerインストール済みのAMI

nvidia-dockerもインストール済みで、起動直後にNVIDIAGPUCloud上のDockerリポジトリからDockerコンテナを起動可能

Spotインスタンスで安く使う

AWS BatchでP3を活⽤

https://aws.amazon.com/jp/blogs/news/deep-learning-on-aws-batch/http://docs.aws.amazon.com/batch/latest/userguide/batch-gpu-ami.html

AWS Batchで管理

処理を依頼（ジョブをサブミット）

スケジュール実⾏学習率 0.01

学習率 0.02

学習率 0.03

• ECSエージェント，cuDNN等設定済みの AMIを作成• Dockerリポジトリの任意のコンテナを使⽤• キューに積んだジョブをコンテナ上で実⾏

キューの状況に応じてインスタンスを⾃動で増減

クラウドGPUとコミュニティ/イベント

JAWS-UG (Japan AWS User Group)

https://jawsug-ai.connpass.com/ https://jawsug-hpc.connpass.com/

AI⽀部 HPC⽀部

JAWS-UGHPC⽀部• AWS上でのハンズオンイベントや勉強会を開催

• AWS上でcfnclusterを使ってHPCクラスタを構築• EC2上でOpenFOAMを流す• Lambdaで流体計算や並列計算

• 前回は10/27に開催• NVIDIA佐々⽊様がV100最新情報をご紹介

https://jawsug-hpc.connpass.com/

JAWS-UGAI⽀部• AWS上でのハンズオンイベントや勉強会を開催

• AWS上でTensorflowを使いMNISTを動かすハンズオンを実施• ⼿順をQiitaで公開(http://qiita.com/ornew/items/acb2d51b6d6e228cbbd0

• 次回はGTC翌⽇の12/14を予定

https://jawsug-ai.connpass.com/

TheDeepLearningRevolutionEye,Robot:ComputerVisionandAutonomousRoboticsExploitingthePowerofLanguageReducingSupervision:MakingMorewithLessLearningWheretoLookinVideoLook,Listen,Learn:TheIntersectionofVisionandSound

https://aws.amazon.com/jp/blogs/ai/your-guide-to-machine-learning-at-reinvent-2017/

12/12-13GTCJapan

AWSもブース出展・登壇します• 12/12 Deep Learning with Apache MXNet and Gluon• 12/12 TENSORFLOW, MXNET, NVIDIA DOCKER を使ったディープラーニングのワークフロー• 12/13 AI Made Simplehttps://www.gputechconf.jp/sessions.html

Technology

20171109 Amazon EC2 GPUインスタンス最新動向 P3 instance