IEEE ITSS Nagoya Chapter NVIDIA

エヌビディア合同会社ディープラーニング部部長井﨑武士

NVIDIA GPUが加速するディープラーニングと最新事例

創業1993年

共同創立者兼CEO ジェンスン・フアン（Jen-Hsun Huang）

1999年 NASDAQに上場（NVDA）

1999年にGPUを発明その後の累計出荷台数は10億個以上

2015年度の売上高は46億8,000万ドル

社員は世界全体で9,100人

約7,300件の特許を保有

本社は米国カリフォルニア州サンタクララ

自動車HPC&Cloudエンタープライズグラフィックスゲーミング

GEFORCE

SHIELDQUADRO

QUADRO VCA

Tesla

GRID

JETSON

DRIVE

インテリジェントマシン

広がるGPUコンピューティング2008 2016

15万CUDA Downloads

4,000Academic Papers

60Universities

Teaching

77Supercomputing

Teraflops

3700万CUDA GPUs

27CUDA Apps

350万 CUDA Downloads

400 CUDA Apps

950 Universities Teaching

77,500 Academic Papers

77,000 Supercomputing Teraflops

6億3800万 CUDA GPUs

Deep Learning

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

2009 2010 2011 2012 2013 2014 2015 2016

ディープラーニングの目覚しい進化

Baidu の Deep Speech 2人間を超える

多くのディープラーニングフレームワークが発表

IMAGENET正答率

従来 CV 手法ディープラーニング

DeepMindのAlphaGoが囲碁で世界チャンピオンを越える

トヨタ自動車が人工知能研究所に1200億円投資

Atomwiseがエボラウィルスの感染力を低減する可能性のある2つの新薬を開発

UCバークレーが作業を自ら学ぶロボットを開発

新たなコンピューティングモデル

従来のコンピュータビジョン

特定領域の専門家が特徴検出を設計品質 = アルゴリズムのパッチワークコンピュータビジョンの専門家と時間が必要

ディープラーニングの物体検出

大量のデータからDNNが特徴を学習品質 = データ & 学習手法大量のデータと演算能力が必要

木

猫

犬

ディープラーニングソフトウェア

“亀”

フォワードプロパゲーション

“亀” から “犬” へ計算の重み付けを更新

バックワードプロパゲーション

学習済みモデル

“猫”

反復

トレーニング

推論

様々な分野でディープラーニングを応用

インターネットとクラウド

画像分類音声認識言語翻訳言語処理感情分析推薦

メディアとエンターテイメント

字幕ビデオ検索

リアルタイム翻訳

機械の自動化

歩行者検出白線のトラッキング信号機の認識

セキュリティと防衛

顔検出ビデオ監視衛星画像

医学と生物学

癌細胞の検出糖尿病のランク付け

創薬

なぜGPUがディープラーニングに向いているか

ディープラーニングを加速する3つの要因

“The GPU is the workhorse of modern A.I.”

ビッグデータ GPUDNN

典型的なネットワーク例多量なトレーニングデータと多数の行列演算

目的顔認識

トレーニングデータ1,000万～1億イメージ

ネットワークアーキテクチャ10 層10 億パラメータ

ラーニングアルゴリズム30 エクサフロップスの計算量GPU を利用して30日

CNN: Convolution neural networkLeNet5 [LeCun et al.,1998]

FULL CONNECTION

Forward

Layer 1 Layer 2 Layer 3 Layer 4

FULL connection

𝑦𝑦 𝑖𝑖 = 𝐹𝐹 �𝑗𝑗

(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥 𝑗𝑗 )

x[N] y[M]w[N][M]

FULL connection

x[N] y[M]w[N][M]

x =

w[N][M] x[N] y[M]

Matrix Vector



メモリバンド幅で性能が決まる

Xeon E5-2690v3 Tesla M40

68GB/s 288 GB/s

FULL connection (Mini-BATCH)

x[N] y[M]w[N][M]

x =

w[N][M] x[N] y[M]

Matrix Vector



FULL connection (Mini-BATCH)

x[K][N] y[K][M]w[N][M]

x =

w[N][M] x[K][N] y[K][M]

Matrix Matrix

高い演算能力を発揮できる

𝑦𝑦[𝑘𝑘] 𝑖𝑖 = 𝐹𝐹 �𝑗𝑗

(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥[𝑘𝑘] 𝑗𝑗 )Xeon E5-2690v3 Tesla M40

0.88 TFLOPS 7.0 TFLOPS

CNN: Convolution neural network

LeNet5 [LeCun et al.,1998]

CONVOLUTIONs

Output feature maps

Input feature map(s)

CONVOLUTIONs

Input feature maps

Output feature maps

CONVOLUTIONs

Direct Convolution- 膨大な組み合わせ

- それぞれ向けに最適化するのは困難

FFT- メモリ負荷が高い

- 柔軟性が低い

Matrix Multiply

Output feature maps

Input feature map(s)

CONVOLUTIONs

I0 I1 I2

I3 I4 I5

I6 I7 I8

F0 F1

F2 F3

InputFilter

O0 O1

O2 O3

Output

CONVOLUTIONs

I0 I1 I2

I3 I4 I5

I6 I7 I8

F0 F1

F2 F3

Input data

Filter data

F0 F1 F2 F3

I0

I1

I3

I4

I1

I2

I4

I5

I3

I4

I6

I7

I4

I5

I7

I8

Expanded input data

Output data

CONVOLUTIONs

I0 I1 I2

I3 I4 I5

I6 I7 I8

F0 F1

F2 F3

Input data

Filter data

F0 F1 F2 F3

F0 F1

F2 F3

F0 F1 F2 F3

I0

I1

I3

I4

I1

I2

I4

I5

I3

I4

I6

I7

I4

I5

I7

I8

Expanded input data

Output data

CONVOLUTIONs

I0 I1 I2

I3 I4 I5

I6 I7 I8

F0 F1

F2 F3

Input data

Filter data

F0 F1 F2 F3G0 G1 G2 G3

J0

J1

J3

J4

J1

J2

J4

J5

J3

J4

J6

J7

J4

J5

J7

J8

J0 J1 J2

J3 J4 J5

J6 J7 J8

I0

I1

I3

I4

I1

I2

I4

I5

I3

I4

I6

I7

I4

I5

I7

I8

G0 G1

G2 G3

F0 F1

F2 F3

G0 G1

G2 G3

F0 F1 F2 F3G0 G1 G2 G3

Output data

行列演算のサイズ (lenet5)

LeNet5 [LeCun et al.,1998]

OutputsFilter

(Expanded)Inputs

16

100 * batch size

150

150

行列演算のサイズ (googlenet)

GoogLeNet [Szegedy et al.,2014]

OutputsFilter

(Expanded)Inputs

192

3136 * batch size

576

576

NVIDIA TESLA GPUによる機械学習の革命

GOOGLE BRAIN APPLICATION – DEEP LEARNING

TESLA導入前 TESLA導入後

コスト $5,000K $200K

サーバー数 1,000 サーバー 16 Tesla サーバー

消費電力 600 KW 4 KW

性能 1x 6x

学習と推論プラットフォームワークステーションサーバー

NVIDIA Tesla NVIDIA TEGRA

学習

推論

NVIDIA Tesla/DGX-1

オンラインオフライン

X

TESLA M40ディープラーニングに向けた最速アクセラレータ

0 1 2 3 4 5

GPU Server with4x TESLA M40

Dual CPU Server

学習時間を13倍高速化

Number of Days

CUDA コア数 3072

ピーク単精度性能 7 TFLOPS

GDDR5 メモリ 12 GB/24 GB

メモリ帯域 288 GB/s

消費電力 250W

Reduce Training Time from 5 Days to less than 10 Hours

Note: Caffe benchmark with AlexNet, training 1.3M images with 90 epochsCPU server uses 2x Xeon E5-2699v3 CPU, 128GB System Memory, Ubuntu 14.04

シングルGPUで最高の単精度演算性能

32

TESLA M4最高のスループットを持つ

ハイパースケールアクセラレータ

CUDA コア数 1024

ピーク単精度性能 2.2 TFLOPS

GDDR5 メモリ 4 GB

メモリ帯域 88 GB/s

形状 PCIe Low Profile

消費電力 50 – 75 W

Video Processing

4x

Image Processing

5x

Video Transcode

2x

Machine Learning Inference

2x

H.264 & H.265, SD & HD

Stabilization and Enhancements

Resize, Filter, Search, Auto-Enhance

Preliminary specifications. Subject to change.推論用途に最適

33

TEGRA JETSON TX1モジュール型スーパーコンピューター

主なスペック

GPU 1 TFLOP/s 256コア Maxwell

CPU 64ビット ARM A57 CPU

メモリ 4 GB LPDDR4 | 25.6 GB/s

ストレージ 16 GB eMMC

Wifi/BT 802.11 2x2 ac / BT Ready

ネットワーク 1 Gigabit Ethernet

サイズ 50mm x 87mm

インターフェース 400ピンボード間接続コネクタ

消費電力最大10W

Under 10 W for typical use cases

34

NVIDIA DRIVE PX 212 CPUコア | Pascal GPU | 8 TFLOPS | 24 DL TOPS | 16nm FF | 250W | リキッドクーリング方式

世界初自動運転向けAIスーパーコンピュータ

NVIDIA GPU スケーラブルアーキテクチャモバイルからスーパーコンピュータまで

TeslaIn Super Computers

QuadroIn Work Stations

GeForceIn PCs

Mobile GPU

In Tegra

Tegra

NVIDIA GeForce

NVIDIA Jetson

NVIDIA Tesla

NVIDIA DRIVE PX

deep learning EVERYWHERE

自動運転に求められること

LOCALIZEMAP SEE DRIVE

DRIVE PX AUTO-PILOT CAR COMPUTER

NVIDIA GPU DEEP LEARNING SUPERCOMPUTER

TrainedNeural Net Model

Classified Object

!

ONE-ARCHITECTURE ENABLES END-TO-END SOLUTIONTime-consuming Training on Server & Real-Time Recognition on Embedded System

Camera Inputs

2012 20142008 2010 2016 2018

48

36

12

0

24

60

72

TeslaFermi

Kepler

Maxwell

Volta

GPU ロードマップSG

EMM

/ W

Pascal

倍精度 5.3TF | 単精度 10.6TF | 半精度 21.2TF

TESLA P100ハイパースケールデータセンターのための世界で最も先進的な GPU

Tesla P100 の先進テクノロジー

16nm FinFETPascal アーキテクチャ HBM2 積層メモリ NVLink システムインターコネクト

NVIDIA CONFIDENTIAL. DO NOT DISTRIBUTE.

NVIDIA DGX-1世界初ディープラーニングスーパーコンピューター

ディープラーニング向けに設計170 TF FP16

8個 Tesla P100 ハイブリッド・キューブメッシュ主要なAIフレームワークを加速

NVIDIA Deep Learning プラットフォーム

COMPUTER VISION SPEECH AND AUDIO BEHAVIORObject Detection Voice Recognition Translation

Recommendation Engines Sentiment Analysis

DEEP LEARNING

cuDNN

MATH LIBRARIES

cuBLAS cuSPARSE

MULTI-GPU

NCCL

cuFFT

Mocha.jl

Image Classification

DEEP LEARNING SDK

FRAMEWORKS

APPLICATIONS

GPU PLATFORM

CLOUD GPU

Tesla P100

TeslaK80/M40/M4 Jetson TX1

SERVER

DGX-1

GIE

DRIVEPX2

ディープラーニングの最新事例

バルセロナ自治大学/仮想世界を用いたセグメンテーション

DEEP LEARNING INSIGHT従来のアルゴリズムディープラーニング

0%20%40%60%80%

100%

overall passengerchannel

indoor public area sunny day rainny day winter summer

Pedestrian detection Recall rate

Traditional Deep learning

70

75

80

85

90

95

100

vehicle color brand model sun blade safe belt phone calling

Vehicle feature accuracy increased by Deep Learning

traditional algorithm deep learning

監視カメラ

Princeton University / 3D Object Recognition

NVIDIA/ジェスチャー認識

表情による感情認識

http://www.affectiva.com/ http://www.emotient.com/

ディープラーニング＋強化学習（行動を学習）

MONOist より

8時間の学習で90%の取得率達成（熟練者のチューニングに匹敵）

DEEP LEARNING DAY2016講演資料

Intelligent Voice/CNNを用いた方言分類NIST LRE Competition

6言語、20方言

アラビア語(エジプト、イラク、レバノン、マグレビ、標準語)

中国語(広東、北京、上海、台湾)

英語(英国、米国、インド)

フランス語(西アフリカ、ハイチ)

リベリア語（カリブスペイン、ヨーロッパスペインラテンアメリカスペイン、ブラジルポルトガル)

スラブ語(ポーランド、ロシア)

500時間以上のスピーチデータ

スタンフォード大学/Deep Compression

Science

IEEE ITSS Nagoya Chapter NVIDIA