Upload
tak-izaki
View
322
Download
2
Embed Size (px)
Citation preview
エヌビディア合同会社 ディープラーニング部部長 井﨑 武士
NVIDIA GPUが加速するディープラーニングと最新事例
創業1993年
共同創立者兼CEO ジェンスン・フアン(Jen-Hsun Huang)
1999年 NASDAQに上場(NVDA)
1999年にGPUを発明その後の累計出荷台数は10億個以上
2015年度の売上高は46億8,000万ドル
社員は世界全体で9,100人
約7,300件の特許を保有
本社は米国カリフォルニア州サンタクララ
自動車HPC&Cloudエンタープライズグラフィックスゲーミング
GEFORCE
SHIELDQUADRO
QUADRO VCA
Tesla
GRID
JETSON
DRIVE
インテリジェントマシン
広がるGPUコンピューティング2008 2016
15万CUDA Downloads
4,000Academic Papers
60Universities
Teaching
77Supercomputing
Teraflops
3700万CUDA GPUs
27CUDA Apps
350万 CUDA Downloads
400 CUDA Apps
950 Universities Teaching
77,500 Academic Papers
77,000 Supercomputing Teraflops
6億3800万 CUDA GPUs
Deep Learning
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
2009 2010 2011 2012 2013 2014 2015 2016
ディープラーニングの目覚しい進化
Baidu の Deep Speech 2人間を超える
多くのディープラーニングフレームワークが発表
IMAGENET正答率
従来 CV 手法 ディープラーニング
DeepMindのAlphaGoが囲碁で世界チャンピオンを越える
トヨタ自動車が人工知能研究所に1200億円投資
Atomwiseがエボラウィルスの感染力を低減する可能性のある2つの新薬を開発
UCバークレーが作業を自ら学ぶロボットを開発
新たなコンピューティングモデル
従来のコンピュータビジョン
特定領域の専門家が特徴検出を設計品質 = アルゴリズムのパッチワークコンピュータビジョンの専門家と時間が必要
ディープラーニングの物体検出
大量のデータからDNNが特徴を学習品質 = データ & 学習手法大量のデータと演算能力が必要
木
猫
犬
ディープラーニングソフトウェア
“亀”
フォワード プロパゲーション
“亀” から “犬” へ計算の重み付けを更新
バックワード プロパゲーション
学習済みモデル
“猫”
反復
トレーニング
推論
様々な分野でディープラーニングを応用
インターネットとクラウド
画像分類音声認識言語翻訳言語処理感情分析推薦
メディアとエンターテイメント
字幕ビデオ検索
リアルタイム翻訳
機械の自動化
歩行者検出白線のトラッキング信号機の認識
セキュリティと防衛
顔検出ビデオ監視衛星画像
医学と生物学
癌細胞の検出糖尿病のランク付け
創薬
なぜGPUがディープラーニングに向いているか
ディープラーニングを加速する3つの要因
“The GPU is the workhorse of modern A.I.”
ビッグデータ GPUDNN
典型的なネットワーク例多量なトレーニングデータと多数の行列演算
目的顔認識
トレーニングデータ1,000万~1億イメージ
ネットワークアーキテクチャ10 層10 億パラメータ
ラーニングアルゴリズム30 エクサフロップスの計算量GPU を利用して30日
CNN: Convolution neural networkLeNet5 [LeCun et al.,1998]
FULL CONNECTION
Forward
Layer 1 Layer 2 Layer 3 Layer 4
FULL connection
𝑦𝑦 𝑖𝑖 = 𝐹𝐹 �𝑗𝑗
(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥 𝑗𝑗 )
x[N] y[M]w[N][M]
FULL connection
x[N] y[M]w[N][M]
x =
w[N][M] x[N] y[M]
Matrix Vector
𝑦𝑦 𝑖𝑖 = 𝐹𝐹 �𝑗𝑗
(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥 𝑗𝑗 )
メモリバンド幅で性能が決まる
Xeon E5-2690v3 Tesla M40
68GB/s 288 GB/s
FULL connection (Mini-BATCH)
x[N] y[M]w[N][M]
x =
w[N][M] x[N] y[M]
Matrix Vector
𝑦𝑦 𝑖𝑖 = 𝐹𝐹 �𝑗𝑗
(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥 𝑗𝑗 )
FULL connection (Mini-BATCH)
x[K][N] y[K][M]w[N][M]
x =
w[N][M] x[K][N] y[K][M]
Matrix Matrix
高い演算能力を発揮できる
𝑦𝑦[𝑘𝑘] 𝑖𝑖 = 𝐹𝐹 �𝑗𝑗
(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥[𝑘𝑘] 𝑗𝑗 )Xeon E5-2690v3 Tesla M40
0.88 TFLOPS 7.0 TFLOPS
CNN: Convolution neural network
LeNet5 [LeCun et al.,1998]
CONVOLUTIONs
Output feature maps
Input feature map(s)
CONVOLUTIONs
Input feature maps
Output feature maps
CONVOLUTIONs
Direct Convolution- 膨大な組み合わせ
- それぞれ向けに最適化するのは困難
FFT- メモリ負荷が高い
- 柔軟性が低い
Matrix Multiply
Output feature maps
Input feature map(s)
CONVOLUTIONs
I0 I1 I2
I3 I4 I5
I6 I7 I8
F0 F1
F2 F3
InputFilter
O0 O1
O2 O3
Output
CONVOLUTIONs
I0 I1 I2
I3 I4 I5
I6 I7 I8
F0 F1
F2 F3
Input data
Filter data
F0 F1 F2 F3
I0
I1
I3
I4
I1
I2
I4
I5
I3
I4
I6
I7
I4
I5
I7
I8
Expanded input data
Output data
CONVOLUTIONs
I0 I1 I2
I3 I4 I5
I6 I7 I8
F0 F1
F2 F3
Input data
Filter data
F0 F1 F2 F3
F0 F1
F2 F3
F0 F1 F2 F3
I0
I1
I3
I4
I1
I2
I4
I5
I3
I4
I6
I7
I4
I5
I7
I8
Expanded input data
Output data
CONVOLUTIONs
I0 I1 I2
I3 I4 I5
I6 I7 I8
F0 F1
F2 F3
Input data
Filter data
F0 F1 F2 F3G0 G1 G2 G3
J0
J1
J3
J4
J1
J2
J4
J5
J3
J4
J6
J7
J4
J5
J7
J8
J0 J1 J2
J3 J4 J5
J6 J7 J8
I0
I1
I3
I4
I1
I2
I4
I5
I3
I4
I6
I7
I4
I5
I7
I8
G0 G1
G2 G3
F0 F1
F2 F3
G0 G1
G2 G3
F0 F1 F2 F3G0 G1 G2 G3
Output data
行列演算のサイズ (lenet5)
LeNet5 [LeCun et al.,1998]
OutputsFilter
(Expanded)Inputs
16
100 * batch size
150
150
行列演算のサイズ (googlenet)
GoogLeNet [Szegedy et al.,2014]
OutputsFilter
(Expanded)Inputs
192
3136 * batch size
576
576
NVIDIA TESLA GPUによる機械学習の革命
GOOGLE BRAIN APPLICATION – DEEP LEARNING
TESLA導入前 TESLA導入後
コスト $5,000K $200K
サーバー数 1,000 サーバー 16 Tesla サーバー
消費電力 600 KW 4 KW
性能 1x 6x
学習と推論プラットフォームワークステーション サーバー
NVIDIA Tesla NVIDIA TEGRA
学習
推論
NVIDIA Tesla/DGX-1
オンライン オフライン
X
TESLA M40ディープラーニングに向けた最速アクセラレータ
0 1 2 3 4 5
GPU Server with4x TESLA M40
Dual CPU Server
学習時間を13倍高速化
Number of Days
CUDA コア数 3072
ピーク単精度性能 7 TFLOPS
GDDR5 メモリ 12 GB/24 GB
メモリ帯域 288 GB/s
消費電力 250W
Reduce Training Time from 5 Days to less than 10 Hours
Note: Caffe benchmark with AlexNet, training 1.3M images with 90 epochsCPU server uses 2x Xeon E5-2699v3 CPU, 128GB System Memory, Ubuntu 14.04
シングルGPUで最高の単精度演算性能
32
TESLA M4最高のスループットを持つ
ハイパースケールアクセラレータ
CUDA コア数 1024
ピーク単精度性能 2.2 TFLOPS
GDDR5 メモリ 4 GB
メモリ帯域 88 GB/s
形状 PCIe Low Profile
消費電力 50 – 75 W
Video Processing
4x
Image Processing
5x
Video Transcode
2x
Machine Learning Inference
2x
H.264 & H.265, SD & HD
Stabilization and Enhancements
Resize, Filter, Search, Auto-Enhance
Preliminary specifications. Subject to change.推論用途に最適
33
TEGRA JETSON TX1モジュール型スーパーコンピューター
主なスペック
GPU 1 TFLOP/s 256コア Maxwell
CPU 64ビット ARM A57 CPU
メモリ 4 GB LPDDR4 | 25.6 GB/s
ストレージ 16 GB eMMC
Wifi/BT 802.11 2x2 ac / BT Ready
ネットワーク 1 Gigabit Ethernet
サイズ 50mm x 87mm
インターフェース 400ピン ボード間接続コネクタ
消費電力 最大10W
Under 10 W for typical use cases
34
NVIDIA DRIVE PX 212 CPUコア | Pascal GPU | 8 TFLOPS | 24 DL TOPS | 16nm FF | 250W | リキッドクーリング方式
世界初自動運転向けAIスーパーコンピュータ
NVIDIA GPU スケーラブル アーキテクチャモバイルからスーパーコンピュータまで
TeslaIn Super Computers
QuadroIn Work Stations
GeForceIn PCs
Mobile GPU
In Tegra
Tegra
NVIDIA GeForce
NVIDIA Jetson
NVIDIA Tesla
NVIDIA DRIVE PX
deep learning EVERYWHERE
自動運転に求められること
LOCALIZEMAP SEE DRIVE
DRIVE PX AUTO-PILOT CAR COMPUTER
NVIDIA GPU DEEP LEARNING SUPERCOMPUTER
TrainedNeural Net Model
Classified Object
!
ONE-ARCHITECTURE ENABLES END-TO-END SOLUTIONTime-consuming Training on Server & Real-Time Recognition on Embedded System
Camera Inputs
2012 20142008 2010 2016 2018
48
36
12
0
24
60
72
TeslaFermi
Kepler
Maxwell
Volta
GPU ロードマップSG
EMM
/ W
Pascal
倍精度 5.3TF | 単精度 10.6TF | 半精度 21.2TF
TESLA P100ハイパースケールデータセンターのための世界で最も先進的な GPU
Tesla P100 の先進テクノロジー
16nm FinFETPascal アーキテクチャ HBM2 積層メモリ NVLink システムインターコネクト
NVIDIA CONFIDENTIAL. DO NOT DISTRIBUTE.
NVIDIA DGX-1世界初ディープラーニング スーパーコンピューター
ディープラーニング向けに設計170 TF FP16
8個 Tesla P100 ハイブリッド・キューブメッシュ主要なAIフレームワークを加速
NVIDIA Deep Learning プラットフォーム
COMPUTER VISION SPEECH AND AUDIO BEHAVIORObject Detection Voice Recognition Translation
Recommendation Engines Sentiment Analysis
DEEP LEARNING
cuDNN
MATH LIBRARIES
cuBLAS cuSPARSE
MULTI-GPU
NCCL
cuFFT
Mocha.jl
Image Classification
DEEP LEARNING SDK
FRAMEWORKS
APPLICATIONS
GPU PLATFORM
CLOUD GPU
Tesla P100
TeslaK80/M40/M4 Jetson TX1
SERVER
DGX-1
GIE
DRIVEPX2
ディープラーニングの最新事例
バルセロナ自治大学/仮想世界を用いたセグメンテーション
DEEP LEARNING INSIGHT従来のアルゴリズム ディープラーニング
0%20%40%60%80%
100%
overall passengerchannel
indoor public area sunny day rainny day winter summer
Pedestrian detection Recall rate
Traditional Deep learning
70
75
80
85
90
95
100
vehicle color brand model sun blade safe belt phone calling
Vehicle feature accuracy increased by Deep Learning
traditional algorithm deep learning
監視カメラ
Princeton University / 3D Object Recognition
NVIDIA/ジェスチャー認識
表情による感情認識
http://www.affectiva.com/ http://www.emotient.com/
ディープラーニング+強化学習(行動を学習)
MONOist より
8時間の学習で90%の取得率達成(熟練者のチューニングに匹敵)
DEEP LEARNING DAY2016講演資料
Intelligent Voice/CNNを用いた方言分類NIST LRE Competition
6言語、20方言
アラビア語(エジプト、イラク、レバノン、マグレビ、標準語)
中国語(広東、北京、上海、台湾)
英語(英国、米国、インド)
フランス語(西アフリカ、ハイチ)
リベリア語(カリブスペイン、ヨーロッパスペインラテンアメリカスペイン、ブラジルポルトガル)
スラブ語(ポーランド、ロシア)
500時間以上のスピーチデータ
スタンフォード大学/Deep Compression