View
136
Download
0
Embed Size (px)
Citation preview
Boston Webinar Machine Learning — Welche Rolle spielen GPUs?
Welche Anwendungsfälle gibt es?
Wolfgang Stief Senior Consultant
§ Gegründet 1992 – 24 Jahre Innovation § Supermicros ältester & größter globaler Partner — seit über 20 Jahren § Lösungshersteller mit Fokus auf Technologie (First-to-Market Strategie) § London HQ, Niederlassungen in London City, München, Mumbai,
Bangalore, New York. Weitere Expansion geplant. § Experten im Lösungs- und HPC-System-Design unter Verwendung von
Premium-Komponenten von Supermicro und ausgewählten Partnern § Supermicros Fastest Growing Partner
Über uns
§ Was ist eigentlich Machine Learning? Grundprinzipien, neuronale Netze, Algorithmen, Deep Learning, Historie
§ Anwendungsbeispiele für Machine Learning Wo wird Machine Learning schon heute genutzt? Was bringt die Zukunft?
§ Hardware- und Software-Ökosystem NVIDIA Tesla und Pascal, Supermicro ANNA, NVIDIA CUDA, Anwendungskatalog
Agenda
§ Nimm ein bisschen (gleichartige) Daten.
§ Trainiere ein (geeignetes mathematisches) Modell mit den Daten.
§ Benutze das trainierte Modell, um Vorhersagen auf neue Daten zu machen.
Der Trainingsprozess ist (normalerweise) iterativ über viele Schleifen mit Fehlerrückkopplung.
Was ist eigentlich Machine Learning?
§ Forschung zu AI/KI ab 1965 § Convolutional Networks ab 1979 § Fehlerrückkopplung seit 1960 als Prinzip, aber kaum genutzt § MNIST (1989) >> Handschriftenerkennung mit Fehlerrückkopplung
kommerzielle Nutzung: automatisiertes Lesen handgeschriebener Schecks (USA)
§ erst mit schnellen CPUs und ersten GPUs stellen kommen Erfolge § ImageNet (2012) — automatische Klassifizierung von Bildern
ab jetzt feature learning/deep learning anstatt feature engineering
§ ab 2012: Microsoft, Google, Facebook investiert (Startups, Research) § 2015/2016: NVIDIA bringt Pascal/Tesla und Deep Learning Libraries
Geschichtliches
§ mehrere Layer Feature Learning
§ Auswahl per „Classifier“ > Neuron „feuert“
§ derzeit ca. 5-10 hidden layer
§ Convolutional Networks vs. LSTM > Convolutional: Mustererkennung > LSTM: Long Short-Term Memory Zeitreihen über hunderte Zeitpunkte in die Vergangenheit
Deep Learning
§ so, wie auch Kinder lernen / das Gehirn lernt deshalb auch „neuronales Netz“
§ mehrere (viele) Bilder/Muster einer einzelnen Sache
§ Fehlerrückkopplung Einordnung über Wahrscheinlichkeiten >> Entscheidung ja/nein >> Schleifenparameter justieren >> erneute Einordnung (Schleife)
Anlernen
§ komplex, viele Spielzüge/Möglichkeiten
§ Training mit Partien von Großmeistern Spielbrett = Bild mit 19x19 Pixel
§ System spielt gegen sich selbst Fehlerrückkopplung, Feinabstimmung
§ Trainiertes neuronales Netz + Monte Carlo Search Trees Strategien, die für menschliche Spieler unmöglich oder unsinnig erscheinen, aber hohe Gewinnwahrscheinlichkeit haben
§ Spezialgebiet schneller erlernbar, als Lebenszeit eines Menschen ausreichen würde
Beispiel: AlphaGo (Google)
§ Vorlesung Deep Learning, Oxford University (Anfang 2015) 16x 50min https://www.youtube.com/playlist?list=PLE6Wd9FR--EfW8dtjAuPoTuPcqmOV53Fu
§ Deep Learning in a Nutshell 4-teilge Artikel-Serie im NVIDIA Developer Blog https://devblogs.nvidia.com/parallelforall/deep-learning-nutshell-core-concepts/
Wer Deep Learning genauer wissen will
§ IT Security
§ Advanced Persistent Threads
§ Zero-Days
Anwendungsbeispiele — Deep Instinct
§ Gensequenzen
Anwendungsbeispiele — Deep Genomics
§ Objekterkennung in Videos
§ Gesichts-/Personenerkennung
§ Wiedererkennung von Personen
§ Copyright Violation
Anwendungsbeispiele — NERVVE
§ Textanalyse wissenschaftlicher Veröffentlichungen
§ Medikamentenforschung
Anwendungsbeispiele — Benevolent AI
§ Gesichtserkennung
§ Zutrittskontrolle
§ Überwachung
Anwendungsbeispiele — Smilart
§ Textanalyse Sprache und Text
§ Zusammenfassungen
§ Copyright Violation
§ Information Security (Datenlecks)
§ Beispiel/Demo: https://www.gputechconf.eu/on-demand/ GTC Europe 2016 Keynote Echtzeit Transcription
Anwendungsbeispiele — Intelligent Voice
§ automatisierte Mülltrennung Roboter mit Mustererkennung
Anwendungsbeispiele — SADAKO
§ autonome Rennautos Formel E
§ Stadtkurse, je 12 Runden
§ 2016: Prototyp, Software
§ 2017: sechs Teams mit je zwei Autos
Anwendungsbeispiele — Roborace
Anwendungsbeispiele — Google Translate “This inspired us to ask the following question: Can we translate between a language pair which the system has never seen before? An example of this would be translations between Korean and Japanese where Korean ⇄ Japanese examples were not shown to the system. Impressively, the answer is yes — it can generate reasonable Korean ⇄ Japanese translations, even though it has never been taught to do so.”
https://research.googleblog.com/2016/11/zero-shot-translation-with-googles.html
Anwendungsbeispiele — Prisma / Artisto
PRISMA: Bilder — http://prisma-ai.com Artisto: Videos — https://artisto.my.com
Kann jeder am Smartphone selbst probieren (iOS und Android).
§ autonomes Fahren Lkw, Landmaschinen, Taxi, Pkw
§ Videoüberwachung
§ Data Leak Prevention
§ Deep Learning mit IoT Killerapplikation?
Und in Zukunft?
§ ca. 3500 Cores, 1.328 GHz § 15 Mrd. Transistoren
Intel Haswell: 1.4 Mrd. @ 18 Cores
§ 10 TFLOPS @ FP32 (single, HPC) 5 TFLOPS @ FP64 (double, HPC) 21 TFLOPS @ FP16 (half, DL) aktuelle Intel CPUs ca. 200..1000 GFLOPS
§ RDMA on Chip GPU <> PCIe <> Target NIC
§ https://images.nvidia.com/content/pdf/tesla/whitepaper/pascal-architecture-whitepaper.pdf
NVIDIA Pascal GPU — GP100
§ Accelerator Modul Pascal GP100 + Memory
§ PCIe oder NVLink
§ 12 GB oder 16 GB HBM2 High Bandwidth Memory 2 bis 720 GB/s Bandbreite, 4096 Connections CoWoS — Chip on Wafer on Substrate
NVIDIA Tesla P100
§ GPU-to-GPU max. 8 GPUs
§ GPU-to-CPU derzeit POWER8 only https://openpowerfoundation.org
§ je Link je Richtung 80 GB/s Bandwidth PCIe ca. 1 GB/s je Lane PCIe x16 = 16 GB/s max.
NVLink
§ Deep Learning Appliance 1 HE, 2x Intel Xeon, 3 TB RAM max. 4x Tesla P100 NVLink 2x 2.5“ intern + 2x 2.5“ Hot Swap 4x PCIe (3x x8, 1x x16)
§ 85 TFLOPS peak (FP16) “delivers same model within days versus weeks with CPUs“
§ demnächst: 8x P100 mit NVLink 2 HE vs. 3 HE NVIDIA DGX-1 10 GBE vs. 1 GBE only NVIDIA DGX-1
§ bald: alternative HW-Architektur, P100 mit GPU-to-CPU NVLink
Boston ANNA Pascal
§ verschiedene Boards und Chassis Tesla P100 auch als PCIe-Variante verfügbar bis max. acht P100 GPUs (PCIe based, 4 HE)
Supermicro Server
>> beim zuständigen Kollegen im Vertrieb nachfragen
§ NVIDIA CUDA 8 Development, Libraries
§ NVIDIA Deep Learning SDK unterstützt alle üblichen Deep Learning Frameworks - cuDNN — Deep Learning Primitives - TensorRT — Deep Learning Inference Engine - DeepStream SDK — Deep Learning for Video Analytics - cuBLAS — Linear Algebra - cuSPARSE — Sparse Matrix Operations - NCCL — Multi-GPU Communication
§ https://developer.nvidia.com/deep-learning-software https://www.nvidia.com/content/gpu-applications/PDF/gpu-applications-catalog.pdf
Software für P100 und Deep Learning
GPU zum Ausprobieren
> Fragen Sie ihren Ansprechpartner bei Boston [email protected]
> vScaler GPU Cloud
Kontakt
+49 89 9090199-3 www.boston-itsolutions.de [email protected]
BostonITsolutions @BostonGermany Boston-server-&-storage-solutions-gmbh