82
Cloud Wars – what‘s the smartest data platform Vergleich Microsoft Azure, Amazon Web Services und Google Cloud Platform Stefan Kirner & Thomas Neureuther Karlsruhe, 22.6.2016

Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Amazon Web Services und Google Cloud Platform

Embed Size (px)

Citation preview

Cloud Wars – what‘s the smartestdata platform

Vergleich Microsoft Azure, Amazon Web Services und Google Cloud Platform

Stefan Kirner & Thomas Neureuther Karlsruhe, 22.6.2016

• Teamleiter BI Solutions bei der inovex GmbH• Langjährige Erfahrung mit dem Microsoft BI Stack • Data Management Lösungen in der Cloud

2

• inovex Lab für den Research im Cloud Bereich • Spezialist für die Implementierung von data-driven-business

Lösungen • Erfahrungen im Microsoft SQL Server BI Stack.

Stefan KirnerTeamleiter BI Solutions bei der inovex GmbH

Werkstudent bei der inovex GmbH Thomas Neureuther

3NIST

Was ist Cloud Computing?

“Cloudcomputing is amodel forenabling ubiquitous, convenient,on-demand network access to asharedpool of configurable computingresources (e.g.,networks,servers,storage,applications, and services)thatcan be rapidly provisioned and releasedwith minimalmanagement effort orservice provider interaction”

4http://cavdar.net/cloud-computing/#/1

Warum Cloud Computing?

HierimFocus

5Microsoft (Thierry Gasser)

I/P/S-as-a-Service(On-Premises)

Storage

Servers

Networking

O/S

Middleware

Virtualization

Data

Applications

Runtime

Youmanage

Infrastructure(asaService)

Storage

Servers

Networking

O/S

Middleware

Virtualization

Data

Applications

Runtime

OtherM

anages

Youmanage

Platform(asaService)

OtherM

anages

Youmanage

Storage

Servers

Networking

O/S

Middleware

Virtualization

Applications

Runtime

Data

Software(asaService)

OtherM

anages

Storage

Servers

Networking

O/S

Middleware

Virtualization

Applications

Runtime

Data

6Albert Barron (Ibm) https://www.linkedin.com/pulse/20140730172610-9679881-pizza-as-a-service

Analogie der “as a Service“ Schichten

7http://www.adslzone.net/app/uploads/2014/09/cloud.jpg

Welche Public Cloud?

10Amazon Web Services

Public Cloud Anbieter

• Seit 2006• Iaas Marktführer• Dogfood für viele eigene Dienste (Amazon

Store, Video…)• “PaaS like services with the option of IaaS-

like control in some cases” - Dan Sullivan - Tom's IT Pro

Amazon Web Services9Screenshot Console AWS

Public Cloud Anbieter

• Seit 2010• Als PaaS gestartet wurde seit 2013

sukzessive erweitert mit IaaS-Komponenten

• Starke SaaS Komponenten• Dogfood für viele SaaS Dienste (Skype,

XBox etc)

Microsoft Azure

13

Azure Platform Services „Landscape“11https://i-msdn.sec.s-msft.com/dynimg/IC831231.png

http://www.infoworld.com/article/3051017/cloud-computing/the-importance-of-dogfooding-in-the-cloud.html

Public Cloud Anbieter

• Seit 2008– IaaS, PaaS• No “Dogfooding“ – Googles Dienste

basieren nicht auf GCP• CloudSDKundCLI,Console als

WebFrontend• Go, Java, Python

Google Cloud Platform

15

Google Cloud Platform13

Storage and Databases Big Data and Analytics Machine Learinig

Compute

Cloud ML

Cloud SpeachAPI

14Forrester- https://d0.awsstatic.com/analyst-reports/The%20Forrester%20Wave%20Enterprise%20Public%20Cloud%20Platforms,%20Q4%202014.pdf

Marktsituation

“The cloud wars between Amazon, Google, and Microsoft are heating up, with the three working tirelessly to attract the large business customers that bring in the big bucks.

From a technological perspective, though,the three cloud platforms are basically equal, and offer a similar sales pitch.”

Business Insider, April 2016

15Forrester- https://d0.awsstatic.com/analyst-reports/The%20Forrester%20Wave%20Enterprise%20Public%20Cloud%20Platforms,%20Q4%202014.pdf

MarktsituationGartner: 2015 Magic Quadrant for Cloud Infrastructure as a Service, Worldwide

16https://www.gartner.com/doc/reprints?id=1-2G45TQU&ct=150519&st=sb

MarktsituationGartner: 2016 Magic Quadrant for Enterprise Application Platform as a Service, Worldwide

17Synergy Research Group - https://www.srgresearch.com/

Marktsituation

18Synergy Research Group - https://www.srgresearch.com/

Marktsituation

19http://searchcloudcomputing.techtarget.com/tip/Compare-AWS-vs-Azure-vs-Google-big-data-services

„The cloud market is evolving quickly, withan ever-changing set of big data services.

While this makes cloud vendor comparisonsdifficult, it's worth the attempt, because theofferings from the top three cloud providers -- Amazon Web Services, Microsoft Azure and

Google -- aren't created equal.“

Jim O'Reilly

20

Fazit Marktsituation• EinheitlichesBildzuPaaS eherschwierig• UnterschiedlicheDefinitionen• Technologiennichtimmervergleichbar/bekannt• QualitativeVergleichedeckennurspezielleUsecases ab

Damüssenwirselberran!

• Web Interface und Bedienung• SDK‘s und Programmiersprachen• Tooling und Integration in

Entwicklungsumgebung• Dokumentation

21

Web Interface & HandhabungVergleich der Cloud Provider Services

22

Web Interface & Handhabung

• Übersichtlich und minimalistisches Web Interface mit Übersicht über Dienste

• Tooling• Plugins fürEclipse und

VisualStudiovorhanden• AWSCommandLine

Interface• AWSSDK• S3Browser

(Desktopanwendung)

AWS Management Console

23Azure Portal

Web Interface & Handhabung

• Web Portal mit sehr verschachtelter Kacheloptik

• Altes und neues Portal• Tooling

• BefehlszeilentoolsüberPowerShell• CLIauchfürLinux&Mac

• Azure SDK-MitpassendemToolkitfürVisualStudio

• Azure Explorer

Azure Portal

24GCP Console

Web Interface & Handhabung

• Schlichtes Web Interface • Tooling

• gcloud Tool- CLIfürGCPProdukteundServices

• CloudSDK• WenigIDEUnterstützung

25

DEMO TIME

AWS Portal und S3 Bucket26

Azure Ressourcengruppe und Speicherkonto27

GCP Storage Bucket28

29

Web Interface & Handhabung

Dienst WebConsole Azure Portal GCPConsoleBewertung Portal:☆☆☆

SDK:☆☆Tooling:☆☆Dokumentation:☆CLI:☆☆☆

Portal:☆☆SDK:☆☆Tooling:☆☆Dokumentation:☆☆☆CLI:☆☆

Portal:☆☆SDK:☆☆Tooling:☆Dokumentation:☆☆CLI:☆☆

Vergleich der Cloud Provider Services

30

Big Data /Analytics Use-Case

DataPresentation

VisualisierungundDashboard

Analyticsand Computation

AggregationundAnalyse

Collectionand Storage

EventBrokerundStreamProzessor

DataGeneration/Extraction

App, IoT oderSensordaten

31http://lambda-architecture.net/

Lambda Architecture

1. Weiterleiten der ankommenden Daten zu Speed und Batch Layer

2. Batch-Layer 1. BerechnenderBatchViews2. Rohdatenaufbewahren

3. Serving Layer indexiert die Batch Views

4. Speed-Layer erlaubt Echtzeit Views

5. Querys auf Batch und Echtzeit Views möglich

32https://blogs.technet.microsoft.com/msuspartner/2016/01/27/azure-partner-community-big-data-advanced-analytics-and-lambda-architecture/

Lambda Architektur

Viele Möglichkeiten Lambda Architektur mit Cloud Technologien abzubilden-> Architektur nicht an Dienste gebunden

LambdaArchitecture onAzureOptions for each Layer

33

Big Data /Analytics Use-Case

• Startup ULTRA TENDENCY aus Japan

• Sensorwerte erfassen und Strahlenwerte analysieren

• Umsetzung mittels Cloud basierter Analyse in Azure

34

Big Data /Analytics Use-Case

• ≈5000 Wetterstationen in Baden-Württemberg

• Weather Underground API• Temperatur, Niederschlag,

Luftdruck, Windgeschwindigkeit

• Aktualisierung ≈ 5 min

35

Pub/Sub Dataflow BigQuery DataStudio360

KinesisFirehose

S3 Elastic MapReduce

DataPipeline

QuickSight

EventHub

StreamAnalytics

DataFactory

PowerBI

DataGeneration

Collectionand Storage

AnalyticsandComputation

DataPresentation

DataLakeStore

Redshift

DataLakeAnalytics

DataLakeStore

Collection36

• Kontinuierlicher Strom von Daten empfangen und verarbeiten• Mehrere Publisher/Subscriber• Skalierbar• Hoch Verfügbar• Niedrige Latenzen

• Echtzeit Verarbeitung und Analyse

37

Streaming DiensteVergleich der Cloud Provider Services

38

Pub/Sub, Message Broker - Streaming

Dienst Kinesis Event Hub Pub/Sub

Beschreibung • NaheEchtzeit• ZeitbasierterEreignispuffer

• Datastrom vonverschiedenenProzessenoderGeräten

• Vereinfachtdasempfangen undveröffentlichen vonDatenströmeninEchtzeit

• Datenaufbewahrungbis7 Tage

• Azure EventHubsisteinhochgradigskalierbarerDienstfürdasVeröffentlichenundAbonnieren vonEreignissen

• Publish/Subscribe• Hochskalierbare

MessageQueuemitPush/Pull Delivery

39

Dienste zur Stream Verarbeitung

Dienst Kinesis FirehoseKinesis Analytics(Beta)Kinesis &Lambda

Stream Analytics Dataflow

Beschreibung • EchtzeitverarbeitungvonStreams

• Kinesis mit SQLbasierteAnfragen

• LambdaFunktionen umEventszuverarbeiten

• Firehose persistiertStreamnachS3,ES(1.5),Redshift

• SQLbasierteAbfragen• Windowing• Echtzeitdashboardsund

Warnungen

• ProgrammierungvonDataflows inJava

• DamitWindowing undquasijederOutputmöglich

40AWS Kinesis

Streaming Dienste

• Kinesis Firehose• SchreibtStreaminBlöckenauf

denS3Storage,ElasticsearchoderRedshift

• KeineMöglichkeitenderProgrammierung

• Kinesis Streams• Machtesnotwendigeinen

StreamReceiverzuprogrammierenunddiesenzudeployen

• AWSLambdaFunktionen• Kinesis Analytics (Beta)

41

Streaming Dienste

• Leistungsstarkes Modell• Eingabe

• EventHub,Blob,IoT Hub• MehrereEingabenmöglich

• Abfrage• SA-QL:SQLÄhnlicheSyntax• Window Operationenmöglich

• Ausgabe• Blob,SQL,PowerBI ....• MehrereAusgabenmöglich

Azure Stream Analytics

42Google DataFlow

Streaming Dienste

• Programmiermodell– Batch und Stream

Workload– Pipelineing als DAG– Arbeiten auf Collections

• Google Dataflow als Runner für das DataflowProgrammiermodell

Google Dataflow

43

Dienste zur Stream Verarbeitung

Dienst AmazonKinesis StreamAnalytics Dataflow

Bewertung Bedienung:☆☆LifecycleManagement:☆Möglichkeiten:☆☆

+SimpleBedienung- FürgleicheFunktionalitätwiebeiAzure coding erforderlich- Firehose eingeschränkteFunktionsumfang- Kinesis StreambenötigtselbstimplementiertenunddeploytenReceiver(z.B:AWSLambda)

Bedienung:☆☆☆LifecycleManagement:☆Möglichkeiten:☆☆☆

+SimpleBedienung+HoheFunktionalitätmitgeringemAufwand+SQLSyntaxfürAbfrage- Schlechtzuversionieren oderzuManagen

Bedienung:☆☆LifecycleManagement:☆☆Möglichkeiten:☆☆☆

ProgrammcodemitallenVor- undNachteilen+SehrguteSkalierbarkeitundBigDataFähigkeit- HöhererEinarbeitungsaufwand

44

Kosten Message Broker /Stream Verarbeitung

Dienst AmazonKinesis StreamAnalytics Dataflow

Preise Shard Stunde1,7ctPut Nutzlastpro1MioPuts (25KB)1,65ctVerlängerteDatenaufbewahrung2ct/h

Beispiel:2Eventsa35KBproSekunde≈13€/Monat

UnitStunde 3,1ctNutzlast0,1ctproGB

Beispiel:2Eventsa35KBproSekunde≈20€ StreamAnalytics/Monat≈9€ EventHub/Monat

Pub/Sub1MilionOperationen40ctHalbiertsichab 250MOperationen

Batch1ctGCEU/hStream1,5ctGCEU/h

45

DEMO TIME

Azure Stream Analytics46

AWS Kinesis47

GCP Pub/Sub48

GCP Dataflow49

Analytics and Computation50

• Daten auslesen, ggf. transformieren und schreiben (Vergleichbar mit ETL)

• Transformation eher schwieriger• Orchestrierung Dienste

• Zusammenfassen und Orchestrierung von Verarbeitungsschritten

• Neue Quellen und Ziele• Cloud und Hybride Szenarien

• Big-Data Fähigkeit

51

Orchestrierungs Dienste

52

Orchestrierungs Dienste

• Erstellen in AWS Management Console

• DesignerundVorlagen• PropertiesinDrop-Down

Feldernverwalten• Rechtüberschaubarer

FunktionsumfangohneDetailfunktionen

• DeckttypischeETL-Szenariengutab

• KeineEntwicklungsumgebungundCodeManagement

Data Pipeline

53

Orchestrierungs Dienste – Data Pipeline

• Hive in Data Pipeline• RessourceAnlegen• Skriptschreibenund

verknüpfen

54

Orchestrierungs Dienste

• Factory Dashboard• WerkzeugefürdasErstellen

derFactory• Zustandsüberwachung• ManuellesStartenvon

Vorgängen• AuslastungundDiagnosen

Data Factory

55

Orchestrierungs Dienste

• Data Factory Projekt• Templateserlauben

schnellesErstelleneinfacherAnwendungsfälle

• Deployment ausVisualStudiooderFactoryDashboard

• JSON-DokumenteohneToolunterstützungfüllenundverknüpfen• Designby Copy and Paste

Data Factory

56

Orchestrierungs Dienste

Dienst DataPipeline DataFactoryBewertung Bedienung:☆☆

LifecycleManagement:☆Möglichkeiten:☆☆

+SelbsterklärenderDesigner- KeineCodeCompletion oderSyntaxHighlightingoderValidierung- Code kannlediglichüberJSONexportiertund versioniert werden(händisch)

Bedienung:☆+LifecycleManagement:☆☆Möglichkeiten:☆☆

+TemplatesundVisualStudioUnterstützung- KeinDesignersondernzusammenfügenvonJSONDokumenten

SSISweitvoraus

57

DEMO TIME

Azure Data Factory58

AWS Data Pipeline59

Horizontal skalierende analytische Datenspeicher60

• ParallelverarbeitendeInstanzen• Massively ParallelProcessingArchitecture• Skalierbarkeit

• SQLQuerys

61

Horizontal skalierende analytische Datenspeicher

62

Analytische Datenspeicher

• Schnelle Skalierung der Cluster Instanzen über API Aufrufe

• Postgres-Fork nutzt spaltenbasierte Datenbank und massive parallele Verarbeitung

Redshift

63

Analytische Datenspeicher

•Data Lake (Beta) – Store & Analytics

– VerteilterSpeicher- undAnalysedienstgroßerDaten

– U-SQL– TSQLundC#– VisualStudioUnterstützung– DynamischeSkalierung– VerteilteHardwareund

Parallelisierunggänzlichabstrahiert

Data Factory - Data Lake Analytics (Beta)

64

Analytische Datenspeicher

• Unabhängige Skalierung von Compute- und Speicherressourcen innerhalb von Sekunden

• Vielfältige SQL Server-Funktionalität mit T-SQL Abfragen

SQL Data Warehouse (Beta)

65

Analytische Datenspeicher

•SQL Querys auf Terabyte von Daten •Import/Export Mechanismen•Bezahlung nach Datenmenge der Query•Keine Server•Browsertool vorhanden (sonst REST oder CLI) - SDK für .Net, Java, Python, Go

Google Big Query

66

Analytische Datenspeicher

Dienst AWSRedshift Azure DataLake BigQuery

Beschreibung • Postgres Fork• MassivParallel

• StoreundAnalytics• U-SQLalsMischung

vonC#und T-SQL

• Serverless• PayperQuery

Preise • $0.25proStundefürdc1.large

• $0.85proStundefürds2.xlarge

• AnalyticsEinheit0,017$/Minute

• Abgeschlossener Auftrag0,025$

SQL-DWH:ab0,70$/h

• $5proqueryed TB• $0.02perGBSpeicher• $0.01per200MBInsert

Dienst AmazonRedshift Azure DataLake BigQuery

Bewertung Bedienung:☆+LifecycleManagement:☆☆Möglichkeiten:☆☆

- KeineEntwicklungsunterstützungimWebInterfaceoderEntwicklungsumgebung

Bedienung:☆☆☆LifecycleManagement:☆☆Möglichkeiten:☆☆☆

+VisualStudioUnterstützung+StrukturierteundSemistrukturierteDaten

Bedienung:☆☆+LifecycleManagement:☆☆Möglichkeiten:☆☆

+WebTooling

67

Analytische Datenspeicher

68

DEMO TIME

AWS Redshift – und Kinesis als Quelle69

Azure Data Lake Analytics70

GCP Big Query71

Data Presentation72

• Daten Präsentieren• Umfangreiche Visualisierungen• Dashboards und Reports über Web

• SaaS

• Anbindung an Datenbanken• Real-Time Anbindung

73

Datenvisualisierung

74

Datenvisualisierung

Dienst AmazonQuickSight MicrosoftPowerBi(keinTeil vonAzure abergutintegrierbar)

GoogleDataStudio360(beta)

Beschreibung • Beta(nurfürausgewählteKunden)

• EchtzeitBImitStreamAnalyticsmöglich

• AnbindunganDatenbankenundandereDatenspeicher

• Beta(nurfürausgewählteKunden)

• Alternativ guteIntegrationvonBIToolswieTableau,Qlik undeinigenanderen

Dienst AmazonQuickSight MicrosoftPowerBi(keinTeil vonAzure abergutintegrierbar)

GoogleDataStudio360(beta)

Bewertung Bedienung:☆+Möglichkeiten:☆+

- Closed Beta

Bedienung:☆☆☆Möglichkeiten:☆☆☆

+VieleDatenquellen+On-PremEntwicklungmöglich

Bedienung:☆+Möglichkeiten:☆+

- Beta

75

Datenvisualisierung

76

DEMO TIME

Power Bi – Daten von Stream Analytics77

Google Data Studio78�https://datastudio.google.com/#/reporting/0B_U5RNpwhcE6bzVYT2FSNmRBUWc

79http://www.tecchannel.de/a/amazon-web-services-versus-microsoft-windows-azure,2071501,3

„Unterm Strich lässt sich sagen, dass Microsoft aufgrund seiner PaaS-Historie technologisch in diesem

Bereich einen deutlichen Vorsprung hat. Amazon AWS hingegen ist derzeit

noch der unumstrittene Innovations-und Marktführer im IaaS-Umfeld.“

René Büst - Senior Analyst und Cloud Practice Lead bei Crisp Research

80

Vergleich der Cloud Provider

AmazonWeb Services MicrosoftAzure GoogleCloud Platform

Stream ☆☆ ☆☆☆ ☆☆

Orchestration ☆☆+ ☆☆ -

MPP ☆☆ ☆☆+ ☆☆+

Datenvisualisierung ☆+ ☆☆☆ ☆+

Für diesen Use Case hat Microsoft die Nase vorn

81

Demnächst auch als Artikelserie auf:

blog.inovex.deRegelmäßige Beiträge zu den aktuellsten Technologie-

Themen rund um Web, Mobile, Analytics, Data Center & Co.

Vielen Dank

Stefan Kirner &Thomas Neureuther

inovex GmbHLudwig-Erhard-Allee 676131 Karlsruhe

[email protected]@inovex.de

SolcheProjekteundTechnologiensindfürdich

interessant?

Wirsuchen

CloudSolutionArchitects

undWerkstudentenfürDataManagement&Analytics

UndvieleandereJobsaufhttps://www.inovex.de/de/karriere

/stellenangebote