View
100
Download
6
Embed Size (px)
Citation preview
MICROSOFT BUSINESS INTELLIGENCE & AZURE DATA SERVICES
Next Generation Analytics
Dec
k #
2
INFRAESTRUTURA
GERENCIAMENTO E PROCESSAMENTO DE DADOS
PREPARAÇÃO DE DADOS E FEDERAÇÃO
BI AND ANALYTICS
CollaborationCorporate PredictiveSelf-service
Extract, transform, load Data qualitySingle query
modelMaster data management
Relational Analytical Streaming Internal and external
Non-relational
Data sources Non-relational data
Devices
Web Sensors
Social
Mobile
The Modern Data Warehouse
Dec
k #
3Introducing Microsoft Analytics Platform System
Plug and play Melhores Práticas
Menor Tempo
Pre-built hardware + software appliance
• Projetado em conjunto (Dell – HP – Quanta)*
• Hardware pré configurado
• Software Pré-instalado
• Pronto para uso em 1–2 dias
• SuportePrimeiro nível de suporte via Microsoft; Parceiro de Hardware prove suporte on-site;
*Quanta not available in all countries or regions
Experiência de “Produto Pronto”
Dec
k #
4
Microsoft Data Warehousing Solutions
• SMP – Multiprocessamento simétrico e NUMA (non unified memory architecture) para Data warehouse em qualquer hardware
• Appliance para (MPP) data warehousing em Multi Processamento Paralelo.
• Ideal for data marts, pequenos e médios data warehouses corporativos (EDWs)
• Ideal para Data Warehouses corporativos de alta escala ou desempenho
• Software apenas • Data warehouse appliance• (software and hardware altamente
integrados)• 10s de TB • 10s de TB até 6 PB (PDW – compactado)
• 24 TB – 1.2 PB (Hadoop – não compactado)
Microsoft Analytics Platform SystemMicrosoft SQL Server
Dec
k #
5
Desafios do Data warehouse moderno
Manter o investimento
Escalabilidade limitada e
capacidade de trabalhar com novos tipos de
dados
Adquirir novas soluções para BIG
Data
Custo em Treinamento,
Silo de informação
Adquirir mais Hardware lowend
Alto custo de manutenção,
gerenciamento e aquisição
Adequerir novas soluções de BI e Apresentação de
Dados
Complexo se a adoção for
baixa.
Dec
k #
6Hardware e Software Projetados para Funcionar Junto
Analytics Platform System
SQL ServerParallel Data
Warehouse
Microsoft HDInsight
PolyBase
Dec
k #
7
Hadoop sozinho não é a solução para Tudo
Move os dados para o Warehouse antes da Análise
HDFS (Hadoop) ETL
WarehouseHDFS (Hadoop)
Aprender novas Ferramentas T-SQL
CriarIntegrarGerenciarManterSuportar
Hadoop Ecosystem
New data sources
Devices
Web Sensor Social
“New” data sourcesNew data sources
Devices
Web Sensor Social
Dec
k #
8APS Contempla um Cluster Hadoop pronto para uso com HDInsight
Alto desempenho alinhado com a capacidade do HW
Autenticação via AD
Acessível para análise através de Excel e Ferrentas BI Microsoft
Gerenciado e Monitorável pelo System Center
100% Apache Hadoop
SQL ServerParallel DataWarehouse
Microsoft HDInsight
PolyBase
Dec
k #
9
Conecta a os Silos de Dados com PolyBase
Provê um modelo T-SQL para PDW com Haddop que permite até JOIN Direto (sem carga/ETL)
Utiliza o Processamento Paralel o Massivo para Máximo Desempenho
Suporte AZURE HDInsight como fonte de dados, permite escalabilidade na Nuvem
Provê habilidade de integrar com outras distribuições de Haddop como Hortonworks and Cloudera
Microsoft AzureHDInsight
SQL ServerParallel DataWarehouse
PolyBase
Microsoft HDInsight
Hortonworks for Windows and Linux
Cloudera
Result setSelect…
Dec
k #
10
Como Funciona o Processamento Paralelo de Consultas
Consultas SQL são enviadas ao nó de controle
1
Nó de controle cria o plano de execução
2
O plano de execução cria consultas que irão rodar em cada nó
3
Consultas são enviadas para todos os nós (todas rodando em paralelo)
4
Nó de controle recebe os resultados, consolida e entrega ao usuárioi
5
Management
ControlClient
Compute
Compute
Compute
Compute
Appliance
1
2
34
5
Dec
k #
11Menor custo por TB em todos os Appliances
Preço por TB nos principais fabricantes Significativamete
menor preço por TB que o competidor mais próximo.
Price per terabyte for user-available storage (compressed)
NOTE: Orange line indicates average price per terabyte.
Thou
sand
s
Oracle EMC IBM Teradata Microsoft
$30
$25
$20
$15
$10
$5
$0
Reduza custos de Armazenamento com Windows Server 2012 Storage Spaces
SQL Server IaaS em AZURE
Dec
k #
13
Pode Transferir licenças locais para Azure para Clientes
com SA
SEM CUSTOS ADICIONAIS!!!
Fatura Única!
SQL Server on AZURE - IaaS
Dec
k #
15
Benefícios de SQL Server em IaaS
- Precificação minuto a minuto- Não precisa da sua máquina a 24x7? –
Automatize ShutDown/Up via PowerShell- Pagamento Proporcional ao tempo Ativo +
Armazenamento- Garantia de Disponibilidade (da VM) pela
infraestrutura de réplicas do Azure (3 máquinas)
Dec
k #
16
Tamanhos Disponíveis – Lista Parcial
Dec
k #
17
Tabela de Comparação de UpTime
Dec
k #
18
Azure SLAs para VMs
Dec
k #
19
SQL Databases SLA
http://azure.microsoft.com/pt-br/support/legal/sla/
NoSQL e Window
NoSQL em Windows AZURE
Dec
k #
21
NoSQL
Data NowThe world today
Dados são mais críticos do que nunca
Nossos e seus clientes nos PAGAM para cuidar deles.
Dados são mais abundantes
Custos de armazenamento sao menores
Existe muitas fontes de dados- Dados abertos de
Governo- Clima e Tempo- Sociais, Internet of
Things
Novas Tecnologias estão disponíveis
NoSQL
Big data analytics
Busca
Nosso área de trabalho era denominada
Processamento de Dados
Esta não é a ERA pós SQL , é a ERA SQL+
A Importância dos DADOS
Dec
k #
23
Dados na NuvemPara onde vamos…
On-Premises
Cloud
Tendência
SQL
SQL+
Dec
k #
24
Dados Operacionais Análise de Dados
Tecnologias de Dados no AZURE
Gerenciados como Serviço no
AZURE
Key/Value Store
(Tables, Riak, …)
Instalável no AZURE, gerenciado
pelo cliente
TecnologiasNoSQL
SQL
Big Data Analytics (HDInsight, Hadoop)
Document Store (DocumentDB, MongoDB, …)
Bases Relacionais(SQL Database,
SQL Server, Oracle, MySQL, …)
Column Family Store
(HBase, Cassandra …)
Relational Analytics(SQL Server, Oracle,
MySQL, …)
Dec
k #
25
Tables
Base SQLServiço de dados Relacional
Column NameColumn Type
ConsultaSQL
Primary KeyData
SQL Database
charNameID
int dateModificado
EmcharPaís Idade
int
1
3
2
7
Aplicação
Dec
k #
26
DEFINIÇÃO DE SHARD
Dec
k #
27
Technology BasicsSharding
SQL Database Elastic Scale (in preview) agora
supporta sharding
Shard 1
Shard 2
Shard 3
Sharded Database
AdamAndrewAnusha
BertrandBill
CarlCatherineCynthia
Database
Adam Andrew
Anusha Bertrand
Bill
Carl
Catherine
Cynthia
Transações atômicas geramente precisam estam contidas no
mesmo Shard
SQL Databases DEMO
Dec
k #
29Comparando Azure Managed Data Services
SQL Database
Category
Relational
StorageAbstractio
nsTables,rows,
columns
Transaction
SupportAll rows
and tables in a
database
Secondary
Indexes
Yes
Pricing
Units of throughpu
t
Stored Procedur
e/ TriggersWritten in T-SQL
QueryLanguag
e
SQL
Maximum
Database
Size500 GB
Dec
k #
30
Unidade de Performance de Database (DTU)DATABASE THROUGHPUT UNITE (DTU)
- Garantia de MESMO DESEMPENHO o tempo todo
- Precificado em Níveis de Desempenho- Não é baseado em condições de
Hardware, uma vez que elas mudam.- Com base em (x) vezes o desempenho da
versão básica- 5 x- 10 x- 20 x- 50 x- 100 x- 200 x - 800 x
BENCHMARK
% CPU
% MEMORY
% R
EADS
% W
RITE
S
% WORKER THREADS
Dec
k #
31Por que NoSQL?
Facilidade em Escalar a Aplicação
Pros: Tecnologias NoSQL são muito mais escaláveis que as relacionais
Cons: Perde recursos como com “transações entre databases”
Para trabalhar melhor com dados não estruturados, como JSON
Pros: A aplicação se torna muito mais fácil de Desenvolver… sem “DBAs para atrapalhar”
Cons: Limita a capacidade fazer BI, o modelo persistido para uma única aplicação é DIFÍCIL DE COMPARTILHAR
Trabalhar de forma mais FLEXÍVEL
Pros: NoSQL não possuem esquemas.
Cons: esquemas EVITAM erros!!!
AZURE DocumentDB
Dec
k #
33DocumentDBA document store
Collections
RequestDocument 1
{ "name": "John", "country": "Canada", "age": 43, "lastUse": "March 4, 2014"}
{ "name": "Eva", "country": "Germany", "age": 25}
Document 2
{ "name": "Lou", "country": "Australia", "age": 51, "firstUse": "May 8, 2013"}
Document 3{ "docCount": 3, "last": "May 1, 2014"}
Document 4
{…}
DocumentDB
Application
Dec
k #
34
Collection
Collection
Collection
Database
JSONJSONJSON
JSONJSON
JSONJSONJSON
CollectionJSONJSONJSON
DocumentDBSharding e transações
Transações atômicas só podem afetar 1 Shard
A unidade de Sharding é a
Coleção
Dec
k #
35
Database
Technology BasicsReplication and consistency
Shard A
O que o leitor enxerga ?
Uma replica de escritar pode
demorar para ser propagada
Primary replica
Secondary replica
Shard A
Shard A
Replicação pode melhorar desempenho e
disponibilidade
Dec
k #
36
DocumentDBConsistency options
Session
Strong(Forte)
Bounded Staleness
Sim, mas apenas para gravações de outros clientes
Sim, mas apenas
dentro de um Intervalo definido
Não
Eventual
Moderada Lenta
Não
Leitores pode ter leituras
sujas?
Não
Leitores pode ver dados Antigos?
Mais Lenta
Velocidade de Leitura
Velocidade de
Gravação
Mais Lenta
Mais Rápido
Sim Sim
Fastest
Mais Rápida
Moderately fast
Mais Rápida
The defaultSim, mas
apenas para gravações de outros clientes
Dec
k #
37
PricingTransacti
onSupport
Secondary
Indexes
Comparing Azure Managed Data Services
SQL Database
StorageAbstractio
nsCategor
y
DocumentDB
Relational
Document store
Tables,rows,
columns
Collections,
documents
All rows and tables
in a database
Yes
Yes
Units of throughpu
t
Units of throughpu
t
All documents
in the same
collection
Stored Procedure
s/ Triggers
Written in T-SQL
Written in
JavaScript
QueryLanguag
e
SQL
Extended subset of SQL
Maximum
Database
Size500 GB
100s of TBs
AZURE StorageTABLES
Dec
k #
39
Tables
PartitionB
PartitionA
Property
TablesA key/value store
Entity
2B
Property TypeData
Property Name
String intString DateName LastUseCountry Age
String intStringName Country Age
String intString DateName FirstUseCountry Age
Row key
1
2
1
2Partition key
A
A
B
Bint Date
LastCount
2B
Azure Tables
Application
Dec
k #
40TablesSharding and transactions
Partitions are replicated; reads and writes provide strong
consistency
Table
Partition A
Partition B
Partition CA 1A 2A 3
B 1B 2B 3
C 1C 2C 3
Atomic transactions can span only a single
partition
The unit of sharding is a
partition
Dec
k #
41
PricingTransacti
onSupport
Secondary
Indexes
Comparing Azure Managed Data Services
SQL Database
Tables
StorageAbstractio
nsCategor
y
DocumentDB
Relational
Key/value store
Document store
Tables,rows,
columns
Collections,
documents
All rows and tables
in a database
Yes
No
Yes
Units of throughpu
t
GBs of storage
Units of throughpu
t
Tables,partitions
, entities
All entities in the same
partition
All documents
in the same collection
Stored Procedur
es/ Triggers
Written in T-SQL
None
Written in JavaScript
QueryLanguag
e
SQL
Subset of OData queries
Extended subset of
SQL
Maximum
Database
Size500 GB
100s of TBs
100s of TBs
AZURE HDInsight
Dec
k #
43
Tables
HDInsight HBaseA column family store
Column Key (Qualifier)
Column Key (Family)
2LastUse v2Usage User Usage
Name Country LastUse FirstUseRowKey Age
Data (optionally with time-stamped versions)
1
2
3
5
6
4
HDInsight HBase
Application
Dec
k #
44HDInsight HBaseSharding and transactions
Table
Region A
Region B
Region C
The unit of
sharding is a region
Regions are replicated; reads and writes provide strong
consistency
HBase automatically shards a table; users don’t see regions
Atomic transactions can span only a single
row
Dec
k #
45
PricingTransacti
onSupport
Secondary
Indexes
Comparing Azure Managed Data Services
SQL Database
Tables
StorageAbstractio
nsCategor
y
DocumentDB
Relational
Key/value store
Document store
Tables,rows,
columns
Collections,
documents
All rows and tables
in a database
Yes
No
Yes
Units of throughpu
t
GBs of storage
Units of throughpu
t
Tables,partitions,
entities
All entities in the same
partition
All documents
in the same collection
Stored Procedures/Trigge
rs
Written in T-SQL
None
Written in JavaScript
HDInsight HBase
Column family store
Tables, rows,
columns, cells,
column families
NoGBs of storage
plus VMs per hour
All cells in the same
rowWritten in Java
QueryLanguag
e
SQL
Subset of OData queries
Extended subset of
SQL
None
Maximum
Database
Size500 GB
100s of TBs
100s of TBs
100s of TBs
Dec
k #
46
Hadoop
HDFS
Big Data AnalyticsO Padrão: Hadoop
HBase
YARN
MapReduce . . .Azure HDInsight prove estas features como serviço
Dec
k #
47
HDFS API
MapReduce Job LogicLogic Logic
Blob
100011010011001111011111011011010001101
Blob
100011010011001111011111011011010001101
Blob
100011010011001111011111011011010001101
Azure Blobs
HDInsight MapReduceA Implantação de Hadoop no Azure
ExcelHive
Pig
. . .
VM VM VM
HDInsight MapReduce
HDInsight HBase is also implemented on this
API and relies on Azure Blobs
Dec
k #
48
O que é HadoopTRADITIONAL RDBMS HADOOP
Data SizeAccess
UpdatesStructureIntegrityScaling
DBA Ratio
HD INSIGHT DEMO
AZYRE STREAM ANALYTICS
Dec
k #
51
Dados Armazenados
Dados em Movimento
Azure Stream Analytics
Dec
k #
52
Para que serve o StreamInsight
- O dado não é Armazenado- A consulta é realizada em Tempo
Real- Baseda em Eventos- A consulta é executada o tempo
todo- Eventos são Capturados
Dec
k #
53StreamInsight e Azure Stream Analytics - Cenários
Dec
k #
54
End-to-End Architecture Overview
Data Source Collect Process ConsumeDeliver
Event Inputs- Event Hub- Azure Blob
Transform- Temporal joins- Filter- Aggregates- Projections- Windows- Etc.
EnrichCorrelate
Outputs- SQL Azure- Azure Blobs- Event Hub
☁
BI Dashboards
Predictive Analytics
AzureStorage
• Temporal Semantics
• Guaranteed delivery
• Guaranteed up time
Azure Stream Analytics
Reference Data- Azure Blob
AZURE MACHINE LEARNING
Dec
k #
56
As 3 Categorias de Business Analytics1ª - CATEGORIA CONVECIONAL : BI 1.0 - “O QUE ACONTECEU?”
- Reporting- DashBoards - ScoreCards- BASEADO EM DADOS DO PASSADO- NÃO POSSUI UM MODELO QUE “EXPLIQUE O DADO”
2º - PREDICTIVE ANALYTICS : BI 2.0 – “O QUE PODE ACONTECER?”- Passo 1 – Desenvolver um bom modelo “estatístico” que
explique o Passado- Passo 2 - “ASSUMIR QUE O FUTURO SERÁ IGUAL AO
PASSADO”- Passo 3 – Predizer o comportamento futuro com base num
modelo estabelecido3º - PRESCRITIVE ANALYTICS: BI 3.0 – “O QUE DEVE SER FEITO?”
- Passo 1 – Definir o FOCO- Passo 2 – SIMULAÇÕES- Passo 3 – Escolha do Melhor Cenário
I believe over the next decade computing will become even more ubiquitous and intelligence will become ambient...This will be made possible by an ever-growing network of connected devices, incredible computing capacity from the cloud, insights from big data, and intelligence from machine learning.
“If you invent a breakthrough in Artificial Intelligence, so machines can learn, that is worth 10 Microsofts”
Dec
k #
59Types of AnalyticsTraditional BI Deployed ML
Dec
k #
60
Machine Learning não é Novidade..• DETECÇÃO DE FRAUDES• TRANSCRIÇÃO DE VIDEO• LEGENDAGEM (CLOSED
CAPTION)• RECONHECIMENTO DE IMAGENS• DETECÇÃO DE ANOMALIAS• ANÁLISE GENÉTICA• ETC...
http://blogs.msdn.com/b/msr_er/archive/2015/04/02/microsoft-azure-helps-researchers-predict-traffic-jams.aspx
Dec
k #
61
Qual a Novidade então?
- DISPONIBILIDADE- FACILITADE DE USO- ESCALABILDIADE- CAPACIDADE DE
TRABALHAR COM GRANDES VOLUMES DE DADOS
Machine Learning Studio
http://isstke.azurewebsites.net/#/
MACHINE LEARNING DEMO