56
5 Vs do Big Data Como as soluções de Big Data têm revolucionado o mercado mundial

OS CINCO Vs DO BIG DATA

Embed Size (px)

DESCRIPTION

Apresentação de Leo Oliveira da Semantix na Internews em Workshop sobre Big Data no dia 26 de junho de 2013.

Citation preview

Page 1: OS CINCO Vs DO BIG DATA

5 Vs do Big Data

Como as soluções de Big Data têm revolucionado o mercado mundial

Page 2: OS CINCO Vs DO BIG DATA

Sobre a Semantix

• Startup B2B• Fundada em 2007. Open Source desde 2010.• Parceira da LucidWorks e da Cloudera• Possui profissionais certificados Cloudera– Apenas 12 brasileiros, dos quais 3 vivem fora do

Brasil.• Especializada em busca, recomendações,

machine learning, processamento de linguagem natural e web semântica.

Page 3: OS CINCO Vs DO BIG DATA

Nossos Serviços

• Treinamento em Solr, Hadoop & Mahout para empresas e em datas especiais.

• Consultoria Open Source personalizada com profissionais certificados.

• Implantação de clouds de Big Data com Hadoop e de sistemas de Search com Solr ou Elastic Search.

• Revenda das ferramentas LucidWorks Search, LucidWorks Big Data e Cloudera Enterprise.

Page 4: OS CINCO Vs DO BIG DATA

Entre em contato!

Leo OliveiraCTO & Co-Founderwww.semantix.com.brloliveira@[email protected]

Skype: lennydaysTwitter: @SemantixBRFacebook: www.facebook.com/SemantixBRLinkedIn: http://www.linkedin.com/in/leonardodiasLinkedIn Semantix: http://www.linkedin.com/company/semantix-brasil

Page 5: OS CINCO Vs DO BIG DATA

Agenda

Virtude

Volume

Variedade

Velocidade

Valor

Page 6: OS CINCO Vs DO BIG DATA

Parte 1: Volume

Page 7: OS CINCO Vs DO BIG DATA

Parte 1: Ponta do Iceberg

99% dos dados estão “debaixo d’água” e não são utilizados nas empresas

Page 8: OS CINCO Vs DO BIG DATA

Parte 1: Onde colocar tanta informação?

Page 9: OS CINCO Vs DO BIG DATA

Parte 1: Onde colocar tanta informação?

Page 10: OS CINCO Vs DO BIG DATA

Parte 1: Onde colocar tanta informação?

Page 11: OS CINCO Vs DO BIG DATA

Parte 1: Como processar tanta informação?

• Em 2007, o Google processava 400 PB de dados por mês;

• Em 2010, o Facebook processava 100 PB por mês;

• Tecnologia de Big Data é usada por todos os grandes players de internet.

• A partir de 2006, empresas de outros ramos passam a adotar soluções de Big Data nos EUA.

Page 12: OS CINCO Vs DO BIG DATA

Parte 1: Como tudo começou?

“We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are more details about d in the next section. Also C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))Note that the PageRanks form a probability distribution over web pages, so the sum of all web pages' PageRanks will be one.”

Page 13: OS CINCO Vs DO BIG DATA

Parte 1: Como tudo começou?

• Google precisava:• Gravar grandes volumes de dados não-estruturados (páginas HTML);• Processar essas páginas para buscar as citações (links) e calcular o

PageRank dessas páginas de acordo com as citações;• Criar um mecanismo de busca que utilizasse regras de busca textual (TF-

IDF) mas que, ao mesmo tempo, aceitasse uma espécie de score boosting nas páginas com maior PageRank.

Page 14: OS CINCO Vs DO BIG DATA

Parte 1: Como tudo começou?

• Google percebeu que:• Informações não cabiam num único servidor;• Servidores quebram eventualmente;• Não existiam mecanismos que pudessem armazenar informações não-

estruturadas ou estruturadas de forma horizontal.

Page 15: OS CINCO Vs DO BIG DATA

Parte 1: Como tudo começou?

• Google criou:• Google File System: sistema de arquivo distribuído entre vários servidores

que dividia os arquivos em blocos e, posteriormente, gravava cada bloco repetido em 3 máquinas diferentes para diminuir bastante a chance de perda de dados;

• MapReduce: criou um framework que facilitaria para os desenvolvedores extrair informação de dados armazenados no Google File System, de forma paralelizada para aumentar a velocidade

• Engenheiros do Google publicaram papers sobre o GFS e sobre o MapReduce nos anos de 2003 e 2004.

Page 16: OS CINCO Vs DO BIG DATA

Parte 1: Como tudo começou?

• Em 2005, o Yahoo! Enfrentava forte concorrência e resolve criar o próprio mecanismo de busca.

• Desenvolve projetos Open Source como o Nutch, um crawler que lê, armazena e indexa páginas na web.

• Se depara com o mesmo problema do Google: máquinas quebram.• Solução? Escrever um novo sistema baseado nos papers publicados pelos

engenheiros do Google. É criado o Hadoop Distributed File System, ou HDFS.• Para fazer o projeto crescer e melhorar rapidamente, o projeto é publicado com

uma licença Open Source da Fundação Apache.• Surge também uma database NoSQL inspirada em outro projeto do Google, o

BigTable, chamada HBase.

Page 17: OS CINCO Vs DO BIG DATA

Parte 1: Como tudo começou?

• Não é a única ferramenta de Big Data, mas é a mais utilizada no mercado atualmente.

• Já possui conectores com grandes ferramentas de BI e analytics• Usado também para processamento semântico• Escala horizontalmente para Petabytes de dados• Cria novas necessidades de administração e novos perfis de desenvolvedores

ambientados no MapReduce• Novos sistemas de abstração de complexidade do MapReduce, como Hive (SQL)

e Pig.

HDFS + MapReduce = HADOOP

Page 18: OS CINCO Vs DO BIG DATA

Parte 1: Como tudo começou?

Podemos adicionar à lista também as ferramentas Solr (2006) e ElasticSearch (2010) como databases NoSQL com modelo de documentos

e voltadas para Search. Também são ferramentas de Big Data.

Page 19: OS CINCO Vs DO BIG DATA

Parte 2: Variedade

Page 20: OS CINCO Vs DO BIG DATA

Parte 2: Variedade

Page 21: OS CINCO Vs DO BIG DATA

Parte 2: Variedade

Page 22: OS CINCO Vs DO BIG DATA

Parte 2: Exemplos• Processar imagens de fotos para encontrar textos e catalogá-los

(MapReduce);• Fazer um “join” de dados de log do servidor web com tabelas do banco

de dados para fazer uma análise do que cada usuário está navegando no site (Pig, Hive);

• Buscar em logs de eventos de transações financeiras possíveis anomalias para detecção de fraude (Pig, Hive, MapReduce);

• Analisar o comportamento de milhões de usuários em um determinado serviço para construir data products (Pig, Hive, MapReduce, Tableau, QlikView, R);

• Criar mecanismos de machine learning a partir de avaliações de usuários feitas a produtos ou serviços para gerar recomendações inteligentes (Mahout, R, Octave, MatLab, Streaming);

• Fazer consultas semânticas de texto complexas utilizando ferramentas adequadas e obtendo rápidos resultados tanto para buscas quanto para recomendações inteligentes (Solr, ElasticSearch, Lucene);

Page 23: OS CINCO Vs DO BIG DATA

Parte 3: VelocidadeAssumption 3: A data set fits on one machine...

Page 24: OS CINCO Vs DO BIG DATA

Parte 3: A metáfora da colméia

Page 25: OS CINCO Vs DO BIG DATA

Parte 3: Novos paradigmas

• Sistemas que utilizam muito memória RAM e logs de transações para aumentar a performance e garantir a confiabilidade;

• Computação paralelizada• Escalabilidade de petabytes, em vez de gigabytes• Armazenamento e processamento distribuído• Sistemas de Big Data aumentam a capacidade de sistemas

existentes em vez de substituí-los• Em alguns casos é possível substituir bancos transacionais para

algumas aplicações utilizando bancos de dados NoSQL como Riak, Voldemort, Hbase, Cassandra, MongoDB, Solr, ElasticSearch dentre outros

• Cada ferramenta de Big Data tem a sua especialização. É necessário conhecer mais do que uma para tirar vantagens.

Page 26: OS CINCO Vs DO BIG DATA

Parte 4: Virtude

Page 27: OS CINCO Vs DO BIG DATA

Parte 4: Virtude

Simplicidade

Generosidade

Caridade

VontadePrudência

Paciência

Humildade

Page 28: OS CINCO Vs DO BIG DATA

Parte 4: Virtude

Simplicidade

Generosidade

Caridade

VontadePrudência

Paciência

Humildade

Simplicidade: “É preciso trabalhar duro para fazer o simples.” Steve

Jobs.

Page 29: OS CINCO Vs DO BIG DATA

Parte 4: Virtude

Simplicidade

Generosidade

Caridade

VontadePrudência

Paciência

Humildade

Generosidade: investir sem uma

expectativa de retorno imediata, mas com retorno

no longo prazo

Page 30: OS CINCO Vs DO BIG DATA

Parte 4: Virtude

Simplicidade

Generosidade

Caridade

VontadePrudência

Paciência

Humildade

Caridade: compaixão,

entendimento dos clientes, política de privacidade,

esclarecimento do público

Page 31: OS CINCO Vs DO BIG DATA

Parte 4: Virtude

Simplicidade

Generosidade

Caridade

VontadePrudência

Paciência

Humildade

Vontade: os profissionais

envolvidos devem ter muita vontade

de manipular dados. Data

jujutsu.

Page 32: OS CINCO Vs DO BIG DATA

Parte 4: Virtude

Simplicidade

Generosidade

Caridade

VontadePrudência

Paciência

Humildade

Prudência: novamente os

limites da ética. Exemplo do câncer

e da Angelina Jolie. Big Data pode mudar

muitas coisas.

Page 33: OS CINCO Vs DO BIG DATA

Parte 4: Virtude

Simplicidade

Generosidade

Caridade

VontadePrudência

Paciência

Humildade

Paciência: é preciso paciência. Desenvolver para Big Data lidar com exceções e muito trabalho amostral é realizado antes

do final.

Page 34: OS CINCO Vs DO BIG DATA

Parte 4: Virtude

Simplicidade

Generosidade

Caridade

VontadePrudência

Paciência

Humildade

Humildade: Big Data é uma forma

de autoconhecimento. É necessário ter humildade para aceitar o que os dados mostram.

Page 35: OS CINCO Vs DO BIG DATA

Parte 5: Valor

Page 36: OS CINCO Vs DO BIG DATA

Parte 5: Valor

“A vida é a flor da qual o amor é o mel”.

Victor Hugo

Page 37: OS CINCO Vs DO BIG DATA

Parte 5: Morgan Stanley

• Análise de Portfolio:• Sistemas de database e de grid tradicionais não funcionam• Construíram um sistema baseado em Hadoop com uma infraestrutura barata• Arquitetura escalável para processar dados ainda maiores

• Detecção de fraude:• Análise de logs de banco de dados comparada com análise de logs web• Dados alterados no banco sem correspondência na web ligam um alerta• Economia de bilhões em fraudes.

Fonte: http://www.forbes.com/sites/tomgroenfeldt/2012/05/30/morgan-stanley-takes-on-big-data-with-hadoop/

Page 38: OS CINCO Vs DO BIG DATA

Parte 5: Facebook

• Real-Time Big Data Analytics:• Arquitetura MapReduce não é suficiente por não ser real-time• Utilizou soluções que armazenam dados em memória para exibir informações

sobre opções “curtir”• Coloca 80% dos dados em memória• RAM é 100 a 1000x mais rápida do que disco• Coloca o código onde estão os dados• Armazena os dados persistentes após serem processados em bancos como

MySQL, HBase e Cassandra

Fonte: http://www.slideshare.net/giganati/real-time-analytics-for-big-data-a-facebook-casestudy

Page 39: OS CINCO Vs DO BIG DATA

Parte 5: Crossbow

• Genoma e testes genéticos por menos de 100 dólares• Arquitetura MapReduce para processar genes• Michael Schatz desenvolveu o sistema para fazer testes genéticos por menos

de 100 dólares• Expectativa de uso na ajuda de prevenção de doenças e pesquisa genética• Técnicas: detecção de padrões, classificação e cálculo de probabilidades.

Fonte: http://www.slideshare.net/giganati/real-time-analytics-for-big-data-a-facebook-casestudy

Page 40: OS CINCO Vs DO BIG DATA

Parte 5: Netflix

• Série House of Cards• A partir da análise de navegação e reviews, Netflix percebeu que poderia

criar uma série de sucesso;• Viu que Kevin Spacey tinha grande aceitação a partir da análise de dados;• Entendeu que thrillers políticos tinham grande apelo com o seu público;

• Recomendação de filmes• Utiliza machine learning com técnicas de filtro colaborativo e k-nearest

neighbor.• Recomenda filmes com precisão com um catálogo gigantesco. No Brasil o

catálogo é menor, mas ainda assim a precisão é muito boa.

Fonte: http://www.fastcodesign.com/1671893/the-secret-sauce-behind-netflixs-hit-house-of-cards-big-data

Page 41: OS CINCO Vs DO BIG DATA

Parte 5: LinkedIn

• Criou uma série de data products baseados em Hadoop como:• “People you may know” (2 pessoas)• “Year in review email” (1 pessoa, 1 mês)• “Network updates” (1 pessoa, 3 meses)• “Skills and Endorsements” (2 pessoas)• LinkedIn: “Hadoop pode capacitar pequenos times a construir grandes

projetos”.

Fonte: http://www.slideshare.net/joseph_adler/how-to-win-friends-and-influence-people-with-hadoop

Page 42: OS CINCO Vs DO BIG DATA

Parte 5: Amazon

• O grande segredo da Amazon: recomendações• Recomendações por e-mail• Recomendações no momento da compra• Compras casadas• Análise do comportamento dos usuários

Fonte: http://tech.fortune.cnn.com/2012/07/30/amazon-5/

Page 43: OS CINCO Vs DO BIG DATA

Parte 5: Obama

• Análise de sentimento no Twitter e exército de apoiadores no Facebook• Levantamento de dados de mídias sociais• Análise de sentimento• Alcançar o eleitor certo na hora certa• Diversas técnicas de data science sendo utilizadas

Fonte: http://gigaom.com/2012/12/08/how-obamas-data-scientists-built-a-volunteer-army-on-facebook/

Page 44: OS CINCO Vs DO BIG DATA

Parte 5: Ford

• Análise da cadeia de suprimentos e de que features colocará em cada carro• Comportamento dos usuários• Comportamento de compra• Integração com smartphones nos veículos• Carros melhores com dados analisados• Natural Language Processing para analisar comentários e sugestões de

usuários

Fonte: http://gigaom.com/2013/04/26/how-data-is-changing-the-car-game-for-ford/

Page 45: OS CINCO Vs DO BIG DATA

Parte 5: Aetna

• Plano de saúde está analisando os seus clientes para oferecer mais saúde e prever doenças• Resultados de exames• Consultas médicas (grafo)• Prevenção de câncer

Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/

Page 46: OS CINCO Vs DO BIG DATA

Parte 5: Globo.com

• Recomendação de notícias• Recomendação de notícias personalizada para usuários ou de acordo com os

artigos• Utiliza Hadoop, Mahout e Solr• Mais de 100 Gb por dia de log processados• Um dos maiores sites do Brasil em termos de audiência• Cliente Semantix de Big Data

Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/

Page 47: OS CINCO Vs DO BIG DATA

Parte 5: Doinet.com.br

• Busca de documentos• Mais de 90 milhões de documentos• Consulta com relevância• Cada documento podendo conter mais de 1000 páginas de dados• Formatos variados (PDF, Texto)• Recomendação de conteúdo.

Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/

Page 48: OS CINCO Vs DO BIG DATA

Parte 5: Catho

• Mais de 10 data products de:• Busca (vagas, CVs, Empresas etc)• Recomendação por e-mail• Recomendação no site• Geração de conteúdo• Mais de 4 milhões de currículos• Utiliza Solr para os seus aplicativos de busca.

Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/

Page 49: OS CINCO Vs DO BIG DATA

Parte 5: Como extrair valor?

• Capacitação profissional• Formação de novos Data Scientists• Capacitação nas novas tecnologias• Entendimento das tecnologias para melhor escolha de custo-benefício

• Criação de projetos• Data Scientists criam Data Products

• Data Analytics (dashboards, análises complexas, dados na íntegra em vez de amostras)

• Servidores de Busca• Aplicativos e softwares• Machine Learning

• Fim dos relatórios “executivos” tradicionais• Entrega de produtos que podem ser analisados pelos executivos de forma ad-

hoc e não mais os antigos relatórios impressos• Mudança de cultura em toda a empresa para uma readaptação à nova

realidade.

Page 50: OS CINCO Vs DO BIG DATA

Parte 5: E a infra?

• Prepare-se para a escalabilidade horizontal.• Privada

• Custos com data center• Masters x Slaves

• Masters requerem muita memória, mas pouco disco, com RAID e gravando dados em NFS para não perder nada.

• Slaves requerem menos memória e CPU e muitos discos. Não vale a pena usar RAID. O melhor é JBOD: Just a Bunch of Disks.

• Pública• AWS (EC2 e EMR)• Azure• Escalabilidade On-Demand

Page 51: OS CINCO Vs DO BIG DATA

Parte 5: Sem SQL?

• NoSQL no Hadoop: Impala• Capacidade de executar queries SQL em Real-Time• Habilita conservação de dados na memória RAM do Cluster• Consultas complexas de SQL usando álgebra relacional, em vez de

MapReduce (diferente do Hive)• Lançado em 2013

Page 52: OS CINCO Vs DO BIG DATA

Parte 5: Search & Recommendation

• Solr 4 ou SolrCloud– Escalabilidade horizontal– Habilidade e versatilidade em consulta de dados– Orientada a documentos– Capaz de alimentar sistemas de análise, pois possui

ótimo sistema de agregação de dados (facets)– Alta disponibilidade aliada a alto poder de busca– Foi incorporado pela Cloudera recentemente como

ferramenta para consultar dados em larga escala.

Page 53: OS CINCO Vs DO BIG DATA

INFINITAS POSSIBILIDADES

Page 54: OS CINCO Vs DO BIG DATA

Sobre a Semantix

• Startup B2B• Fundada em 2007. Open Source desde 2010.• Parceira da LucidWorks e da Cloudera• Possui profissionais certificados Cloudera– Apenas 12 brasileiros, dos quais 3 vivem fora do

Brasil.• Especializada em busca, recomendações,

machine learning, processamento de linguagem natural e web semântica.

Page 55: OS CINCO Vs DO BIG DATA

Nossos Serviços

• Treinamento em Solr, Hadoop & Mahout para empresas e em datas especiais.

• Consultoria Open Source personalizada com profissionais certificados.

• Implantação de clouds de Big Data com Hadoop e de sistemas de Search com Solr ou Elastic Search.

• Revenda das ferramentas LucidWorks Search, LucidWorks Big Data e Cloudera Enterprise.

Page 56: OS CINCO Vs DO BIG DATA

Entre em contato!

Leo OliveiraCTO & Co-Founderwww.semantix.com.brloliveira@[email protected]

Skype: lennydaysTwitter: @SemantixBRFacebook: www.facebook.com/SemantixBRLinkedIn: http://www.linkedin.com/in/leonardodiasLinkedIn Semantix: http://www.linkedin.com/company/semantix-brasil