Big Data, seu novo paradigma para análise de dados e seus mitos

Preview:

Citation preview

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC

www.armazemdedados.rio.rj.gov.br

Big Data, seu novo paradigma para análise de dados e seus mitos

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Alinhando alguns conceitos chaves sobre o valor do dado! “Os dados são hoje elementos essenciais para promover conhecimento,

governança e capital.” Robert Kitchin no livro The Data Revolution (2013)

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Alinhando alguns conceitos chaves sobre o valor do dado! O dado é fruto de nossas mentes e para as nossas mentes;

Quando falamos de dados, falamos de um produto da cognição humana!

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

MITO 1 – Dado retrata a realidade Qualquer dado possui um contexto técnico, social, étnico, cultural,

temporal e espacial que não podem ser desassociados;

O dado não reflete a realidade, mas a crença na verdade;

O dado sempre precisa ser posto em sua perspectiva social, mesmo no caso do Big Data.

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Alinhando alguns conceitos chaves sobre o valor do dado! A comunicação do dado é o que estabelece o seu maior valor: quando o

dado chega a outra mente, gerando informação e conhecimento.

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Alinhando alguns conceitos chaves sobre o valor do dado! A ferramenta computador expande nossa capacidade de registro, análise,

compartilhamento e visualização de dados;

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Desafio! A “natural” entropia na produção de dados

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Se desorganizado, menos uso!

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Cadê aquele arquivo?

Se mal formatado, menos uso!

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Não consigo usar esse

dado

MITO 2 – Não basta colocar o dado em um site O valor do dado se concretiza quando ele é reutilizado, gerando nova

informação e conhecimento no leitor do dado.

Não basta disponibilizar os dados, é necessário que o dado esteja em um formato apropriado às necessidades do público-alvo. Por exemplo, dados do censo demográfico do IBGE.

Dados são gerados por pessoas e para pessoas...

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Big Data, o que é? Inicialmente designava base de dados massivas – o conceito foi sendo

rediscutido...

O termo se popularizou e surgiram “evangelistas” e céticos sobre os reais potenciais do big data;

Um fato é que coletar, armazenar e analisar um volume inédito de dados fez surgir novos métodos e técnicas;

Cresce também o entendimento que o big data é um novo platô de produtividade, uma nova forma de agregar valor a partir dos dados.

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

O volume de dados é sempre grande (terabyte, petabyte)...

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Dados de usuário de smartphone, e-mails, imagens de satélite, conteúdo em mídias sociais...

Exaustividade dos dados! Geralmente não se trabalha com amostras, mas com toda a população de pessoas/objetos/eventos

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Alta resolução (granularidade) e indexável (pode ser rotulado, individualizado)

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

É relacionável para que possa ser associado com outros dados a fins de responder novas questões.

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

É dinâmico, a velocidade de atualização é alta. Captura de dados intensos no espaço e tempo.

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Possuem estrutura flexível: novos campos podem ser adicionados e a base é escalável.

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Variado: combina diferentes tipos de dados (textos, imagens, vídeos, áudios).

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Small Data, o que é? Termo para fazer antagonismo ao big data;

Alguns autores colocam um lado social dizendo que o big data pertence a

“big companies” e o small data é democrático;

Também possui o seu valor, a maioria das bases de dados são small data.

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Big Data X Small Data

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Small Data Big Data

Volume Limitado a grande Muito grande

Exaustividade Amostras Toda a população

Resolução e identificação Limitado a grande Grande a muito grande

Velocidade Congelado ou lento Rápido, contínuo

Variedade Limitada a larga Larga

Flexibilidade e escalabilidade

Baixa a mediana Alta

MITO 3 – Big Data é um conceito absoluto O “Big” está nos olhos de quem vê.

Há certas características descritas no quadro anterior que depende do

interesse do analisador. Por exemplo, exaustividade e resolução.

A fronteira entre Small Data e Big Data nem sempre é clara. Por exemplo, dados do censo demográfico.

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Análise de Dados Objetivo é gerar novos dados que não eram evidentes a partir da

observação da base de dados original;

O Big Data traz novos paradigmas de análise – até então o foco era analisar bases estáticas, específicas, amostrais e aderentes a hipóteses rígidas (independência, estacionariedade, normalidade...); bases produzidas para responder questões específicas.

Hoje há um conjunto de técnicas desenvolvidas para se trabalhar com Big Data: Machine Learning, Data Mining, entre outros.

A Análise de Dados responde basicamente a 4 questões...

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Descrição: O que e quando algo aconteceu? Com que frequência?

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Explicação: Por que algo acontece? Qual é seu impacto?

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Predição: O que se espera que aconteça depois? O acontece se nós fizermos isso ou aquilo?

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Prescrição: Qual é a melhor resposta ou resultado? Como ele pode ser alcançado?

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Grupos de Técnicas de Análise de Dados Aprendizado de máquina (machine learning) – reconhecimento de

padrões complexos, construção de modelos para explicar e predizer padrões; otimizar respostas. Pode supervisionado ou não supervisionado.

Mineração de dados e reconhecimento de padrões – parte da premissa que toda a base de dados volumosa possui informação não aleatória, válida, descritível e compreensível. Aplica métodos de aprendizado de máquina, estatística, árvores de decisão, processamento de linguagens naturais, entre outros.

Visualização de dados e visual analytics – métodos de apresentação visual (gráficos, diagramas, mapas, ...) para apresentar estruturas e relações da base de dados;

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Grupos de Técnicas de Análise de Dados Análise estatística – estatística descritiva e inferencial buscam a descrição

e explicação de padrões e relações dentro da base de dados; são técnicas mais difundidas entre os analistas.

Simulações – análises que almejam modelos próximos aos processos do mundo real para predição e otimização de sistemas a partir de diferentes cenários.

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

MITO 4 - Análises “aperta botão” Análises, modelos, sistemas e afins não capturam a total complexidade do

mundo real. Além disso, os dados também não e sempre possuem um aspecto social.

Mesmo no Big Data, as análises devem ser validadas, criticadas e devem possuir um escopo teórico que guie a sua interpretação.

Um modelo que funcione em um cenário, não necessariamente funcionará em outro.

Cuidado com a abdução (abduction) – inferência para a melhor explicação; premissas não consideradas na conclusão (diferente de dedução ou indução).

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Conclusões A boa compreensão do que o Big Data se trata auxilia na sua melhor

utilização;

O Big Data possui técnicas de análises, processos de captura e de armazenamento especializados, entretanto detém características do Small Data como, por exemplo, seus contextos sociais;

O desafio é organizar e cruzar dados ainda é grande, inclusive na gestão pública;

O principal valor do Big Data pode ser associado a novas capacidade de extrair novos dados para gerar mais conhecimento, governança e capital.

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

Dica de bibliografia The Data Revolution – Big Data, Data Infrastructures & Their Consequences Autor: Rob Kitchin | Ano: 2014 Obs: o Centro de Operações da Prefeitura do Rio de Janeiro é citado como exemplo de Big Data na gestão pública. Página 125.

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

PREFEITURA DA CIDADE DO RIO DE JANEIRO | Instituto Pereira Passos | Diretoria de Informações da Cidade . DIC | www.armazemdedados.rio.rj.gov.br

José Augusto Sapienza Ramos

Coordenador Acadêmico do Sistema Labgis – Núcleo de Geotecnologias da UERJ

sapienza@labgis.uerj.br

Recommended