Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
Big Data em Estudos de Mudanças Climáticas
Prof. Dr. Pedro Luiz Pizzigatti Corrêa - [email protected]
Departamento de Engenharia de Computação e Sistemas Digitais
Escola Politécnica da Universidade de São Paulo - EPUSP
Grupo de Pesquisa e Extensão em Big Data da EPUSP wds.poli.usp.br
21 de fevereiro de 2019
Fundação de Amparo as Pesquisas do Estado de São Paulo - FAPESP
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Agenda
• Introdução
• Boas Práticas para a Gestão de Dados Científicos
• Exemplos de aplicações de Big Data
• Conclusão
2
Image: NASA C 98-2815
BIG WORLDBIG PROBLEMS
BIG DATA
3
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
• Em busca por uma definição formal sobre Ciência dos Dados, encontramos diversos trabalhos na literatura
– Embora muito se discuta sobre a composição das atividades de Ciência dos Dados, o seu conceito ainda não é algo fundamentalmente estabelecido
• Para Zhu e Xiong (2015), há quatro vertentes (perspectivas) que buscam caracterizar Ciência dos Dados
4
Ciência dos Dados
Integração de áreas tais
como
Estatística,Ciência da
Informação e
Tecnologia da
Informação
Ciência que estuda
dados científicos
Ciência que estuda
dados de negócio
Resolução de problemas
por meio da extração de
conhecimento a partir dos
dados
Ciência
dos Dados
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Ciência dos Dados
• Embora não haja consenso sobre a definição, encontramos como elemento comum em todas as propostas um processo de manipulação, processamento e análise de dados, que visa a descoberta de novos conhecimentos
• Para Alex Dehktyar (2016),
– Ciência dos dados é uma disciplina que permite tratar oo ciclo de trabalho com os dados, considerando atividades que compreendem desde a aquisição dosdados, passando pela análise dos dados, até o processo de apresentação dos dados e obtençãode novos conhecimentos
5
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Ciência dos Dados - Processo
6
Cortesia: Alex Dehktyar
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Gestão de Dados Científicos
Como eumantenho meus
dados?
Quais são as ferramentasde QA/QC?
O que é um planode gestão de
dados?
O que sãometadados?
Como preservomeus dados?
Planejar
Coletar
Assegurar
Descrever
Preservar
Descobrir
Integrar
Analisar Como devoorganizar meus
dados?
Como possovisualizar e analisar os
dados?
Queferramentas euposso utilizar?
Que outros dados
existem?
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Atributos gerais da Iinformação:
• Digital;
• Heterogêneo;
• Contextualizado;
• Valioso.
Coleções de registros ou medições que fornecem um registro de evidências do evento observado“... qualquer
informação que possa ser armazenada em formato digital, incluindotexto, números, imagens, vídeo ou filmes, áudio, software, algoritmos, equações, animações, modelos, simulações, etc. “
Quais são os dados de pesquisa?
Cortesia: Profa. Dra. Suzie Allard (University of Tennessee)
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Problema: Pressões sobre os Cientistas
• Publicação
• Deadlines
• Políticas
• Recursos
• Diminuição na equipe
• Congelamento nas contratações
• Resistência em Colaborações
• Muitas prestações de contas
• …ENTÃO, OS CIENTISTAS FICARÃO FELIZES EM SABER QUE TERÃO QUE GERAR METADADOS ?????
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Problema que conhecemos muito bem !
10
o 60% em atividades na organização e limpeza dos dados;o 12% em atividades de pré-processamentoo 9% em atividades de análise
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Quais são os vetores desse dilúvio de
dados (data deluge)
11
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Problema: Volume de Dados
27/11/201812
International Data Corporation (IDC):o A informação no mundo está mais que dobrando, está dobrando cada dois
anos (30 Zettabytes em 2018); o O número de arquivos está crescendo mais rápido que a capacidade de
armazenamento. Nos próximos 5 anos esses arquivos irão crescer num fator de 8;
o O número de pessoas na área de IT responsável por esses dados irá crescer “suavemente”;
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Crescimento de DataSets Científicos
13
DataSets na área de Geociências(National ComputationInfrastructure – NCI – AGU 2018):o A quantidade de dados
disponibilizados pelosDataSets estão dobrando acada 2 anos;
o A quantidade de “arquivos”dos DataSets estãotriplicando a cada dois anos.
o Observa-se um crescimentoexponencial.
Petabytes
100
10
1
2017 2018
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Agenda
• Introdução
• Boas Práticas para a Gestão de Dados Científicos
• Aplicações na área de Big Data
• Conclusão
14
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
15
Política de Gestão de Dados Científicos
➢Estabelece os fundamentos para Gerenciamento de
Dados Científicos
➢Define ferramentasde Software, Padrões de
Metadados para Dados Científicos
➢Estabelece um processo para revisão e aprovação
de publicação de Dados Científicos
➢Define os Requisitos para a preservação
de Dados Científicos Digitais
Políticas foram introduzidas em 2015 de maneira sistemática na USGS https://www2.usgs.gov/fsp/policies.asp
Definição de uma Política de DadosExemplo da USGS:
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
FAIR Data Principlesto be Findable, Accessible, Interoperable and Re-Usable
16
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Confiabilidade para reuso dos dados
• Se alguém entregar seus dados científicos, o que é necessário para convencê-lo que os dados estão corretos ?
• Se requer um sistema complexo para executá-lo e que não tem acesso, o que precisa para confiar dos dados ? Você conhece quais são as suposições e dependências existentes ?
• Quanto você poderá confiar que os mesmo dado estará disponível por um longo período de tempo ?
17
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Boas práticas na gestão de dados
• Plano de gestão de DataSets:
– Gestão de responsabilidade, aumento do volume dos dados, atualização, licença de acesso e proveniência;
– Manutenção e sincronização com catálogo dos dados;
– Identificadores persistentes, citação e relatórios de uso;
– Acompanhar Casos de Uso, medidas de impacto e exemplos para treinamento de cientistas/usuários.
18
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
19
Software - Próxima fronteira
• Similar ao processo de publicação dos Dados
• O software que Analisa os dados precisa acompanhar os artigos
• Considerações:
– Categorias de disponibilização – Informal e formal
– Formal: Disclaimers (Provisório/Aprovado) https://www2.usgs.gov/fsp/fsp_disclaimers.asp
– Licenses – Código pode ser de domínio público e/ou incluir restrições de terceiros;
– Estratégias de Documentação - https://github.com/usgs/best-practices
– Code Reviews (PII/Security, scientific verification, standards)-https://github.com/usgs/best-practices
– Obtenção de um DOI https://github.com/usgs/best-practices/blob/master/doi.md
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Modelo de Negócio para Repositórios
• Relatório sobre Modelo de Negócio para Sustentabilidade de repositórios (http://dx.doi.org/10.1787/302b12bb-en)
– Todos os colaboradores devem reconhecer que o repositório é parte fundamental para viabilizar a ciência aberta;
– Todos os repositórios devem ter claramente articulado um modelo de negócio;
– No contexto da sustentabilidade financeira, as oportunidades de otimização de custos devem ser exploradas Para poder gerir eficazmente os ativos digitais ao longo do tempo
20
II WIDaT – João Pessoa – PB - UFPB27/11/2018
Software – Próxima fronteira
Similar ao processo de publicação dos DadosO software que Analisa os dados precisa acompanhar os artigosConsiderações:
– Categorias de disponibilização – Informal e formal– Formal: Disclaimers (Provisório/Aprovado)
https://www2.usgs.gov/fsp/fsp_disclaimers.asp– Licenses – Código pode ser de domínio público e/ou incluir restrições de
terceiros;– Estratégias de Documentação - https://github.com/usgs/best-practices– Code Reviews (PII/Security, scientific verification, standards)-
https://github.com/usgs/best-practices– Obtenção de um DOI https://github.com/usgs/best-
practices/blob/master/doi.md
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Agenda
• Introdução
• Boas Práticas para a Gestão de Dados Científicos
• Aplicações de Big Data
• Conclusão
22
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Aplicações de Big Data
• Foco nas etapas de publicação de DataSets
– DataONE: Projeto NSF(2011) com o objetivo de capacitar e disponibilizarferramentas para a comunidade científica sobre a gestão de dados deobservações da terra para estudos ecológicos (www.dataone.org)
– EarthCube: Projeto NSF (2011) com o objetivo de desenvolver softwarepara a comunidade de geociências (www.earthcube.org)
– NCI: National Computational Infrastructure (NCI) repositório da Austrália(~10 PBytes) de coleções de dados de pesquisa sobre clima, oceanos,geofísica, astronomia, bioinformática e ciências sociais (nci.org.au)
• Todas as etapas da Gestão de Dados:
– ARM: The Atmospheric Radiation Measurement (ARM) DoE/USA.Disponibiliza uma infraesttrutura computacional para gestão e análise dedados de monitoramento da atmosfera da terra em diversos regimesclimáticos, voltado para os estudos sobre as incertezas no clima (˜10Pbytes). (www.arm.org)
23
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
24
The Atmospheric Radiation Measurement (ARM) FacilityData and Computing Management (DoE/USA)
2
4
Objetivo do ARM:
fornecer uma detalhada e precisa descrição da atmosfera da terra em diversos regimes climáticos para resolver as incertezas no climae nos modelos dos sistemas terrestres que direcionam o desenvolvimento de soluçõessustentáveis para a Energia e desafiosambientais.
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
ARM GOAMAZON
AMF1 Site in Manacapuru
G-1 Research Aircraft in Manaus
http://www.arm.gov/sites/amf/mao/
http://campaign.arm.gov/goamazon2014/
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Ciclo de Vida dos Dados do ARM
2
6
Processo Maduro
usado para apoiar
todo o Ciclo de
Vida dos Dados
Qualidade dos
dados é
considerada em
todas as etapas;
Variedade de
Ferramentas para
monitorar of fluxo
de dados 24/7
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Fluxo de Dados do ARM– Visão Geral
27ARM Permanent Sites provide Long-Term Data.
Mobile Sites and Aircraft Increase Diversity.
Data Growth
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa28
Autor: Giri
Palanisamy
ARM Data
Manager.
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
ARM: Coleta e Processamento
29
Autor: Giri
Palanisamy
ARM Data Manager
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
ARM: coleta e processamento
• Gerenciamento da Complexidade:
– Relatórios on-line em Web dashboards
– Parada automática para previnirproblemas.
30
Data Flow:
• Mais 400+ instruments localizados em diferentes sites
• Total Mensal de 100TB e aproximadamente 10 milhõesde arquivos.
Complexidade
• Variedade de formato de dados
• Interrupções no fluxo de dados devido às operações do instrumento e do local
• Largura de banda limitada da rede
Métricas para o Gerenciamento:Falhas, Arquivos processados, etc..
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
ARM: Controle de Qualidade dos
Dados
Automação
Validação
Humana
Visualização dos Dados
Processamento de Controlede Qualidade
Dados avaliados
Identificação de Problemas
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
ARM: Descreve, Armazenamento e
Busca
Autor: Giri
Palanisamy
ARM Data Manager
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Maneiras de pesquisar dados do ARM
Data Discovery
and Access
InstrumentsMeasurements
Data ProductsSites/location
Data Plots
•Measurement plots
•Statistical plots
Data Quality
•DQ Report
•DQ Assessment
33Data Citation
•DOIs for regular and PI data products
•Citation generation Tool
Autor: Giri
Palanisamy
ARM Data Manager
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Opçoes de Filto
Dado disponível e sua qualidadeApresentados na linha do tempo
Drill Down qualidadeDos dados
Shopping cart: Selecionar datasets
Pesquisa e acesso ARM, PI, Campanha de Campo e Data Sets
ARM: Interface para busca dos dadosBookmark or share results
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa35
Citação ao DOI
Extraçãodos Dados
ARM: Análise & Visualização
Recursos para comunidade de
usuários do ARM para Análise e
Visualização
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
ARM: Ferramenta para Visualização e facilidades
do Oak Ridge National Laboratory (ORNL – TN)
37
Prof. Mike Frame (USGS e
UT) – Acessando sistema
sobre Biodiversidade
(Bison/USGS - 2015)
Supercomputador
TITAN - Giri
Palanisamy (Data
Manager – ARM)
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
ARM – Evolução – Visualização e Ferramentas
de Análise usando NoSQL
Autor: Giri
Palanisamy
ARM Data Manager
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
ARM - Software Stack
Operation System: RHEL 7
Compilers: Intel, PGI, GCC
Libraries: MPI OpenMPI CUDA NetCDF, HDF5
Development tools: Intel IDE, debuggers GDB Valgrind Git, Mercurial
Software (not a complete list): Python PyART* ADI* R NCL, NCO Ferret MATLAB with Image Toolkit ARM software (Py-ART, ADI etc.) IDL Spark, Cassandra
Software environment management using Spack/modulesJob Scheduling: Moab and Torque Two common login nodes per
enclave Single queue, which helps with
bursting, Allowed to burst beyond purchased nodes (30% - 50%)
Fairshare algorithmhttp://adc.arm.gov/tutorials/cluster/stratusclusterquickstart.html#available_softw
are
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Conclusões/Recomendações
• Ser transparente nos métodos, plataformas e infraestrutura –Politica de Dados clara...
• Colaborações internacionais, USGS, ORNL, NCI, (Workshops, pesquisadores visitantes), participação ativa em projetos, fóruns internacionais ESIP
• Estar preparado para a transição para as próximas gerações de hardware
• Entendimento continuo da natureza no nosso modelo de negócio e cadeia valores;
• Investimento em pesquisa, desenvolvimento de software, formação e capacitação de pessoas – Pessoas engajadas!
• Equipes multidisciplinares, envolvendo também áreas de conhecimento em Computação e Ciência da Informação
• Pessoas não escalam, sistemas sim
40
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Gestão de Dados Climáticos
Armazenamento
privado do
pesquisador
Armazenamento
Com
Acesso público
Metadatos
compreensívelsQualidade
verificada
Curadoria
Ativa
Armazena-
mento de
curto
prazo
Exploração
Descoberta
De dados
Integração
dos Dados
Análise e
visualização
Ações na
sociedade
(Frame, 2011)
Iindexado e
Displniível
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Gestão de Dados Climáticos
Armazenamento
privado do
pesquisador
Armazenamento
Com
Acesso público
Metadatos
compreensívelsQualidade
verificada
Curadoria
Ativa
Armazena-
mento de
curto
prazo
Exploração
Descoberta
De dados
Integração
dos Dados
Análise e
visualização
Ações na
sociedade
(Frame, 2011)
Iindexado e
Displniível
Onde estamos ?
Reunião do Programa FAPESP sobre Mudanças Climáticas- Globais – BIG Data em estudos de mudancas climaticas - 21/02/2019 Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Agradecimentos/apoio
• Mike Frame (USGS, UT)
• Giri Prakash (ORNL)
• Prof. Suzie Allard (UT)
• Profs. Paulo Artaxo (IF/USP) e Luciana Rizzo (UNIFESP)
• Profa. Rachel Albretcht (IAG/USP)
• Pesquisadores do Grupo de Pesquisa e Extensão em Big Data da POLI;
• FAPESP: Enabling Integrated Research through monitoring of biodiversity and climate measurements (2016/04982-0)
• FAPESP: O ciclo de vida de aerossóis e nuvens na Amazônia: emissões biogênicas, emissões de queimadas e impactos no ecossistema (2017/17047-0)
43
Big Data em Estudos de Mudanças Climáticas
Prof. Dr. Pedro Luiz Pizzigatti Corrêa - [email protected]
Departamento de Engenharia de Computação e Sistemas Digitais
Escola Politécnica da Universidade de São Paulo - EPUSP
Grupo de Pesquisa e Extensão em Big Data da EPUSP wds.poli.usp.br
21 de fevereiro de 2019
Fundação de Amparo as Pesquisas do Estado de São Paulo - FAPESP