56
MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO DEPARTAMENTO DE CIÊNCIA E TECNOLOGIA INSTITUTO MILITAR DE ENGENHARIA CURSO DE GRADUAÇÃO EM ENGENHARIA DE COMPUTAÇÃO BRUNO BENJAMIN LERNER CARVALHO THIAGO RIBEIRO TERGOLINO SISTEMA DE APOIO A DECISÃO COM EXPLICITAÇÃO DA AVALIAÇÃO DA QUALIDADE DE DADOS RIO DE JANEIRO 2018

MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

MINISTÉRIO DA DEFESA

EXÉRCITO BRASILEIRO

DEPARTAMENTO DE CIÊNCIA E TECNOLOGIA

INSTITUTO MILITAR DE ENGENHARIA

CURSO DE GRADUAÇÃO EM ENGENHARIA DE COMPUTAÇÃO

BRUNO BENJAMIN LERNER CARVALHO

THIAGO RIBEIRO TERGOLINO

SISTEMA DE APOIO A DECISÃO COM EXPLICITAÇÃO DA AVALIAÇÃO DA

QUALIDADE DE DADOS

RIO DE JANEIRO

2018

Page 2: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

INSTITUTO MILITAR DE ENGENHARIA

BRUNO BENJAMIN LERNER CARVALHO

THIAGO RIBEIRO TERGOLINO

SISTEMA DE APOIO A DECISÃO COM EXPOSIÇÃO DA AVALIAÇÃO DA

QUALIDADE DE DADOS

Projeto de Final de Curso apresentado aoCurso de Engenharia de Computação do Ins-tituto Militar (IME) de Engenharia, comoparte das exigências do IME.

Orientadoras: Prof. Maria Claudia Caval-

canti, D.Sc. ; Prof. Kelli de Faria Cordeiro

RIO DE JANEIRO

2018

Page 3: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

c2018

INSTITUTO MILITAR DE ENGENHARIAPraça General Tibúrcio, 80 – Praia VermelhaRio de Janeiro - RJ CEP: 22290- 270

Este exemplar é de propriedade do Instituto Militar de Engenharia, que poderá incluí-lo em base dedados, armazenar em computador, microfilmar ou adotar qualquer forma de arquivamento.

É permitida a menção, reprodução parcial ou integral e a transmissão entre bibliotecas destetrabalho, sem modificação de seu texto, em qualquer meio que esteja ou venha a ser fixado, parapesquisa acadêmica, comentários e citaçóes, desde que sem finalidade comercial e que seja feita areferência bibliográfica completa.

Os conceitos expressos neste trabalho são de responsabilidade do(s) autor(es) e do(s) orienta-dor(es).

004 Carvalho, Bruno Benjamin Lerner/ Tergolino, Thiago Ribeiro

C331s Sistema de apoio a decisão com exposição da avaliação da qualidade de dados/Bruno Benjamin Lerner Carvalho e Thiago Ribeiro Tergolino; orientados por MariaClaudia Cavalcanti; Kelli de Faria Cordeiro- Rio de Janeiro : Instituto Militar de Engenharia, 2018.

51p. : il.

Dissertação (graduação) - Instituto Militar de Engenharia, 2018.

1. Curso de Engenharia de Computação - Projeto de Fim de Curso.2. Banco de Dados. 3. Data Warehouse I. Tergolino, Thiago Ribeiro.II. Cavalcanti, Maria Claudia. III. Cordeiro, Kelli de Faria. IV. Instituto

Militar de Engenharia. V. Título.

Page 4: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia
Page 5: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

Aos amigos, familiares e companheiros, fundamentais para nossocrescimento não somente profissional como também pessoal.

5

Page 6: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

AGRADECIMENTOS

Agradeço às pessoas que estiveram presentes em minha vidas neste período e me deramapoio e orientação para conseguirmos fazer este trabalho.

Em especial agradeço às nossas orientadoras, Maria Claudia Cavalcanti e Kelli de FariaCordeiro, por sempre indicarem o melhor caminho para seguir. Aos nossos familiares, queme apoiaram em todos os momentos de nossa formação acadêmica e principalmente nestaetapa de conclusão.

Agradeço à Bianca Racca, minha namorada e principal apoiadora de todas as atividadesda minha vida. Seu apoio incondicional foi essencial ao longo de todo o período em que estiveenvolvido nas diversas tarefas acadêmicas ao longo de minha formação.

Por fim, agradeço ao meu amigo e colega de trabalho Bruno Lerner, sem o qual nãoseria possível fazer um trabalho de tanta qualidade como este. Sua capacidade técnica e seuconhecimento são partes fundamentais de todos os trabalhos que fizemos juntos. Além disso,sua amizade sempre foi muito importante ao longo de toda nossa formação.

THIAGO RIBEIRO TERGOLINO

Agradeço aos amigos e familiares que ajudaram a suavizar a rotina da minha jornada, poiscom a cabeça leve e feliz o trabalho gera melhores frutos. Agradeço também especialmente,às nossas orientadoras, Maria Claudia Cavalcanti e Kelli de Faria Cordeiro, que sempre semostraram disponíveis para nos auxiliar e garantir que o projeto seja sucedido, além de serempessoas agradáveis de se conviver. Agradeço ao IME pela sua composição de excelentes alunosque ano após ano compartilham experiências e amizades gerando uma geração muito capazde transformar a sociedade no bom sentido. E por último, mas não menos especial, agradeçoao meu grande amigo Thiago Tergolino, por ter sido um belo sorriso sempre ao meu ladonos diversos trabalhos que fizemos ao longo da graduação, sempre como muita competência,inteligência e seriedade.

BRUNO BENJAMIN LERNER CARVALHO

6

Page 7: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

“Você pode ter dados sem informação mas não pode terinformação sem dados”.

DANIEL KEYS MORAN

7

Page 8: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

SUMÁRIO

SUMÁRIO 8

LISTA DE ILUSTRAÇÕES 10

1 INTRODUÇÃO 141.1 MOTIVAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.2 OBJETIVO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.3 JUSTIFICATIVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.4 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.5 ESTRUTURA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2 FUNDAMENTAÇÃO TEÓRICA 192.1 EXTRAÇÃO, TRANSFORMAÇÃO E CARGA - ETL . . . . . . . . . . . . . . . . . . . . 192.2 ONLINE ANALYTICAL PROCESSING - OLAP . . . . . . . . . . . . . . . . . . . . . . . . . 202.3 QUALIDADE DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.3.1 MÉTRICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3 FERRAMENTAS UTILIZADAS 253.1 DATA INTEGRATION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2 SCHEMA WORKBENCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.3 SAIKU ANALYTICS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4 DESENVOLVIMENTO 284.1 DEMANDAS ANALÍTICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284.2 FONTES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.2.1 DBPEDIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.2.2 WORLD BANK OPEN DATA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.2.3 PORTAL BRASILEIRO DE DADOS ABERTOS . . . . . . . . . . . . . . . . . . . 31

8

Page 9: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

4.3 STAGING AREA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.4 MODELAGEM MULTIDIMENSIONAL DOS DADOS . . . . . . . . . . . . . . . . . . . . 324.5 TRANSFORMAÇÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.6 MODELAGEM MULTIDIMENSIONAL DAS MÉTRICAS DE QUALI-

DADE DOS DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.7 CONSTRUÇÃO DO CUBO DE QUALIDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.8 IMPLEMENTAÇÃO DO PLUG-IN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.8.1 RESPOSTAS PARA AS PERGUNTAS ANALÍTICAS . . . . . . . . . . . . . . 38

5 DESENVOLVIMENTO DO PLUG-IN 415.1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415.2 WORKFLOW DO SAIKU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415.3 MUDANÇAS NO WORKFLOW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435.4 COMPORTAMENTO DE PLUG IN QUALITY VIEWER . . . . . . . . . . . . . . . . . 46

6 DIFICULDADES ENCONTRADAS 486.1 PRIMEIROS PASSOS: ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486.2 FERRAMENTAS DA PENTAHO SUITE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

6.2.1 SCHEMA WORKBENCH - CRIAÇÃO E PUBLICAÇÃO DOS CUBOS 496.2.2 APRENDIZADO SOBRE O SAIKU ANALYTICS . . . . . . . . . . . . . . . . . 50

6.3 CRIAÇÃO DO PLUG-IN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

7 CONCLUSÕES 51

8 REFERÊNCIAS 52

9 APÊNDICE I: CÁLCULO DA CORRETUDE 549.1 HIPÓTESES: INDICADORES COMO UMA CADEIA DE MARKOV. . . . . . . 549.2 CÁLCULO DA CORRETUDE: PROBABILIDADE SOBRE O VALOR

DA VARIAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

10 APÊNDICE II: CÁLCULO DA COMPLETUDE 56

9

Page 10: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

LISTA DE ILUSTRAÇÕES

3.1 Ciclo de vida dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2 Pentaho Data Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.3 Schema Workbench . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.4 Saiku Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.1 Consulta na DBpedia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.2 Gráfico resultado de uma consulta no World Bank . . . . . . . . . . . . . . . . . . . . . . . . 314.3 Modelagem Fato e Dimensões do Cubo de Dados . . . . . . . . . . . . . . . . . . . . . . . . . 334.4 ETL da tabela Dimensão Pessoa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.5 ETL da tabela Fato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.6 Modelagem do Cubo de Tuplas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.7 Modelagem Fato e Dimensões do Cubo de Qualidade . . . . . . . . . . . . . . . . . . . . . . 364.8 ETL da Tabela Fato do Cubo de Qualidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.9 Visualização no Saiku com Completude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.10 Visualização no Saiku com Corretude de quantidade de Campi abertos . . . . . . . 404.11 Visualização no Saiku com Corretude de quantidade de miseráveis . . . . . . . . . . . 405.1 Workflow do Saiku . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425.2 Diagrama de sequência do Saiku . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435.3 Função que busca o cubo de qualidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445.4 Objeto QueryQuality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445.5 Objeto QualityDimensionList . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455.6 Função que pinta a célula . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455.7 Diagrama de sequência do Saiku com as modificações . . . . . . . . . . . . . . . . . . . . . . 465.8 Comportamento do modal ao selecionar a métrica de qualidade . . . . . . . . . . . . . 476.1 Modelagem Fatos e Dimensões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

10

Page 11: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

LISTA DE SIGLAS

OLAP - Online Analytics ProcessingBI - Business IntelligenceRDF - Resource Description FrameworkSPARQL - Simple Protocol and RDF Query LanguageDW - Data WarehousePIB - Produto Interno BrutoPDI - Pentaho Data IntegrationMDX - MultiDimensional eXpression

11

Page 12: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

RESUMO

As informações que podem ser extraídas dos dados representam grande vantagemcompetitiva atualmente. Enquanto dados confiáveis trazem grande conforto para enten-dimento de um cenário, aqueles que possuem alguma incerteza ou incoerência podemrepresentar grandes forças contrárias ao desenvolvimento de um negócio. Por isso é im-portante medir a qualidade de um dado e expor tal medida para que a análise do dado setorne uma informação mais valiosa. Neste sentido, este trabalho apresenta uma soluçãodesenvolvida para, intregada com uma ferramenta de visualização de dados, exibir aousuário se um dado é confiável ou não.

12

Page 13: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

ABSTRACT

The information that can be extracted from data represents a great competitiveadvantage nowadays. While reliable data brings great comfort to understanding a sce-nario, those who have some uncertainty or inconsistency may represent major forcesagainst the development of a business.Therefore, it’s important to evaluate the qualityof some data and expose such value so that the analysis of that data becomes a valuableinformation. In this sense, this work presents a solution developed to, intregated witha data visualization tool, display if a data is reliable or not.

13

Page 14: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

1 INTRODUÇÃO

Vive-se uma era onde existem muitos dados disponíveis e há uma grande demanda poranalisá-los e extrair informações deles. Serviços de Business Intelligence se tornaram extre-mamente populares devido a este fato e é difícil imaginar alguma empresa que não os utilize.Porém, tais ferramentas dependem de dados confiáveis para serem eficientes na análise.

Para criar uma forma de avaliar a qualidade dos dados que são apresentados, primeiroprecisa-se entender exatamente o que vem a ser o conceito de "avaliar a qualidade dos dados".Avaliar pode ser coletar opiniões e fazer cálculos que representem o quanto aquele dadose aproxima da realidade. Também pode-se definir em função da semelhança com valorespadrão pré-determinados [1]. Pode se discretizar um certo conjunto de dados de acordo cominformações acrescidas de uma opinião ou de um cálculo estatístico. As opiniões precisamser geradas por alguma fonte externa enquanto os cálculos estatísticos podem ser gerados emcima dos dados já adquiridos. O conceito citado implica traçar uma conclusão a respeito doobjeto em questão. Assim, avaliar a qualidade dos dados é um processo que tenta identificarerros e elementos estranhos nos dados, além de medir o impacto desses em vários processosde negócios.

O volume de dados gerado atualmente é imenso e dificilmente todos serão de alta quali-dade. Mas dentro dessa enormidade de dados, mesmo daqueles que possuem baixa qualidade,existe muita informação útil e que é de interesse para a tomada de importantes decisões es-tratégicas. É reconhecido que a qualidade de um dado pode variar de acordo com o contextoem que está inserido e assim depende também do nível estratégico que a decisão para o qualserá utilizado está inserido [2].

1.1 MOTIVAÇÃO

Presencia-se a transformação no mundo para a chamada Sociedade do Conhecimento.A economia do conhecimento desloca o eixo da riqueza de setores industriais tradicionais(intensivos em mão-de-obra e matéria-prima) para setores cujos produtos, processos e serviçossão intensivos em tecnologia e conhecimento. Nela, a competição é cada vez mais baseada

14

Page 15: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

na capacidade de transformar informação em conhecimento e conhecimento em decisões.Dentro de uma firma, aquele que vai extrair informações importantes dos dados para

auxílio na tomada de decisão vai ser um usuário que precisa de facilidade na visualizaçãodestes. Para auxílio nesse processo existem as chamadas ferramentas OLAP, que serão des-critas detalhadamente no texto, que permitem a geração de relatórios, a análise de um grandevolume de dados e a obtenção de informações estratégicas que podem facilitar a tomada dedecisão. Nelas, dados são carregados e permitem ao usuário final analisar e explorar os dadospor diversas perspectivas.

A motivação desse trabalho é introduzir numa ferramenta OLAP a ideia de verificaçãoda qualidade dos dados, e para que isso seja possível, desenvolver soluções a serem imple-mentadas no processo de extração desses dados. Destaca-se que muitas vezes ainda se podeextrair informações úteis de dados com pouca qualidade e portanto não há a necessidade dese descartar esse dado mas sim sinalizá-lo como de baixa qualidade. Assim, pretende-se cons-truir uma forma visual simples, clara e direta dos usuários poderem identificar a qualidadedo dado de interesse para a tomada de uma decisão.

1.2 OBJETIVO

O objetivo do presente trabalho é implementar uma estrutura de organização de dadoschamado cubo de qualidade, que será descrito em detalhes no texto, e desenvolver um plug-inpara o aplicativo Saiku, uma ferramenta OLAP, que permita ao usuário visualizar, indepen-dente da perspectiva, a qualidade dos dados analisados, de forma intuitiva.

Para representar de forma prática o produto do trabalho, um objetivo secundário foidesenvolver um estudo de caso que demonstre a funcionalidade do cubo de qualidade e suavisualização no plug-in mencionado. Foram examinados dados sobre indicadores sociais e fei-tas relações com os governantes das respectivas épocas para verificar informações amplamentedivulgadas a respeito dos progressos obtidos em seus mandatos.

15

Page 16: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

1.3 JUSTIFICATIVA

Grande parte das aplicações de visualização de dados em bancos de dados ainda pecaem diversos aspectos como, por exemplo uma melhor visualização das informações para osusuários. Esse problema vem sendo evidenciado pela queda no uso de tais ferramentas. Coma crescente necessidade de transformar informação em conhecimento, o uso de ferramentaspara gerenciamento de dados vai se tornar cada vez mais importante. Quanto à forma comoo usuário visualiza as informações sobre os dados, não se encontram muitas opções quepermitam a ele ter a avaliação sobre a qualidade do conjunto de valores que está utilizando.

Para muitas decisões é extremamente importante apoiar-se em informações válidas, con-fiáveis e de qualidade. Conclusões baseadas em dados incorretos dificilmente irão produziros resultados esperados. Dados de má qualidade podem ocasionar falhas nos processos denegócio e custos relacionados a pessoas, materiais, tempo e dinheiro. A empresa IBM estimaque problemas relacionados à qualidade de dados custam, para os Estados Unidos, mais de3 trilhões de dólares por ano (Harvard Business Review, 2016).

Sendo assim, há um desafio técnico em desenvolver a funcionalidade de explicitar a qua-lidade dos dados analisados pelo usuário de forma imediata. Assim, esse terá a corretadimensão acerca de quão confiáveis são as informações em que ele está se apoiando paratomar suas decisões.

1.4 METODOLOGIA

O trabalho começa fazendo um estudo de caso ponta a ponta, para que se entenda todo oprocesso pelo qual os dados passam até serem visualizados pelo usuário, e com isso entenderquando e como os dados podem ter a qualidade afetada. Para isso, foi gasto um tempo inicialpara escolher o caso a ser estudado. Também se buscou aumentar a complexidade do processo(através da busca de diversas fontes, um cenário semântico complexo, etc) para que a soluçãoencontrada seja capaz de lidar com isso. Depois de modelado todo o processo, sabendo todas

16

Page 17: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

as variáveis que precisaram ser consideradas, foi possível dar início ao desenvolvimento doplug-in.

Para a busca da fonte de dados inicialmente foram pesquisados datasets do governo ame-ricano (www.data.gov - hub de dados) e do governo brasileiro (www.dados.gov.br - hubde dados). Com a grande variedade de dados que se tem acesso, foram definidas perguntas aserem respondidas. Para obter uma maior variedade de dados num mesmo lugar e diversificaras fontes, dados foram extraídos na DBpedia.

Para modelar diversas perguntas que podem ser feitas tendo esses dados, foi feita a ex-tração de todos os presidentes que o Brasil já teve, através de uma consulta na DBPedia,e posteriormente foi decidido buscar informações sobre outros cargos públicos para fazeranálises ainda mais complexas. Tendo essas fontes, foi iniciada a busca por dados brutossobre a população brasileira, no www.data.worldbank.org, para cruzá-los com os cargosassumidos por essas pessoas ao longo tempo.

Para a parte de extração, transformação e carga dos dados foi utilizada a ferramentaPentaho Data Integration (PDI). Através dele os dados são extraídos das fontes, carregadosnum banco de dados chamado de Banco de Dados da Staging Area - que terá seu significadoexplicado mais detalhadamente a frente - após as devidas transformações e então usados paraa construção do cubo de dados.

Após esta etapa inicia-se a construção do cubo de qualidade. A metodologia a ser seguidafoi sugerida pela Glenda Carla Moura Amaral em [3], que vai ser melhor explicada adiante.Ao longo do trabalho tentou-se tornar os processos de transformação e carga o mais genéricopossível visando replicação da estrutura. A partir do DataWarehouse e a criação da estruturachamada de Cubo de Qualidade, iniciou-se o desenvolvimento do plug-in para o Saiku para avisualização dos dados por diversas perspectivas incluindo as métricas sobre a qualidade dosdados.

1.5 ESTRUTURA

O texto tenta relatar como foi o desenvolvimento do projeto até chegar no seu produtofim. Nele, é descrito desde os conceitos básicos importantes para todo o desenvolvimento,até detalhes do código criado. É seguida a seguinte estrutura:

17

Page 18: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

• Capítulo 2: Apresenta uma breve definição de ferramentas OLAP, introdução à arqui-tetura da carga e visualização dos dados, explicação sobre a medição da qualidade dosdados e como essa informação deve ser apresentada aos usuários.

• Capítulo 3: Uma breve exposição sobre as principais ferramentas utilizadas no trabalho.

• Capítulo 4: Explica em detalhes a construção das estruturas tanto dos cubos como dopróprio desenvolvimento do plug-in.

• Capítulo 5: Analisa todos os detalhes do desenvolvimento do plug-in para ferramentade visualização da qualidade dos dados.

• Capítulo 6: Apresenta e analisa as difuldades encontradas em todo o projeto.

• Capítulo 7: Faz conclusões acerca do trabalho apresentando possibilidades para melho-rias e trabalhos futuros.

18

Page 19: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

2 FUNDAMENTAÇÃO TEÓRICA

O termo Business Intelligence (BI), inteligência de negócios, refere-se ao processo de co-leta, organização, análise, compartilhamento e monitoramento de informações que oferecemsuporte a gestão de negócios. Dentre os processos, estruturas e tecnologias que transfor-mam uma grande quantidade de dados brutos em informação útil para tomadas de decisõesestratégicas destacamos a que será tratada nesse trabalho, o Online Analytical Processing(OLAP). Antes deste existe o processo chamado de Extract, Transform, Load (ETL).

ETL representa os passos de: extrair os dados de uma fonte, usualmente um banco dedados montado com informações brutas; transformar os dados para um formato que sejaapropriado para o fim que se deseja utilizar; carregar os dados no formato final para que aanálise desejada seja executada [9].

OLAP representa a ferramenta dentro de BI que tem o papel de auxiliar na análise dosdados. Aplicações típicas de OLAP incluem relatórios de negócio para vendas, marketing,relatórios gerenciais, estimativa de gasto de recursos e relatórios financeiros, com novas apli-cações no horizonte como na agricultura. O termo OLAP foi criado como uma pequenamodificação do termo tradicional de banco de dados "Oline Transaction Processing"(OLTP),que seriam ferramentas que facilitam e gerenciam aplicações orientadas a transações, comopor exemplo gerenciar a variação de estoque num depósito de mercadorias [9].

2.1 EXTRAÇÃO, TRANSFORMAÇÃO E CARGA - ETL

O ciclo de vida do ETL pode ser considerado formado pelas etapas de:

• Referenciar os dados

• Extrair dados das fontes

• Validar os dados

19

Page 20: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

• Transformar os dados

• Carregar na Staging Area

• Publicar nas tabelas alvo

Importante destacar o processo de validação que deve ser composto pela verificação dosdados para adequação mínima a condições de uso para o fim desejado. É importante exigirque os dados apresentem um patamar mínimo de qualidade que os torne aceitáveis para ouso. Além disso, explicitar em quanto foi mensurada essa qualidade não tem relação como processo de validação dos dados, apenas ambos usam a informação sobre a qualidade dosmesmos [10].

A entidade citada como Staging Area pode ser definida como uma área intermediária dearmazenamento usada para processamento de dados durante o processo de ETL. Essa arease encontra entre as fontes de dados e o destino final dos dados, que usualmente são DataWarehouses. Evidentemente, os dados nela já sofreram transformações.

2.2 ONLINE ANALYTICAL PROCESSING - OLAP

Online Analytical Processing, ou OLAP, é uma ferramenta de Business Intelligence utili-zada para apoiar as empresas na análise de suas informações, visando obter novos conheci-mentos que são empregados na tomada de decisão. O termo OLAP refere-se a um conjuntode ferramentas voltadas para acesso e análise de dados, com o objetivo final de transfor-mar dados em informações capazes de dar suporte às decisões gerenciais de foma amigável eflexível ao usuário e em tempo hábil.

Ferramentas OLAP permitem usuários analisar dados multidimensionais interativamentede diferentes perspectivas. Dentro dessa ideia é importante introduzir o conceito de Cubo.

Um Cubo OLAP é uma estrutura de dados que pode ser abstraída como um array mul-tidimensional ou, definindo em função de estruturas matemáticas, como um espaço Rn ondecada coordenada representa uma dimensão de dados a ser analisada [11].

Uma ferramenta OLAP deve ser capaz de efetuar algumas operações, que podemos citar:

• "Roll Up", que representa a agregação de dados que podem ser acumulados e computa-dos em uma ou mais dimensões. Por exemplo, observando o caso de uma rede de lojas

20

Page 21: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

que vende produtos de diversos departamentos, podemos executar a operação de RollUp em todas as vendas em cada loja agregando-as segundo os departamentos.

• "Drill Down", que em contraste ao Roll Up, é uma técnica que permite aos usuáriosnavegar pelos detalhes dos dados guardados aumentando a granularidade dos dados.Por exemplo, para o caso de uma rede de lojas que atua em várias regiões pode sequebrar as vendas nestas regiões por cada produto.

• "Slice", que é uma operação que permite aos usuários visualizarem um novo sub-cuboa partir da seleção de um valor particular de uma dimensão do cubo (Slice). Podemoschamar esses Slices de pontos de vista que o usuário observa os dados. No exemplode uma loja, com os dados de vendas nas cidades Rio de Janeiro, São Paulo e BeloHorizonte nos meses de Janeiro, Fevereiro e Março, um possível Slice seria ver asvendas nas cidade apenas no mês de maio.

• "Dice", que significa escolher valores particulares de duas ou mais dimensões paraformar um novo sub-cubo (Dice) que representaria a união de alguns Slices. Comoexemplo de Dice pode se considerar o sub-cubo formado pelas vendas nas cidades Riode Janeiro e São Paulo nos meses de Fevereiro e Março.

2.3 QUALIDADE DE DADOS

Como explicado na introdução, definir como avaliar a qualidade de algo vai além de medirdeterminadas características. Para fazê-lo de forma apropriada precisamos entender o queestá sendo avaliado, qual será o grupo de pessoas que terá contato com o objeto, e assimestimar como vai ser a percepção de qualidade que eles terão, e montar as métricas queavaliarão de forma coerente.

Qualidade de dados se refere às condições de um conjunto de valores de variáveis qualitati-vas e quantitativas. Existem muitas definições para dados com alta qualidade mas geralmenteé considerado aquele que é adequado para os usos desejados em operações, tomadas de deci-são e criação de planejamentos. Alternativamente, um dado é considerado de alta qualidadese representa corretamente o objeto do mundo real ao qual se refere. Além disso, aparte

21

Page 22: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

dessas definições, com o aumento do volume de dados, a questão sobre consistência internados dados se torna significante, independentemente da adequação para uso para qualquerfinalidade externa específica. As opiniões das pessoas sobre a qualidade dos dados podemfrequentemente estar em desacordo, mesmo quando se discute o mesmo conjunto de dadosusado para o mesmo propósito [13].

Citaremos agora aspectos mensuráveis acerca de qualidade de dados [13].

• Grau de excelência exibido pelos dados em relação ao retrato do cenário atual.

• O estado de integridade, validade, consistência, pontualidade e precisão que tornam osdados apropriados para um uso específico.

• A totalidade das características e características dos dados que se baseiam em suacapacidade de satisfazer um determinado propósito; a soma dos graus de excelênciapara fatores relacionados aos dados.

• Os processos e tecnologias envolvidos na garantia da conformidade dos valores de dadosaos requisitos de negócios e critérios de aceitação.

• Completa, baseada em padrões, consistente, precisa e com registro de data e hora (timestamp).

A definição ISO 9000:2015 de qualidade de dados refere-se ao grau em que um conjuntode características dos dados satisfaz certos requisitos. Exemplos dessas caracteristicas são:completude, validade, acurácia, consistência, disponibilidade e pontualidade. Requisitos sãodefinidos como a necessidade ou expectativa, geralmente implícita ou obrigatória.

2.3.1 MÉTRICAS

Para se avaliar a qualidade dos dados de forma objetiva e oferecer ao usuário essa in-formação, é necessário a implementação de métricas que idealmente descreverão o nível deproximidade com a realidade. A avaliação do nível de qualidade dos dados é feito através dedimensões que descreverão e quantificarão os aspectos a serem verificados [1].

Como representam categorias de alto-nível, dimensões de qualidade de dados são abstra-tas. Algumas dimensões exploradas incluem as citadas na definição de qualidade de dados

22

Page 23: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

pelo ISO 9000:2015. Dimensões de qualidade de dados são importantes pois possibilitam queas pessoas sejam capazes de entender por que os dados estão sendo medidos.

Serão consideradas como métricas fundamentais de qualidade completude, corretude eatualidade dos dados. Lembrando do conceito estabelecido para qualidade de um dado, quevem a ser o quanto eles correspondem à suas contrapartes no mundo real, serão estabelecidasas métricas usadas no trabalho [6].

Considere xdb um valor guardado num banco de dados e xr o valor no mundo real doobjeto ao qual esse dado faz referência. Deseja-se estabelcer uma função distância d(xdb, xr)

que quantifique a distância entre os valores de xdb e xr normalizada no intervalo [0,+∞].Alguns exemplos de tais funções são [6]

• d(xdb, xr) = 0 caso xdb = xr e d(xdb, xr) =∞ caso contrário. Ou seja, seria uma métricaque só aceita valores idênticos aos do mundo real para os dados guardados.

• d(xdb, xr) = |xdb − xr| que mede o valor numérico absoluto da diferença entre o dadoguardado e o correspondente no mundo real.

A função d a ser escolhida depende do motivo pelo qual se observa a qualidade dos dados.Porém, independente dessa escolha, pode-se definir as métricas observadas osbre os dados.

Defina Qcorretude a função que meça a corretude de um dado e usemos sua valoração como

Qcorretude(xdb, xr) =1

d(xdb, xr) + 1.

Lembrando que esta é uma possível definição para a função Q que se aplica bem de formagenérica e não em um caso específico. A definição é inspirada em [6] para medir a corretude.

Por atualidade dos dados entendemos como o quão atualizados aqueles dados estão. Umamétrica para tal característica deve entregar uma indicação de quando o dado foi atualizadono mundo real em relação ao que se tem guardado. Pode-se usar então a definição de [6], quemede a taxa descrita:

Timeliness =1

(média de atualização do atributo) · (idade do dado no banco)+ 1

Por completude refere-se ao quanto da totalidade dos dados necessários estão disponí-veis no banco. Esta métrica envolve a definição de qual é o total de dados necessários emuma consulta analítica. Claramente isso depende da aplicação em questão e do quanto dainformação desejada está disponível em forma de dados que possam ser adquiridos.

23

Page 24: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

A definição matemática de completude é

Completude =Dados disponíveis no banco

Dados necessários para a aplicação.

24

Page 25: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

3 FERRAMENTAS UTILIZADAS

Para cada etapa do processo descrito na figura 3.1, foi utilizada uma ferramenta que fazparte da suite Pentaho Business Intelligence

Neste capítulo apresenta-se tais ferramentas utilizadas.

Figura 3.1: Ciclo de vida dos dados

3.1 DATA INTEGRATION

No Pentaho Data Integration são executados os passos de ETL - extração dos dados,transformação e carga nos bancos de dados. Na figura 3.2 temos um exemplo de sequência deoperações de ETL. Essa ferramenta realiza o ETL das Fontes de Dados para a Stage Areae da Stage Area para os cubos de dados, como é mostrado na figura 3.1. É extremamenteimportante para poder gerenciar a aquisição e armazenamento dos dados.

25

Page 26: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

Figura 3.2: Pentaho Data Integration

3.2 SCHEMA WORKBENCH

Esta é a ferramenta utilizada para criação e publicação dos cubos de dados, tornandopossível a leitura dos mesmos para a aplicação analítica. Na figura 3.3 temos um exemplode construção de um cubo OLAP na ferramenta. É utilizada na etapa do Data Marts paraa Aplicação Analítica, como mostrado na figura 3.1.

Figura 3.3: Schema Workbench

26

Page 27: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

3.3 SAIKU ANALYTICS

A figura 3.4 ilustra a ferramenta focada na experiência do usuário final que deseja vi-sualizar os dados de diversas perspectivas, em formato de tabelas ou gráficos realizando asoperações de Roll Up, Drill Down, Slice e Dice, descritas na seção 2.2 . O plugin desenvolvido,como um dos objetivos do presente trabalho, atua nessa ferramenta.

Figura 3.4: Saiku Analytics

27

Page 28: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

4 DESENVOLVIMENTO

Nesta capítulo é detalhado o desenvolvimento da ferramenta, focado no caso de estudoescolhido para exemplificá-la. O processo de tratar o caso de estudo possibilitou que váriasideias que se tornaram importantes para o desenvolvimento do produto fim do projeto. Sendoassim, todas as etapas descritas representam importantes passos par a construção de todo otrabalho.

4.1 DEMANDAS ANALÍTICAS

A primeira parte do projeto consistiu da formulação de perguntas para as quais seriambuscadas respostas através da análise de dados. Após a escolha de que o tema principal seriasobre políticos no poder executivo e mais especificamente sobre aqueles que já ocuparam ocargo de presidente do Brasil, naturalmente foi definido que o subtema seria a verificaçãodas reais evoluções em educação, desenvolvimento econômico e social no país nos respectivosmandatos.

Para cada uma das frentes investigadas foram definidas as seguintes perguntas e os dadosque seriam usados para respondê-las:

1. Buscando entender por uma aproximação o quanto se investiu em acesso à educaçãode nível superior no país, buscou-se os dados sobre quantos campi de universidadesfederais foram abertos.

2. Para entender a evolução do desenvolvimento econômico buscou-se analisar a evoluçãodo PIB do país.

3. Para entender a evolução do desenvolvimento social buscou-se os dados sobre a quan-tidade de pessoas miseráveis no país, considerando aqueles que recebiam menos de umdólar e noventa centavos por dia.

Cada um desses dados foi buscado em fontes distintas, que serão detalhadas a seguir.

28

Page 29: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

4.2 FONTES

Os dados usados no caso estudado foram extraídos de três fontes: DBpedia, World BankOpen Data e o Portal Brasileiro de Dados Abertos. Cada uma delas tem suas peculiaridadesquanto à extração dos dados e também quanto à percepção de confiança na qualidade delas.

4.2.1 DBPEDIA

A DBpedia é um projeto que visa extrair conteúdos estruturados das informações guar-dadas nos projetos da Wikimedia. Ela é resultado de um esforço coletivo da comunidadepara atingir o objetivo de extração dos dados [4].

Essas informações estruturadas lembram um grafo de conhecimento aberto (Open Kno-wledge Graph) que está disponível para todos na Web. Um grafo de conhecimento é um tipoespecial de banco de dados que guarda conhecimento na forma de um grafo compreensível pormáquinas e fornece uma maneira dela ser coletada, organizada, compartilhada, pesquisada eutilizada.

Os dados na DBpedia são servidos como Linked Data, que permite que se navegue nessaWeb de fatos com navegadores padrões, crawlers automatizados ou queries complexas emlinguagens semelhantes a SQL (SPARQL por exemplo). Um exemplo de tipo de query possívelde se usar para fazer uma pesquisa é uma que retorne todas as cidades com criminalidadebaixa, clima quente e oferta de empregos [4].

Como a fonte dos dados presentes na DBpedia é variada, o nível de confiabialidade destesapresenta grande variação. Cconsideremos então essa fonte tendo dados de qualidade baixapois não há garantia de que um dado específico é de uma origem confiável.

Foram tirados os dados sobre todas as personalidades políticas no Brasil que alguma vezjá foram presidente. A pesquisa realizada primeiro pegou uma lista com todos os presidentesda história do país. Com os nomes desta lista, foi verificado na página de cada um delesna DBpedia quais cargos já ocuparam e para cada um desses uma data de início e uma detérmino.

Na figura 4.1 vemos uma consulta realizada na DBpedia para extrair os nomes e mandatosdos políticos que já ocuparam o cargo de presidente.

29

Page 30: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

Figura 4.1: Consulta na DBpedia

4.2.2 WORLD BANK OPEN DATA

O Banco Mundial é uma instituição financeira internacional que efetua empréstimos apaíses em desenvolvimento. É o maior e mais conhecido banco de desenvolvimento no mundo.Sua plataforma de dados disponibiliza informações sobre indicadores de desenvolvimentoglobal. É uma instituição renomada e que busca guardar os mais recentes e precisos dadossobre desenvolvimento global. Pode portanto ser considerado uma fonte confiável de dados.

Dados sobre indicadores sociais devem ser bastante confiáveis dada a importância quetêm para a instituição. Foram retirados os dados sobre quantidade de pessoas que recebiammenos de dois dólares por dia no Brasil e o PIB do país. Baseado nos fatos expostos, foiconsiderado que essa fonte é confiável.

Na figura 4.2 temos um exemplo de um gráfico obtido como resultado de uma consultano World Bank of Data.

30

Page 31: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

Figura 4.2: Gráfico resultado de uma consulta no World Bank

4.2.3 PORTAL BRASILEIRO DE DADOS ABERTOS

O Portal Brasileiro de Dados Abertos é o ponto central para a busca e o acesso aosdados públicos no Brasil. Cada órgão é responsável pela catalogação no portal dados.gov.brdaqueles dados que publica na Internet.

É dito pelo Governo Brasileiro que a política de dados abertos tem como objetivos fun-damentais a promoção da transparência, o engajamento na participação social, o desenvolvi-mento de novos e melhores serviços governamentais e o aumento da integridade pública. Ofomento tecnológico com o emprego de dados abertos é o pilar principal para o desenvolvi-mento de governos mais abertos, efetivos e responsáveis [5].

O portal de dados abertos está em sintonia com a Reasearch Data Alliance (RDA), umainiciativa da Comissão Europeia (EC), da NSF/EUA e do governo da Austrália, com oobjetivo de construir uma infraestrutura técnica e social para habilitar o compartilhamento dedados abertos. Tem mais de 7 mil membros de 137 países e provê um espaço neutro para queseus membros discutam juntos a adoção de infraestrutura para promover o compartilhamentoe a pesquisa em banco de dados.

Como a plataforma funciona como um hub de dados, não se pode considerar a confiabili-dade dessa fonte uniforme. Ou seja, dependendo do órgão fonte da informação, a qualidadedele pode ser diferente. No presente trabalho, esta fonte foi tratada como uma de confiabili-dade média.

Foram extraídos do portal os dados de quantos campi de universidades federais foram

31

Page 32: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

abertos em cada ano, por município - este dado foi transformado posteriormente, agregandoas quantidades em todo o país.

4.3 STAGING AREA

Como explicado no Capítulo 2, a Staging Area é uma área intermediária de armazena-mento de dados. Nela estão os dados depois de serem extraídos das fontes (citadas anterior-mente) e sofrerem transformações que permitem o uso para o resto da aplicação.

O banco de dados que armazena estes dados foi chamado de "PFC Ind". Nele estão conti-das as tabelas pessoa (nome, cargo, início do mandato, término do mandato), que armazenatodos os dados daqueles políticos que já ocuparam o cargo de presidente, pib, quantidadede miseráveis e quantidade de campi (todas as tabelas têm uma coluna para a quantidade euma para o ano), que guardam as informações extraídas acerca destes indicadores sociais, euma tabela gerada a partir destas para conseguir fazer a ligação entre elas, que seria a tabelatempo.

4.4 MODELAGEM MULTIDIMENSIONAL DOS DADOS

A modelagem multidimensional, que representa a estrutura como os dados estão orga-nizados no cubo de dados, é a da figura 4.3. Ela separa em dimensões características quesão importantes para fazer as comparações desejadas. Estas são tempo, cargo e pessoa, quediz nome e gênero do político que esteve em determinado cargo. A tabela fato contém asinformações as quais deseja-se extrair conhecimento acerca dos mandatos dos respectivospolíticos.

Dessa forma, é possível fazer consultas relativas a cada uma das métricas (pib, miseráveis,campi) focando nas perspectivas dadas pelas dimensões, ou seja, qual o valor dessas métricasvariando pelo ano, pelo cargo ocupado, por uma determinada pessoa ou uma combinaçãodestas.

4.5 TRANSFORMAÇÕES

Após os dados serem extraídos das fontes, esses devem passar pelo processo de ETL.

32

Page 33: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

Figura 4.3: Modelagem Fato e Dimensões do Cubo de Dados

A finalidade dessa etapa é limpar os dados, ou seja, tirar aquilo que pode ser consideradodescartável, deixá-los no formato adequado para uso nas aplicações e por fim carregar essesnos bancos de dados que serão usados pelas aplicações fim para análise.

Para cada família de dados os processos funcionam de forma semelhante neste projeto:são extraídos do banco da Staging Area, onde estão guardados após a extração das fontes,passam pelas transformações necessárias e enfim são guardados no banco que alimenta oscubos de dados e de qualidade.

A figura 4.4 mostra as transformações que carregam a dimensão pessoa no banco que dáorigem ao cubo de dados. Nessa transformação, primeiro é lido do banco da staging area(Ler PFC Ind Politicos) informações sobre os nomes daqueles que já ocuparam o cargo depresidente e em seguida é acrescentado um número identificador único (Add id) para cadaum destes nomes além do gênero - masculino ou feminino - de cada um (Add Genero). Atransformação "Trata Nome/Id" faz pequenas correções em detalhes nos nomes que vêm dobanco da Staging Area. Após estas transformações, esses dados são carregados no cubo dedados (Escreve PFC Dw).

33

Page 34: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

Figura 4.4: ETL da tabela Dimensão Pessoa

Os dados dos fatos precisam passar por uma série de joins até construírem esta tabela. Issoporque cada tupla é identificada unicamente como uma combinação de valores das dimensõese para montar isto, é necessário integrar várias tabelas. Na figura 4.5 está apresentada parteda construção da tabela fato do Cubo de Dados. Observando as primeiras transformações,percebe-se que para alinhar todas as métricas com todos os anos presentes na dimensãotempo, é feito um produto cartesiano dos dados nesta com a tabela que contem os nomesde quem já foi presidente, com os anos que eles estiveram em um cargo público e o nomedeste cargo, restringindo às tuplas onde o mandato contem o ano. Destaca-se que paraser possível fazer essa restrição, é necessário que as datas na tabela contendo os nomes dospolíticos sejam tratadas para ficarem como os anos estão guardados na tabela que alimentaa dimensão tempo.

Após a última etapa, as transformações de Joins entre tabelas com métricas passam aconter todos os anos guardados na dimensão tempo e esse é o valor que será usado pararealizar cada join. Para todas as tabelas é necessário tratar o formato da data e após cadajoin é feita uma eliminação da coluna data que foi duplicada.

34

Page 35: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

Figura 4.5: ETL da tabela Fato

4.6 MODELAGEM MULTIDIMENSIONAL DAS MÉTRICAS DE QUALIDADE DOSDADOS

Para o cubo de qualidade muitas características são naturalmente herdadas do cubo dedados, como as dimensões que são idênticas às deste. Para a modelagem do fato, seguimosaquela descrita em [3] como cubo de tuplas. De uma forma genérica, essa modelagem estádescrita na figura 4.6, tirada de [3].

Figura 4.6: Modelagem do Cubo de Tuplas

A tabela fato do cubo de qualidade tem como colunas aquelas relativas às dimensões eaquelas que descrevem as qualidades de cada uma das colunas que descrevem métricas databela fato do cubo de dados quanto a corretude e completude (as descrições destas métricasforam feitas no capítulo 2, e dos cálculos, nos Apêndices I e II).

35

Page 36: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

A figura 4.7 descreve a modelagem deste cubo. Em [3], o cubo de tuplas apresenta natabela fato uma qualidade para cada combinação de valores nas dimensões (ou seja, paracada tupla da tabela q Fact no Cubo de Qualidades). A extensão deste conceito que fazemosaqui é que ao invés de termos uma métrica de qualidade para cada tupla, temos três atributosde qualidade, uma para cada métrica do cubo de dados, onde cada uma descreve a qualidadede uma das colunas em cada tupla. Dessa forma, a exemplificação no caso estudado ficoumais rica devido à possibilidade de apresentar uma variação de qualidade dentro de linhas,dependendo das métricas consideradas no Cubo de Dados.

Figura 4.7: Modelagem Fato e Dimensões do Cubo de Qualidade

Por fim, destaca-se que para o fim do projeto, a ferramenta de visualização de dadoscom sua qualidade, não há diferenças significativas na mudança de modelagem do cubo dequalidade. É possível adaptar o projeto para qualquer modelagem.

4.7 CONSTRUÇÃO DO CUBO DE QUALIDADE

A construção do cubo de qualidade é feita em duas partes:

1. As dimensões são idênticas às do cubo de dados.

2. As métricas são as qualidades das métricas contidas na tabela fato do cubo de dados.Para cada métrica deste, temos um valor para a corretude e um valor para a completude.

Para este desenvolvimento foi feito um processo de ETL para carregar as dimensões nocubo (principalmente os processos de extração e carga) exatamente como no caso do cubo de

36

Page 37: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

dados, e também transformações que envolviam cálculos sobre as métricas na plataforma deintegração de dados.

Para o cálculo específico da corretude foi utilizado um programa em C++, que classificacada dado, de cada métrica do cubo de dados, de acordo com sua faixa de qualidade, avaliadade acordo com os dados disponíveis da mesma métrica. Como este cálculo é feito estádetalhado no Apêndice I. Para o cálculo da completude é feita uma razão sobre o totaldos dados, usando os dados disponíveis das métricas de dados. Este cálculo é explicado noApêndice II. Todo este processo de ETL e o programa citado podem ser encontrados em[8].

Para integrar as diversas métricas de qualidade na tabela fato, primeiro foram feitastransformações nas tabelas que continham estes valores para que ficassem no formato corretopara que fossem feitos joins, assim como no caso do cubo de dados. A parte inicial, queexemplifica o que foi dito, está na figura 4.8.

Figura 4.8: ETL da Tabela Fato do Cubo de Qualidade

4.8 IMPLEMENTAÇÃO DO PLUG-IN

A intenção na análise dos dados pelo usuário numa ferramenta OLAP é construir previsõesque dificilmente seriam possíveis a partir de uma observação sem o auxílio desta ferramenta,dada a enorme quantidade de informação. O desenvolvimento da presente aplicação entãodeve ser no sentido de se aproveitar dessa modelagem, para adicionar metadados aos dados,que são expostos de forma adequada nessas ferramentas.

37

Page 38: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

Os metadados aqui tratados, que serão sobre a qualidade dos dados apresentados, têm queser inseridos nas tabelas de forma intuitiva e visual para que se tenha uma noção instantâneada confiança nas informações contidas ali.

A ideia do trabalho é que a ferramenta desenvolvida apresente os dados, junto com suasrespectivas qualidades, de forma clara.

O funcionamento dele pode ser descrito de forma resumida como: na ferramenta OLAP,Saiku, ao se carregar um cubo (de dados), será buscado um cubo de qualidade correspondenteque deve ter por padrão o mesmo nome acrescido do prefixo "Q-", ou seja Q-{nome do banco}.Como descrito anteriormente, este conterá os níveis de qualidade (tanto de corretude quantode completude) de cada uma das métricas do cubo de dados.

Após isso, uma correspondência entre as métricas dos dois cubos é estabelecida da seguinteforma: primeiro é feita uma seleção de uma métrica de qualidade pelo usuário (corretude oucompletude); após isso é feita a correspondência entre colunas de forma que (exemplo paraa corretude)

Cubo de Dados −→ Cubo de Qualidade

x 7−→ corretude x

A descrição completa de como foi desenvolvido o Plug-In, funcionando da forma que aquirelatada está no Capítulo 5, Desenvolvimento do Plug-In.

4.8.1 RESPOSTAS PARA AS PERGUNTAS ANALÍTICAS

Como exemplo da utilização do plug-in, são mostradas três consultas que visam responderàs perguntas formuladas no início do capítulo.

1. Evolução da quantidade de pessoas que recebem menos de dois dólares por dia. Nafigura 4.9 está uma consulta que retorna esta quantidade vista variando nos anos ecom os políticos que exerceram algum cargo público nos respectivos períodos, com amétrica de qualidade completude. Essa análise permite mostrar como foi o cuidado nopaís com o desenvolvimento social. Repare que a métrica completude apresenta poucasmodificações com quase todos os dados aqui visualizados, tendo uma qualidade acimade 50% nessa métrica. Porém, nem todos atingem a qualidade de 100%, o que significaque em poucos anos a métrica quantidade de miseráveis foi coletada em todos os meses.

38

Page 39: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

2. Evolução quantidade de campi abertos ao longo dos anos. A figura 4.10 mostra aconsulta do número que diz exatamente a evolução desta quantidade, com a métrica dequalidade corretude. Apesar da consulta ser muito simples em termos de quantidadede parâmetros envolvidos - apenas uma dimensão e uma métrica - já é possível verque a adição de uma métrica de qualidade permite novas conclusões na análise. Porexemplo, é possível perceber que o ano de 2006 apresenta uma grande modificaçãona tendência de abertura de novos campi. Para uma avaliação final sobre a validadedestes dados, é importante verificar quão próximo da realidade está o dado no ano de2006. Dependendo disto, é possível afirmar com alta probabilidade que os dados sobreabertura de novos campi estão certos ou errados a partir do ano 2006.

3. A mesma consulta que no item 1, mas visualizada com a métrica corretude, que podeser observada na figura 4.11. Aqui novas perspectivas são obtidas ao mudar a métricade qualidade. Por exemplo, se não considerada a qualidade, poderia se ter a impressãoque José Sarney fez mais pela igualdade social que de fato fez, já que um dos anos,onde há um grande decréscimo nessa métrica, provavelmente é devido a um erro nodado armazenado.

Figura 4.9: Visualização no Saiku com Completude

39

Page 40: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

Figura 4.10: Visualização no Saiku com Corretude de quantidade de Campi abertos

Figura 4.11: Visualização no Saiku com Corretude de quantidade de miseráveis

Muitas outras conclusões ainda seriam possíveis de se obter com diversas pesquisas. Comono último caso apresentado, muitas conclusões sobre dados muitas vezes proclamados porpolíticos poderiam ser verificados acerca de sua validade, sob a ótica de uma análise em cimada qualidade, para serem julgados se de fato são como declarados.

40

Page 41: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

5 DESENVOLVIMENTO DO PLUG-IN

5.1 INTRODUÇÃO

O funcionamento de uma ferramenta OLAP é basicamente uma tela (front end) quecria um objeto de consulta em MDX (MultiDimensional eXpression) através das opçõesselecionadas pelo usuário, e um servidor (back end) que executa tal query e retorna o dado.

Para o desenvolvimento do plug in, seria necessário realizar uma consulta a um cubo dequalidade, paralelamente ao cubo de dados. Como o back end já possui implementada alógica de realizar uma consulta, foi decidido alterar o front end para a realização do objetivo.

Primeiro foram feitas alterações nas funções críticas do workflow, para entender como oSaiku funciona e chegar no objetivo desejado. E após alcançar o objetivo, o desenvolvimentofoi no sentido de isolar a solução para ser rodada apenas ao clicar de um botão, como umplug in.

5.2 WORKFLOW DO SAIKU

Os principais objetos Javascript que existem são os ilustrados na figura 5.1. Tais objetose suas principais funções são:

1. SessionWorkspace: É criado ao fazer o log in na aplicação, é responsável por processaras fontes de dados criar o objeto de Workspace;

2. Workspace: É o responsável por renderizar as opções de cubos cadastrados no sistema.Ao selecionar um cubo, uma função é chamada e tem como objetivo criar um objetoQuery e um objeto DimensionList, que serão explicados abaixo.

3. Query: É inicializado com informações a respeito da conexão com o cubo de dados epossui as funções de adicionar uma dimensão ou uma métrica à consulta, rodar essaconsulta e possui um atributo com o resultado desta.

41

Page 42: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

4. DimensionList: É basicamente responsável por pegar as informações de dimensões emétricas selecionadas pelo usuário na tela e chamar as funções do objeto Query praadicioná-las

5. Table: É o objeto que "escuta"o evento de conclusão de uma consulta que rodou erenderiza a tabela com os dados obtidos.

Na Figura 5.2 é possível ver a sequência de interações desses objetos.

Figura 5.1: Workflow do Saiku

42

Page 43: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

Figura 5.2: Diagrama de sequência do Saiku

5.3 MUDANÇAS NO WORKFLOW

Entendido com funciona o workflow, agora é possível explicar as modificações que foramfeitas.

Era necessário pegar a conexão com o cubo de qualidade a partir do cubo de dados. Paraisso, foi criada uma convenção de nomear o cubo de qualidade adicionando o prefixo "Q-"nonome do cubo de dados associado. E foi implementada a função que busca tal cubo e montasua conexão, como pode se observar na figura 5.3.

43

Page 44: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

Figura 5.3: Função que busca o cubo de qualidade

As principais mudanças feitas no workflow serão listadas a seguir:

1. Workspace: Foi criada uma função que monta a conexão com o cubo de qualidades e criao objeto QueryQuality (pode ser visto na Figura 5.4) e o objeto QualityDimensionList(pode ser visto na Figura 5.5). Tal função é chamado no momento em que se cria oobjeto Query no Workflow do Saiku.

2. Table: Foi necessário adicionar uma função que renderiza a tabela levando em contao resultado da consulta de qualidade, fazendo com que as células ficassem pintadas deacordo com seu valor de qualidade, como pode ser visto na Figura 5.6.

Figura 5.4: Objeto QueryQuality

44

Page 45: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

Figura 5.5: Objeto QualityDimensionList

Figura 5.6: Função que pinta a célula

Na Figura 5.7, é possível ver o novo diagrama de interações entre os objetos proposto. Ondea parte do que está em azul representa a parte modificada. As modificações citadas nessaseção podem ser observadas nas duas primeiras interações do usuário com o sistema. Aúltima interação vai ser explicada melhor na próxima seção

45

Page 46: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

Figura 5.7: Diagrama de sequência do Saiku com as modificações

5.4 COMPORTAMENTO DE PLUG IN QUALITY VIEWER

O objetivo do trabalho é que se comporte como um plug in, algo que possa ser ligado e des-ligado. Por isso, a segunda parte do desenvolvimento foi focada em fazer esse comportamentoser disparado ao clique de um botão.

No projeto do Saiku, existe um modo de adicionar um plugin, que é basicamente umbotão que fica na barra de ferramentas do workspace, e se define o que será feito ao clicá-lo.

Como pode ser visto na Figura 5.1, o objeto Workspace cria o plugin do Quality Viewer,onde é definido que ao clicar no botão, será aberto um modal chamado QualityModal.

O papel do QualityModal é escolher qual é a métrica de qualidade (completude ou corre-

46

Page 47: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

tude) que o usuário deseja analisar, e com essa informação completar o objeto QualityQuerycom a consulta a ser feita, rodá-la e em seguida renderizar a tabela com as cores. Suaimplementação pode ser vista na Figura 5.8

Figura 5.8: Comportamento do modal ao selecionar a métrica de qualidade

47

Page 48: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

6 DIFICULDADES ENCONTRADAS

Neste capítulo são citadas dificuldades que foram encontradas ao longo do projeto, se-guindo uma ordem cronológica em que foram aparecendo.

6.1 PRIMEIROS PASSOS: ETL

As primeiras dificuldades encontradas durante o trabalho foram durante o processo deETL, mais especificamente com extrair os dados das fontes. Além da escolha de quais fontesseriam usadas para que a demonstração do projeto fosse possível ainda era necessário emmuitos casos ajuda de fatores externos para a obtenção dos mesmos.

Após a extração dos dados e carga no banco de dados da staging area houve um desafiotécnico para a carga dos dados de forma que fosse possível montar o cubo de dados

Naturalmente surgiram algumas dificuldades relacionadas à extração dos dados desejadose da transformação destes para a forma ideal. A primeira situação que precisou ser tratadafoi a de não ser possível obter os dados desejados. A figura 6.1 mostra uma versão anterior damodelagem multidimensional dos dados, que daria origem ao cubo de dados. As simplificaçõesdeste para a versão final encontrada na seção 4.4 foram devidas às dificuldades citadas paraachar alguns dados.

Figura 6.1: Modelagem Fatos e Dimensões

48

Page 49: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

Neste modelo ainda havia a dimensão lugar, que perdeu o sentido de existir quando todosos dados se tratavam do país Brasil. Além disso, a dimensão que descrevia o tipo de eleiçãofoi escolhida para deixar de existir pois não existia uma fonte para esses dados de formasimples e estimar quais foram os ano seria complicado devido ao cenário pouco constante noformato das eleições no Brasil.

Para a criação das métricas de qualidade houve a necessidade de se conhecer um poucode como as fontes obtiveram os dados que estavam sendo extraídos delas. Os detalhes damotivação para tal podem ser encontrados no Apêndice II, onde é explicado como a métricacompletude é calculada.

6.2 FERRAMENTAS DA PENTAHO SUITE

Muito tempo foi investido no aprendizado das ferramentas da Pentaho Suite de BusinessIntelligence. Uma divisão evidente existe entre as ferramentas utilizadas para fazer o processode ETL e montar os Cubos de Dados e Qualidade, e a ferramenta de visualização dos dados,onde foi construído o plug-in para a visualização das métricas de qualidade. As ferramentassão as seguintes:

6.2.1 SCHEMA WORKBENCH - CRIAÇÃO E PUBLICAÇÃO DOS CUBOS

Neste ponto do projeto existiram duas dificuldades:

1. Aprendizado sobre o ambiente;

2. Montar o cubo de forma correta dada a modelagem.

A primeira aconteceu devido a diversas incompatibilidades com outras ferramentas usadasno projeto, por exemplo, a versão de administrador de banco de dados, onde inicialmentefoi utilizado o PostgreSQL 9.6 que precisou ser substituído pela versão 9.4, onde então erapossível estabelecer a conexão com o Schema Workbench.

A segunda foi um processo mais lógico de fazer os cubos, de qualidade e de dados, apre-sentarem exatamente a estrutura modelada para eles. Destaca-se um erro encontrado naferramenta de visualização devido a uma agregação definida de forma errada, onde era ne-cessário definir a agregação como pelo máximo e inicialmente foi definida pela soma.

49

Page 50: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

6.2.2 APRENDIZADO SOBRE O SAIKU ANALYTICS

Primeiro, foi necessário aprender sobre o código fonte da aplicação. Os detalhes do quefoi aprendido sobre e como ele foi alterado se encontram no capítulo 5.

Na inspeção do código grande parte do tempo foi dedicada à compreensão de como oscubos eram, após serem carregados, acessados para exibir os dados que o usuário desejava.

6.3 CRIAÇÃO DO PLUG-IN

A primeira etapa a ser feita no desenvolvimento de um código é rodá-lo no seu ambiente.Para isso, é bom seguir uma documentação do código explicando as tecnologias que foramusadas e como usá-las. Porém a documentação do Saiku é pouco clara e pouco completa.O projeto utiliza Maven, que é uma ferramenta de build que auxilia na administração dasdependências e suas versões. E por estar com uma versão do código mais antiga, o arquivoque define as versões das dependências estava desatualizado. Uma vez resolvido a questãode buildar o código, não estava claro na documentação como rodá-lo. Após muita pesquisa,principalmente em fórums, foi possível descobrir que haviam scripts em bash que rodam oservidor e a aplicação web.

Após resolver a parte da infraestrutura do código, este pode ser explorado. A decisãotomada foi modificar inicialmente o front end. A primeira dificuldade encontrada no de-senvolvimento foi compreender o paradigma utilizado no projeto do Saiku, já que existemmuitas frameworks e paradigmas para a criação de front end. Além disso, entender os objetosimportantes a serem modificados para se atingir o objetivo também se apresentava como umadificuldade para o desenvolvimento. Após um certo nível de aprendizado ser atingido, houvebastante progresso. Porém, ao se tomar a decisão de o usuário poder escolher para qualmétrica de qualidade ele deseja olhar, um novo desafio foi encontrado, já que a montagem daconsulta de qualidade seria feita em um outro momento separado da montagem da consultade dados.

50

Page 51: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

7 CONCLUSÕES

O trabalho rendeu várias observações em diversas áreas. Primeiro existem as conclusõesacerca de algumas perguntas analíticas feitas sobre o caso de estudo. Segundo, a motivaçãomaior, que foi a construção do plug-in, apresenta naturalmente várias possibilidades paramelhorias e extensão, no sentido de tornar a experiência do usuário mais agradável e completa,através do cálculo de mais métricas de qualidade e na exploração de diferentes formas de seremmostradas.

As conclusões mais interessantes tiradas da análise dos dados são que, de fato, a infor-mação acerca da diminuição da quantidade de pessoas miseráveis no Brasil acentuada nosanos 2000 é confiável, já a evolução no acesso à educação pública de nível superior não éexatamente confiável.

O desenvolvimento do plug-in foi feito pensando que ele pode ser estendido futuramente,e de forma que fique fácil adicionar mais métricas de qualidade. Essa extensão pode ocorrerno sentido de melhorar a exposição da qualidade e de como ela foi calculada (no sumário queaparece ao lado da tabela ou na própria célula).

Como proposta de trabalhos futuros, a solução como um todo poderia se tornar maisgenérica. Para o cálculo das métricas de qualidade, foi feito um programa que roda noprocesso de ETL do Pentaho. Porém, para que seja mais simples para o usuário final queutilizará o OLAP, pode se criar um serviço externo, ou até mesmo uma extensão do back enddo Saiku, que realize o processo de criação do cubo de qualidade para métricas estatísticas,que só dependam dos valores do cubo de dados. Pois o trabalho do Saiku é, basicamente lerum XML (eXtensible Markup Language) e buscar os dados no banco. Logo, caso esse serviçotenha permissão para a criação de banco na máquina, é possível que ele receba o nome docubo, busque os dados, faça cálculos estatísticos, crie um banco de dados com o resultadoe gere o XML do cubo de qualidade para leitura do Saiku. Assim, o usuário não precisaráalterar seu processo de ETL, nem alterar nenhuma configuração do seu ambiente.

51

Page 52: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

8 REFERÊNCIAS

[1] ASKHAM, Nicola; COOK, Denise; DOYLE, Martin; FEREDAY, Helen; GIB-SON, Mike; LANDBECK, Ulrich; LEE, Rob; MAYNARD, Chris; PALMER,Gary; SCHWARZENBACH, Julian. The Six Primary Dimensions forData Quality Assessment: Defining Data Quality Dimensions DAMAUK Working Group (2013)

[2] MAROTTA, Adriana; VAISMAN, Alejandro. Rule-based Multidimensio-nal Data Quality Assessment using Contexts (2016)

[3] AMARAL, Glenda C. M. AQUAWARE: Um Ambiente de Suporte àQualidade de Dados em Data Warehouse Universidade Federal do Rio deJaneiro, Rio de Janeiro (2003)

[4] https://wiki.dbpedia.org/about

[5] http://dados.gov.br/pagina/sobre

[6] HEINRICH, Bernd; KAISER, Marcus; KLIER, Mathias HOW TO MEA-SURE DATA QUALITY? A METRIC BASED APPROACH Univer-sitaetsstr, Alemanha (2007)

[7] Material de aula do Programa de Pós-graduação em Sistemas e Computaçãodas Professoras Capitão de Fragata (T) Kelli, DSc e Maria Cláudia Cavalcanti,DSc na matéria de Sistema de Informação de Apoio a Decisão (2018)

[8] https://github.com/BrunoLerner/datasets

[9] KIMBALL, R.; ROSS, M.; THORNTHWAITE, W.; MUNDY, J.; BECKER,B. The Data Warehouse Lifecycle Toolkit: Practical Techniques forBuilding Data Warehouse and Business Intelligence Systems, Wiley(2008)

[10] VAISMAN, Alejandro; ZIMÁNYI, Esteban.Data Warehouse Systems: Ex-traction, Transformation and Loading, Springer (2014)

[11] Romero, O.; Abelló, A. On the Need of a Reference Algebra for OLAP.In: Song I.Y., Eder J., Nguyen T.M. (eds) Data Warehousing and

52

Page 53: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

Knowledge Discovery. DaWaK 2007. Lecture Notes in Computer Sci-ence, vol 4654. Springer, Berlin, Heidelberg (2007)

[12] KIMBALL, Ralph, and Margy Ross. The data warehouse toolkit: Thedefinitive guide to dimensional modeling. John Wiley & Sons, 2013.

[13] ROEBUCK, Kevin.Data quality: high-impact strategies-what you needto know: definitions, adoptions, impact, benefits, maturity, vendors.Emereo Publishing, 2012.

53

Page 54: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

9 APÊNDICE I: CÁLCULO DA CORRETUDE

Nesta parte é apresentado como foi calculada a corretude. Primeiro é importante destacarque a ideia aqui foi fazer um cálculo considerando probabilidades e que toda a informaçãodisponível para isso eram os próprios dados sobre as informações desejadas e todos foramextraídos de apenas uma fonte. Portanto, uma das partes mais importantes é a determinaçãode quais hipóteses foram utilizadas.

Será tratado então primeiro das hipóteses sobre o elemento que será observado como umavariável aleatória, a variação ano-a-ano de cada indicador social. Depois, é apresentado quaisforam os cálculos feitos para a corretude assumindo uma distribuição de propabilidade paratal variável e por fim há uma explicação de por que tal distribuição foi escolhida.

9.1 HIPÓTESES: INDICADORES COMO UMA CADEIA DE MARKOV

Consideremos um intervalo de k + 1 posições no tempo t0 < t1 < t2 < · · · < tk e a cadatempo um valor de um objeto observável que se comporta como uma Cadeia de Markov.Sejam as variáveis aleatórias X1, X2, . . . , Xk que representam as variações destes valores, ouseja, Xi é o valor da diferença do valor do objeto no tempo ti−1 para no tempo ti. Será usadoque todas essas variáveis aleatórias têm a mesma distribuição, que será uma distribuiçãonormal.

9.2 CÁLCULO DA CORRETUDE: PROBABILIDADE SOBRE O VALOR DA VARIA-ÇÃO

Voltando na definição de corretude dada na seção 2.3.1, precisamos definir uma funçãodistância entre o valor real e o valor guardado no banco de dados. Tomemos então

d(xdb, xr) =1

p− 1

Onde p é a probabilidade da variável aleatória que mede a variação ser igual à variação dosvalores guardados no banco. Como na cadeia de Markov definida a dependência no tempo

54

Page 55: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

atual é só do tempo imediatamente anterior, temos que de fato essa probabilidade é coerentecomo podemos ver na seguinte fórmula:

P (Yi = z|Yi−1 = w) = P (Xi = z − w).

Dessa forma, a corretude fica igual à essa probabilidade.Para o cálculo desta probabilidade, usa-se uma discretização do espaço amostral em re-

giões, que serão uma central e quatro laterais organizadas em pares de regiões simétricas emrelação à região central. Essas regiões eram definidas por faixas que acumulavam determidaprobabilidade. Estas probabilidades são definidas em função da variância - se a variância forgrande em relação à média, o intervalo central é menor, se for pequena, o intervalo central émaior.

Após estas definições, foi calculado o valor esperado das variáveis aleatórias que medema variação de um dado tempo para o seguinte e o desvio padrão. Depois, cada valor dasvariações foi classificado segundo qual intervalo elas pertenciam.

55

Page 56: MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO … · 2018. 10. 11. · ministÉrio da defesa exÉrcito brasileiro departamento de ciÊncia e tecnologia instituto militar de engenharia

10 APÊNDICE II: CÁLCULO DA COMPLETUDE

A completude, como apresentado na seção 2.3.1, é uma razão entre quantos são os dadospresentes no banco sobre quantos são os dados totais necessários. No caso de métricasreferentes a um ano, a completude dos dados pode ser medida baseada em quantos mesesos dados foram coletados sobre o total de meses de um ano, doze. Lembrando que não háinconsistência em dados com, por exemplo, seis meses de coleta de dados para outro com oitojá que o dado anualizado sempre sofre uma extrapolação e assim todos os dados guardadosno banco são referentes a um ano.

Para o caso, basta confrontar duas tabelas, uma contendo os dados e outra contendo aquantidade de meses onde dados foram coletados para construir a primeira e tomar a razão,para cada célula de dados, da quantidade de meses por doze.

56