15
1 Data Warehouse Profa. Maria Camila Nardini Barioni [email protected] Bloco B - sala 937 2° trimestre de 2011 Pós-graduação em Ciência da Computação CCM-202 Sistemas de Banco de Dados CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011 Introdução Negócio Ambiente de negócio em mudança constante Análise complexa — questões impossíveis de se prever Alto volume de dados e necessidade de resposta rápida 2 Introdução O Ambiente de Dados Dados – Componentes básicos Informação – Dados em um contexto Contexto – Situação a ser analisada Conhecimento – informação, que permite tomar decisões adequadas, Vantagem competitiva Banco de Dados – Coleção de dados logicamente relacionados para uma finalidade 3 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011 Introdução Como obter a informação certa? Dados dos Clientes Dados de Compras Comentários e Reclamações de Clientes Dados de Levantamentos Pedidos de Serviço Dados de Produtos Disponíveis 4 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011 Introdução Surge o Data Warehouse Integrar dados de múltiplas fontes Facilitar o processo de análise sem impacto para os dados operacionais Obter informação de qualidade Atender diferentes tipos de usuários Flexibilidade e agilidade para realizar novas análises BDs Operacionais DW SAD OLAP Data Mart 5 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011 Data Warehouse Definição Um data warehouse (ou armazém/depósito de dados) é uma coleção de dados: orientada por assuntos, integrada, variante no tempo, e não-volátil, Tem por objetivo dar suporte aos processos de tomada de decisão W. H. Inmon 7 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

CCM205 Aula17 DW - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/... · Obter informação de qualidade Atender diferentes tipos de usuários Flexibilidade

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: CCM205 Aula17 DW - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/... · Obter informação de qualidade Atender diferentes tipos de usuários Flexibilidade

1

Data Warehouse

Profa. Maria Camila Nardini [email protected] B - sala 937

2° trimestre de 2011

Pós-graduação em Ciência da ComputaçãoCCM-202 Sistemas de Banco de Dados

CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

IntroduçãoNegócio

Ambiente de negócio em mudança constanteAnálise complexa — questões impossíveis de se preverAlto volume de dados e necessidade de resposta rápida

2

IntroduçãoO Ambiente de DadosDados – Componentes básicos

Informação – Dados em um contexto

Contexto – Situação a ser analisada

Conhecimento – informação, que permite tomar decisões adequadas,

� Vantagem competitiva

Banco de Dados – Coleção de dados logicamente relacionados para uma finalidade

3CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

IntroduçãoComo obter a informação certa?

Dados dos Clientes Dados de Compras

Comentários e Reclamações de Clientes

Dados de Levantamentos

Pedidos de Serviço

Dados de ProdutosDisponíveis

4CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

IntroduçãoSurge o Data Warehouse

Integrar dados de múltiplas fontesFacilitar o processo de análise sem impacto para os dados operacionaisObter informação de qualidadeAtender diferentes tipos de usuáriosFlexibilidade e agilidade para realizar novas análises

BDs Operacionais

DW

SAD OLAP Data

Mart

5CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse DefiniçãoUm data warehouse (ou armazém/depósito de dados) é uma coleção de dados:� orientada por assuntos, � integrada, � variante no tempo, � e não-volátil,

Tem por objetivo dar suporte aos processos de tomada de decisão

W. H. Inmon

7CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Page 2: CCM205 Aula17 DW - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/... · Obter informação de qualidade Atender diferentes tipos de usuários Flexibilidade

2

Data Warehouse Definição

Orientada por assuntos� Refere-se aos negócios da empresa� Ao contrário dos sistemas transacionais que focam no controle operacional do dia-a-dia

� Exemplo: numa empresa de telecom, o principal assunto é o cliente, o arquiteto de DW deve desenhar o modelo, dividindo as visões de acordo com o que o analista quer ver

8CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Definição

Integrada� Utiliza todos os outros sistemas de informação da empresa, sincronizando os dados e colocando-os no mesmo padrão

� Os dados são de vários sistemas da empresa, e até, dados externos, como a cotação do dólar

� Problemas que podem surgir na hora da análise: geralmente os dados não estão padronizados � exemplo: atributo sexo (pode ser M ou F, 0 ou 1) � Para isto:

� na fase de ETL (Extração, Transformação e Carga), um único padrão

9CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Definição

Não-volátil� A atualização dos dados não implica em sobreposição

� No DW, acontecem somente cargas de dados e consultas - há somente selects e inserts, e não há updates

10CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse DefiniçãoVariáveis com o tempo� O DW retrata a situação que estamos analisando, num determinado ponto do tempo

� O DW mantém características de base de dados temporal� A chave do registro contém um elemento de tempo

� Analogia com as fotografias� Pegue uma fotografia sua, quando recém nascido, depois, pegue outra quando você tinha 5 anos, e compare

� Com certeza muitas modificações ocorreram, mas ela retrata exatamente a sua situação naquele exato momento do tempo

� Guardamos fotografias dos assuntos em determinados pontos do tempo, e com isso é possível poder traçar uma análise histórica e comparativa entre os fatos

11CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Arquitetura

12CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

PropriedadesDimensão� Mega, Giga, Tera Bytes - Não existe uma fronteira fixa

A informação é guardada para análise:� de forma a poder ser obtida de forma mais eficiente� separada do sistema operacional� Suportam sistemas sofisticados de análise on-line

� Análise Multi-dimensional

Integrar informação proveniente de mais que um sistema operacional.� Integrar informação sobre salários, finanças, marketing,

produção.� Possibilidade de cruzar informação

13CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Page 3: CCM205 Aula17 DW - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/... · Obter informação de qualidade Atender diferentes tipos de usuários Flexibilidade

3

Sumarização dos dadosMuitas consultas e relatórios são agregações baseados em parâmetros pré-definidos.� Vendas por semana, mês, ou trimestre

Uma diferença importante:� Num sistema o que existe fisicamente é a definição

da consulta� A execução da consulta dá origem a uma tabela virtual que

existe apenas enquanto a consulta está a ser executada.

� Num DW existe uma tabela que é criada e mantida independentemente do utilizador

Eficiência na obtenção de resposta� Novas técnicas de indexação

14CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Considerações no processo de Data Warehousing

Que dados incluir?

Como conciliar inconsistências?

Frequência de atualizações?

15CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Arquitetura de DW

Data Warehouse

Extração Transform . Carga Atualização

BDs Operacionais

Fontes Externas

FONTES DE DADOS

Data Marts

FERRAMENTAS DE CONSULTA

Análise

Data Mining

Ger . Relatórios

Monitoração

Meta Dados

Administração

Serv . OLAP

Serv . OLAP

Visão Geral sobre DW16CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Identificando a necessidade1. A empresa se baseia em informações

para a tomada de decisões2. O segmento de negócios da empresa é caracterizado

por uma forte concorrência e mudanças rápidas3. A base de clientes é grande e diversificada4. Os dados estão armazenados em diversos locais5. Os dados estão duplicados e espalhados por diversos

sistemas6. Os dados estão em formatos e especificações diferentes7. A empresa está distribuindo o processo decisório,

buscando maior agilidade e rapidez

18CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Projeto: Aspectos IniciaisCriar um data warehouse não é uma questão de tecnologia de Banco de Dados

Envolve: Planejamento e Modelagem

Um projeto completo costuma ser caro

Não pode ser exclusivo da área de sistemas

Levar em consideração o lado cultural

19CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Projeto: Aspectos Iniciais

Equipe de projeto� Pessoal da área de negócios

� Necessidades dos negócios

� Pessoal da área tecnológica� Necessidades da empresa

� Projeto e implementação

Projeto de HardwareHDRAMMultiprocessada+ HD

20CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Page 4: CCM205 Aula17 DW - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/... · Obter informação de qualidade Atender diferentes tipos de usuários Flexibilidade

4

Montagem Carregamento DistribuiçãoAcesso

Data Warehouse Etapas do projeto

21CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Dados OperacionaisDados operacionais são armazenados em aplicações já existentesCada aplicação possui seu conjunto único e particular de requisitos Problemas:� Mesmos dados em vários lugares com nomes diferentes

� Dados que apresentam o mesmo nome em todos os lugares mas com diferentes unidades de medida

22CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Aspectos ImportantesQualidade dos Dados� Validade� ConsistênciaSegurança dos Dados� Regras de Segurança� Administração da Segurança� AuditoriasIntegração dos Dados� Armazenar e Integrar os dados de várias áreas da empresa em uma única base de dados de modo que estas possam pesquisar e utilizar os dados de forma consistente e sem redundância

24CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Dados Primitivos x Dados Derivados

Dados Operacionais

Data Warehouse

25CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

detalhados

acesso contínuo

valores atualizados

voltados para as aplicações do cotidiano

Dados Operacionais

Data Warehouse

Data Warehouse Dados Primitivos x Dados Derivados

26CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

orientados a um assunto

integradosnão-voláteis

variáveis com o tempoutilizados para apoiar decisões gerenciais

Dados Operacionais

Data Warehouse

Data Warehouse Dados Primitivos x Dados Derivados

27CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Page 5: CCM205 Aula17 DW - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/... · Obter informação de qualidade Atender diferentes tipos de usuários Flexibilidade

5

Data Warehouse Exemplo

apólice de vidaJosé da SilvaMasculino20 de julho de 1945 ... ... ...

apólice de automóvelJosé da Silva Duas multas no ano passadoum acidente grave ... ... ...

apólice de saúdeJosé da Silva dois filhoshipertensão arterial ... ... ...

apólice residencialJosé da Silva Rua Bela, 123casado ... ... ...

clienteJosé da Silva Masculino, nascido em 20 de julho de 1945teve duas multas no ano passadoe um acidente gravemora na Rua Bela, 123é casadotem dois filhossofre de hipertensão arterial ... ... ...

28CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Dados: Questões importantesQuando coletar os dados?� Duas arquiteturas

� Centrada nas fontes de dados � responsáveis pela transmissão dos dados

� Centrada no DW � requisita dados

Como coletar os dados?� Por meio de extratores de dados compostos:

� Uma ou mais operações de consulta� Pode ser em SQL

�Mecanismos de comunicação

29CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Modelo de Dados: Questões importantes

Que esquema utilizar?� O projeto de DW é dirigido pelas projeções de uso

� Para que propósito? De que modo?� Definido o modelo � esquema

� Além da definição do esquema � repositório de metadados contendo:� Detalhes técnicos

� Processo de aquisição, estruturas de armazenamento, descrições de dados e operações de manutenção

� Detalhes da aplicação� Regras de negócio

30CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Modelo Dimensional

O modelo de organização das informações de um data warehouse é conhecido como sendo um Modelo Dimensional (ou Multidimensional)

Oferece um ferramental para a concepção e visualização de um conjunto de medidas que descrevem aspectos comuns de negócios

É formado por três elementos básicos:� Fatos� Dimensões� Medidas

31CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Modelo Dimensional

Fatos� Itens de dados

� Medidas� Contexto

� É utilizado para analisar o processo de negócio de uma empresa

� É representado por valores numéricos

32CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Modelo Dimensional

Dimensões� Elementos que participam de um fato

� São as possíveis formas de visualizar os dados� São os “por”: “por mês”, “por produto”, ...

� Determinam o contexto de um assunto de negócios

� Normalmente não possuem atributos numéricos

� Podem possuir níveis de hierarquia� Tempo: Ano, Trimestre, Mês� Local: Estado, Cidade

33CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Page 6: CCM205 Aula17 DW - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/... · Obter informação de qualidade Atender diferentes tipos de usuários Flexibilidade

6

Data Warehouse Modelo Dimensional

Medidas (Variáveis)� Atributos numéricos que representam um fato

� São determinadas pela combinação das dimensões que participam de um fato

34CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Modelo Dimensional

Fornece uma abstração na qual o usuário visualiza os dados como pertencentes a um cubo de dados

Cada aresta representa uma das dimensões do negócio e seus valores são distribuídos ao longo da mesma

O modelo não se restringe à organização de somente três dimensões� É possível criar e manipular n dimensões

35CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Modelo Dimensional

Nesse cubo escolheu-se como dimensões o Local da venda, o Tempo (momento) da venda e o Produtovendido

Local

Tempo

Produto

Vendas

36CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

A medida é o volume de venda � determinado pela combinação: local, produto, tempo

Data Warehouse Tipo de implementaçãoStar ou Estrela� Tabela de fatos� Tabela dimensional

Snowflake ou Floco de Neve

37CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Projeto: Etapas

Definir os processos (tabelas fatos)Identificar as informações necessárias para dar suporte aos processos decisórios e onde essas informações serão obtidasDeterminar a granularidade e as agregações dos dadosDefinir e detalhar as tabelas de fatos Definir e detalhar as dimensões

38CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse GranularidadeA granularidade diz respeito ao nível de detalhe ou de resumo contido nas unidades de dados existentes no data warehouse

Alto nível de detalhesBaixo nível de granularidade

Baixo nível de detalhes

Alto nível de granularidade

39CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

- Afeta o volume de dados que reside no DW- Quanto maior o volume, menor a performance

Page 7: CCM205 Aula17 DW - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/... · Obter informação de qualidade Atender diferentes tipos de usuários Flexibilidade

7

Data Warehouse Modelo Estrela

Uma forma de implementar o modelo dimensionalExiste uma tabela dominante no centro do esquema, chamada de tabela de fato As outras tabelas possuem apenas uma junção com a tabela central e são chamadas de tabelas dimensõesRelacionamentos 1:M entre dimensões e fato

40CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Exemplo Modelo Estrela

codProdcodTempocodRegiaovendas

qt-vendasunidadevr-vendas

VENDAS

codTempodata

semanamês

trimestreano

TEMPO codProdutocategoria

des-categoriaestilopreco

PRODUTO

codRegiaocidadeestadopais

REGIAO

tabela fatos

tabela dimensão

tabela dimensãotabela

dimensão

41CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Modelo Snowflack

Uma forma de implementar o modelo dimensional

Um refinamento do esquema estrela, no qual astabelas dimensão são organizadas em umahierarquia por meio de sua decomposição

Relacionamentos M:1 entre os membros emuma dimensão

42CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Modelo Snowflack

codProdcodTempocodRegiaovendas

qt-vendasunidadevr-vendas

VENDAS

codTempodata

semanaMesano

TEMPO

codProdutocategoriaestilopreco

PRODUTO

codRegiaocidadeestado

REGIAO

tabela fatos

tabela dimensão

tabela dimensão

tabela dimensão

mestrimestre

TEMPO-MES

estadopais

ESTADO

tabela dimensão

categoriades-categoria

CATEGORIA

tabela dimensão

tabela dimensão

43CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Modelagem Tradicional X Modelagem Multidimensional

O modelo relacional de BD (3FN) foi desenhado para:� Flexibilidade para extensões

� Eficiência no processamento on-line de transações

Quando o objetivo é analisar dados� A dispersão destes por diferentes tabelas é problemático

� A execução de uma consulta em um BD� Requer operações de JOIN entre as tabelas

� Para BD suficientemente grandes esta operação pode levar dias

� Os dados sujeitos a análise poderão estar num SGBD relacional, não (necessariamente) na 3FN

44CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Des-normalização dos dados

Normalização� Desdobra uma relação em várias relações

independentes.� Aumenta a flexibilidade do modelo

Des-normalização� Concatena várias relações numa única� Reduz a necessidade de operações de Join em

consultas.� Campos Calculados

45CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Page 8: CCM205 Aula17 DW - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/... · Obter informação de qualidade Atender diferentes tipos de usuários Flexibilidade

8

Data Warehouse Exemplo1: Modelo Base Operacional

Professor

Aluno

Disciplina

faz parte

N

N

N

1

NCursoContém

Matricula

N

1

46CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Exemplo1: Modelo Relacional

47CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Aluno = {NumAluno, Nome, Endereco, Cidade, Telefone, NumCurso(Curso.NumCurso)}

Disciplina= NumDisc, Nome, QuantCreditos}

Professor={NumFunc, Nome, Admissao, AreaPesquisa}

Curso={NumCurso, Nome, Area, TotalCréditos}

Ministra={ NumAluno(Aluno.NumAluno), NumDisc(Disciplina.NumDisc), NumFunc(Professor.NumFunc), Semestre, Nota}

Constituido={NumDisc(Disciplina.NumDisc), NumCurso(Curso.NumCurso)}

Data Warehouse Exemplo1: PerguntasQual é o fato?� aula

O que é medido em fato?� crédito, nota

Qual a granularidade do fato?� semestre

Quais as dimensões?� Curso, Professor, Aluno, Disciplina

Quais os agrupamentos nas dimensões?48CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Exemplo1: Modelo Estrela

NumFuncNomeAreaPesquisa

Professor

CódigoDoCursoCódigoDoProfessorCódigoDoDisciplinaCódigoDoAlunoSemetrenotacredito

Aula

CódigoDoCursoNomeArea

Curso

CódigoDoDisciplinaNome

Disciplina

NumAlunoNomeCidadeEstado

Aluno

49CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Exemplo2:

Tabela Relacional

50CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Exemplo2:

Tabela Dimensional (matriz bi-dimensional )

Vendas dimensionado por Produtos e Regiões

produtos

regiões

51CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Page 9: CCM205 Aula17 DW - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/... · Obter informação de qualidade Atender diferentes tipos de usuários Flexibilidade

9

Data Warehouse Exemplo2:

Consolidação?

52CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Exemplo2:

Tabela Dimensional (matriz bi-dimensional )

Vendas consolidadas e dimensionadas por Produtos e Regiões

produtos

regiões

53CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Exemplo2: Modelo Multidimensional

TEMPOPRODUTO

REGIÃO

FATOS

54CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Exemplo2: Dimensões

Consultas típicas:� Grupos de produtos

� Vestidos de mulher

� Consultas que envolvem tamanho, cor, estilo

As consultas poderão ser aceleradas se a informação sobre os produtos estiver numa única tabela� Situações onde o acréscimo de informação

não relevante é grande pode ser contraproducente

55CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Exemplo2: Modelo Estrela (Star)

Vendas

chave_de_produto (FK)chave_de_loja (FK)chave_de_promoção (FK)chave_de_tempo (FK)

VendasQuantidadesCustosContador_de_Clientes

Produto

chave_de_produto

descriçãopacote_de_unidadessub-categoriacategoriadepartamentodietapesoprateleira

Loja

chave_de_loja

nomeendereçocidadeestadodistrito_de_vendas...

Tempo

chave_de_tempo

dia_da_semanadia_do_mêsmêstrimestreano_fiscaferiadofim_de_semanaúltimo_dia_do_mês

Promoção

chave_de_promoção

nome_da_promoçãotipo_de_reduçãocusto_da_promoçãoinício_da_promoçãofim_da_promoção

Tabela Fato

56CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011 57CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Page 10: CCM205 Aula17 DW - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/... · Obter informação de qualidade Atender diferentes tipos de usuários Flexibilidade

10

Montagem Carregamento DistribuiçãoAcesso

Data Warehouse Etapas do projeto

58CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Carregamento: Questões importantes

Como alimentar o DW?� Dados do DW � extraídos de múltiplas fontes de dados heterogêneas

� É necessária etapa de pré-processamento composta de várias etapas� Limpeza � qualidade dos dados� Transformação � divisão ou combinação de itens de dados

� Consolidação � relacionamentos implícitos se tornam explícitos

59CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Carregamento

Aplicação A m,fAplicação B 1,0Aplicação C x,yAplicação D masc, fem

Aplicação A centAplicação B polegAplicação C pésAplicação D jardas

m,f

cent

60CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Montagem Carregamento DistribuiçãoAcesso

Data Warehouse Etapas do projeto

61CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse AcessoAcesso eficiente aos dados dos sistemas existentes

Problema:� Como saber quais os dados que já foram varridos dos sistemas de informação

� Realizar varreduras completas toda vez que há necessidade de enviar dados ao ambiente de data warehouse é custoso e trabalhoso

62CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Tipos de carga

Carregamento de dados históricos

� dados são carregados verificandoo histórico do ambiente operacional

Carregamento de dados de valor corrente do ambiente operacional

� dados operacionais são descarregados em um arquivo seqüencial para posterior carregamento

Carregamento de alterações do data warehouse

� parte de alterações (atualizações) no ambiente operacional desde a última atualização do data warehouse

63CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Page 11: CCM205 Aula17 DW - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/... · Obter informação de qualidade Atender diferentes tipos de usuários Flexibilidade

11

Data Warehouse Acesso: Questões importantes

Como propagar atualizações?

� Quão atualizados os dados precisam estar?

� O warehouse pode ficar fora de serviço? Por quanto tempo?

� Qual é a disponibilidade de armazenamento?

� Qual é o tempo de carga (incluindo a etapa de pré-processamento e transmissão)?

Quando eliminar dados (purging)?

64CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Montagem Carregamento DistribuiçãoAcesso

Data Warehouse Etapas de um DW

65CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Distribuição

BANCO DE DADOS

BANCO DE DADOS

BANCO DE DADOS

FERRAMENTA DE EXTRAÇÃO

DE DADOS

FERRAMENTA DE TRANSFORMAÇÃO

DE DADOS

OLAP

DATA MINING

SIMULAÇÃO

FERRAMENTA DELIMPEZA DE DADOS

FERRAMENTA DE CONSULTA

FERRAMENTA DE GERENCIAMENTO DE RELATÓRIOS FERRAMENTA DE

GERENCIAMENTO EADMINISTRAÇÃO

TRANSFERÊNCIA DE DADOSE REPLICAÇÃO

REPOSITÓRIO DE METADADOS

66CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Distribuição

Ferramentas gerenciamento de consultas:� consultas e/ou relatórios retirando os dados do data warehouse, resumindo-os e apresentando-os em um formato apropriado

Ferramentas para gerenciamento de relatórios: � são semelhantes às ferramentas do item anterior, porém elas estão voltadas para a geração de relatórios mais complexos, contendo, por exemplo, relatórios sintéticos e analíticos em conjunto, gráficos e outros tipos de visualização dos dados

67CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Distribuição

Simulação: � projeta cenários respondendo perguntas do tipo “e se”, por exemplo: “e se os juros aumentarem, qual será o comportamento de minhas vendas?”

OLAP:� É a parte mais visível do data warehouse porque é por meio dessas ferramentas que se faz a análise dos dados. Ajudam os gerentes a sintetizarem as informações sobre a empresa por meio de comparações, visões personalizadas, análise histórica e projeção de dados.

68CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse Distribuição

Mineração de Dados: � ferramental utilizado para descobrir novas correlações, padrões e tendências por meio da análise de grandes quantidades de dados armazenados em data warehouse usando técnicas de reconhecimento de padrões, estatísticas e matemáticas

69CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Page 12: CCM205 Aula17 DW - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/... · Obter informação de qualidade Atender diferentes tipos de usuários Flexibilidade

12

On-Line Analytical Processing - OLAPModelo Relacional � Operações da Álgebra Relacional

Modelo Dimensional � Operações OLAP

Caracterizada pela análise dimensional dinâmica dos dados apoiando o usuário na suas atividades� Construção de relatórios para responder questões gerenciais

70CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

OLAPModelo Dimensional

Nesse cubo escolheu-se como dimensões o Local da venda, o Tempo (momento) da venda e o Produto vendido. Local

Tempo

Produto

Vendas

71CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

OLAP Modelo DimensionalPara visualização dos dados primeiramente escolhe-se 2 dimensões. Por exemplo dimensão tempo e Local. Local

Tempo

Produto

Vendas

72CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

OLAP Operações sobre o CuboMudar Granularidade� Movimentar a visão dos dados ao longo dos níveis hierárquicos

de uma dimensão � Drill-Down

Local (Estados)

Tempo

Produto

Vendas

Jan

Fev

Mar

Abr

Mai

São Paulo Rio de JaneiroJun

Drill-down

Local (Cidades)

Tempo

Produto

Vendas

Jan

Fev

Mar

Abr

Mai

S.Carlos R.Preto R.Janeiro CamposJun

73CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

OLAP Operações sobre o Cubo

Mudar Granularidade� Movimentar a visão dos dados ao longo dos níveis hierárquicos

de uma dimensão � Roll-up

Roll-up74CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Local (Estados)

Tempo

Produto

Vendas

Jan

Fev

Mar

Abr

Mai

São Paulo Rio de JaneiroJun

Local (Cidades)

Tempo

Produto

Vendas

Jan

Fev

Mar

Abr

Mai

S.Carlos R.Preto R.Janeiro CamposJun

OLAP Operações sobre o CuboRotacionamento (Rotate)

� Ângulo pelo qual os dados são vistos ou trocados

Produto

Local

Tempo

Vendas

Local

Tempo

Produto

Vendas

Local

Tempo

Produto

Vendas

75CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Page 13: CCM205 Aula17 DW - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/... · Obter informação de qualidade Atender diferentes tipos de usuários Flexibilidade

13

CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

OLAP Resultados

Analisando os resultados de vendas por região, nosso diretor identifica os bons resultados de vendas da região sudeste 76 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Ele vê então os resultados da região sudeste detalhados por estados. No entanto verifica que esses resultados da região sudeste estavam mascarando problemas de vendas no estado de São Paulo. Para identificar o problema, ele busca informações ainda mais detalhadas

OLAP Resultados

77

OLAP Resultados

Agora ele pode identificar com precisão o desempenho de cada produto e observar que o CDPlayer apresentou o maior problema de vendas

78CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

MOLAP

ROLAP

WOLAP

HOLAP

OLAP Tipos OLAP

79CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Suporte OLAP (implementação)

Para a visualização dos dados, existe uma classe específica de ferramentas, comumente conhecidas como ferramentas OLAP

ROLAP (Relational OLAP) – a arquitetura se compõe de:

SGBD + ferramenta ROLAP

estratégia onde são usados os próprios sgbdrs, com as tabelas sendo implementadas como estruturas relacionais clássicas.

Oferecem todas as vantagens de um SGBDR

exigem um projeto cuidadoso do ponto de vista de performance, onde o excesso de tabelas normalizadas poderá comprometer a performance das buscas. As tabelas básicas e os agregados (visões e cubos) são armazenados nesse formato

80CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Suporte OLAP (implementação)MOLAP ( Multidimensional OLAP) – a arquitetura se compõe de:

SGBD + servidor MOLAP

estratégia onde são usados gerenciadores de BD proprietários, com características de armazenamento especiais e ferramentas para tratamento dimensional de dados.

armazenamento como matrizes esparsas, operações com array e indexação de bitmap

não oferecem toda a gama de recursos (debug, paralelismo, log, otimizadores)

exigem a migração dos dados do SGBD relacional para o armazenamento multidimensional e a sua constante atualização

podem ser limitados na sua capacidade máxima de armazenamento, mas podem apresentar, em tese, melhor desempenho do que as outras alternativas por serem voltados exclusivamente para essas aplicações.

Tanto as estruturas básicas (maior granularidade), quanto as estruturas agregadas ou cubos são armazenadas nesse formato.

81CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Page 14: CCM205 Aula17 DW - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/... · Obter informação de qualidade Atender diferentes tipos de usuários Flexibilidade

14

Suporte OLAP (implementação)Para a visualização dos dados, existe uma classe específica de ferramentas, comumente conhecidas como ferramentas OLAP

A maioria das ferramentas OLAP comerciais usam "Hybrid OLAP" (HOLAP)

integração de características ROLAP + MOLAP

representa uma abordagem de uso misto das duas estratégias anteriores, onde as estruturas relacionais são normalmente utilizadas para os dados de maior granularidade e as estruturas dimensionais nativas são dedicadas ao armazenamento de agregados (menor granularidade)

82CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Sumário - OLAPObjetivos do OLAP� Sumarização da informação� Análise da Informação

Técnicas� Consolidação de Queries� Bases de Dados Multidimensionais

A essência da tecnologia OLAP:� Flexibilidade,� Resposta rápida

Possibilidade de sumarizar dados sobre várias dimensões� Análise multidimensional

� Análise de tendências sobre o tempo

83CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

SBD vs. DWCaracterística Sistema de BD Ambiente de DW

Origem dos dados

�obtidos principalmente através de programas de aplicação (ou simplesmente, aplicações) do usuário�não há a necessidade de extração prévia de dados, pois as aplicações se encarregam de alimentar e acessar diretamente as bases de dados, via um SGBD

�um ou vários sistemas de bancos de dados possivelmente distribuídos e heterogêneos são as fontes de dados �faz se necessária a extração dos dados, que fica a cargo de aplicações do próprio ambiente DW

Preparação dos dados

�os dados oriundos das aplicaçõespassam por restrições de integridade, mas normalmente, à medida que sãodepositados nas bases de dados, se tornam disponíveis à utilização

�os dados precisam passar porprocessos de extração, limpeza, transformação e integração, parasó aí estarem disponíveis à utilização

84CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

SBD vs. DW

Característica Sistema de BD Ambiente de DW

Processamento de consultas

�o processamento de consultas é feito sem a preocupação de se précomputar as consultas�as consultas são processadas à medida que são solicitadas

�as consultas manipulam volumes maiores de dados e precisam ser, pré-computadas e armazenadas como visões materializadas, de forma a estarem de antemão disponíveis aos usuários

Aplicações �Os programas são normalmente aplicações de cadastro e controle que cuidam das funções operacionais da empresa

�As aplicações estão voltadasprincipalmente aoprocessamento analítico dos dados

85CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Processamento Analítico versusProcessamento Transacional

Características OLAP OLTP

Objetivo Tomada de Decisão Controle Operacional

Operação Típica Análise de Padrões Atualização de Dados

Complexidade das Operações Grande Pequena

Agregação dos Dados Necessária Pouco Utilizada

Dados Históricos Necessários Pouco Utilizados

Freqüência das Transações Moderada Alta

Duração típica das Transações Longa Curta

Usuário Típico Gestores do Negócio Pessoal Operacional

86CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Dados Operacionais vs. Dados AnalíticosFonte: Carlos Barbieri, BI – Business Intelligence – Modelagem & Tecnologia, Axcel Books do Brasil Editora, 2001, Página 47

87CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Page 15: CCM205 Aula17 DW - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/... · Obter informação de qualidade Atender diferentes tipos de usuários Flexibilidade

15

ReferênciasMachado, Felipe Nery Rodrigues. Tecnologia e Projeto de DataWarehouse. São Paulo:Érica, 2004, 318 p.

Elmasri, Ramez; Navathe, Shamkant B. Sistemas de banco dedados. 4 ed. São Paulo: Addison Wesley, 2005, 724 p.

Inmon, William H. (1996). Building the Data Warehouse. John Wiley & Sons,Inc., 4 edition.

Nota: Estes slides foram produzidos a partir do Material Didáticoproduzido pelos professores Enzo Seraphim e Sahudy MontenegroGonzález

88CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Atividades Propostas

Leitura� Capítulo 28 do Navathe� Introdução e Capítulos 1, 2, 4 e 6

�Machado, F. N. R. Tecnologia e Projeto de Data Warehouse: Uma visão Multidimensional. Editora Érica, 2004.

� Capítulos 2 e 3� Inmon, W. H. Building the data warehouse. 4th ed. Wiley, 2005.

CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011 89