50
DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Embed Size (px)

Citation preview

Page 1: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

DATA WAREHOUSE

Informação e Decisão

SDMS 2004

Camilo Mussi

Page 2: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Ciclo do Processo Decisório

INFORMAÇÃOINFORMAÇÃO

DECISÃODECISÃO

AÇÃOAÇÃO

AVALIAÇÃOAVALIAÇÃO

Page 3: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Extração de Informações Extração de Informações (sem Data Warehouse) (sem Data Warehouse)

RelatóriosRelatóriossimplessimples

RelatóriosRelatórioscomplexoscomplexos

PlanilhasPlanilhas

1°Trim.

2°Trim.

3°Trim.

4°Trim.

0102030405060708090

1°Trim.

2°Trim.

3°Trim.

4°Trim.

Leste

Oeste

Norte

1° Trim.

2° Trim.

3° Trim.

4° Trim.

EIS área 1EIS área 1

1°Trim.

2°Trim.

3°Trim.

4°Trim.

0102030405060708090

1°Trim.

2°Trim.

3°Trim.

4°Trim.

Leste

Oeste

Norte

1° Trim.

2° Trim.

3° Trim.

4° Trim.

EIS área 2EIS área 2

Page 4: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Inconsistência das informações

Dificuldade para atender a novas necessidades

Descrédito

Extração de Informações Extração de Informações (sem Data Warehouse) (sem Data Warehouse)

Page 5: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Extração de Informações Extração de Informações (com Data Warehouse) (com Data Warehouse)

RelatóriosRelatóriossimplessimples

RelatóriosRelatórioscomplexoscomplexos

Relatórios legaisRelatórios legaisee

relatórios operacionaisrelatórios operacionais

EIS1EIS1 EIS2EIS2

Page 6: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Extração de Informações (com Data Warehouse)

Maturidade da tecnologia

Diferenciais: metodologia e ferramentas

Page 7: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Definição I

“ É uma coleção de dados orientados por assuntos, integrados, variáveis no tempo e não voláteis, para dar suporte ao processo gerencial de tomada de decisão ” [ Inmon ]

Page 8: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Definição II

“ É um processo em andamento que aglutina dados de fontes heterogêneas, incluindo dados históricos e dados externos para atender às necessidades de consultas estruturadas e ad-hoc, relatórios analíticos e de suporte a decisão ” [Harjinder ]

Page 9: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Definição III

“ É uma coleção de técnicas e tecnologias que juntas disponibilizam um enfoque pragmático e sistemático para tratar com o problema do usuário final de acessar informações que estão distribuídas em vários sistemas da organização ” [Barquini]

Page 10: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Resumo

Dados atuais

Dados históricos

Fonte interna

Dados externos

Dados externos

Fonte externa

Extraçãoe

Transformação

Diretório deInformação(Metadado)

Análise e Acesso

• Consultas • Relatórios• OLAP• Data Mining

Data Warehouse

Informaçõessobre os dadosDisponíveis no DW

Page 11: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Batch

OLTP (OnLine Transaction Processing)

OLAP (OnLine Analytical Processing)

Page 12: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

OLTP x OLAP

OLTP

Data Warehouse (com OLAP)

Captação de dados

“Exploração” dos dados

Fazendo a rodados negóciosgirar

Vendo a rodados negóciosgirar

Extração, limpeza etransformação

Page 13: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Dados operacionais vs. Data Warehouse

Características BD Operacional Data Warehouse Objetivo Operações diárias do negócio Analisar o negócio

Uso Operacional Informativo

Tipo de processamento OLTP OLAP

Unidade de trabalho Inclusão, alteração, exclusão Carga e consulta

Número de usuários Milhares Centenas

Tipo de usuário Operadores Comunidade gerencial

Interação do usuário Somente pré-definida Pré-definida e ad-hoc

Condições dos dados Dados operacionais Dados Analíticos

Volume Megabytes – gigabytes Gigabytes - terabytes

Histórico 60 a 90 dias 5 a 10 anos

Page 14: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Dados operacionais vs. Data Warehouse

Características BD Operacional Data WarehouseGranularidade Detalhados Detalhados e resumidos

Redundância Não ocorre Ocorre

Estrutura Estática Variável

Manutenção desejada Mínima Constante

Acesso a registros Dezenas Milhares

Atualização Contínua (tempo real) Periódica (batch)

Integridade Transação A cada atualização

Número de índices Poucos / simples Muitos / complexos

Intenção dos índices Localizar um registro Aperfeiçoar consultas

Page 15: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

FechamentoDeCaixaPhysical Display

DataFechamentoCodTurnoValorApuradoDepositoBancoValorApuradoDinheiroValorApuradoChequeValorApuradoDocumentosValorInformadoDepositoBancoValorInformadoDinheiroValorInformadoChequeValorInformadoDocumentos

PessoaFisicaPhysical Display

CPFNumeroRGOrgaoEmissorDataEmissaoRGNomeNomeUsual CHARDataNascimentoNomePaiNomeMaeEstadoCivilSexoNaturalidadeNacionalidade

ItemDeEstoquePostoPhysical Display

CodItem [PK1]QtdeEmEstoquePrecoUnitario

PostoPhysical Display

CodEmpresa [FK]MatrFuncMatrFuncSupervisor [FK]CodPosto [PK1]MatFuncSupervisorCGCNomeBomba

Physical DisplayNumOrdemBombaNumSerieCodDistribuidorNomeFabricanteTipoCombustivel

MovimentacaoEstoquePhysical Display

DataMovtoQtdeMovimentada

VendaPhysical Display

CodPosto [FK]DataVenda [PK1]CodProduto [PK3]ValorVendaQtdeVendida

EmpresaPhysical Display

CodEmpresa [PK1]CGCRazaoSocialNomeFantasia

AfericaoBombaPhysical Display

DataAfericaoNumSeqMedicaoDiferencaEncontrada

ProdutoPhysical Display

CodFamiliaProduto [FK]FlexKeyCodProduto [PK1]DescProduto

ProdutoSimplificadoPhysical Display

PrecoUnitarioCustoMedioMargemLucro

ControleSistemaPorMes

Physical DisplayMesControleSistema

FamiliaDeProdutoPhysical Display

CodFamiliaProduto [PK1]DescFamiliaProduto

VendaCombustivelPhysical Display

QtdeRetornadaMedidaRetirante

SupervisorPhysical Display

MatrFuncSupervisor [PK1]NomeFunc

ControleSistemaPorDia

Physical DisplayDataControleSistema

ControleSistemaPhysical Display

IndEmAberto

ControleSistemaPorAno

Physical DisplayAnoControleSistema

FuncionárioPhysical Display

Matricula

GerenciadoPorKey Data

CodPosto [PK1] [FK]

VendaOutraMercadoria

Gerente

Modelo E/R (geradoautomaticamente)

Gestão de Rede de Postos

PertenceAFamilia

RefereSeA

PossuiAfericao

ProdutoEstaEmEstoque

RefereSeA

RefereSeA

RefereSeA

RefereSeA

RefereSeA

PossuiBombas

PossuiItensEmEstoque

Supervisiona

PostoPertenceAEmpresa

Page 16: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Dimensão Tempo

Dimensão Posto Dimensão ProdutoVenda

DataVendaCodPostoCodProdutoValorVendaQtdeVendida

Posto

CodPostoCodEmpresaMatFuncSupervisorCGCNome

Empresa

CodEmpresaCGCRazaoSocialNomeFantasia

Supervisor

MatrFuncSupervisorNomeFunc

Semestre

CodSemestreCodAnoDescSemestre

Dia

DataVendaCodSemanaCodMes

Semana

CodSemanaCodMesDescSemana

Mes

CodMesCodTrimestreDescMes

Produto

CodProdutoCodFamiliaProdutoDescProduto

Trimestre

CodTrimestreCodSemestreDescTrimestre

FamiliaDeProduto

CodFamiliaProdutoDescFamiliaProduto

Ano

CodAno

Modelo DimensionalGestão de Redes de Postos

DivideSeEm

1+

Supervisiona

Dimensão Tempo

DivideSeEm

DivideSeEm

DivideSeEmDivideSeEm

DimensaoProduto

DimensaoPostoPertenceAFamilia

Possui

Page 17: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Modelo E/R x Modelo Dimensional

O modelo E/R é:* Voltado para performance da captação de dados* Mais difícil de visualizar* Mais difícil de navegar (várias alternativas,

caminhos longos, etc.)

O modelo dimensional é:* Voltado para flexibilidade e para performance da

extração de informações* Mais simples* Mais sintonizado com o negócio

Page 18: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

DefiniçãoDefinição““Data Warehouse é uma coleção de dados : Data Warehouse é uma coleção de dados :

- dividida por assuntos - dividida por assuntos

- integrada- integrada

- não volátil- não volátil

- que varia com o tempo- que varia com o tempo

que suporta decisões gerenciaisque suporta decisões gerenciais””

William H. InmonWilliam H. Inmon

Page 19: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Orientação por assunto Um DW sempre armazena dados

importantes sobre temas específicos da empresa e conforme o interesse das pessoas que irão utilizá-lo.Exemplo: Uma empresa pode trabalhar com vendas de

produtos alimentícios no varejo e o seu maior interesse ser o perfil de seus compradores, então o DW será voltado para as pessoas que compram seus produtos e não para os produtos que ela vende.

Page 20: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Integração

Incompatibilidade: mesmo elemento, nomes diferentes

Incoerência: diferentes elementos, mesmo nome

Aplicação A

Aplicação B

Aplicação C

(a)

Valor atual,2 anos

Aplicação AAplicação B

Aplicação C

Valor atual,1 ano

Valor atual,3 meses

Valor atual,6 meses

(b)

Page 21: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Integração de dados

OPERACIONAL DATA WAREHOUSEAplicação A: m,fAplicação B: 1,0Aplicação C: masculino, feminino

Aplicação A: caminho - centímetrosAplicação B: caminho - pés Aplicação C: caminho - jardas

Aplicação A: descriçãoAplicação B: descrição Aplicação C: descrição

Aplicação A: chave char(10)Aplicação B: chave dec fixed(9,2)Aplicação C: chave char(12)

sexo: m, f

caminho: centímetros

Chave char(12)

? descrição

Page 22: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Integração de dados

DATA WAREHOUSE

- Maria Silva - Feminino- Nascida em 01/12/68- Duas internações em 2000- Equipe médica- Duração média das internações- Exames requeridos- Resultados dos exames- Casada - 2 filhos

Plano de Saúde- Maria Silva - Feminino- 01/12/68

Clínica- Maria Silva- Duas internações em 2000- Equipe médica- Duração média das internações

Laboratório de Exames- Maria Silva- Exames requeridos- Resultados

OPERACIONAL

Page 23: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

DW varia conforme o tempo

OperacionalOperacional

30-90 dias30-90 dias Não tem Não tem

históricoshistóricos Atualizado em Atualizado em

tempo realtempo real

Data WarehouseData Warehouse

5 -10 anos5 -10 anos Histórico Histórico

completocompleto Critérios Critérios

específicos específicos definem como a definem como a carga se farácarga se fará

Page 24: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

DW é não-volátil

OperacionalOperacional

Atualizável Atualizável

NormalizadoNormalizado Voltado para Voltado para

perfomanceperfomance

Data WarehouseData Warehouse

““Read Only”Read Only” Não Não

normalizadonormalizado Voltado para Voltado para

facilitar facilitar extraçãoextração

Page 25: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Não volatilidade

OPERACIONAL

alterarincluir

acessar

excluirincluir

alterar

excluir

DATA WAREHOUSE

carregaracessar

Page 26: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Localização

Dados detalhadosantigos

Dados detalhadosatuais

Dados levementeresumidos

Dados altamenteresumidos

Formas de armazenamento:

único local(centralizado)

por área de interesse(distribuído)

por nível de detalhes

Page 27: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Credibilidade dos dados Mais importante para o sucesso de

qualquer projeto Discrepâncias simples de todo tipo podem

causar sérios problemas quando se quer extrair dados para suportar decisões estratégicas para o negócio das empresas

Dados não dignos de confiança podem resultar em relatórios inúteis, que não tem importância alguma

• por exemplo, uma lista de pacientes do sexo masculino e grávidos.

Page 28: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Granularidade

Baixa• é possível responder a praticamente qualquer

consulta• porém grande quantidade de recursos

computacionais é necessária para responder perguntas específicas

Alta• ocorre uma significativa redução da

possibilidade de utilização dos dados para atender consultas detalhadas

• porém reduz-se muito o espaço em disco e o número de índices necessários

Page 29: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Exemplo de níveis de granularidade

Prod. Data Qtd. ValorA1 13/9/00 10 100,00B1 14/9/00 15 150,00A1 16/9/00 20 200,00A1 16/9/00 90 890,00

mês/ano Prod. Qtd. Valor09/00 A1 120 1190,0009/00 B1 15 150,00

Baixa Alta

Page 30: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Dimensões & Fatos

Fatos“Medidas sobre o

negócio”“Objeto de curiosidade

do usuário”“Aquilo que é o foco de

atenção do usuário”

Ex.: Células de uma planilha eletrônica

Dimensões

“Pontos de vista por meio dos quais os fatos poderiam ser

analisados”

“Perspectivas”

Ex.: Cabeçalhos (linhas ou colunas)

de uma planilha

Page 31: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

SnowFlake Schema

FamíliaId-FamíliaDs-Família

GrupoId-GrupoId-FamíliaDs-Grupo

ItemId-ItemId-GrupoDs-Item

Venda

Id-ItemId-...

DimensãoDimensãoProdutoProduto

Page 32: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Star SchemaStar Schema

Chave produtoNome produtoId itemId grupoId famíliaNível agregação

Dimensão ProdutoDimensão Produto

VendaVenda

Chave tempo Chave local Chave produtoChave cliente ValorQuantidadeCusto

Dimensão ClienteDimensão Cliente

Chave clienteNome cliente

Dimensão TempoDimensão Tempo

Chave tempoNome tempoDiaMêsAnoNível Agregação

Dimensão LocalizaçãoDimensão Localização

Chave localDescricao localId RegiãoId PaísNível Agregação

Page 33: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Ferramentas OLAP “O que é importante”

(Exception Reporting) “Detalhes” (Drill Down) “Agregações” (Drill Up) “Muda o ponto de vista”

(Drill Across) “Melhores e piores”

(Ranking) “Comparar com períodos

anteriores” (Análise Comparativa)

Page 34: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Data Warehouse é ...

““Um meio de prover no tempo apropriado Um meio de prover no tempo apropriado informações completas e corretas, em um informações completas e corretas, em um formato compreensível, para a eficaz formato compreensível, para a eficaz tomada de decisões ...tomada de decisões ...

... em ... em todostodos os níveis: estratégico, tático e os níveis: estratégico, tático e operacional”operacional”

Page 35: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Data Warehouses

x

Data Marts

Page 36: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Data MartData Mart

Um Data Mart é um subconjunto de dados do Data Warehouse destinado a suportar as necessidades específicas de uma determinada unidade de negócios.

Page 37: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Data Warehouse em uma empresa

VendasVendas

ProduçãoProdução

MarketingMarketing

RHRH

etc.etc.

Data WarehouseData Warehouse

Data MartsData Marts

Page 38: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Data Warehouse em um orgão do Governo Federal (ex.: Receita

Federal)

ArrecadaçãoArrecadação

ComércioComércioExteriorExterior

DívidaDívidaAtivaAtiva

etc.etc.

Data WarehouseData Warehouse

Data MartsData Marts

Page 39: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

O Data Warehouse de um orgão do Governo Federal não está

sozinho ...

ReceitaReceitaFederalFederal

AgriculturaAgricultura

MAREMARE

BancoBancoCentralCentral

etc.etc.

Data Warehouse doData Warehouse doGoverno FederalGoverno Federal

Data MartsData Marts

Page 40: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

BDoperacional

Data Warehouse

Aplicaçõesnão estruturadas

??FontesExternas

Extração, limpeza e transformação

Transporte

Carga

Query &Reporting OLAPEIS Data Mining

Componentes de um DW

Page 41: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Classes de ferramentas

Extração, Limpeza e Transformação

Banco de Dados

Acesso

Administração (Modelos/Metadados)

Page 42: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Como se constrói o Data Warehouse?

Page 43: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Qual é o enfoque? Implantar o Data Warehouse ou implantar

Data Marts?Ambos: Constrói-se o Data Warehouse por

meio da implantação de sucessivos Data Marts

1) Planeja-se o todo (o Data Warehouse)

2) Implementa-se em partes (os Data Marts) que vão se somando

Page 44: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

ConhecimentoConhecimentoda metodologiada metodologia

ConhecimentoConhecimentodo negóciodo negócioProdutos deProdutos de

Data WarehouseData Warehouse

Plano de implementação

IncrementoIncremento11

Incremento Incremento 22

Incremento Incremento nn

. . . . . .

Construindo o Data Construindo o Data WarehouseWarehouse

Page 45: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Os grandes passos da metodologia

Definição da Arquitetura do DWEntendimento das necessidades da empresaSeleção do hardware, software e ferramentas

Definição dos incrementos do DW

Implementação dos incrementosModelagem

Construção das aplicaçõesCriação do DW

Operação, ajustes e suporte

Page 46: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Justificativa para Data Warehouses

“A justificativa para Data Warehouses é simples: Eles ajudam a converter dados em ferramentas competitivas.”

— — ComputerworldComputerworld

Page 47: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Análisemultidimensional

(OLAP)

Query&

Reporting

DataMining

RDBMS

Extração,Limpeza

&transformação

Transporte

Carga &atualizaçãoincremental

DWHadmin.

&automação

MetodologiaMetodologia

Componentes do Data Warehouse

Page 48: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

O PRESENTE E O FUTURO É A

Page 49: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Conclusão

A implementação do Data Warehouse em um ambiente permite um melhor gerenciamento das informações visando a utilização inteligente dos recursos para realizar as atividades que são de sua responsabilidade, oferecendo confiabilidade, transparência, agilidade e segurança.

Page 50: DATA WAREHOUSE Informação e Decisão SDMS 2004 Camilo Mussi

Obrigado

[email protected](61) 448-1129