Upload
internet
View
119
Download
2
Embed Size (px)
Citation preview
DATA WAREHOUSE
Informação e Decisão
SDMS 2004
Camilo Mussi
Ciclo do Processo Decisório
INFORMAÇÃOINFORMAÇÃO
DECISÃODECISÃO
AÇÃOAÇÃO
AVALIAÇÃOAVALIAÇÃO
Extração de Informações Extração de Informações (sem Data Warehouse) (sem Data Warehouse)
RelatóriosRelatóriossimplessimples
RelatóriosRelatórioscomplexoscomplexos
PlanilhasPlanilhas
1°Trim.
2°Trim.
3°Trim.
4°Trim.
0102030405060708090
1°Trim.
2°Trim.
3°Trim.
4°Trim.
Leste
Oeste
Norte
1° Trim.
2° Trim.
3° Trim.
4° Trim.
EIS área 1EIS área 1
1°Trim.
2°Trim.
3°Trim.
4°Trim.
0102030405060708090
1°Trim.
2°Trim.
3°Trim.
4°Trim.
Leste
Oeste
Norte
1° Trim.
2° Trim.
3° Trim.
4° Trim.
EIS área 2EIS área 2
Inconsistência das informações
Dificuldade para atender a novas necessidades
Descrédito
Extração de Informações Extração de Informações (sem Data Warehouse) (sem Data Warehouse)
Extração de Informações Extração de Informações (com Data Warehouse) (com Data Warehouse)
RelatóriosRelatóriossimplessimples
RelatóriosRelatórioscomplexoscomplexos
Relatórios legaisRelatórios legaisee
relatórios operacionaisrelatórios operacionais
EIS1EIS1 EIS2EIS2
Extração de Informações (com Data Warehouse)
Maturidade da tecnologia
Diferenciais: metodologia e ferramentas
Definição I
“ É uma coleção de dados orientados por assuntos, integrados, variáveis no tempo e não voláteis, para dar suporte ao processo gerencial de tomada de decisão ” [ Inmon ]
Definição II
“ É um processo em andamento que aglutina dados de fontes heterogêneas, incluindo dados históricos e dados externos para atender às necessidades de consultas estruturadas e ad-hoc, relatórios analíticos e de suporte a decisão ” [Harjinder ]
Definição III
“ É uma coleção de técnicas e tecnologias que juntas disponibilizam um enfoque pragmático e sistemático para tratar com o problema do usuário final de acessar informações que estão distribuídas em vários sistemas da organização ” [Barquini]
Resumo
Dados atuais
Dados históricos
Fonte interna
Dados externos
Dados externos
Fonte externa
Extraçãoe
Transformação
Diretório deInformação(Metadado)
Análise e Acesso
• Consultas • Relatórios• OLAP• Data Mining
Data Warehouse
Informaçõessobre os dadosDisponíveis no DW
Batch
OLTP (OnLine Transaction Processing)
OLAP (OnLine Analytical Processing)
OLTP x OLAP
OLTP
Data Warehouse (com OLAP)
Captação de dados
“Exploração” dos dados
Fazendo a rodados negóciosgirar
Vendo a rodados negóciosgirar
Extração, limpeza etransformação
Dados operacionais vs. Data Warehouse
Características BD Operacional Data Warehouse Objetivo Operações diárias do negócio Analisar o negócio
Uso Operacional Informativo
Tipo de processamento OLTP OLAP
Unidade de trabalho Inclusão, alteração, exclusão Carga e consulta
Número de usuários Milhares Centenas
Tipo de usuário Operadores Comunidade gerencial
Interação do usuário Somente pré-definida Pré-definida e ad-hoc
Condições dos dados Dados operacionais Dados Analíticos
Volume Megabytes – gigabytes Gigabytes - terabytes
Histórico 60 a 90 dias 5 a 10 anos
Dados operacionais vs. Data Warehouse
Características BD Operacional Data WarehouseGranularidade Detalhados Detalhados e resumidos
Redundância Não ocorre Ocorre
Estrutura Estática Variável
Manutenção desejada Mínima Constante
Acesso a registros Dezenas Milhares
Atualização Contínua (tempo real) Periódica (batch)
Integridade Transação A cada atualização
Número de índices Poucos / simples Muitos / complexos
Intenção dos índices Localizar um registro Aperfeiçoar consultas
FechamentoDeCaixaPhysical Display
DataFechamentoCodTurnoValorApuradoDepositoBancoValorApuradoDinheiroValorApuradoChequeValorApuradoDocumentosValorInformadoDepositoBancoValorInformadoDinheiroValorInformadoChequeValorInformadoDocumentos
PessoaFisicaPhysical Display
CPFNumeroRGOrgaoEmissorDataEmissaoRGNomeNomeUsual CHARDataNascimentoNomePaiNomeMaeEstadoCivilSexoNaturalidadeNacionalidade
ItemDeEstoquePostoPhysical Display
CodItem [PK1]QtdeEmEstoquePrecoUnitario
PostoPhysical Display
CodEmpresa [FK]MatrFuncMatrFuncSupervisor [FK]CodPosto [PK1]MatFuncSupervisorCGCNomeBomba
Physical DisplayNumOrdemBombaNumSerieCodDistribuidorNomeFabricanteTipoCombustivel
MovimentacaoEstoquePhysical Display
DataMovtoQtdeMovimentada
VendaPhysical Display
CodPosto [FK]DataVenda [PK1]CodProduto [PK3]ValorVendaQtdeVendida
EmpresaPhysical Display
CodEmpresa [PK1]CGCRazaoSocialNomeFantasia
AfericaoBombaPhysical Display
DataAfericaoNumSeqMedicaoDiferencaEncontrada
ProdutoPhysical Display
CodFamiliaProduto [FK]FlexKeyCodProduto [PK1]DescProduto
ProdutoSimplificadoPhysical Display
PrecoUnitarioCustoMedioMargemLucro
ControleSistemaPorMes
Physical DisplayMesControleSistema
FamiliaDeProdutoPhysical Display
CodFamiliaProduto [PK1]DescFamiliaProduto
VendaCombustivelPhysical Display
QtdeRetornadaMedidaRetirante
SupervisorPhysical Display
MatrFuncSupervisor [PK1]NomeFunc
ControleSistemaPorDia
Physical DisplayDataControleSistema
ControleSistemaPhysical Display
IndEmAberto
ControleSistemaPorAno
Physical DisplayAnoControleSistema
FuncionárioPhysical Display
Matricula
GerenciadoPorKey Data
CodPosto [PK1] [FK]
VendaOutraMercadoria
Gerente
Modelo E/R (geradoautomaticamente)
Gestão de Rede de Postos
PertenceAFamilia
RefereSeA
PossuiAfericao
ProdutoEstaEmEstoque
RefereSeA
RefereSeA
RefereSeA
RefereSeA
RefereSeA
PossuiBombas
PossuiItensEmEstoque
Supervisiona
PostoPertenceAEmpresa
Dimensão Tempo
Dimensão Posto Dimensão ProdutoVenda
DataVendaCodPostoCodProdutoValorVendaQtdeVendida
Posto
CodPostoCodEmpresaMatFuncSupervisorCGCNome
Empresa
CodEmpresaCGCRazaoSocialNomeFantasia
Supervisor
MatrFuncSupervisorNomeFunc
Semestre
CodSemestreCodAnoDescSemestre
Dia
DataVendaCodSemanaCodMes
Semana
CodSemanaCodMesDescSemana
Mes
CodMesCodTrimestreDescMes
Produto
CodProdutoCodFamiliaProdutoDescProduto
Trimestre
CodTrimestreCodSemestreDescTrimestre
FamiliaDeProduto
CodFamiliaProdutoDescFamiliaProduto
Ano
CodAno
Modelo DimensionalGestão de Redes de Postos
DivideSeEm
1+
Supervisiona
Dimensão Tempo
DivideSeEm
DivideSeEm
DivideSeEmDivideSeEm
DimensaoProduto
DimensaoPostoPertenceAFamilia
Possui
Modelo E/R x Modelo Dimensional
O modelo E/R é:* Voltado para performance da captação de dados* Mais difícil de visualizar* Mais difícil de navegar (várias alternativas,
caminhos longos, etc.)
O modelo dimensional é:* Voltado para flexibilidade e para performance da
extração de informações* Mais simples* Mais sintonizado com o negócio
DefiniçãoDefinição““Data Warehouse é uma coleção de dados : Data Warehouse é uma coleção de dados :
- dividida por assuntos - dividida por assuntos
- integrada- integrada
- não volátil- não volátil
- que varia com o tempo- que varia com o tempo
que suporta decisões gerenciaisque suporta decisões gerenciais””
William H. InmonWilliam H. Inmon
Orientação por assunto Um DW sempre armazena dados
importantes sobre temas específicos da empresa e conforme o interesse das pessoas que irão utilizá-lo.Exemplo: Uma empresa pode trabalhar com vendas de
produtos alimentícios no varejo e o seu maior interesse ser o perfil de seus compradores, então o DW será voltado para as pessoas que compram seus produtos e não para os produtos que ela vende.
Integração
Incompatibilidade: mesmo elemento, nomes diferentes
Incoerência: diferentes elementos, mesmo nome
Aplicação A
Aplicação B
Aplicação C
(a)
Valor atual,2 anos
Aplicação AAplicação B
Aplicação C
Valor atual,1 ano
Valor atual,3 meses
Valor atual,6 meses
(b)
Integração de dados
OPERACIONAL DATA WAREHOUSEAplicação A: m,fAplicação B: 1,0Aplicação C: masculino, feminino
Aplicação A: caminho - centímetrosAplicação B: caminho - pés Aplicação C: caminho - jardas
Aplicação A: descriçãoAplicação B: descrição Aplicação C: descrição
Aplicação A: chave char(10)Aplicação B: chave dec fixed(9,2)Aplicação C: chave char(12)
sexo: m, f
caminho: centímetros
Chave char(12)
? descrição
Integração de dados
DATA WAREHOUSE
- Maria Silva - Feminino- Nascida em 01/12/68- Duas internações em 2000- Equipe médica- Duração média das internações- Exames requeridos- Resultados dos exames- Casada - 2 filhos
Plano de Saúde- Maria Silva - Feminino- 01/12/68
Clínica- Maria Silva- Duas internações em 2000- Equipe médica- Duração média das internações
Laboratório de Exames- Maria Silva- Exames requeridos- Resultados
OPERACIONAL
DW varia conforme o tempo
OperacionalOperacional
30-90 dias30-90 dias Não tem Não tem
históricoshistóricos Atualizado em Atualizado em
tempo realtempo real
Data WarehouseData Warehouse
5 -10 anos5 -10 anos Histórico Histórico
completocompleto Critérios Critérios
específicos específicos definem como a definem como a carga se farácarga se fará
DW é não-volátil
OperacionalOperacional
Atualizável Atualizável
NormalizadoNormalizado Voltado para Voltado para
perfomanceperfomance
Data WarehouseData Warehouse
““Read Only”Read Only” Não Não
normalizadonormalizado Voltado para Voltado para
facilitar facilitar extraçãoextração
Não volatilidade
OPERACIONAL
alterarincluir
acessar
excluirincluir
alterar
excluir
DATA WAREHOUSE
carregaracessar
Localização
Dados detalhadosantigos
Dados detalhadosatuais
Dados levementeresumidos
Dados altamenteresumidos
Formas de armazenamento:
único local(centralizado)
por área de interesse(distribuído)
por nível de detalhes
Credibilidade dos dados Mais importante para o sucesso de
qualquer projeto Discrepâncias simples de todo tipo podem
causar sérios problemas quando se quer extrair dados para suportar decisões estratégicas para o negócio das empresas
Dados não dignos de confiança podem resultar em relatórios inúteis, que não tem importância alguma
• por exemplo, uma lista de pacientes do sexo masculino e grávidos.
Granularidade
Baixa• é possível responder a praticamente qualquer
consulta• porém grande quantidade de recursos
computacionais é necessária para responder perguntas específicas
Alta• ocorre uma significativa redução da
possibilidade de utilização dos dados para atender consultas detalhadas
• porém reduz-se muito o espaço em disco e o número de índices necessários
Exemplo de níveis de granularidade
Prod. Data Qtd. ValorA1 13/9/00 10 100,00B1 14/9/00 15 150,00A1 16/9/00 20 200,00A1 16/9/00 90 890,00
mês/ano Prod. Qtd. Valor09/00 A1 120 1190,0009/00 B1 15 150,00
Baixa Alta
Dimensões & Fatos
Fatos“Medidas sobre o
negócio”“Objeto de curiosidade
do usuário”“Aquilo que é o foco de
atenção do usuário”
Ex.: Células de uma planilha eletrônica
Dimensões
“Pontos de vista por meio dos quais os fatos poderiam ser
analisados”
“Perspectivas”
Ex.: Cabeçalhos (linhas ou colunas)
de uma planilha
SnowFlake Schema
FamíliaId-FamíliaDs-Família
GrupoId-GrupoId-FamíliaDs-Grupo
ItemId-ItemId-GrupoDs-Item
Venda
Id-ItemId-...
DimensãoDimensãoProdutoProduto
Star SchemaStar Schema
Chave produtoNome produtoId itemId grupoId famíliaNível agregação
Dimensão ProdutoDimensão Produto
VendaVenda
Chave tempo Chave local Chave produtoChave cliente ValorQuantidadeCusto
Dimensão ClienteDimensão Cliente
Chave clienteNome cliente
Dimensão TempoDimensão Tempo
Chave tempoNome tempoDiaMêsAnoNível Agregação
Dimensão LocalizaçãoDimensão Localização
Chave localDescricao localId RegiãoId PaísNível Agregação
Ferramentas OLAP “O que é importante”
(Exception Reporting) “Detalhes” (Drill Down) “Agregações” (Drill Up) “Muda o ponto de vista”
(Drill Across) “Melhores e piores”
(Ranking) “Comparar com períodos
anteriores” (Análise Comparativa)
Data Warehouse é ...
““Um meio de prover no tempo apropriado Um meio de prover no tempo apropriado informações completas e corretas, em um informações completas e corretas, em um formato compreensível, para a eficaz formato compreensível, para a eficaz tomada de decisões ...tomada de decisões ...
... em ... em todostodos os níveis: estratégico, tático e os níveis: estratégico, tático e operacional”operacional”
Data Warehouses
x
Data Marts
Data MartData Mart
Um Data Mart é um subconjunto de dados do Data Warehouse destinado a suportar as necessidades específicas de uma determinada unidade de negócios.
Data Warehouse em uma empresa
VendasVendas
ProduçãoProdução
MarketingMarketing
RHRH
etc.etc.
Data WarehouseData Warehouse
Data MartsData Marts
Data Warehouse em um orgão do Governo Federal (ex.: Receita
Federal)
ArrecadaçãoArrecadação
ComércioComércioExteriorExterior
DívidaDívidaAtivaAtiva
etc.etc.
Data WarehouseData Warehouse
Data MartsData Marts
O Data Warehouse de um orgão do Governo Federal não está
sozinho ...
ReceitaReceitaFederalFederal
AgriculturaAgricultura
MAREMARE
BancoBancoCentralCentral
etc.etc.
Data Warehouse doData Warehouse doGoverno FederalGoverno Federal
Data MartsData Marts
BDoperacional
Data Warehouse
Aplicaçõesnão estruturadas
??FontesExternas
Extração, limpeza e transformação
Transporte
Carga
Query &Reporting OLAPEIS Data Mining
Componentes de um DW
Classes de ferramentas
Extração, Limpeza e Transformação
Banco de Dados
Acesso
Administração (Modelos/Metadados)
Como se constrói o Data Warehouse?
Qual é o enfoque? Implantar o Data Warehouse ou implantar
Data Marts?Ambos: Constrói-se o Data Warehouse por
meio da implantação de sucessivos Data Marts
1) Planeja-se o todo (o Data Warehouse)
2) Implementa-se em partes (os Data Marts) que vão se somando
ConhecimentoConhecimentoda metodologiada metodologia
ConhecimentoConhecimentodo negóciodo negócioProdutos deProdutos de
Data WarehouseData Warehouse
Plano de implementação
IncrementoIncremento11
Incremento Incremento 22
Incremento Incremento nn
. . . . . .
Construindo o Data Construindo o Data WarehouseWarehouse
Os grandes passos da metodologia
Definição da Arquitetura do DWEntendimento das necessidades da empresaSeleção do hardware, software e ferramentas
Definição dos incrementos do DW
Implementação dos incrementosModelagem
Construção das aplicaçõesCriação do DW
Operação, ajustes e suporte
Justificativa para Data Warehouses
“A justificativa para Data Warehouses é simples: Eles ajudam a converter dados em ferramentas competitivas.”
— — ComputerworldComputerworld
Análisemultidimensional
(OLAP)
Query&
Reporting
DataMining
RDBMS
Extração,Limpeza
&transformação
Transporte
Carga &atualizaçãoincremental
DWHadmin.
&automação
MetodologiaMetodologia
Componentes do Data Warehouse
O PRESENTE E O FUTURO É A
Conclusão
A implementação do Data Warehouse em um ambiente permite um melhor gerenciamento das informações visando a utilização inteligente dos recursos para realizar as atividades que são de sua responsabilidade, oferecendo confiabilidade, transparência, agilidade e segurança.
Obrigado
[email protected](61) 448-1129