View
1.401
Download
1
Embed Size (px)
DESCRIPTION
Citation preview
10/04/2023 ©2010 | MATA60 Banco de Dados 1
DATA WAREHOUSE E DATA MINING
10/04/2023 ©2010 | MATA60 Banco de Dados 2
DATA WAREHOUSE
10/04/2023 ©2010 | MATA60 Banco de Dados 3
Conceito• “Coleção de dados orientada a assunto, integrada, não-
volátil e variante no tempo, utilizada para tomada de decisões”. W. H. Inmon
• "a copy of transaction data specifically structured for query and analysis“ R. Kimball
• “Repositório estruturado e corporativo de dados orientados a assunto, variantes no tempo e históricos, usados para recuperação de informações e suporte à decisão. O DW armazena atômicos e sumarizados”. Definição de DW da Oracle
10/04/2023 ©2010 | MATA60 Banco de Dados 4
Propriedades
10/04/2023 ©2010 | MATA60 Banco de Dados 5
Fluxo dos Dados
10/04/2023 ©2010 | MATA60 Banco de Dados 6
Modelagem dos Dados• Objetivos da Modelagem Dimensional
• Fornecer uma imagem global da realidade do negócio• Exibir informações em níveis apropriados de detalhes (resumido
ou detalhado)• Otimizar o processamento de consultas complexas
(Modelo Estrela ou Flocos de Neve)• Integrar dados de diversas fontes em uma única BD para facilitar
a geração de relatórios
10/04/2023 ©2010 | MATA60 Banco de Dados 7
Modelagem dos Dados• Modelo Relacional
• Usado para identificar relacionamentos entre tipos de relações• Visa remover a redundância de dados• Processamento de Transações On-Line (OLTP)
• Modelo Dimensional
• Apresenta dados em uma estrutura intuitiva permitindo alta performance de acesso
• Independe da representação física dos dados• Organiza dados em tabelas de fatos e dimensões• Processamento Analítico On-Line (OLAP)
10/04/2023 ©2010 | MATA60 Banco de Dados 8
Ambiente Operacional * Ambiente Analítico
10/04/2023 ©2010 | MATA60 Banco de Dados 9
Modelo Dimensional
10/04/2023 ©2010 | MATA60 Banco de Dados 10
Tabela de Fatos
10/04/2023 ©2010 | MATA60 Banco de Dados 11
Tabela de Dimensão
10/04/2023 ©2010 | MATA60 Banco de Dados 12
Star Scheme
10/04/2023 ©2010 | MATA60 Banco de Dados 13
Snowflake Schema
10/04/2023 ©2010 | MATA60 Banco de Dados 14
Data Mart• Definição
• DM é um subconjunto de um DW• Subconjunto do DW que satisfaz os requisitos de um certo tema ou
atividade de negócio• Projetado para um dado grupo de usuários
• Específico a um assunto particular ou atividade de negócio• Pode ser visto como uma solução tática• Pode ser construído antes ou depois do DW
• Antes pode representar fragmentos de dados, mas reduz a ⇒complexidade de desenvolvimento
• Depois produz uma visão integrada dos dados, mas aumenta a ⇒complexidade de desenvolvimento
• Abordagem atual consiste em construir primeiro os DM, mas garantindo a consistência dos dados!
10/04/2023 ©2010 | MATA60 Banco de Dados 15
DW * DM
10/04/2023 ©2010 | MATA60 Banco de Dados 16
Data Warehousing
10/04/2023 ©2010 | MATA60 Banco de Dados 17
ETL e ODS• Ferramentas de ETL
• Responsáveis pela conversão dos dados do ambiente operacional para o de suporte à decisão
• Realizam Acesso, Extração, Transformação, Validação e Carga dos dados
• Operational Datastore (ODS)• Repositório de dados operacionais integrados• Benefícios
• Otimiza a criação do DW• Possibilita a realização de consultas relacionais sobre dados históricos• Permite interações de tempo real (e.g. gerenciamento de
relacionamentos de cliente)
10/04/2023 ©2010 | MATA60 Banco de Dados 18
Abordagem Top-Down
10/04/2023 ©2010 | MATA60 Banco de Dados 19
Abordagem Bottom-Up
10/04/2023 ©2010 | MATA60 Banco de Dados 20
OLAP• O que é OLAP (On-Line Analytical Processing)?
• Conjunto de tecnologias projetadas para analisar e acessar dados típicos de suporte a decisão que estão no DW
• Fornece dados em alto nível (totais,médias,min..)• Acessa vários registros• Tem alto desempenho e consultas fáceis e interativas• Lida com dados históricos (dimensão temporal)• Oferece visões multidimensionais (perspectivas)
10/04/2023 ©2010 | MATA60 Banco de Dados 21
OLAP• Cubo Multidimensional (Abstração do DW)
• Metáfora de uma abordagem multidimensional para visualização e organização dos dados
• Várias dimensões podem ser usadas simultaneamente• Dados são manipulados mais rapidamente e facilmente
(agregação em níveis de hierarquia)
10/04/2023 ©2010 | MATA60 Banco de Dados 22
Operações OLAP• Drill Down e Roll Up (ou Drill Up)
10/04/2023 ©2010 | MATA60 Banco de Dados 23
Operações OLAP• Rotação
• Técnica que gira o cubo, permitindo ter diferentes visões dos dados
10/04/2023 ©2010 | MATA60 Banco de Dados 24
Operações OLAP• Slice and Dice
• Técnica que fatia o cubo, permitindo restringir a análise aos dados, sem inversão de eixos
• “Semelhante” a cláusula WHERE de SQL
10/04/2023 ©2010 | MATA60 Banco de Dados 25
MDX
10/04/2023 ©2010 | MATA60 Banco de Dados 26
DATA MINING
10/04/2023 ©2010 | MATA60 Banco de Dados 27
Conceito• Mineração de dados é a busca de informações valiosas em
grandes bancos de dados. É um esforço de cooperação entre homens e computadores. Os homens projetam bancos de dados, descrevem problemas e definem seus objetivos. Os computadores verificam dados e procuram padrões que casem com as metas estabelecidas pelos homens [WI99].
• Mineração de dados é o processo de proposição de várias consultas e extração de informações úteis, padrões e tendências, frequentemente desconhecidos, a partir de grande quantidade de dados armazenada em bancos de dados [BT99].
• Mineração de dados, de forma simples, é o processo de extração ou mineração de conhecimento em grandes quantidades de dados [HK01].
10/04/2023 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA
28
Áreas de Aplicações Potenciais
• Vendas e Marketing• Identificar padrões de comportamento de consumidores• Associar comportamentos à características demográficas de consumidores• Campanhas de marketing direto (mailing campaigns)• Identificar consumidores “leais”
• Bancos • Identificar padrões de fraudes (cartões de crédito)• Identificar características de correntistas • Mercado Financeiro ($$$)
• Médica• Comportamento de pacientes• Identificar terapias de sucessos para diferentes tratamentos• Fraudes em planos de saúdes• Comportamento de usuários de planos de saúde
10/04/2023 ©2010 | MATA60 Banco de Dados 29
Data Mining e KDD• KDD utiliza algoritmos de data mining para extrair
padrões classificados como “conhecimento”.
• Incorpora tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados;
10/04/2023 ©2010 | MATA60 Banco de Dados 30
KDD - Contextualização
10/04/2023 ©2010 | MATA60 Banco de Dados 31
KDD e Data Warehouse
10/04/2023 ©2010 | MATA60 Banco de Dados 32
Pré-Processamento• Atributos com representação inadequada para tarefa e algoritmo.
• Atributos cujos valores não tenham informações adequadas.
• Excesso de atributos (podem ser redundantes ou desnecessários).
• Atributos insuficientes.
• Excesso de instancias (afetam tempo de processamento).
• Instâncias insuficientes.
• Instâncias incompletas (sem valores para alguns atributos).
• Assim como a mineração de dados em si, requer conhecimento sobre os dados e algoritmo que será usado!
10/04/2023 ©2010 | MATA60 Banco de Dados 33
TAREFAS DE DATA MINING
10/04/2023 ©2010 | MATA60 Banco de Dados 34
Análise de Regras de Associação• Exemplo:
• “Clientes que compram pão também compram leite” representa uma regra de associação que reflete um padrão de comportamento dos clientes do supermercado.
• Descobrir regras de associação entre produtos comprados por clientes numa mesma compra pode ser útil para melhorar a organização das prateleiras, facilitar (ou dificultar) as compras do usuário ou induzi-lo a comprar mais.
10/04/2023 ©2010 | MATA60 Banco de Dados 35
Análise de Padrões Sequenciais• Exemplo:
• A sequência < {carro}, {pneu, toca-fitas} > representa o padrão Clientes que compram carro, tempos depois compram pneu e toca-fitas de carro.
• Descobrir tais padrões sequenciais em dados temporais pode ser útil em campanhas de marketing, por exemplo.
10/04/2023 ©2010 | MATA60 Banco de Dados 36
Classificação e Predição• Exemplo:
• Suponha que o gerente do supermercado está interessado em descobrir que tipo de características de seus clientes os classificam em bom comprador ou mau comprador.
• Um modelo de classificação poderia incluir a seguinte regra: Clientes da faixa econômica B, com idade entre 50 e 60 são maus compradores.
10/04/2023 ©2010 | MATA60 Banco de Dados 37
Classificação e Predição• Em algumas aplicações, o usuário está mais interessado
em predizer alguns valores ausentes em seus dados, em vez de descobrir classes de objetos. Isto ocorre sobretudo quando os valores que faltam são numéricos.
• Neste caso, a tarefa de mineração é denominada Predição.
10/04/2023 ©2010 | MATA60 Banco de Dados 38
Análise de Clusters (Agrupamentos)• Exemplo:
• Poderíamos aplicar análise de clusters sobre o banco de dados de um supermercado a fim de identificar grupos homogêneos de clientes;
• Por exemplo, clientes aglutinados em determinados pontos da cidade costumam vir ao supermercado aos domingos, enquanto clientes aglutinados em outros pontos da cidade costumam fazer suas compras às segundas-feira;
10/04/2023 ©2010 | MATA60 Banco de Dados 39
Análise de Outliers• Um banco de dados pode conter dados que não
apresentam o comportamento geral da maioria. Estes dados são denominados outliers(exceções).
• Muitos métodos de mineração descartam estes outliers como sendo ruído indesejado.
• Entretanto, em algumas aplicações, tais como detecção de fraudes, estes eventos raros podem ser mais interessantes do que eventos que ocorrem regularmente.
10/04/2023 ©2010 | MATA60 Banco de Dados 40
TÉCNICAS DE DATA MINING
10/04/2023 ©2010 | MATA60 Banco de Dados 41
Árvores de Decisão• Representações simples do conhecimento• Utilização de regras condicionais• A partir de um conjunto de valores decide SIM ou NÃO • Mais rápida e mais compreensível que redes neurais• Exemplo: Sair ou não de acordo com o tempo
SairUmidade
ChuvosoNublado Ensolarado
Tempo
Ñ Sair
Alta
Sair
Normal
Muito vento
Ñ Sair
Sim
Sair
Não
Predicado objetivo: Sair ou Não Sair
10/04/2023 ©2010 | MATA60 Banco de Dados 42
Árvores de Decisão
Renda > R$ 4.000,00
Dívida < 10% da renda ? Dívida = 0%
Risco de ter crédito Risco de não ter crédito Risco de ter crédito
SIM
SIM SIMNÃO NÃO
NÃO
Nesta árvore de decisões, regras são induzidas nos padrões dosdados e cria-se uma hierarquia de indicações “se-então”.
Classificação de um indivíduo com risco de ter ou não crédito
Predicado objetivo: Crédito ou Não
10/04/2023 ©2010 | MATA60 Banco de Dados 43
Redes Neurais• Redes Neurais:
• Para construir um modelo neural, nós primeiramente "adestramos" a rede em um dataset de treinamento e então usamos a rede já treinada para fazer predições.
• Problemas:• Não retorna informação a priori
• Não pode ser treinada em uma grande base de dados
• Entrada não pode ser dados alfanuméricos (mapear para numérico)
• Nenhuma explanação dos dados é fornecida (caixa preta)
10/04/2023 ©2010 | MATA60 Banco de Dados 44
Técnicas• Redes Neurais:
• Exemplo prático: risco de câncer
Data mining - Clementine User Guide
10/04/2023 ©2010 | MATA60 Banco de Dados 45
• Redes Neurais: - 2o Exemplo
Técnicas
RENDA REG. DEPAGAMENTO
IDADEDÉBITO
Riscode tercrédito
Risco de não tercrédito
As redes neurais usam seus dados de entrada.Atribui pesos nas conecções entre os atributos (neurônios).
E obtém um resultado (risco de ter ou não crédito) no nível de saída.
Nívelde
entrada
Níveloculto
Nívelde
saída