Upload
internet
View
108
Download
0
Embed Size (px)
Citation preview
NH Consultoria www.NHConsultoriaTI.com
Data MiningDefinição
• Gartner Group: – “Data mining is the process of discovering
meaningful new correlations, patterns and trends by shifting through large amounts of data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques.”
• Descobrimento de conhecimento em BD– Extração de padrões de informação de interesse :
1. Não trivial2. Implícita3. Previamente desconhecida4. Potencialmente útil
NH Consultoria www.NHConsultoriaTI.com
Data MiningDefinições
• O que é :– Descoberta de conhecimento em BD (KDD),
extração de conhecimento, análise de padrões em dados, information harvesting, business intelligence, etc.
• O que não é :– Processamento dedutivo de consultas; – Sistemas especialistas e pequenos
programas estatísticos e de aprendizagem de máquina.
NH Consultoria www.NHConsultoriaTI.com
Data MiningDefinições
• O Data Mining trabalha com grandes quantitades de dados.
• O Data Mining é diferente da análise de dados e da estatística :– Não precisa establecer uma hipótese a priori para testá-la em
seguida.– É dos próprios dados que devem surgir as hipóteses
(desconhecidas a priori) que o usuário validará depois.– Necessita uma arbitragem entre a validade científica, a
interpretabilidade dos resultados e a facilidade de utilização em ambiante profissional onde os usuários não são especialistas de estatística.
• O Data Mining é EMPÍRICO
NH Consultoria www.NHConsultoriaTI.com
Data MiningDefinições
EstatísticasBases de
Dados
Inteligência Artificial
Data Mining
NH Consultoria www.NHConsultoriaTI.com
Data Mining : Aplicações• Analisar
– Comportamento de consumidores– Vendas cruzadas– Similaridades de comportamentos– Cartões de fidelidade
• Prever– Respostas a uma mala direita ou operação Marketing (Ex : OPA).– Probabilidade de um cliente se separar do seu fornecedor (banco, telefone
móvel, etc.)– Necessidades de manutenção preventiva.
• Detectar– Comportamentos anormais ou fraudulento
• Desvios financeiros, Fraude com seguros, Energia, etc.– Problemas de qualidade (pós-venda).
• Procurar– Critérios para avaliar os "bons" clientes sem risco e propor para eles umas
condições financeiras particularizadas (banco, seguro).• Sugerir
– Uma resposta adequada durante uma chamada num call-center.
NH Consultoria www.NHConsultoriaTI.com
Data Mining : Anedotas• Wal-Mart :
– Primeiros ensaios de KDD com os dados dos "Tickets" de caixa dos supermercados.
– Detecção de forte correlação entre compra de fraldas e cervejas nos sábados pela tarde...
• Os esposos eram mandados pelas esposas para fazer compras volumosas.
• Re-organização das gôndolas deixando as fraldas perto da cerveja : Aumento significativo das vendas de cerveja !
• Coca-Cola :– Baixa de 5% do preço da bebida => aumento de 15% das
vendas.– DM : as vendas de biscoitos aperitivos vão aumentar na mesma
proporção que as de bebida.– Conclusão : baixar o preço da bebida permite aumentar as
vendas de biscoitos aperitivos (margem fraca na bebida e importante nos biscoitos).
NH Consultoria www.NHConsultoriaTI.com
Data mining & BI
Increasing potentialto supportbusiness decisions End User
Business Analyst
DataAnalyst
DBA
MakingDecisions
Data Presentation
Visualization Techniques
Data MiningInformation Discovery
Data Exploration
OLAP, MDA
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
Data SourcesPaper, Files, Information Providers, Database Systems, OLTP
NH Consultoria www.NHConsultoriaTI.com
Data Mining : O Processo• Formalizar
– O problema que deve ser resolvido a partir de dados.• Coletar
– Os dados adequados onde eles forem.• Preparar
– Os dados para os cálculos futuros. (a etapa é então SUBJETIVA).• Processar
– Os dados aplicando algoritmos de análise. • Avaliar e validar
– Os conhecimentos resultantes do processamento.• Desdobrar
– As análises na Empresa para uma utilização eficaz.
• O Processo é Cíclico !• O DM não é uma soma de vários pequenos estudos, mas sim um método
de capitalização de conhecimentos adquiridos e explícitos.• O DM deve permitir a estruturação dos conteúdos necessários à
engenharia do conhecimento.
NH Consultoria www.NHConsultoriaTI.com
Data Mining : Os Algoritmos• Não Supervisionado
– Nenhum dado ou variável têm mais importância que os outros.– Nenhuma variável é considerada individualmente como o alvo da análise.– Utilizações típicas :
• Extrair grupos homogêneos a partir de indivíduos• Extrair normas de comportamento e desvios em relação com estas normas (ex :
deteção de novas fraudes)• Compressão de informação
• Supervisionado– Objetivo : prever e/ou explicar um ou vários fenômenos observáveis e medidos.– Algumas variáveis são os alvos.– Utilizações típicas :
• Por que um individuo compra A mais que B ?• Por que um individuo pegou uma doença ?• Por que um individuo visitou muito uma página WEB ?• Etc.
• Redução de dados– Eliminação de ruído.– Redução do volume de dados.– Utilizações típicas :
• Em pré-processamento dos dados.• Complementares das técnicas prévias.
NH Consultoria www.NHConsultoriaTI.com
Data MiningPré-processamento
• Dados reais são “sujos”:– Incompletos: falta de valores de atributos, falta de
atributos de interesse ou existência de atributos agregados;
– Ruidosos: contem erros e desvios;– Inconsistentes: contêm discrepâncias em nomes e na
codificação.• Sem dados de qualidade, sem resultados de
qualidade em DM:– Decisões de qualidade devem estar baseadas em
dados de qualidade;– DWH necessita da integração consistente de dados
de qualidade.
NH Consultoria www.NHConsultoriaTI.com
Data MiningPré-processamento
NH Consultoria www.NHConsultoriaTI.com
Pré-processamentoLimpeza de dados
• Valores Faltantes– Ignorar a tupla– Preencher o valor manualmente– Usar uma constante global– Usar o valor médio do atributo na base– Usar o valor mais provável
• Atenuação de ruido– Discretização– Agrupamento– Interação humana– Regressão
NH Consultoria www.NHConsultoriaTI.com
Limpeza da dadosExemplo : Regressão linear
• Estatística :– Y e X são correlacionados pela
relação Y = a.X + b– Achar a e b de tal maneira que a
soma seja mínima
– Y = a0 + a1.X1 + ... + an.Xn : regressão linear múltipla
NH Consultoria www.NHConsultoriaTI.com
Pré-processamentoIntegração de dados
• Problemas– Redundâncias– Valores conflitantes (incoerências)
• Soluções– Regras de gestão nos ETL– Referenciais de dados– Integração no DWH, não no Datamart !
NH Consultoria www.NHConsultoriaTI.com
Pré-processamentoTransformação
• Suavização– Ex : Média Móvel (Moving Average)
• Agregação• Generalização• Normalização
– Utilizado para alguns tipos de análises (ex : ACP, cálculo matricial de correlações, etc.)
• Discretização– Tb pode ser utilizada para transformar os dados (alguns
métodos somente funcionam com dados discretos).
• Etc.
NH Consultoria www.NHConsultoriaTI.com
Pré-processamentoDiscretização - Normalização
Valores Centrado Discretizado Reduzido6,8542 1,5298569 MÉDIO 0,476978306
4,33819 -0,986154122 MÉDIO -0,3074628241,57013 -3,754212964 BAIXO -1,1704873454,45158 -0,872765 MÉDIO -0,2721103990,73524 -4,589109535 BAIXO -1,4307911377,94549 2,62114256 ALTO 0,8172190088,29327 2,968924787 ALTO 0,925650442
Média 5,324346611 8,29982 2,975474576 ALTO 0,927692534Dev padrão 3,20739304 0,1267 -5,197646347 BAIXO -1,620520554
7,18096 1,856617738 ALTO 0,5788556980,55746 -4,766886019 BAIXO -1,4862182348,77819 3,453847724 ALTO 1,0768395644,63465 -0,689694275 MÉDIO -0,2150326668,2685 2,944155581 ALTO 0,917927907
4,98172 -0,342630663 MÉDIO -0,1068252818,90626 3,581918156 ALTO 1,1167693246,61938 1,295033331 MÉDIO 0,4037650878,21337 2,889027822 ALTO 0,9007401920,40745 -4,916900248 BAIXO -1,532989623
NH Consultoria www.NHConsultoriaTI.com
Pré-processamentoRedução de dados
• Agregação de data cubes
• Redução de dimensionalidade– Ex : Análise em componentes principais
• Compressão de dados
• Redução de instâncias
• Geração de hierarquias de conceitos– Ex : Classificação Ascendente Hierárquica
NH Consultoria www.NHConsultoriaTI.com
Redução de dadosExemplo : ACP
-4
-2
0
2
4
6
8
10
12
0 2 4 6 8 10 12
O objetivo da ACP é de determinar os eixos que melhor explicam a dispersão dos pontos disponíveis.
Com N dimensões, a ACP vai determinar N eixos ordenados por inércia explicada.Projetando nos dois primeiros eixos (de maior inércia) os indivíduos, conseguimos uma visualização em duas dimensões das observações.
A ACP também é um meio de :• Descorrelacionar os dados (na nova base os pontos têm correlação 0)• Reduzir o ruído (considerando que os eixos descartados contêm o ruído).• Comprimir os dados (descartando as coordenadas dos eixos excluídos).
NH Consultoria www.NHConsultoriaTI.com
ACPvariáveis
Individuos(realizações)
Reduzida
Centrada no centro de gravidade
1/K * tM * M_ _
Matriz das covariâncias~
1/K * tM * M~
Matriz das correlações
Matrizes quadradas, simétricas e reais.Podem ser diagonalizadas numa base ortogonal e normalizada.
Os vetores próprios da matriz de covariância (ou da matriz de correlação) são aqueles que explicam a maior inércia dos pontos e são ordenados. O problema é então resolvido diagonalizando as matrizes.
•Covariância : uma variável com muita variância vai "atrair" todo resultado par ela.•Correlações : uma variável que é somente ruído será considerada igual que as outras variáveis informativas.
NH Consultoria www.NHConsultoriaTI.com
Exemplo de ACP
Modelo CYL POT COMPR LARG PESO V-MAX ACABAM PREÇO PESO/POTAlfasud TI 1350 79 393 161 870 165 B 30570 11,01Audi 100 1588 85 468 177 1110 160 TB 39990 13,06Simca 1300 1294 68 424 168 1050 152 M 29600 15,44Citroen GS Club 1222 59 412 161 930 151 M 28250 15,76Fiat 132 1585 98 439 164 1105 165 B 34900 11,28Lancia Beta 1297 82 429 169 1080 160 TB 35480 13,17Peugeot 504 1796 79 449 169 1160 154 B 32300 14,68Renault 16 TL 1565 55 424 163 1010 140 B 32000 18,36Renault 30 2664 128 452 173 1320 180 TB 47700 10,31Toyota Corolla 1166 55 399 157 815 140 M 26540 14,82Alfetta-1.66 1570 109 428 162 1060 175 TB 42395 9,72Princess-1800 1798 82 445 172 1160 158 B 33990 14,15Datsun-200L 1998 115 469 169 1370 160 TB 43980 11,91Taunus-2000 1993 98 438 170 1080 167 B 35010 11,02Rancho 1442 80 431 166 1129 144 TB 39450 14,11Mazda-9295 1769 83 440 165 1095 165 M 27900 13,19Opel-Rekord 1979 100 459 173 1120 173 B 32700 11,20Lada-1300 1294 68 404 161 955 140 M 22100 14,04
NH Consultoria www.NHConsultoriaTI.com
NH Consultoria www.NHConsultoriaTI.com
NH Consultoria www.NHConsultoriaTI.com
NH Consultoria www.NHConsultoriaTI.com
NH Consultoria www.NHConsultoriaTI.com
NH Consultoria www.NHConsultoriaTI.com
Pré-processamento
Exemplo das "abstrações simbólicas"Discretização, redução, agrupamento, generalização, etc.
com dados temporais e em tempo real
• Clancey W., Heuristic classification, Artificial Intelligence, vol. 27, pp. 289-350, 1985.
• Ramaux N., Fontaine D., Dojat M., Temporal scenario recognition for Intelligent patient monitoring, in Proc. 6th AIME 97, Lecture notes in Artificial Intelligence vol 1211, E. Keravnou, C. Garbay, R. Baud; J. Wyatt Eds, Springer, pp. 331-343, Grenoble, 1997.
• Shahar Y., A framework for knowledge-based temporal abstraction, Artificial Intelligence, vol 90, pp. 79-133, 1997.
NH Consultoria www.NHConsultoriaTI.com
Abstração simbólica
Modificação do espaço de indicadores (variáveis)
Modificação da granularidade temporal
Síntese dos dados no tempo
Conversão numérica / simbólica
Abstração "Horizontal" Abstração "Vertical"
Tendência
NH Consultoria www.NHConsultoriaTI.com
Freqüência respiratórianumérico, Cyclos/min
Volume aspiradonumérico, Litros/sec
Freqüência respiratóriaSimbólico
Volume aspiradoSimbólico
Abstraçãoqualitativa
Diagnóstico de ventilaçãoSimbólico
Abstração"definicional"
Mecanismos verticais
NH Consultoria www.NHConsultoriaTI.com
Tempo
Valores numéricosadquiridos
Estado Estado
Interpolaçãotemporal
Mecanismos horizontais - 1
Persistência do valor
Particular para cada variável
NH Consultoria www.NHConsultoriaTI.com
Tempo
var=v var=v
var=v
Prolongaçãopor
continuidade
Mecanismos horizontais - 2
Para qualquer variável
NH Consultoria www.NHConsultoriaTI.com
Tempo
Var=a Var=ab
Var=a
Agregaçãorealizada
Tempo
Var=a Var=aVar=bAgregação
Não realizada
Mecanismos horizontais - 3
Particular para cada variável
NH Consultoria www.NHConsultoriaTI.com
A B A B B B
Desconhecido{I
Desconhecido
A {I
Tempo
Valores numéricosbrutos
Classe A
Classe B
t1 t2 t3 t4 t5 t6 t7 t8 t9
B A BIA AI
A I B A B
Nível de abstraçãotemporal
Tempo
ProlongaçãoPor continuidade
Esquecimento
B
AgregaçãoA I
Interpolaçãotemporal
Mecanismos horizontaisexemplo
NH Consultoria www.NHConsultoriaTI.com
Tempo
ValoresNuméricos
brutos
Tendência = 1.232Regressão linear
Tendência = "aumento médio"
Interpolação temporal
Intervalo de tempoAbstraçãoqualitativa
Tendência = "Aumento médio"
Tendências