30
Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Embed Size (px)

Citation preview

Page 1: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

Alguns slides foram adaptados, traduzidos ou copiados dePang-Ning Tan (ver Bibliografia)

Page 2: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCGSumário

Contexto

Outro Exemplo de Motivação

Modelos de Conhecimento

Algoritmos de Mineração de Dados

Métricas de Mineração de Dados

Questões em Aberto

Page 3: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

Sumário

Contexto

Outro Exemplo de Motivação

Modelos de Conhecimento

Algoritmos de Mineração de Dados

Métricas de Mineração de Dados

Questões em Aberto

Page 4: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

O que é?

– Certos nomes são mais freqüentes em

certas regiões do Brasil (Cacciola, Armani,

Gutierrez… na Grande São Paulo) -

Probabilidade

– Agrupar documentos por similaridade de

contexto (p.e. Amazônia) – Reconhecimento

de Padrões (“Pattern Recognition”)

O que não é?

– Achar um número de

telefone em um

catálogo

– Procurar numa máquina de busca informação sobre “Amazônia”

O Que É / Não É Mineração de Dados?

Page 5: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

• Confluência de várias disciplinas

Probability /Pattern

Recognition

Machine Learning

Data Mining

Database

Page 6: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

• Machine Learning– O conhecimento é induzido (treinado) de um

conjunto de dados de treinamento (ctrein)• O histórico de mudanças de classes de software é um

exemplo de conjunto de treinamento

– O conhecimento induzido é validado com o auxílio de um conjunto de teste (ctest) ctrein ctest =

• Se X Y foi induzido de um conjunto de treinamento, esta regra deve ser confirmada por um conjunto de teste

– Uma vez validado, o conhecimento pode ser usado em diferentes aplicações

• Análise de Impacto de Mudança de Software

Page 7: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

• Padrão (“Pattern”)– A regra X Y é um padrão– A qualidade de um padrão é diretamente

proporcional a seu suporte (repetição)

• Banco de Dados (BD)– Desnormalizados

• A repetição facilita o reconhecimento de padrões– O histórico de mudanças de classes de software é um BD

desnormalizado

– A conclusão é que os BDs relacionais normalizados não podem ser usados diretamente em MD

Page 8: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCGSumário

Contexto

Outro Exemplo de Motivação

Modelos de Conhecimento

Algoritmos de Mineração de Dados

Métricas de Mineração de Dados

Questões em Aberto

Page 9: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

• Um robot que prescreve lentes de contato– Oftalmologista: quais as condições gerais – padrões – pelas

quais eu sempre tenho receitado lentes de contato duras? ou gelatinosas? ou não tenho recomendo o uso de lentes?

Page 10: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

Tid Idade Acuidade Visual

Astigmatismo

Tipo Lente

1 Jovem Míope Sim 1

2 Jovem Míope Sim 1

3 Velho Hiperm Não 2

4 Velho Hiperm Não 2

5 Velho Míope Não 2

6 Maduro Míope Não 1

7 Jovem Hiperm Sim 3

8 Maduro Hiperm Não 3

9 Jovem Hiperm Não 1

10 Maduro Míopr Sim 2 10

categóric

o

categóric

o

categóric

o

classe

Idade Acuidade Visual

Astigmatismo

Tipo Lente

Jovem Míope Não ?

Jovem Hiperm Não ?

Jovem Hiperm Sim ?

Velho Míope Não ?

Maduro Míope Não ?

Maduro Hiperm Sim ? 10

Conj.Teste

Conj. Treinamento

ModeloClasificador

Induzido

Caracterização do Problema:Classificatório

Page 11: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

idade acuidade visual astigmatismo taxa de produção de lágrima

tipo de lente

jovem míope não reduzida nenhum

jovem míope não normal gelatinosa

jovem míope sim reduzida nenhum

jovem míope sim normal dura

jovem hipermétrope não reduzida nenhum

jovem hipermétrope não normal gelatinosa

Conjunto de Treinamento

Page 12: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

jovem hipermétrope sim reduzida nenhum

jovem hipermétrope sim normal dura

maduro míope não reduzida nenhum

maduro míope não normal gelatinosa

maduro míope sim reduzida nenhum

maduro míope sim normal dura

maduro hipermétrope não reduzida nenhum

Page 13: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

maduro hipermétrope não normal gelatinosa

maduro hipermétrope sim reduzida nenhum

maduro hipermétrope sim normal nenhum

idoso míope não reduzida nenhum

idoso míope não normal nenhum

idoso míope sim reduzida nenhum

idoso míope sim normal dura

Page 14: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

idoso hipermétrope não reduzida nenhum

idoso hipermétrope não normal gelatinosa

idoso hipermétrope sim reduzida nenhum

idoso hipermétrope sim normal nenhum

Page 15: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

• se taxa_de_produção_de_lágrima = ‘reduzida’ então tipo_de_lente = ‘nenhum’– Padrão expressado em forma de regra de classificação se ... então classe

• Regra de Classificação é um dentre outros modelos de conhecimento– Um outro: Regra de Associação

• A regra se verifica em todos os casos em que a taxa de produção de lágrima é reduzida?– Via de regra, não há certeza, apenas probabilidade

• Quantas e quais são as outras regras para não receitar lente de contato (somente do ctrein, podemos extrair mais três regras – verifique)

Conhecimento Induzido

Page 16: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

• Quão confiável é uma regra de classificação?– se idade = ‘maduro’ e acuidade_visual =

‘hipermétrope’ e astigmatismo = ‘sim’ e taxa_de_produção_de_lágrima = ‘normal’ então tipo_de_lente = ‘nenhum’

• Ela se verifica em somente um caso do ctrein

– Provavelmente, não tem validade estatística

• Qual a freqüência mínima estatisticamente aceitável?– O conhecimento deve ser validado via o conjunto

de teste

Page 17: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

Sobre os Conjuntos deTreinamento e Teste

• Note que os conjuntos de treinamento e teste apresentados certamente não têm validade estatística– Um exemplo de ‘brincadeira’

• Necessidade de um processo rigoroso de MD– Último item da disciplina

Page 18: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCGSumário

Contexto

Outro Exemplo de Motivação

Modelos de Conhecimento

Algoritmos de Mineração de Dados

Métricas de Mineração de Dados

Questões em Aberto

Page 19: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

• Tipos de modelo– Preditivo

• Faz predição acerca de valores de dados usando resultados conhecidos de outros dados

• Em geral, a modelagem é baseada em dados históricos, para fazer predição (ou previsão) sobre novos dados

– Descritivo• Identifica padrões ou relacionamentos em dados,

históricos ou não– Importante para se conhecer os dados

Page 20: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

Modelo

Preditivo Descritivo

Classificação

Regressão

SérieTemporal

Clustering Síntese

Regra de AssociaçãoDescoberta de

Seqüência

Modelos em verde: o foco da disciplina

Page 21: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

• Modelos de classificação que serão vistos– Regra de Classificação– Árvore de Decisão– Bayes Simples (“Naive Bayes”)

• Modelos de Classificação que não serão vistos– Rede Neural– . . .

• Modelo de Regra de Associação

Page 22: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCGSumário

Contexto

Outro Exemplo de Motivação

Modelos de Conhecimento

Algoritmos de Mineração de Dados

Métricas de Mineração de Dados

Questões em Aberto

Page 23: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

• Os algoritmos diferem segundo os modelos de conhecimento que eles induzem

Modelo Algoritmo

Regra de Associação Apriori

Árvore de Decisão Id3, J48

Naive Bayes NaiveBayeSimple

Regra de Classificação

Prism

Page 24: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCGSumário

Contexto

Outro Exemplo de Motivação

Modelos de Conhecimento

Algoritmos de Mineração de Dados

Métricas de Mineração de Dados

Questões em Aberto

Page 25: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

• Dado um problema de mineração, há potencialmente uma grande quantidade de processos de MD que podem resolver o problema– Um processo de MD é, simplificadamente, uma tripla

<preparação de dados, execução de um algoritmo de mineração de dados, avaliação dos resultados>

• Processo de MD será visto no final da disciplina

– Total possível de processos: No. de técnicas de preparação X no. de algoritmos de MD

• Qual o melhor processo de MD para o problema?– A resposta depende das métricas de desempenho

escolhidas

Page 26: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

• Métricas– As tradicionais, como as de espaço e tempo, baseadas em

análise de complexidade de algoritmo– Para algoritmos de classificação, a acurácia do

conhecimento induzido• Acurácia de uma regra = No.de acertos treinamento (teste) / No.

de casos cobertos de treinamento (teste)• Acurácia de um modelo (conjunto de regras) = No.de acertos

treinamento (teste) / Tamanho do conjunto de treinamento (teste)

• Precisão• “Recall”

– Para algoritmos de análise de associação• Suporte• Confiança

Page 27: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCGSumário

Contexto

Outro Exemplo de Motivação

Modelos de Conhecimento

Algoritmos de Mineração de Dados

Métricas de Mineração de Dados

Questões em Aberto

Page 28: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

• Integração com SGBDs– Os algoritmos de MD não lêem diretamente de SGBDs

• Dados são extraídos de um BD, via comandos SQL, e armazenados em um arquivo "flat", desnormalizado

• O arquivo "flat"é a entrada para os algoritmos de mineração– Note que desnormalização (repetição) favorece a descoberta de

padrões

– BDOR é desnormalizado implicações?

• Termos relacionais (<atributo1> <opcomp> <atributo2>)– Os termos dos modelos de MD são da forma <atributo>

<opcomp> valor• Uma enorme simplificação

– Objetivo: produzir algoritmos de complexidade baixa

• Porém, limitados

Page 29: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

• Escala– Algoritmos de MD sem escala são de limitada utilidade

• Minas de Dados são Impuras– Dados do mundo real têm muita ‘sujeira’, e muito valor

faltando (“null values”). Algoritmos de MD têm que ser capazes de trabalhar com minas impuras

• Dinâmica dos Dados– Muitos algoritmos de MD trabalham com dados estáticos

(comportamento invariável, ao longo do tempo). Isto pode não ser um modus operandi realista

Page 30: Marcus Sampaio DSC/UFCG Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus SampaioDSC/UFCG

• Facilidade de Assimilação– Embora alguns algoritmos possam trabalhar bem,

eles podem induzir modelos muito complexos, de difícil assimilação mesmo por especialistas

• Conhecimento inútil misturado com conhecimento útil• Padrões complexos• Padrões não sintetizados