Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com...

Mineração de Dados: Classificação e

Predição

Victor Ströelestroele@gmail.com

04/27/23 Business Intelligence

Roteiro Conceitos e características da

Classificação Qualidade do Classificador Técnicas de Classificação

Árvores de DecisãoRegras de ClassificaçãoMáquinas de Vetores SuporteRedes Neurais

Conceito Classificação:

Identificar a classe de um objeto através de um modelo classificador construído com informações de um conjunto de amostras

Aprendizado Supervisionado Predição:

Prever o valor de uma variável

Classificação Etapa de treinamento

Classificação Etapa de Classificação

Problemas de Classificação Classificação de Textos

Crescimento das informações disponíveis com o desenvolvimento da WEB

Identificar spams no envio de e-mails Análise de Seqüências biológicas

Grande quantidade de dados com o mapeamento do genoma humano

Identificar seqüências protéicas homólogas

Problemas de Classificação Diagnóstico de doenças

Geralmente utilizado para informar se o paciente está doente ou não

Diagnóstico de câncer de mamaClassificador é treinado utilizando-se

amostras de pessoas doentes e saudáveisA amostra de um novo paciente é aplicada ao

classificador e este irá informar o diagnóstico

Etapas da Classificação Aprendizado/Treinamento

Exemplos conhecidos são analisados e um classificador é construído

O classificador pode ter a forma de: Regras de Classificação Árvores de Decisão Máquinas de Vetores Suporte Redes Neurais

Etapas da Classificação Classificação

O Classificador é usado para distribuir itens em grupos pré-definidos (classes)

A classificação considera informações quantitativas ou as características dos itens

Conjunto de AmostrasClasses

Treinamento

Exemplo

Conjunto de Treinamento

Classificador na forma“Regras de Classificação”

Fase de treinamento eConstrução do Classificador

Exemplo Forma dos dados do conjunto de

treinamenoX = <x1, x2, x3> e Y = <baixo, alto>x1 Nome do clientex2 Idade do cliente discretizadax3 Renda do Cliente também discretizadaY Risco do Empréstimo, que é o rótulo da

classe a qual o cliente pertence

Exemplo

Clientes novos (Desconhecidos)

Resultado da Análise de RiscoPara os clientes novos

Dados Novos aplicados Ao Classificador

Características da Classificação

Precisão Capacidade de prever a classe a qual um item

desconhecido pertence Como medir a precisão?

Usar um conjunto de dados conhecidos que não foram utilizados na etapa de treinamento

Usar 10% do conjunto de treinamento

Velocidade Esforço computacional exigido tanto na fase de

treinamento quanto na fase de classificação

Características da Classificação

RobustezHabilidade de classificar corretamente mesmo

em presença de dados com “ruídos” ou incompletos

EscalabilidadeCapacidade do classificador obter um

desempenho proporcional à quantidade de dados analisada

Qualidade do Classificador O modelo classificador depende diretamente da

qualidade do conjunto de treinamento Dados do conjunto de treinamento devem ser

cuidadosamente selecionados e rotulados Muitos dados com ruídos ou incompletos podem

confundir o classificador Dados de treinamento muito genéricos

diminuem a precisão para casos menos comuns

Qualidade do Classificador Dados de treinamento muito específicos

causam o efeito de over fitting (Erro de treinamento muito baixo ou zero e poder de classificação baixo)

Sem Erro de Treinamento Com Erro de Treinamento

Qualidade do Classificador

Sem Erro de Treinamento Com Erro de Treinamento

Com Erro na Classificação Sem Erro na Classificação

Técnicas de Classificação Árvore de Decisão Regras de Classificação Máquinas de Vetores Suporte (SVM) Redes Neurais (Backpropagation)

Árvore de Decisão Cada nó interno representa um teste em

determinado atributo Cada ramo representa um possível

resultado do teste Cada folha representa uma classe Cada percurso na árvore (da raiz à folha)

corresponde a uma regra de classificação.Té

Árvore de Decisão Exemplo

caçã

Árvore de Decisão Estratégia: dividir para conquistar Capacidade de Discriminação

Divisão do espaço definido pelos atributos em sub-espaços

A cada sub-espaço é associada uma classe

caçã

Árvore de DecisãoTé

Cada folha Corresponde a uma região A intersecção dos hiper-retângulos é vazia A união dos hiper-retângulos é o espaço completo

Árvore de Decisão Idéia Base:

Escolher um atributoEstender a árvore adicionando um ramo

para cada valor do atributoPassar os exemplos para as folhas (tendo

em conta o valor do atributo escolhido)Para cada folha

Se todos os exemplos são da mesma classe, associar essa classe a folha

Senão repetir os passos de 1 a 4Técn

caçã

Exemplo Atributos Binários:

ão AtributosClasse

A ^ B0 0 00 1 01 0 01 1 1

Exercícios Atributos Binários:

ão AtributosClasse

A v B0 0 00 1 11 0 11 1 1

Exercícios Atributos Binários:

ão AtributosClasse

A v B0 0 00 1 11 0 11 1 1

Critério para escolha do Atributo

Como medir a habilidade de um atributo discriminar as classes?

Dois Pontos básicos Uma divisão que mantêm as proporções de classes

em todas as partições é inútil Uma divisão onde em cada partição todos os

exemplos são da mesma classe tem utilidade máxima

5/55/5

0/1010/0

Critério para escolha do AtributoÁ

Tempo Temperatura Umidade Vento Joga

Sol 85 85 Não Não

Sol 80 90 Sim Não

Nublado 83 86 Não Sim

Chuva 70 96 Não Sim

Chuva 65 70 Sim Não

Nublado 64 65 Sim Sim

Sol 72 95 Não Não

Sol 69 70 Não Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Não Sim

Tempo Temp. Umidade

Sol 85 85 Não Não

Nublado

83 86 Não Sim

Sol 72 95 Não Não

Sol 69 70 Não Sim

Nublado

81 75 Não Sim

Tempo Temp. Umidade

Sol 80 90 Sim Não

Nublado

64 65 Sim Sim

Sol 75 70 Sim Sim

Nublado

72 90 Sim Sim

SIM NÃO

SOL CHUVA

Temp. Umid.

Sol 85 85 Não Não

Sol 72 95 Não Não

Sol 69 70 Não Sim

Sol 80 90 Sim Não

Sol 75 70 Sim Sim

Tempo Temp. Umid. Vento

Nublado

83 86 Não Sim

Nublado

81 75 Não Sim

Nublado

64 65 Sim Sim

Nublado

72 90 Sim Sim

Temp. Umid. Vento

NUBLADO

Critério para escolha do AtributoTempo

SOL CHUVA

Temp. Umid. Vento Joga

85 85 Não Não

72 95 Não Não

69 70 Não Sim

80 90 Sim Não

75 70 Sim Sim

70 96 Não Sim

68 80 Não Sim

75 80 Não Sim

65 70 Sim Não

71 91 Sim Não

NUBLADO

69 70 Não Sim

75 70 Sim Sim

85 85 Não Não

72 95 Não Não

80 90 Sim Não

Umidade < 77,5 Umidade >= 77,5

65 70 Sim Não

71 91 Sim Não

70 96 Não Sim

68 80 Não Sim

75 80 Não Sim

Vento: SIM Vento: NÃO

Critério para escolha do AtributoTempo

SOL CHUVANUBLADO

SIM NÃO SIM NÃO

Umidade < 77,5

SIM NÃO

NÃO SIM

Exercício Construa a árvore de decisão e

classifique os elementos que não estão rotulados

Nome Escolaridade Idade Rico (Atributo Classe)

Alva Mestrado >30 Sim

Amanda Doutorado <=30 Sim

Ana Mestrado <=30 Não

Eduardo Doutorado >30 Sim

Inês Graduação <=30 Não

Joaquim Graduação >30 Não

Maria Mestrado >30 Sim

Raphael Mestrado <=30 Não

Nome Escolaridade Idade

José Doutorado 28

Carol Mestrado 37

Nelsa Graduação 35

João Mestrado 29

Exercício Primeira Divisão: Escolaridade

Nome Escolaridade IdadeRico

(Atributo Classe)

Amanda Doutorado <=30 Sim

Eduardo Doutorado >30 Sim

(Atributo Classe)

Inês Graduação <=30 Não

Joaquim Graduação >30 Não

(Atributo Classe)

Escolaridade

Sim Não ?

Doutorado Graduação Mestrado

Exercício Segunda Divisão: Idade

(Atributo Classe)

Escolaridade

Sim Não > 30

Doutorado Graduação MestradoNome Escolaridade IdadeRico

(Atributo Classe)

Sim Não

NãoSim

Exercício Classificação de novos elementos

Escolaridade

Sim Não > 30

Doutorado Graduação Mestrado

Sim Não

NãoSim

Nome Escolaridade Idade Rico?

José Doutorado 28 SIM

Carol Mestrado 37 SIM

Nelsa Graduação 35 NÃO

João Mestrado 29 NÃO

Regras de Classificação Regras do tipo SE-ENTÃO

SE faixa_etária = jovem ENTÃO alto risco empréstimo

Condição é formada por um ou mais testes de atributos

Conclusão representa uma classe Uma regra é dita ATIVA quando os

atributos de um item satisfazem as condições da regraTé

Regras de Classificação Item acionou apenas uma regra então esta

regra é usada para classificar Se idade entre 25 e 30 e não tem carro ENTÃO

alto risco empréstimo Se idade entre 25 e 30 e salário maior que 5 mil

ENTÃO médio risco de empréstimo Elemento atende as duas regras

Idade = 28 Carro = não Salário = 7 mil

caçã

Regras de Classificação Duas opções de escolha de regras:

Priorizar as regras mais rígidas ou mais específicas (quanto maior o número de condições mais específica é a regra)

Ordenar as regras de acordo com a prioridade das mesmas

caçã

Construção das Regras de Classificação Por árvore de decisão

caçã

SE faixa_etária=jovem E estudante=não ENTÃO nãoSE faixa_etária=jovem E estudante=sim ENTÃO simSE faixa_etária=meia-idade ENTÃO simSE faixa_etária=idoso E renda=baixa ENTÃO nãoSE faixa_etária=idoso E renda=alta ENTÃO sim

Exercícios Construa as Regras de Classificação

baseando-se na árvore de decisão do exercício anterior

Exercícios Se ESCOLARIDADE = Doutorado então

SIM Se ESCOLARIDADE = Graduação então

NÃO Se ESCOLARIDADE = Mestrado e

IDADE > 30 então SIM Se ESCOLARIDADE = Mestrado e

IDADE <= 30 então NÃOReg

Máquina de Vetores Suporte (SVM) Resolução de problemas de classificação Separar os dados em duas classes com

um hiperplano Encontrar um classificador que irá

trabalhar bem com dados não conhecidos

Maximizar a margem entre as duas classesTé

Máquina de Vetores Suporte (SVM) Caso simples: duas classes

linearmente separáveis (A e B) Dados representados pelo par

(si, yi), onde si é a observação i e yi o rótulo ( )

Infinitos hiperplanos, mas apenas um maximiza a margem

Máxima margem aumenta o poder de generalização do classificador

caçã

Hiperplanos separadores para dois conjuntos de dados

Máquina de Vetores Suporte (SVM) Formulação Linearmente Separável

x é o vetor normal ao hiperplano separador s é o vetor do conjunto de pontos de entrada determina o deslocamento do hiperplano em

relação a origem

caçã

.u x s

Máquina de Vetores Suporte (SVM) Por definição

caçã

. 1 1i i

x s s Classex s s Classe

Pontos Suporte

Máquina de Vetores Suporte (SVM) A margem é dada pela soma desses

hiperplanos

caçã

m x s x s

x sx sx x

x s x sx

, , 1i jx s x s

1minimizar2

.( . ) 1, {1, 2, ..., }i i

s ay x s i l

Nos pontos suporte, tem-se:

Margem:

Definição do Problema SVM:

ExemploM

x1 x2 Classe +1 x1 x2 Classe -12 -1 1 3 -1 -11 0 1 2 0 -10 1 1 0 2 -1-1 2 1 3 -1 -1-2 1,5 1 2 2 -10 0 1 1 1 -1-2 0 1 3 1 -1-2 1 1 1 2 -1

-0,5 -0,5 1 1 3 -1-1 0,5 1 2 1 -1-1 1 1 1,5 1,5 -1-1 0 1 2,5 2,5 -1-1 1,5 1 2,5 3 -1

ExemploM

-3 -2 -1 0 1 2 3 4

x.s – = +1

x.s – = -1

ExemploM

-3 -2 -1 0 1 2 3 4

f(x) = -x + 1

g(x) = -x + 2

ExemploM

( ) 1( ) 2

f x xg x x

Margem Soma de f(x) = +1 e g(x) = -1

Margem:

1 1 32 3 0 ( )2 1 2

xx h x x

ExemploM

-3 -2 -1 0 1 2 3 4

f(x) = -x + 1

g(x) = -x + 2

h(x) = -x + 3/2

ExemploM

Classifique os novos pontos [-1, -1] [3, 0,5] [0, 3] [1,5, -0,5]

-3 -2 -1 0 1 2 3 4

ExemploM

Classifique os novos pontos [-1, -1]

[3, 0,5]

h(x) = -x + 3/2

11* 1,5 (1 1) 1,5 3,5 0

1classe

31* 1,5 ( 3 0,5) 1,5 2 0

0,5classe

Classe +1

Classe -1

ExemploM

Classifique os novos pontos [0, 3]

[1,5, -0,5]

h(x) = -x + 3/2

01* 1,5 (0 3) 1,5 1,5 0

3classe

1,51* 1,5 ( 1,5 0,5) 1,5 0,5 0

0,5classe

Classe -1

Classe +1

Problemas não linearmente separáveis

Problemas que não são separáveis por um hiperplano

Problemas não linearmente separáveis

Nova formulação do problema

1minimizar2

.( . ) 1 , {1, 2, ..., }

s ay x s i l

permite a classificação errada de um elemento.C penaliza o erro na classificação

ExercícioM

Encontre o classificador para os dados

x y Classe -1 x y Classe +10,5 0,5 -1 3 -1 +1

1 0 -1 2 0 +1

0 1 -1 2,5 1 +1

0,5 1,5 -1 3 -1 +1

0,5 2,5 -1 2 2 +1

0 0 -1 2,5 0 +1

0 2 -1 3 1 +1

0,75 0,5 -1 2 1 +1

-0,5 -0,5 -1 2,5 2,5 +1

0,75 1 -1 2,5 3 +1

1 1 -1 2,1 0 +1

1 2 -1 2,3 0,5 +1

1 3 -1 2,2 1,5 +1

1 -1 -1 2 -1 +1-2

-1 -0,5 0 0,5 1 1,5 2 2,5 3 3,5

X=1 X=2

ExercícioM

( ) 1( ) 2

f x xg x x

Margem Soma de f(x) = -1 e g(x) = +1

1 1 32 3 0 ( )2 1 2

xx h x x

Margem:

ExercícioM

-1 -0,5 0 0,5 1 1,5 2 2,5 3 3,5

X=1 X=2

ExercícioM

-1 -0,5 0 0,5 1 1,5 2 2,5 3 3,5

X=1 X=2

X=3/2 Classifique os pontos [0,0] [3,3]

ExemploM

Classifique os novos pontos [0, 0]

[3, 3]

h(x) = x - 3/2

01* 1,5 (0 0) 1,5 1,5 0

0classe

31* 1,5 (3 3) 1,5 1,5 0

3classe

Classe -1

Classe +1

Redes Neurais Redes Neurais:

Simula a propagação dos sinais através dos neurônios

Conjunto de unidades de entradas e saídas, nas quais cada ligação tem um peso associado a ela

Backpropagation: Algoritmo de aprendizado de redes neurais

caçã

Desvantagens Exigem grande período de treinamento,

portanto aplicáveis apenas em problemas com essa viabilidade

Vários parâmetros definidos de maneira empírica, tal como a estrutura

Difícil para os seres humanos interpretarem o significado simbólico por trás dos pesos aprendidos e das unidades escondidas

Vantagens Grande tolerância a dados ruidosos Grande capacidade de classificação para

novos dados (padrões desconhecidos) Podem ser usadas quando o usuário tiver

pouco conhecimento sobre as relações entre atributos e classes

Bem adaptadas a valores contínuos Têm sido bem sucedidas na resolução de

vários problemas do mundo real, tais como: reconhecimento de caracteres manuscritos, medicina laboratorial, etc.

Backpropagation Algoritmo que realiza o aprendizado de

uma rede neural feed-forward com múltiplas camadas

Aprende iterativamente um conjunto de pesos para a previsão do rótulo da classe

Rede Neural Feed-Forward Estrutura:

Uma camada de Entrada

Uma ou mais camadas ocultas

Uma camada de SaídaR

Feed-Forward Estrutura:

Cada camada é composta por unidadesAs entradas correspondem aos atributos

calculados de cada elemento do conjunto de treinamento

Cada atributo é associado a uma unidade formando a camada de entrada

Cada atributo recebe um peso após passar por uma camadaA saída da camada de entrada é a entrada

para primeira camada ocultaA saída de uma camada escondida pode ser

outra camada escondida ou a camada de saída

O número de camadas ocultas é arbitrário, mas geralmente se utiliza apenas uma.

Número arbitrário

Representação do Conhecimento

Conhecimento representado pelas unidades de processamento que simulam a estrutura e o comportamento dos neurônios

Representação do ConhecimentoR

vj(l-1) X1

X2(l-1)

Xn(l-1) U

Camada (l-1) Camada (l)

Potencial net do neurônio vi(l):

( ) ( ) ( 1) ( 1)( ) ( ) ( )

lnl l l l

i t ij j t i tj

net w x

Representação do Conhecimento

O potencial net do neurônio é aplicado à função de ativação

A função de ativação g restringe o potencial de ativação do neurônio a um intervalo pré-definido

( ) ( )( 1) ( )

l li t i tx g net Saída da camada (l):

Função de AtivaçãoR

Funções de ativação

Degrau:

Semi-Linear:

Sigmoidal:

,( ) ,

se xg x x se x

Características

Conhecimento do comportamento de cada neurônio individualmente

Composição de várias unidades gera reações imprevisíveis

A união das ativações de todas as unidades que especifica o que a rede neural está representando em um dado instante

Essa incerteza do modelo que determina o interesse e a complexidade das redes neurais

Estratégias de Aprendizagem

Sem Treinamento Os valores dos pesos sinápticos são estabelecidos

explicitamente Treinamento Supervisionado

A rede é treinada pela apresentação dos vetores de entrada e seus respectivos vetores de saída (pares de treinamento)

Treinamento Não Supervisionado Apresentação apenas dos vetores de entrada, a partir

dos quais são extraídas as características desse conjunto de padrões, agrupando-os em classes

Algoritmo Backpropagation

Primeiro passo:Padrões de entrada e saída são apresentados

à rede neural e uma saída aleatória é gerada Segundo passo:

Cálculo do erro, representando a diferença entre o valor obtido e o valor desejado

Terceiro passo:Retropropagação do erro e reajuste dos pesos

sinápticos

Algoritmo BackpropagationR

ERRO(Obtido - Desejado)

Propagação do Erro

Propagação do Sinal de Entrada

Algoritmo Backpropagation

Duas fases distintas:Sinais de entradas se propagam entre as

camadas da rede (camada de entrada até camada de saída)

Erros são propagados na direção contrária ao fluxo de entrada (camada de saída até camada de entrada)

Predição

Definir um valor provável de uma variável Aplicada quando se tem dados temporais

(organizados cronologicamente)Previsão de cotação de uma ação na bolsa de

valores Duas técnicas principais:

Regressão linearRegressão Não Linear

Regressão Linear

Entende-se que os dados possuem comportamento linear

Podem ser aproximados por uma reta

ição

Regressão Linear

Fórmula da regressão linear

ição

X variável independente (conjunto de dados)Y variável dependente (valor desejável) define a inclinação da reta define o ponto de interceptação da reta com o eixo vertical

Regressão Linear

Cálculo de e :

ição

Média dos valores de Média dos valores de

( )( )

x x y y

xy 1 2 | |, , ..., Dx x x

1 2 | |, , ..., Dy y y

ExemploR

Semana Clientes Vendas

1 907 11,20

2 926 11,05

3 506 6,84

4 741 9,21

5 789 9,42

6 889 10,08

7 874 9,45

8 510 6,73

9 529 7,24

10 420 6,12

11 679 7,63

12 872 9,43

13 924 9,46

14 607 7,64

15 452 6,92

16 729 8,95

17 794 9,33

18 844 10,23

19 1010 11,77

20 621 7,41

Exemplo

Médias:Clientes: 731,15Vendas: 8,8055

Cálculos: = 2,423 = 0,00873

Reta:y = 0,00873x + 2,423

350 550 750 950 1150

Regressão NÃO Linear

Regressão linear bastante simples, mas no mundo real a maioria dos problemas são não lineares

Dados modelados por uma função que é uma combinação não-linear de parâmetros do modelo

Dados ajustados por métodos de aproximações sucessivas

ição

Regressão NÃO Linear

Métodos:Mínimos

QuadradosEquações NormaisGauss-Newton

ição

ExercícioR

Variável 1 (x)

Variável 2 (y)

Médias: Variável 1: 33,88 Variável 2: 16,88

( )( )

x x y y

ExercícioR

Variável 1 (x)

Variável 2 (y)

Médias: Variável 1: 33,88 Variável 2: 16,88

1923,363 0,859072238,8896

16,88 (0,85907*33,88) 12,224

0,85907 12,224reta x

ExercícioR

Variável 1 Variável 260 50

10 0-20

0 20 40 60 80

Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com...

Documents

MECÂNICA DE FRATURA APLICADA NA PREDIÇÃO DA

Brasil - Mineração

ECOTOXICOLOGIA DO DIFLUBENZURON: PREDIÇÃO DA …ainfo.cnptia.embrapa.br/.../item/162230/1/vallim-ecotoxicologia.pdf · ECOTOXICOLOGIA DO DIFLUBENZURON: PREDIÇÃO DA CONCENTRAÇÃO

MESTRADO EM ENGENHARIA INDUSTRIAL · salvador 2019 mestrado em engenharia industrial brenner biasi souza silva mineraÇÃo de dados para prediÇÃo de falha em sistema de coleta de

Niobio - Mineração

historia mineração

ESTIMAÇÃO E PREDIÇÃO EM MODELOS LINEARES GENERALIZADOS

Utilizando Redes Neurais Artificiais para Predição de

Ogliari – Técnicas estatísticas para predição Correlação Correlação

PREDIÇÃO DA SEGURANÇA FARMACOLÓGICA DE MOLÉCULAS NATURAIS

Aula 1 Introdução -Mineração de Dados · Mineração de Dados aplicada à Gestão de Negócios 1) Mineração de Dados Assuntos ultimamente tratados pela Mineração de Dados:

SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

PREDIÇÃO DE CENÁRIO FUTURO UTILIZANDO AUTÔMATOS …

Predição de bugs

apostila mineração

Predição de Estrutura 3D de Proteínas por Técnicas de ... · Predição de Estrutura 3D de Proteínas por Técnicas de Modelagem Comparativa Predição de Estrutura 3D de Proteínas

Predição de Fluxos em Redes de Computadores

12 October 201512 October 201512 October 2015Business Presentation1

Predição de regiões codificantes

MODELOS DE MACHINE LEARNING PARA PREDIÇÃO DO …