Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com...

Preview:

Citation preview

Mineração de Dados: Classificação e

Predição

Victor Ströelestroele@gmail.com

04/27/23 Business Intelligence

Roteiro Conceitos e características da

Classificação Qualidade do Classificador Técnicas de Classificação

Árvores de DecisãoRegras de ClassificaçãoMáquinas de Vetores SuporteRedes Neurais

Conceito Classificação:

Identificar a classe de um objeto através de um modelo classificador construído com informações de um conjunto de amostras

Aprendizado Supervisionado Predição:

Prever o valor de uma variável

Classificação Etapa de treinamento

Classificação Etapa de Classificação

Problemas de Classificação Classificação de Textos

Crescimento das informações disponíveis com o desenvolvimento da WEB

Identificar spams no envio de e-mails Análise de Seqüências biológicas

Grande quantidade de dados com o mapeamento do genoma humano

Identificar seqüências protéicas homólogas

PATRICIA
Lembrar de falar do exemplo da frauda e da cerveja

Problemas de Classificação Diagnóstico de doenças

Geralmente utilizado para informar se o paciente está doente ou não

Diagnóstico de câncer de mamaClassificador é treinado utilizando-se

amostras de pessoas doentes e saudáveisA amostra de um novo paciente é aplicada ao

classificador e este irá informar o diagnóstico

PATRICIA
Lembrar de falar do exemplo da frauda e da cerveja

Etapas da Classificação Aprendizado/Treinamento

Exemplos conhecidos são analisados e um classificador é construído

O classificador pode ter a forma de: Regras de Classificação Árvores de Decisão Máquinas de Vetores Suporte Redes Neurais

Etapas da Classificação Classificação

O Classificador é usado para distribuir itens em grupos pré-definidos (classes)

A classificação considera informações quantitativas ou as características dos itens

Conjunto de AmostrasClasses

Treinamento

Exemplo

Conjunto de Treinamento

Classificador na forma“Regras de Classificação”

Fase de treinamento eConstrução do Classificador

Exemplo Forma dos dados do conjunto de

treinamenoX = <x1, x2, x3> e Y = <baixo, alto>x1 Nome do clientex2 Idade do cliente discretizadax3 Renda do Cliente também discretizadaY Risco do Empréstimo, que é o rótulo da

classe a qual o cliente pertence

Exemplo

Clientes novos (Desconhecidos)

Resultado da Análise de RiscoPara os clientes novos

Dados Novos aplicados Ao Classificador

Características da Classificação

Precisão Capacidade de prever a classe a qual um item

desconhecido pertence Como medir a precisão?

Usar um conjunto de dados conhecidos que não foram utilizados na etapa de treinamento

Usar 10% do conjunto de treinamento

Velocidade Esforço computacional exigido tanto na fase de

treinamento quanto na fase de classificação

Características da Classificação

RobustezHabilidade de classificar corretamente mesmo

em presença de dados com “ruídos” ou incompletos

EscalabilidadeCapacidade do classificador obter um

desempenho proporcional à quantidade de dados analisada

Qualidade do Classificador O modelo classificador depende diretamente da

qualidade do conjunto de treinamento Dados do conjunto de treinamento devem ser

cuidadosamente selecionados e rotulados Muitos dados com ruídos ou incompletos podem

confundir o classificador Dados de treinamento muito genéricos

diminuem a precisão para casos menos comuns

Qualidade do Classificador Dados de treinamento muito específicos

causam o efeito de over fitting (Erro de treinamento muito baixo ou zero e poder de classificação baixo)

Sem Erro de Treinamento Com Erro de Treinamento

Qualidade do Classificador

Sem Erro de Treinamento Com Erro de Treinamento

Com Erro na Classificação Sem Erro na Classificação

Técnicas de Classificação Árvore de Decisão Regras de Classificação Máquinas de Vetores Suporte (SVM) Redes Neurais (Backpropagation)

Árvore de Decisão Cada nó interno representa um teste em

determinado atributo Cada ramo representa um possível

resultado do teste Cada folha representa uma classe Cada percurso na árvore (da raiz à folha)

corresponde a uma regra de classificação.Té

cnic

as d

e C

lass

ifica

ção

Árvore de Decisão Exemplo

Técn

icas

de

Cla

ssifi

caçã

o

Árvore de Decisão Estratégia: dividir para conquistar Capacidade de Discriminação

Divisão do espaço definido pelos atributos em sub-espaços

A cada sub-espaço é associada uma classe

Técn

icas

de

Cla

ssifi

caçã

o

Árvore de DecisãoTé

cnic

as d

e C

lass

ifica

ção

Cada folha Corresponde a uma região A intersecção dos hiper-retângulos é vazia A união dos hiper-retângulos é o espaço completo

Árvore de Decisão Idéia Base:

Escolher um atributoEstender a árvore adicionando um ramo

para cada valor do atributoPassar os exemplos para as folhas (tendo

em conta o valor do atributo escolhido)Para cada folha

Se todos os exemplos são da mesma classe, associar essa classe a folha

Senão repetir os passos de 1 a 4Técn

icas

de

Cla

ssifi

caçã

o

Exemplo Atributos Binários:

Árv

ore

de D

ecis

ão AtributosClasse

A ^ B0 0 00 1 01 0 01 1 1

Exercícios Atributos Binários:

Árv

ore

de D

ecis

ão AtributosClasse

A v B0 0 00 1 11 0 11 1 1

Exercícios Atributos Binários:

Árv

ore

de D

ecis

ão AtributosClasse

A v B0 0 00 1 11 0 11 1 1

A

B1

1 0

1

1

0

0

Critério para escolha do Atributo

Como medir a habilidade de um atributo discriminar as classes?

Dois Pontos básicos Uma divisão que mantêm as proporções de classes

em todas as partições é inútil Uma divisão onde em cada partição todos os

exemplos são da mesma classe tem utilidade máxima

Árv

ore

de D

ecis

ão

10/10

5/55/5

10/10

0/1010/0

Critério para escolha do AtributoÁ

rvor

e de

Dec

isão

Tempo Temperatura Umidade Vento Joga

Sol 85 85 Não Não

Sol 80 90 Sim Não

Nublado 83 86 Não Sim

Chuva 70 96 Não Sim

Chuva 68 80 Não Sim

Chuva 65 70 Sim Não

Nublado 64 65 Sim Sim

Sol 72 95 Não Não

Sol 69 70 Não Sim

Chuva 75 80 Não Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Não Sim

Chuva 71 91 Sim Não

Critério para escolha do AtributoÁ

rvor

e de

Dec

isão

Vento

Tempo Temp. Umidade

Vento

Joga

Sol 85 85 Não Não

Nublado

83 86 Não Sim

Chuva 70 96 Não Sim

Chuva 68 80 Não Sim

Sol 72 95 Não Não

Sol 69 70 Não Sim

Chuva 75 80 Não Sim

Nublado

81 75 Não Sim

Tempo Temp. Umidade

Vento

Joga

Sol 80 90 Sim Não

Chuva 65 70 Sim Não

Nublado

64 65 Sim Sim

Sol 75 70 Sim Sim

Nublado

72 90 Sim Sim

Chuva 71 91 Sim Não

SIM NÃO

Critério para escolha do AtributoÁ

rvor

e de

Dec

isão

Tempo

SOL CHUVA

Tempo

Temp. Umid.

Vento

Joga

Sol 85 85 Não Não

Sol 72 95 Não Não

Sol 69 70 Não Sim

Sol 80 90 Sim Não

Sol 75 70 Sim Sim

Tempo Temp. Umid. Vento

Joga

Nublado

83 86 Não Sim

Nublado

81 75 Não Sim

Nublado

64 65 Sim Sim

Nublado

72 90 Sim Sim

Tempo

Temp. Umid. Vento

Joga

Chuva 70 96 Não Sim

Chuva 68 80 Não Sim

Chuva 75 80 Não Sim

Chuva 65 70 Sim Não

Chuva 71 91 Sim Não

NUBLADO

Critério para escolha do AtributoTempo

SOL CHUVA

Temp. Umid. Vento Joga

85 85 Não Não

72 95 Não Não

69 70 Não Sim

80 90 Sim Não

75 70 Sim Sim

Temp. Umid. Vento Joga

70 96 Não Sim

68 80 Não Sim

75 80 Não Sim

65 70 Sim Não

71 91 Sim Não

NUBLADO

SIM

Temp. Umid. Vento Joga

69 70 Não Sim

75 70 Sim Sim

Temp. Umid. Vento Joga

85 85 Não Não

72 95 Não Não

80 90 Sim Não

Umidade < 77,5 Umidade >= 77,5

Temp. Umid. Vento Joga

65 70 Sim Não

71 91 Sim Não

Temp. Umid. Vento Joga

70 96 Não Sim

68 80 Não Sim

75 80 Não Sim

Vento: SIM Vento: NÃO

Critério para escolha do AtributoTempo

SOL CHUVANUBLADO

SIM

SIM NÃO SIM NÃO

Umidade < 77,5

SIM NÃO

Vento

NÃO SIM

Exercício Construa a árvore de decisão e

classifique os elementos que não estão rotulados

Árv

ore

de D

ecis

ão

Nome Escolaridade Idade Rico (Atributo Classe)

Alva Mestrado >30 Sim

Amanda Doutorado <=30 Sim

Ana Mestrado <=30 Não

Eduardo Doutorado >30 Sim

Inês Graduação <=30 Não

Joaquim Graduação >30 Não

Maria Mestrado >30 Sim

Raphael Mestrado <=30 Não

Nome Escolaridade Idade

José Doutorado 28

Carol Mestrado 37

Nelsa Graduação 35

João Mestrado 29

Exercício Primeira Divisão: Escolaridade

Árv

ore

de D

ecis

ão

Nome Escolaridade IdadeRico

(Atributo Classe)

Amanda Doutorado <=30 Sim

Eduardo Doutorado >30 Sim

Nome Escolaridade IdadeRico

(Atributo Classe)

Inês Graduação <=30 Não

Joaquim Graduação >30 Não

Nome Escolaridade IdadeRico

(Atributo Classe)

Alva Mestrado >30 Sim

Ana Mestrado <=30 Não

Maria Mestrado >30 Sim

Raphael Mestrado <=30 Não

Escolaridade

Sim Não ?

Doutorado Graduação Mestrado

Exercício Segunda Divisão: Idade

Árv

ore

de D

ecis

ão

Nome Escolaridade IdadeRico

(Atributo Classe)

Ana Mestrado <=30 Não

Raphael Mestrado <=30 Não

Escolaridade

Sim Não > 30

Doutorado Graduação MestradoNome Escolaridade IdadeRico

(Atributo Classe)

Alva Mestrado >30 Sim

Maria Mestrado >30 Sim

Sim Não

NãoSim

Exercício Classificação de novos elementos

Árv

ore

de D

ecis

ão

Escolaridade

Sim Não > 30

Doutorado Graduação Mestrado

Sim Não

NãoSim

Nome Escolaridade Idade Rico?

José Doutorado 28 SIM

Carol Mestrado 37 SIM

Nelsa Graduação 35 NÃO

João Mestrado 29 NÃO

Regras de Classificação Regras do tipo SE-ENTÃO

SE faixa_etária = jovem ENTÃO alto risco empréstimo

Condição é formada por um ou mais testes de atributos

Conclusão representa uma classe Uma regra é dita ATIVA quando os

atributos de um item satisfazem as condições da regraTé

cnic

as d

e C

lass

ifica

ção

Regras de Classificação Item acionou apenas uma regra então esta

regra é usada para classificar Se idade entre 25 e 30 e não tem carro ENTÃO

alto risco empréstimo Se idade entre 25 e 30 e salário maior que 5 mil

ENTÃO médio risco de empréstimo Elemento atende as duas regras

Idade = 28 Carro = não Salário = 7 mil

Técn

icas

de

Cla

ssifi

caçã

o

Regras de Classificação Duas opções de escolha de regras:

Priorizar as regras mais rígidas ou mais específicas (quanto maior o número de condições mais específica é a regra)

Ordenar as regras de acordo com a prioridade das mesmas

Técn

icas

de

Cla

ssifi

caçã

o

Construção das Regras de Classificação Por árvore de decisão

Técn

icas

de

Cla

ssifi

caçã

o

SE faixa_etária=jovem E estudante=não ENTÃO nãoSE faixa_etária=jovem E estudante=sim ENTÃO simSE faixa_etária=meia-idade ENTÃO simSE faixa_etária=idoso E renda=baixa ENTÃO nãoSE faixa_etária=idoso E renda=alta ENTÃO sim

Exercícios Construa as Regras de Classificação

baseando-se na árvore de decisão do exercício anterior

Reg

ras

de C

lass

ifica

ção

Exercícios Se ESCOLARIDADE = Doutorado então

SIM Se ESCOLARIDADE = Graduação então

NÃO Se ESCOLARIDADE = Mestrado e

IDADE > 30 então SIM Se ESCOLARIDADE = Mestrado e

IDADE <= 30 então NÃOReg

ras

de C

lass

ifica

ção

Máquina de Vetores Suporte (SVM) Resolução de problemas de classificação Separar os dados em duas classes com

um hiperplano Encontrar um classificador que irá

trabalhar bem com dados não conhecidos

Maximizar a margem entre as duas classesTé

cnic

as d

e C

lass

ifica

ção

Máquina de Vetores Suporte (SVM) Caso simples: duas classes

linearmente separáveis (A e B) Dados representados pelo par

(si, yi), onde si é a observação i e yi o rótulo ( )

Infinitos hiperplanos, mas apenas um maximiza a margem

Máxima margem aumenta o poder de generalização do classificador

Técn

icas

de

Cla

ssifi

caçã

o

1iy

Hiperplanos separadores para dois conjuntos de dados

Máquina de Vetores Suporte (SVM) Formulação Linearmente Separável

x é o vetor normal ao hiperplano separador s é o vetor do conjunto de pontos de entrada determina o deslocamento do hiperplano em

relação a origem

Técn

icas

de

Cla

ssifi

caçã

o

.u x s

Máquina de Vetores Suporte (SVM) Por definição

Técn

icas

de

Cla

ssifi

caçã

o

. 1 1

. 1 1i i

j j

x s s Classex s s Classe

Pontos Suporte

Máquina de Vetores Suporte (SVM) A margem é dada pela soma desses

hiperplanos

Técn

icas

de

Cla

ssifi

caçã

o

. .

,,

, , .

i j

ji

i j

m x s x s

x sx sx x

x s x sx

, , 1i jx s x s

2

x,

1minimizar2

.( . ) 1, {1, 2, ..., }i i

x

s ay x s i l

2mx

Nos pontos suporte, tem-se:

Margem:

Definição do Problema SVM:

ExemploM

áqui

na d

e Ve

tore

s Su

port

e

x1 x2 Classe +1 x1 x2 Classe -12 -1 1 3 -1 -11 0 1 2 0 -10 1 1 0 2 -1-1 2 1 3 -1 -1-2 1,5 1 2 2 -10 0 1 1 1 -1-2 0 1 3 1 -1-2 1 1 1 2 -1

-0,5 -0,5 1 1 3 -1-1 0,5 1 2 1 -1-1 1 1 1,5 1,5 -1-1 0 1 2,5 2,5 -1-1 1,5 1 2,5 3 -1

ExemploM

áqui

na d

e Ve

tore

s Su

port

e

-2

-1

0

1

2

3

4

-3 -2 -1 0 1 2 3 4

x.s – = +1

x.s – = -1

ExemploM

áqui

na d

e Ve

tore

s Su

port

e

-2

-1

0

1

2

3

4

-3 -2 -1 0 1 2 3 4

f(x) = -x + 1

g(x) = -x + 2

ExemploM

áqui

na d

e Ve

tore

s Su

port

e

( ) 1( ) 2

f x xg x x

Margem Soma de f(x) = +1 e g(x) = -1

Margem:

1 1 32 3 0 ( )2 1 2

xx h x x

x

ExemploM

áqui

na d

e Ve

tore

s Su

port

e

-2

-1

0

1

2

3

4

-3 -2 -1 0 1 2 3 4

f(x) = -x + 1

g(x) = -x + 2

h(x) = -x + 3/2

ExemploM

áqui

na d

e Ve

tore

s Su

port

e

Classifique os novos pontos [-1, -1] [3, 0,5] [0, 3] [1,5, -0,5]

-2

-1

0

1

2

3

4

-3 -2 -1 0 1 2 3 4

ExemploM

áqui

na d

e Ve

tore

s Su

port

e

Classifique os novos pontos [-1, -1]

[3, 0,5]

h(x) = -x + 3/2

11* 1,5 (1 1) 1,5 3,5 0

1classe

31* 1,5 ( 3 0,5) 1,5 2 0

0,5classe

Classe +1

Classe -1

ExemploM

áqui

na d

e Ve

tore

s Su

port

e

Classifique os novos pontos [0, 3]

[1,5, -0,5]

h(x) = -x + 3/2

01* 1,5 (0 3) 1,5 1,5 0

3classe

1,51* 1,5 ( 1,5 0,5) 1,5 0,5 0

0,5classe

Classe -1

Classe +1

Problemas não linearmente separáveis

Máq

uina

de

Veto

res

Supo

rte

Problemas que não são separáveis por um hiperplano

Problemas não linearmente separáveis

Máq

uina

de

Veto

res

Supo

rte

Nova formulação do problema

2

x, 1

1minimizar2

.( . ) 1 , {1, 2, ..., }

0

l

ii

i i i

i

x C

s ay x s i l

permite a classificação errada de um elemento.C penaliza o erro na classificação

ExercícioM

áqui

na d

e Ve

tore

s Su

port

e

Encontre o classificador para os dados

x y Classe -1 x y Classe +10,5 0,5 -1 3 -1 +1

1 0 -1 2 0 +1

0 1 -1 2,5 1 +1

0,5 1,5 -1 3 -1 +1

0,5 2,5 -1 2 2 +1

0 0 -1 2,5 0 +1

0 2 -1 3 1 +1

0,75 0,5 -1 2 1 +1

-0,5 -0,5 -1 2,5 2,5 +1

0,75 1 -1 2,5 3 +1

1 1 -1 2,1 0 +1

1 2 -1 2,3 0,5 +1

1 3 -1 2,2 1,5 +1

1 -1 -1 2 -1 +1-2

-1

0

1

2

3

4

-1 -0,5 0 0,5 1 1,5 2 2,5 3 3,5

X=1 X=2

ExercícioM

áqui

na d

e Ve

tore

s Su

port

e

( ) 1( ) 2

f x xg x x

Margem Soma de f(x) = -1 e g(x) = +1

1 1 32 3 0 ( )2 1 2

xx h x x

x

Margem:

ExercícioM

áqui

na d

e Ve

tore

s Su

port

e

3( )2

h x x

-2

-1

0

1

2

3

4

-1 -0,5 0 0,5 1 1,5 2 2,5 3 3,5

X=1 X=2

X=3/2

ExercícioM

áqui

na d

e Ve

tore

s Su

port

e

-2

-1

0

1

2

3

4

-1 -0,5 0 0,5 1 1,5 2 2,5 3 3,5

X=1 X=2

X=3/2 Classifique os pontos [0,0] [3,3]

ExemploM

áqui

na d

e Ve

tore

s Su

port

e

Classifique os novos pontos [0, 0]

[3, 3]

h(x) = x - 3/2

01* 1,5 (0 0) 1,5 1,5 0

0classe

31* 1,5 (3 3) 1,5 1,5 0

3classe

Classe -1

Classe +1

Redes Neurais Redes Neurais:

Simula a propagação dos sinais através dos neurônios

Conjunto de unidades de entradas e saídas, nas quais cada ligação tem um peso associado a ela

Backpropagation: Algoritmo de aprendizado de redes neurais

Técn

icas

de

Cla

ssifi

caçã

o

Desvantagens Exigem grande período de treinamento,

portanto aplicáveis apenas em problemas com essa viabilidade

Vários parâmetros definidos de maneira empírica, tal como a estrutura

Difícil para os seres humanos interpretarem o significado simbólico por trás dos pesos aprendidos e das unidades escondidas

Red

es N

eura

is

Vantagens Grande tolerância a dados ruidosos Grande capacidade de classificação para

novos dados (padrões desconhecidos) Podem ser usadas quando o usuário tiver

pouco conhecimento sobre as relações entre atributos e classes

Bem adaptadas a valores contínuos Têm sido bem sucedidas na resolução de

vários problemas do mundo real, tais como: reconhecimento de caracteres manuscritos, medicina laboratorial, etc.

Red

es N

eura

is

Backpropagation Algoritmo que realiza o aprendizado de

uma rede neural feed-forward com múltiplas camadas

Aprende iterativamente um conjunto de pesos para a previsão do rótulo da classe

Red

es N

eura

is

Rede Neural Feed-Forward Estrutura:

Uma camada de Entrada

Uma ou mais camadas ocultas

Uma camada de SaídaR

edes

Neu

rais

Feed-Forward Estrutura:

Cada camada é composta por unidadesAs entradas correspondem aos atributos

calculados de cada elemento do conjunto de treinamento

Cada atributo é associado a uma unidade formando a camada de entrada

Red

es N

eura

is

Feed-Forward Estrutura:

Cada atributo recebe um peso após passar por uma camadaA saída da camada de entrada é a entrada

para primeira camada ocultaA saída de uma camada escondida pode ser

outra camada escondida ou a camada de saída

O número de camadas ocultas é arbitrário, mas geralmente se utiliza apenas uma.

Red

es N

eura

is

Feed-Forward Estrutura:

Red

es N

eura

is

Entr

ada

Ocu

lta 1

Ocu

lta N

Saíd

a

Número arbitrário

Representação do Conhecimento

Conhecimento representado pelas unidades de processamento que simulam a estrutura e o comportamento dos neurônios

Red

es N

eura

is

Representação do ConhecimentoR

edes

Neu

rais

Uni

dade

vj(l-1) X1

(l-1)

X2(l-1)

Xn(l-1) U

nida

de v

i(l)

Camada (l-1) Camada (l)

Potencial net do neurônio vi(l):

( 1)

( ) ( ) ( 1) ( 1)( ) ( ) ( )

1

lnl l l l

i t ij j t i tj

net w x

Representação do Conhecimento

O potencial net do neurônio é aplicado à função de ativação

A função de ativação g restringe o potencial de ativação do neurônio a um intervalo pré-definido

Red

es N

eura

is

( ) ( )( 1) ( )

l li t i tx g net Saída da camada (l):

Função de AtivaçãoR

edes

Neu

rais

Funções de ativação

Degrau:

Semi-Linear:

Sigmoidal:

,( )

,se

g xse

,( ) ,

,

se xg x x se x

se x

1( )1

xT

g xe

Características

Conhecimento do comportamento de cada neurônio individualmente

Composição de várias unidades gera reações imprevisíveis

A união das ativações de todas as unidades que especifica o que a rede neural está representando em um dado instante

Essa incerteza do modelo que determina o interesse e a complexidade das redes neurais

Red

es N

eura

is

Estratégias de Aprendizagem

Sem Treinamento Os valores dos pesos sinápticos são estabelecidos

explicitamente Treinamento Supervisionado

A rede é treinada pela apresentação dos vetores de entrada e seus respectivos vetores de saída (pares de treinamento)

Treinamento Não Supervisionado Apresentação apenas dos vetores de entrada, a partir

dos quais são extraídas as características desse conjunto de padrões, agrupando-os em classes

Red

es N

eura

is

Algoritmo Backpropagation

Primeiro passo:Padrões de entrada e saída são apresentados

à rede neural e uma saída aleatória é gerada Segundo passo:

Cálculo do erro, representando a diferença entre o valor obtido e o valor desejado

Terceiro passo:Retropropagação do erro e reajuste dos pesos

sinápticos

Red

es N

eura

is

Algoritmo BackpropagationR

edes

Neu

rais

Entr

ada

Ocu

lta 1

Ocu

lta N

Saíd

a

ERRO(Obtido - Desejado)

Propagação do Erro

Propagação do Sinal de Entrada

Algoritmo Backpropagation

Duas fases distintas:Sinais de entradas se propagam entre as

camadas da rede (camada de entrada até camada de saída)

Erros são propagados na direção contrária ao fluxo de entrada (camada de saída até camada de entrada)

Red

es N

eura

is

Predição

Definir um valor provável de uma variável Aplicada quando se tem dados temporais

(organizados cronologicamente)Previsão de cotação de uma ação na bolsa de

valores Duas técnicas principais:

Regressão linearRegressão Não Linear

Regressão Linear

Entende-se que os dados possuem comportamento linear

Podem ser aproximados por uma reta

Pred

ição

Regressão Linear

Fórmula da regressão linear

Pred

ição

y x

X variável independente (conjunto de dados)Y variável dependente (valor desejável) define a inclinação da reta define o ponto de interceptação da reta com o eixo vertical

Regressão Linear

Cálculo de e :

Pred

ição

Média dos valores de Média dos valores de

| |

1| |

2

1

( )( )

( )

D

i ii

D

ii

x x y y

x x

y x

xy 1 2 | |, , ..., Dx x x

1 2 | |, , ..., Dy y y

ExemploR

egre

ssão

Lin

ear

Semana Clientes Vendas

1 907 11,20

2 926 11,05

3 506 6,84

4 741 9,21

5 789 9,42

6 889 10,08

7 874 9,45

8 510 6,73

9 529 7,24

10 420 6,12

11 679 7,63

12 872 9,43

13 924 9,46

14 607 7,64

15 452 6,92

16 729 8,95

17 794 9,33

18 844 10,23

19 1010 11,77

20 621 7,41

Exemplo

Médias:Clientes: 731,15Vendas: 8,8055

Cálculos: = 2,423 = 0,00873

Reta:y = 0,00873x + 2,423

Reg

ress

ão L

inea

r

0

2

4

6

8

10

12

14

350 550 750 950 1150

Regressão NÃO Linear

Regressão linear bastante simples, mas no mundo real a maioria dos problemas são não lineares

Dados modelados por uma função que é uma combinação não-linear de parâmetros do modelo

Dados ajustados por métodos de aproximações sucessivas

Pred

ição

Regressão NÃO Linear

Métodos:Mínimos

QuadradosEquações NormaisGauss-Newton

Pred

ição

ExercícioR

egre

ssão

Lin

ear

Variável 1 (x)

Variável 2 (y)

60 50

50 30

45 18

40 20

35 10

30 15

20 6

15 3

10 0

Médias: Variável 1: 33,88 Variável 2: 16,88

| |

1| |

2

1

( )( )

( )

D

i ii

D

ii

x x y y

x x

y x

ExercícioR

egre

ssão

Lin

ear

Variável 1 (x)

Variável 2 (y)

60 50

50 30

45 18

40 20

35 10

30 15

20 6

15 3

10 0

Médias: Variável 1: 33,88 Variável 2: 16,88

1923,363 0,859072238,8896

16,88 (0,85907*33,88) 12,224

0,85907 12,224reta x

ExercícioR

egre

ssão

Lin

ear

Variável 1 Variável 260 50

50 30

45 18

40 20

35 10

30 15

20 6

15 3

10 0-20

-10

0

10

20

30

40

50

60

0 20 40 60 80

Recommended