31
Modelo de Regressão Simples

Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

  • Upload
    others

  • View
    15

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

Modelo de Regressão Simples

Page 2: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

2

Historia

HistóriaTermo regressão foi introduzido por Francis Galton(1822-1911). Estudo sobre altura de pais e filhos. Karl Pearson coletou mais de mil registros e verificou a “lei de regressão universal” de Galton (1857-1936)

Atualmente é uma das técnicas de estimação mais usadas.

Aplicações: Industria, Economia, Estudos Biológicos, etcObjetivos: descrição de dados, estimação de parâmetros, predição e controle.Ampla literatura

Modelo de Regressão LinearModelo de Regressão Não-LinearModelo Linear GeneralizadoEntre outros

Page 3: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

3

Exemplos

X1 = rendaX2 = taxa de jurosX3 = poupança

Y = consumo

Aplicação na economia:

X1 = área construídaX2 = custo do m2

X3 = localizaçãoY = preço do

imóvel

Aplicação no mercado mobiliário (avaliação) :

X1 = memória RAMX2 = sistema operacionalX3 = tipo de processador

Y = tempo deresposta

Aplicação na ciência da computação:

Page 4: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

4

Análise de regressãoDados

Teoria

Especificação domodelo

Estimação dosparâmetros Testando a

adequacidadedo modelo

Validaçãodo modelo

sim

não

Uso doModelo

“método estatístico que utiliza a relação entre duas ou mais variáveis de modo que uma variável pode ser estimada (ou predita) a partir da

outra ou das outras”

sim

não

Page 5: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

5

RelaRelaçção funcional x Relaão funcional x Relaçção ão estatestatíísticastica

As variáveis podem possuir dois tipos de relações:1) Funcional: a relação é expressa por uma

fórmula matemática: Y = f(X)Todos os pontos caem na curva da relação funcional

Nesse caso, temos um modelo determinístico. Ex: relação entre o perímetro (P) e o lado de um

quadrado (L)

Page 6: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

6

RelaRelaçção funcional x Relaão funcional x Relaçção ão estatestatíísticastica

Estatística: não é uma relação perfeita como no caso da relação funcional. As observações em geral não caem exatamente na curva da relação.

Nesse caso temos um modelo probabilístico. O modelo captura a aleatoriedade que é parte de um processo do mundo real.

Ex: relação entre tamanho de casa (T) e preço (P). Todas as casas de mesmo tamanho são vendidas pelo mesmo preço?

Page 7: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

7

Relação estatística:

50556065707580859095

100

150 160 170 180 190

Altura (cm)

Peso

(kg)

A existência de uma relação estatística entre a variável dependente Y e a variável independente X não implica que Y depende de X, ou que existe uma relação de causa-efeito entre X e Y.

Page 8: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

8

Medida de AssociaMedida de Associaççãoão

X

Y

XY

X

YX

Y

Coeficiente de Correlação (de Pearson)mede o grau de relação linear entre X e Y

( , )( ) * ( )

Cov X YrVar X Var Y

=

( )( )

( ) ( )1

2 2

1 1

n

i ii

n n

i ii i

X X Y Yr

X X Y Y

=

= =

− −=

− −

∑ ∑

1 1r− ≤ ≤

1 1 1

2 22 2

1 1 1 1

n n n

i i i ii i i

n n n n

i i i ii i i i

n X Y X Y

n X X n Y Y

= = =

= = = =

−=

⎡ ⎤ ⎡ ⎤⎛ ⎞ ⎛ ⎞− −⎢ ⎥ ⎢ ⎥⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

∑ ∑ ∑

∑ ∑ ∑ ∑

r = 0,9 r = 0,3 r = 0

r = - 0,9

Page 9: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

9

Coeficiente de CorrelaCoeficiente de CorrelaççãoãoInterpretações errôneas dos coeficientes de correlação

1. Um alto coeficiente de correlação nem sempre indica que a equação de regressão estimada está bem ajustada aos dados.

X

Y

X

Y

?

?

Page 10: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

10

Coeficiente de CorrelaCoeficiente de CorrelaççãoãoInterpretações errôneas dos coeficientes de correlação

2. Um coeficiente de correlação próximo de zero nem sempre indica que X e Y não são relacionadas.

X

Y

X

Y X

Y A

X

Y B

Page 11: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

11

Um modelo determinístico

Tamanho da casa

Preço dacasa

Preço= 25000 + 75×(tamanho)

Neste modelo, o preço da casa é completamente determinado pelo tamanho.

Page 12: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

12

Um modelo estatístico

Tamanho da casa

Preçoda Casa

25$

VariabilidadeBaixa vs. Alta

x

Preço = 25,000 + 75(Tamanho) + ξ

É o termo aleatório (variável erro). É a diferença entre o preço atual e o preço estimadobaseando-se no tamanho da casa.

Page 13: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

13

AnAnáálise de Regressãolise de Regressão1. Determinar como duas ou mais variáveis se relacionam.

2. Estimar a função que determina a relação entre as variáveis.

3. Usar a equação ajustada para prever valores da variável dependente.

Regressão Linear Simples

Yi = β0 + β1Xi + ξi

E(ξi) = 0; Var (ξi) = σ2 e COV (ξi,ξj) = 0

Page 14: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

14

Modelo de Regressão Modelo de Regressão Linear SimplesLinear Simples

iii XY ξββ ++= 10

Inclinaçãopopulacional

Interceptopopulacional Erro Aleatório

Variável Independente

Variável Dependente

ξi

X

Y

β0

β1 Coeficienteangular

E(Y) = β0 + β1 X

Page 15: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

15

Em geral não se conhece os valores de β0 e β1. Eles podem ser estimados através de dados obtidos por amostras. O método utilizado na estimação dos parâmetros é o método dos mínimos quadrados, o qual considera os desvios dos Yi de seu valor esperado:

ξi = Yi – (β0 + β1 Xi)Em particular, o método dos mínimos quadrados requer que consideremos a soma dos n desvios quadrados, denotado por Q:

210

1

][ ii

n

i

XYQ ββ −−=∑=

EstimaEstimaçção dos parâmetrosão dos parâmetros

Page 16: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

16

EstimaEstimaçção dos parâmetrosão dos parâmetrosDe acordo com o método dos mínimos quadrados, os estimadores de β0 e β1 são aqueles, denotados por b0 e b1, que tornam mínimo o valor de Q.Derivando ][2 10

10ii

n

iXYQ ββ

β−−−=

∂∂ ∑

=

iii

n

iXXYQ ][2 10

11

βββ

−−−=∂∂ ∑

=

2

1

11

)(

))((

XX

YYXXb

i

n

i

ii

n

i

−−=

=

=

XbYb 10 −=iii YYe

XbbY

XYE

ˆ

ˆ)(

10

10

−=

+=

+= ββ

(resíduo)

Igualando-se essas equações a zero obtém-se os valores b0 e b1 que minimizam Q:

Page 17: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

17

1)

2) é mínima

3)

4) A reta de regressão passa sempre pelo ponto

01

=∑=

n

iie

∑=

n

iie

1

2

∑∑==

=n

ii

n

ii YY

11

ˆ

Propriedades da equaPropriedades da equaçção ão de regressãode regressão

),( YX

X

Y

X

Y

Page 18: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

18

Predição

Um dos objetivos da análise de regressãoPara um determinado valor x0 de X, queremos prever o valor que deveráser assumido por Y.

0ˆˆˆ xy βα +=

Page 19: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

19

Inferência em AnInferência em Anáálise de Regressãolise de Regressão

Considere o modelo: Yi = β0 + β1 Xi + ξi

ξ ~ N(0; σ2) e COV (ξi,ξj)= 0

∑=

−= n

ii XX

bs

1

21

2

)(

QMRes)(2

1

11 ~)( −

−= ntbs

bt β

0:H0:H

11

10

<=

ββ

IC para β0 e β1, IC para Ynovo

β0 = 0 ? β1 = 0 ? (teste de hipótese)

X

Y ?

21

1 ~)( −= ntbs

bt

Page 20: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

20

} YYi −

Yi

{ii YY ˆ−

{YYi −ˆiY

Precisão do modeloPrecisão do modelo

0 20 40 60 80 X

Y∑∑∑===

−+−=−n

iii

n

ii

n

ii YYYYYY

1

2

1

2

1

2 )ˆ()ˆ()(

SQTo = SQReg + SQRes

SQToSQRes1

SQToSQRes-SQTo

SQToSQReg2

−=

=

=RCoeficiente de determinação

0 ≤ R2 ≤ 1

XbbY 10ˆ +=

Y

Interpretação: R2 mede a fração da variação total de Y explicada pela regressão.

Page 21: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

21

Considerações sobre o coeficiente de determinação

O coeficiente de determinação deve ser usado com cautela. Embora o coeficiente não pode diminuir quando mais regressores são adicionados no modelo, isto não significa que o novo modelo é melhor do que o anterior.O coeficiente depende do range de variabilidade de x. Um alto valor do coeficiente pode ser porque x teve um grande range de variação não realístico. Por outro lado, um valor pequeno do coeficiente pode ser porque x teve um pequeno range de variação que não permitiu que a sua relação com y seja detectada.. A média dos quadrados dos resíduos é uma medida adequada de qualidade do ajuste.

Page 22: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

22

Análise de variância: teste de significância do modelo

SQT tem n-1 graus de liberdadeSQR tem n-2 graus de liberdadeSQM tem 1 grau de liberdade

Soma de quadrados

Graus de liberdade

Média

1

n-2

n-1

SQM

SQR

SQT

Regressão

Residual

Total

( )∑=

−n

ii yy

1

( )

2

ˆ1

2

−∑=

n

yyn

iii

( )

11

2

−∑=

n

yyn

ii

( )

0F

H0: β1=0

If H0 é verdadeira SQR/n-2 tem distribuição qui-quadrado com n-2 graus de liberdade. SQM/1 tem distribuição qui-quadrado com 1 grau de liberdade. SQR e SQM são independentes. Por definição, F0 segue uma distribuição F-Snedecor com 1 e n-2 graus de liberdade. Rejeita H0 F0 >F1,n2

⎥⎥⎥⎥

⎢⎢⎢⎢

−∑=

2

/ˆ 2

1

2

n

yyn

iii σ

( )

1

/ˆ 2

1

2 σ⎥⎦

⎤⎢⎣

⎡−∑

=

n

ii yy

Page 23: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

23

Considerações

Os modelos de regressão são construídos baseando-se no range de valores dos regressores.A equação dos mínimos quadrados é fortemente afetada por pontos extremos da distribuição de x. Os métodos de mínimos quadrados são influenciados por outliers (pontos aberrantes). Porque a regressão indicou forte correlação entre duas variáveis não significa que exista uma relação de causa e efeito.

Page 24: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

24

Modelos LinearizModelos LinearizááveisveisModelo Padrão: Yi = β0 + β1Xi + ξi

iiiiXY ξβ β

0= iii XY ξββ lnlnlnln 10 ++= iii XY ξββ ′+′+′=′ 10

iX

iieY ξβ β1

0= iii XY ξββ lnlnln 10 ++= iii XY ξββ ′++′=′ 10

exponencial

potencial

iii XY ξββ +′+=′ 10

logaritmopotênciainverso

),0(~ 2σξ Ni′

Page 25: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

25

AnAnáálise de Reslise de Resííduosduos

Resíduo = iii YYe ˆ−=

Y = 0,9983X + 0,1306R2 = 0,9496

0

2

4

6

8

10

0 2 4 6 8 10

X

Y

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

0 2 4 6 8 10

XRe

sídu

os

9496,01306,09983,0ˆ

2 =

+=

RXY

Page 26: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

26

AnAnáálise de Reslise de Resííduosduos

MQReseiResíduo Padronizado =

Y = 0,9983X + 0,1306R2 = 0,9496

0

2

4

6

8

10

0 2 4 6 8 10

X

Y

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

XRe

sídu

os P

adro

niza

do9496,01306,09983,0ˆ

2 =

+=

RXY

Page 27: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

27

AnAnáálise de Reslise de Resííduosduos

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

X

Resí

duos

Pad

roni

zado

s

“ideal”

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

X

Resí

duos

Pad

roni

zado

s

σ2 não constante

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

X

Resí

duos

Pad

roni

zado

s

não linearidade

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

X

Resí

duos

Pad

roni

zado

s

não independência

tempo-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

X

Resí

duos

Pad

roni

zado

s

“outlier”

Page 28: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

28

x y8 782 925 90

12 5815 439 746 81

FaltasNotafinal

Aplicação

959085807570656055

4540

50

0 2 4 6 8 10 12 14 16

Not

a fin

al

FaltasX

Page 29: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

29

6.0848.4648.1003.3641.8495.4766.56139.898

y2

624 184450696 645666486

3.75157 516

1 8 782 2 923 5 904 12 58 5 15 436 9 747 6 81

x y

579

644

251442258136

x2xy

Cálculo de r

975.013030804

31552

11

22

11

2

111 −=−

=

⎟⎠

⎞⎜⎝

⎛−⎟

⎞⎜⎝

⎛−

−=

∑∑∑∑

∑∑∑

====

===

n

ii

n

ii

n

ii

n

ii

n

ii

n

ii

n

iii

yynxxn

yxyxnr

Page 30: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

Escreva a equação dareta de regressão comx = número de faltase y = nota final.

6.0848.4648.1003.3641.8495.4766.561

624 184450696 645666486

57 516 39.898

1 8 782 2 923 5 904 12 58 5 15 436 9 747 6 81

644

251442258136

xy x2 y2x y

3.751 579

924,3)(

)()(ˆ

1

2

1 −=−

−−=

=

=n

ii

i

n

ii

xx

yyxxβ

667,105ˆˆ =−= xy βα

ixy 924,3667,105ˆ −=

A equação de regressão é dada por:

Page 31: Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

31

Com a reta de regressão, é possível prevervalores de y correspondentes aos valores de x.

Usando a equação de regressão podemosprever a nota esperada de um aluno com:

(a) 3 faltas (b) 12 faltas

(a)

(b)

Prevendo Valores

= –3,924(3) + 105,667 = 93,895= –3,924(12) + 105,667 = 58,579