46
Análise de Regressão e Correlação Prof. Victor Hugo Lachos D ´ avila Departamento Estat´ ıstica Universidade Estadual de Campinas, (UNICAMP-IMECC) Campinas, Brasil An ´ alise de Regress ˜ ao e Correlac ¸ ˜ ao – p. 1/2

Análise de Regressão e Correlação

  • Upload
    dotram

  • View
    224

  • Download
    4

Embed Size (px)

Citation preview

Page 1: Análise de Regressão e Correlação

Análise de Regressão e Correlação

Prof. Victor Hugo Lachos Davila

Departamento Estatıstica

Universidade Estadual de Campinas, (UNICAMP-IMECC)

Campinas, Brasil

Analise de Regressao e Correlacao – p. 1/29

Page 2: Análise de Regressão e Correlação

Objetivos

Estudar a relação linear entre duas variáveis quantitativas.Veja alguns exemplos:

Tempo de prática de esportes e ritmo cardíaco;

Analise de Regressao e Correlacao – p. 2/29

Page 3: Análise de Regressão e Correlação

Objetivos

Estudar a relação linear entre duas variáveis quantitativas.Veja alguns exemplos:

Tempo de prática de esportes e ritmo cardíaco;

Resultado da produção e tempo do processo;

Analise de Regressao e Correlacao – p. 2/29

Page 4: Análise de Regressão e Correlação

Objetivos

Estudar a relação linear entre duas variáveis quantitativas.Veja alguns exemplos:

Tempo de prática de esportes e ritmo cardíaco;

Resultado da produção e tempo do processo;

Número de cliente e vendas; e

Analise de Regressao e Correlacao – p. 2/29

Page 5: Análise de Regressão e Correlação

Objetivos

Estudar a relação linear entre duas variáveis quantitativas.Veja alguns exemplos:

Tempo de prática de esportes e ritmo cardíaco;

Resultado da produção e tempo do processo;

Número de cliente e vendas; e

Tempo de estudo e nota na prova;

Analise de Regressao e Correlacao – p. 2/29

Page 6: Análise de Regressão e Correlação

Objetivos

Estudar a relação linear entre duas variáveis quantitativas.Veja alguns exemplos:

Tempo de prática de esportes e ritmo cardíaco;

Resultado da produção e tempo do processo;

Número de cliente e vendas; e

Tempo de estudo e nota na prova;

Sob dois pontos de vista:

Explicitando a forma dessa relação: regress ao.

Quantificando a força dessa relação: correlac ao.

Analise de Regressao e Correlacao – p. 2/29

Page 7: Análise de Regressão e Correlação

Exemplo 1

O gerente de uma cadeia de supermercados desejadesenvolver um modelo com a finalidade de estimar asvendas médias semanais (em milhares de dólares)

Y - Vendas semanais; e

X - Número de clientes.

Estas variáveis foram observadas em 20 supermercadosescolhidos aleatóriamente.

X 907 926 506 741 789 889 874 510 529 420

Y 11,20 11,05 6,84 9,21 9,42 10,08 9,45 6,73 7,24 6,12

X 679 872 924 607 452 729 794 844 1010 621

Y 7,63 9,43 9,46 7,64 6,92 8,95 9,33 10,23 11,77 7,41

Analise de Regressao e Correlacao – p. 3/29

Page 8: Análise de Regressão e Correlação

Diagrama de dispersão

Analise de Regressao e Correlacao – p. 4/29

Page 9: Análise de Regressão e Correlação

Diagrama de dispersão

400 500 600 700 800 900 1000

67

89

1011

Numero de clientes

Vend

as se

mana

is

Analise de Regressao e Correlacao – p. 4/29

Page 10: Análise de Regressão e Correlação

É razoável supor que a média da variável aleatória Y , estárelacionada com X pela seguinte relação

E(Y |X = x) = µY |x = β0 + β1x

onde βo e β1, são respectivamente, o intercepto e ainclinação da reta e recebem o nome de coeficientes deregressão.

Analise de Regressao e Correlacao – p. 5/29

Page 11: Análise de Regressão e Correlação

É razoável supor que a média da variável aleatória Y , estárelacionada com X pela seguinte relação

E(Y |X = x) = µY |x = β0 + β1x

onde βo e β1, são respectivamente, o intercepto e ainclinação da reta e recebem o nome de coeficientes deregressão.O valor real de Y será determinado pelo valor médio dafunção linear (µY |x) mais um termo que representa um erroaleatório,

Analise de Regressao e Correlacao – p. 5/29

Page 12: Análise de Regressão e Correlação

É razoável supor que a média da variável aleatória Y , estárelacionada com X pela seguinte relação

E(Y |X = x) = µY |x = β0 + β1x

onde βo e β1, são respectivamente, o intercepto e ainclinação da reta e recebem o nome de coeficientes deregressão.O valor real de Y será determinado pelo valor médio dafunção linear (µY |x) mais um termo que representa um erroaleatório,

Y = µY |x + ε = β0 + β1x + ε,

onde ε é o erro aleatório.

Analise de Regressao e Correlacao – p. 5/29

Page 13: Análise de Regressão e Correlação

Modelo de Regressão Linear Simples

Um modelo de regressão linear simples (MRLS) descreveuma relação entre uma variável independente (explicativaou regressora) X e uma variável dependente (resposta) Y ,nos termos seguintes:

Y = β0 + β1X + ε,(1)

onde β0 e β1 são constantes (parâmetros) desconhecidase ε é o erro aleatório.

Analise de Regressao e Correlacao – p. 6/29

Page 14: Análise de Regressão e Correlação

Suposições do MRLS

(i) E(ε) = 0 V ar(ε) = σ2 (desconhecido).

(ii) Os erros são não correlacionados

(iii) A variável explicativa X é controlada peloexperimentador.

(iv) ε ∼ N(0, σ2)

Analise de Regressao e Correlacao – p. 7/29

Page 15: Análise de Regressão e Correlação

Suposições do MRLS

(i) E(ε) = 0 V ar(ε) = σ2 (desconhecido).

(ii) Os erros são não correlacionados

(iii) A variável explicativa X é controlada peloexperimentador.

(iv) ε ∼ N(0, σ2)

Se (i)-(iv) se verificarem, então a variável dependente Yi éuma v.a. com distribuição normal com variância σ2 emédia µYi|xi

, sendo

E(Y |Xi = x) = µYi|x = β0 + β1x.

Analise de Regressao e Correlacao – p. 7/29

Page 16: Análise de Regressão e Correlação

Estimação dos parâmetros do MRLS

Suponha que tem-se n pares de observações(x1, y1), . . . , (xn, yn).

Analise de Regressao e Correlacao – p. 8/29

Page 17: Análise de Regressão e Correlação

Estimação dos parâmetros do MRLS

Suponha que tem-se n pares de observações(x1, y1), . . . , (xn, yn). A figura mostra uma representaçãográfica dos dados observados e um candidato para a linhade regressão.

Analise de Regressao e Correlacao – p. 8/29

Page 18: Análise de Regressão e Correlação

Ao utilizar o modelo (1), é possível expressar as nobservações da amostra como:

yi = β0 + β1xi + εi, i = 1, . . . , n.(2)

E a soma de quadrados dos desvios das observações emrelação à linha de regressão é:

Q =n

ε2i =

n∑

(yi − β0 − β1xi)2.

Analise de Regressao e Correlacao – p. 9/29

Page 19: Análise de Regressão e Correlação

Os estimadores de mínimos quadrados (EMQ) de β0 e β1

denotados por β0 e β1 devem satisfazer as seguintesequações:

∂Q

∂β0|β0,β1

= −2

n∑

i=1

(yi − β0 − β1xi) = 0,

∂Q

∂β1

|β0,β1= −2

n∑

i=1

(yi − β0 − β1xi)xi = 0.

Analise de Regressao e Correlacao – p. 10/29

Page 20: Análise de Regressão e Correlação

Após simplificar as expressões anteriores, tem-se:

β0 + β1

n∑

i=1

xi =

n∑

i=1

yi(3)

β0

n∑

i=1

xi + β1x2i =

n∑

i=1

xiyi.

As equações (3) recebem o nome de equações normaisde mínimos quadrados.

Analise de Regressao e Correlacao – p. 11/29

Page 21: Análise de Regressão e Correlação

A solução dessas equações fornece os EMQ, β0 e β1,dados por:

β0 = y − β1x.

β1 =

n∑

i=1

xiyi −�

nPi=1

xi

��nP

i=1

yi

n

n∑

i=1

x2i −

�nP

i=1

xi

�2

n

.

onde x =

nPi=1

xi

ne y =

nPi=1

yi

n.

Analise de Regressao e Correlacao – p. 12/29

Page 22: Análise de Regressão e Correlação

Portanto, a linha de regressão estimada ou ajustada é :

y = β0 + β1x

e estima a média da variável dependente para um valor davariável explicativa X = x, µY |x.Note que cada par de observações satisfaz a relação:

yi = β0 + β1xi + ei, i = 1, . . . , n

onde ei = yi − yi recebe o nome de resıduo .

Analise de Regressao e Correlacao – p. 13/29

Page 23: Análise de Regressão e Correlação

Notações especiais no MRLS

Sxx =nX

i=1

(xi − x)2 =nX

i=1

x2

i −

nPi=1

xi

�2

n=

nXi=1

x2

i − nx2,

Sxy =nX

i=1

(xi − x)(yi − y) =nX

i=1

(xi − x)yi =nX

i=1

xiyi −

�nP

i=1

xi

��

nP

i=1

yi

n

=nX

i=1

xiyi − nxy,

Syy =nX

i=1

(yi − y)2 =nX

i=1

(yi − y)yi =nX

i=1

y2

i −

nP

i=1

yi

2

n=

nX

i=1

y2

i − ny2.

Os EMQ de β0 e β1 em termos da notação acima são:

β0 = y − β1x, β1 =Sxy

Sxx

.Analise de Regressao e Correlacao – p. 14/29

Page 24: Análise de Regressão e Correlação

Exemplo de aplicação

Sxx =nX

i=1

x2

i − n(x)2 = 11306209 − 20(731, 15)2 = 614603

Sxy =nX

i=1

xiyi − n(x)(y) = 134127, 90 − 20(8, 8055)(731, 15) = 5365, 08

Syy =nX

i=1

y2

i − n(y)2 = 1609, 0971 − 20(8, 8055) = 51, 3605.

As estimativas dos parâmetros do MRLS são:

β1 =Sxy

Sxx

=5365, 08

614603= 0, 00873; β0 = y−β1x = 8, 8055−(0, 00873)(731, 15) = 2, 423.

Portanto, a linha de regressão ajustada ou estimada para esses dados são:

y = 2, 423 + 0, 00873x.

Analise de Regressao e Correlacao – p. 15/29

Page 25: Análise de Regressão e Correlação

400 500 600 700 800 900 1000

67

89

1011

Numero de clientes

Vend

as se

man

ais

Analise de Regressao e Correlacao – p. 16/29

Page 26: Análise de Regressão e Correlação

Estimação de σ2

Os resíduos,ei = yi − yi

são empregados na estimação de σ2. A soma dequadrados residuais ou soma de quadrados dos erros,denotado por SQR é:

SQR =n

i=1

e2i =

n∑

i=1

(yi − yi)2

Pode-se demonstrar que o valor esperado da soma dequadrados dos residuais SQR, é dado por:

E(SQR) = (n − 2)σ2

Analise de Regressao e Correlacao – p. 17/29

Page 27: Análise de Regressão e Correlação

Portanto,

σ2 =SQR

n − 2= QMR (Quadrado m edio residual ),

é um estimador não viciado de σ2,Uma fórmula mais conveniente para o cálculo da SQR édada por:

SQR = Syy − β1Sxy.

Analise de Regressao e Correlacao – p. 18/29

Page 28: Análise de Regressão e Correlação

Exemplo

Com os dados do exemplo, é feita a estimação davariância σ2. Nesse caso, Syy = 51, 3605, Sxy = 5365, 08 eβ1 = 0, 00873.Portanto, a estimativa de σ2 para o exemplo 1.

σ2 =SQR

n − 2=

Syy − β1Sxy

n − 2

=51, 3605 − (0, 00873)(5365, 08)

20 − 2= 0, 2513.

Analise de Regressao e Correlacao – p. 19/29

Page 29: Análise de Regressão e Correlação

Teste de hipóteses sobre β1

Suponha que se deseje testar a hipótese de que ainclinação é igual a uma constante representada por β1,0.As hipóteses apropriadas são:

H0 : β1 = β1,0, vs H1 : β1 6= β1,0

A estatística

T =β1 − β1,0√

σ2/Sxx

,

tem distribuição t-Student com n − 2 graus de liberdadesob H0 : β1 = β1,0. Rejeita-se H0 se

|Tobs| > t1−α/2, n−2.

Analise de Regressao e Correlacao – p. 20/29

Page 30: Análise de Regressão e Correlação

Teste de hipóteses sobre β0

H0 : β0 = β0,0, vs H1 : β0 6= β0,0

A estatística

T =β0 − β0,0

σ2[ 1n

+ x2

Sxx]

que tem distribuição t-Student com n − 2 graus deliberdade. Rejeitamos a hipóteses nula se|Tobs| > t1−α/2, n−2.

Analise de Regressao e Correlacao – p. 21/29

Page 31: Análise de Regressão e Correlação

Teste de significância do MRLS

H0 : β1 = 0, vs H1 : β1 6= 0,

Deixar de rejeitar H0 : β1 = 0 é equivalente a concluir quenão há nenhuma relação linear entre X e Y.

Analise de Regressao e Correlacao – p. 22/29

Page 32: Análise de Regressão e Correlação

Se H0 : β1 = 0 é rejeitado, implica que X tem importânciaao explicar a variabilidade de Y

Analise de Regressao e Correlacao – p. 23/29

Page 33: Análise de Regressão e Correlação

Exemplo

Teste de significância para o MRLS para os dados doexemplo 1, com α = 0, 05.As hipóteses são H0 : β0 = 0, vs H1 : β0 6= 0

Analise de Regressao e Correlacao – p. 24/29

Page 34: Análise de Regressão e Correlação

Exemplo

Teste de significância para o MRLS para os dados doexemplo 1, com α = 0, 05.As hipóteses são H0 : β0 = 0, vs H1 : β0 6= 0Do exemplo tem-se:

β1 = 0, 00873, n = 20 Sxx = 614603, σ2 = 0, 2512,

De modo que a estatística de teste, é:

Tobs =β1

σ2/Sxx

=0, 00873

0, 2513/614603= 13, 65.

Analise de Regressao e Correlacao – p. 24/29

Page 35: Análise de Regressão e Correlação

Exemplo

Teste de significância para o MRLS para os dados doexemplo 1, com α = 0, 05.As hipóteses são H0 : β0 = 0, vs H1 : β0 6= 0Do exemplo tem-se:

β1 = 0, 00873, n = 20 Sxx = 614603, σ2 = 0, 2512,

De modo que a estatística de teste, é:

Tobs =β1

σ2/Sxx

=0, 00873

0, 2513/614603= 13, 65.

Como Tobs = 13, 65 > t0,975,18 = 2, 101, rejeita-se a hipóteseH0 : β1 = 0.

Analise de Regressao e Correlacao – p. 24/29

Page 36: Análise de Regressão e Correlação

Adequação do modelo de regressão

Análise residual,

Analise de Regressao e Correlacao – p. 25/29

Page 37: Análise de Regressão e Correlação

Adequação do modelo de regressão

Análise residual,

Coeficiente de determinação

Analise de Regressao e Correlacao – p. 25/29

Page 38: Análise de Regressão e Correlação

Adequação do modelo de regressão

Análise residual,

Coeficiente de determinação

Os resíduos de um modelo de regressão são definidoscomo

ei = yi − yi, i = 1, . . . , n

onde yi é uma observação real de Y e yi é o valorcorrespondente estimado através do modelo de regressão.

Analise de Regressao e Correlacao – p. 25/29

Page 39: Análise de Regressão e Correlação

Adequação do modelo de regressão

Análise residual,

Coeficiente de determinação

Os resíduos de um modelo de regressão são definidoscomo

ei = yi − yi, i = 1, . . . , n

onde yi é uma observação real de Y e yi é o valorcorrespondente estimado através do modelo de regressão.Resíduos padronizados

di =ei√

QMR, i = 1, . . . , n

Analise de Regressao e Correlacao – p. 25/29

Page 40: Análise de Regressão e Correlação

Adequação do modelo de regressão

Análise residual,

Coeficiente de determinação

Os resíduos de um modelo de regressão são definidoscomo

ei = yi − yi, i = 1, . . . , n

onde yi é uma observação real de Y e yi é o valorcorrespondente estimado através do modelo de regressão.Resíduos padronizados

di =ei√

QMR, i = 1, . . . , n

Analise de Regressao e Correlacao – p. 25/29

Page 41: Análise de Regressão e Correlação

Analise de Regressao e Correlacao – p. 26/29

Page 42: Análise de Regressão e Correlação

Gráfico de resíduos do exemplo 1

Analise de Regressao e Correlacao – p. 27/29

Page 43: Análise de Regressão e Correlação

Coeficiente de Determinação

A quantidade:

R2 = 1 − SQR

SQT

onde, SQT =n∑

i=1

(Yi − Y )2, recebe o nome de coeficiente de

determinac ao que é usado para julgar a adequação domodelo de regressão.Pode ser interpretado como a proporção da variabilidadepresente nas observações da variável resposta Y, que éexplicada pela variável independente X no modelo deregressão.

Analise de Regressao e Correlacao – p. 28/29

Page 44: Análise de Regressão e Correlação

Exemplo

Para os dados dos supermercados do exemplo1,determinar R2.

Analise de Regressao e Correlacao – p. 29/29

Page 45: Análise de Regressão e Correlação

Exemplo

Para os dados dos supermercados do exemplo1,determinar R2. Da definição tem-se:

R2 = 0, 912

Analise de Regressao e Correlacao – p. 29/29

Page 46: Análise de Regressão e Correlação

Exemplo

Para os dados dos supermercados do exemplo1,determinar R2. Da definição tem-se:

R2 = 0, 912

Esse resultado significa que o modelo ajustado explicou91,2% da variação na variável resposta Y (vendassemanais). Isto é, 91,2% da variabilidade de Y é explicadapela variável regressora X (número de clientes).

Analise de Regressao e Correlacao – p. 29/29