25
1 ANÁLISE DE REGRESSÃO E CORRELAÇÃO Quando se consideram observações de 2 ou mais variáveis surge um ponto novo: “O estudo das relações porventura existentes entre as variáveis.” A análise de regressão e correlação compreendem a análise de dados amostrais para saber se e como um certo conjunto de variáveis está relacionado com outra variável. Análise de regressão: estuda o relacionamento entre uma variável chamada a variável dependente e outras variáveis chamadas variáveis independentes. Este relacionamento é representado por um modelo matemático , isto é, por uma equação que associa a variável dependente com as variáveis independentes. Este modelo é designado por modelo de regressão linear simples se define uma relação linear entre a variável dependente e uma variável independente. Se em vez de uma, forem incorporadas várias variáveis independentes, o modelo passa a denominar-se modelo de regressão linear múltipla.

Analíse de Regressão e Correlação - estgv.ipv.pt · ANÁLISE DE REGRESSÃO E CORRELAÇÃO Quando se consideram observações de 2 ou mais ... vendedor com 4 anos de experiência

  • Upload
    dinhnhu

  • View
    230

  • Download
    0

Embed Size (px)

Citation preview

1

ANÁLISE DE REGRESSÃO E CORRELAÇÃO

Quando se consideram observações de 2 ou mais variáveis surge

um ponto novo:

“O estudo das relações porventura existentes entre as variáveis.”

A análise de regressão e correlação compreendem a análise de

dados amostrais para saber se e como um certo conjunto de variáveis

está relacionado com outra variável.

Análise de regressão: estuda o relacionamento entre uma variável

chamada a variável dependente e outras variáveis chamadas variáveis

independentes. Este relacionamento é representado por um modelo

matemático , isto é, por uma equação que associa a variável dependente

com as variáveis independentes. Este modelo é designado por modelo

de regressão linear simples se define uma relação linear entre a

variável dependente e uma variável independente. Se em vez de uma,

forem incorporadas várias variáveis independentes, o modelo passa a

denominar-se modelo de regressão linear múltipla.

2

Análise de correlação: dedica-se a inferências estatísticas das

medidas de associação linear que se seguem:

• coeficiente de correlação simples: mede a “força” ou “grau” de

relacionamento linear entre 2 variáveis.

• coeficiente de correlação múltiplo: mede a “força” ou “grau” de

relacionamento linear entre uma variável e um conjunto de outras

variáveis.

As técnicas de análise de correlação e regressão estão intimamente

ligadas.

3

REGRESSÃO LINEAR SIMPLES

Vamos considerar a situação em que duas variáveis estão ligadas

por um relacionamento linear. A relação entre elas pode ser descrita

matematicamente através do seguinte modelo:

Y X E= + +β β0 1

sendo,

• X a variável explicativa ou independente medida sem erro (não

aleatória);

• E a variável aleatória residual na qual se procuram incluir todas as

influências no comportamento da variável Y que não podem ser

explicadas linearmente pelo comportamento da variável X;

• β0 e β1 parâmetros desconhecidos do modelo (a estimar).

• Y a variável explicada ou dependente (aleatória);

Exemplo:

Suponhamos que estamos interessados em desenvolver um modelo

para descrever a temperatura da água do mar. A temperatura (Y)

depende em parte da profundidade da água (X).

Não estamos interessados em fazer inferências acerca da

profundidade da água, mas sim, em descrever o comportamento da

temperatura da água sabendo à partida o valor exacto da sua

profundidade.

4

Se fixarmos a profundidade da água em xi , a temperatura vai variar

devido a outras influências aleatórias. Assim, para cada xi fixo estamos

a lidar com uma variável aleatória Yi de média µYi (µYi depende de xi,

pois a temperatura média da água à profundidade xi , deve de ser

diferente da temperatura média à profundidade xj ≠ xi ).

Num estudo de regressão temos n observações da variável X:

x1,x2,…,xn (assume-se que estas observações são medidas sem erro).

Temos então n variáveis aleatórias Y1, Y2, ..., Yn tais que:

ii10i ExY +β+β= i=1,...,n .

Admite-se que E1, E2,..., En são variáveis aleatórias independentes

de média zero e variância σ2.

Então, para qualquer valor xi de X, Yi é uma variável aleatória

de média i10Y xi

β+β=µ e variância σ2.

Isto significa que para um dado xi podemos calcular a média de Yi,

i10Y xi

β+β=µ , que depende de xi , e o desvio padrão σ que não

depende do valor xi fixado. σ é uma medida da dispersão dos valores de

Yi à volta da sua média iYµ .

Os dados para a análise de regressão e correlação simples são da

forma:

5

(x1, y1), (x2, y2),..., (xn, yn)

onde xi é o valor da variável X e yi a correspondente observação da

variável aleatória Yi (i=1,...,n).

Cada observação obedece à seguinte relação:

ii10i

iY

xy ε+µβ+β= i=1,...,n .

De facto, o valor observado de uma variável aleatória (yi),

usualmente difere da sua média (iYµ ) por uma quantidade aleatória εi.

Com os dados constroi-se o DIAGRAMA DE DISPERSÃO, este deve

exibir uma tendência linear para que se possa usar a regressão linear.

Portanto este diagrama permite decidir empiricamente se um

relacionamento linear entre X e Y deve ser assumido.

Por análise do Diagrama de Dispersão pode-se também concluir

(empiricamente) se o grau de relacionamento linear entre as variáveis é

forte ou fraco, conforme o modo como se situam os pontos em redor de

uma recta imaginária que passa através do enxame de pontos. A

correlação é tanto maior quanto mais os pontos se concentram, com

pequenos desvios, em relação a essa recta.

A partir dos dados disponíveis estimamos β0 e β1 e substituímos

estes parâmetros teóricos pelas suas estimativas b0 e b1 para obter a

equação de regressão estimada:

Realização da v.a. Ei

6

xbbˆy 10x/Y +=µ=

Esta equação estima o valor médio de Y para um dado valor x de X,

mas é usada para estimar o próprio valor de Y. De facto, o senso comum

diz-nos que uma escolha razoável para predizer o valor de Y para um

dado x de X, é o valor médio estimado x/Yµ . Por exemplo, se

quiséssemos predizer a temperatura da água do mar a uma profundidade

de 1000 metros uma escolha lógica é a temperatura média a esta

profundidade:

1000bbˆy 101000x/Y ×+=µ= =

Estimação pelo método dos mínimos quadrados

Cada par (xi,yi) satisfaz a

ii10i dxbby ++=

onde )xbb(yyyd i10iiii +−=−=

é o i-ésimo resíduo, isto é, a distância vertical do ponto (xi,yi) à recta de

regressão estimada.

Este método consiste em escolher b0 e b1 de modo a minimizar a

soma dos quadrados dos resíduos di. Desta forma estamos

7

essencialmente a escolher a recta que se aproxima o mais possível de

todos os pontos dos dados simultaneamente.

Soma dos quadrados

dos resíduos

= ∑ ∑= =

−−==n

1i

n

1i

2i10i

2i )xbby(dSSE

Para determinar b0 e b1 de modo a minimizar SSE:

⎪⎪

⎪⎪

−=

−=⇔⇔

⎪⎪⎩

⎪⎪⎨

=−−−

=−−−⇔

⎪⎪⎩

⎪⎪⎨

=∂∂

=∂∂

=

=

=

=

xbyb

x nx

y x nyxb

0x)xbby(2

0)xbby(2

0b

SSE

0b

SSE

10

n

1i

22i

n

1iii

1n

1iii10i

n

1ii10i

1

0

→x média dos valores observados de X

→y média dos valores observados de Y

8

REGRESSÃO LINEAR MÚLTIPLA

O modelo de regressão linear múltipla postula a existência de uma

relação linear entre uma variável dependente ou explicada Y e k

variáveis independentes ou explicativas X1,...,Xk a qual pode ser

traduzida pela seguinte expressão:

EXXY kk110 +β++β+β=

sendo,

• X1,...,Xk as variáveis explicativas ou independentes medidas sem erro

(não aleatórias);

• E a variável aleatória residual na qual se procuram incluir todas as

influências no comportamento da variável Y que não podem ser

explicadas linearmente pelo comportamento das variáveis X1,...,Xk e

os possíveis erros de medição;

• β0 ,β1,..., kβ os parâmetros desconhecidos do modelo (a estimar).

• Y a variável explicada ou dependente (aleatória);

Exemplo:

9

Consideremos as seguintes variáveis:

Y Volume de vendas efectuadas durante um dado período de tempo

por um vendedor;

X1 Anos de experiência como vendedor;

X2 Score no teste de inteligência.

Se fixarmos o valor x1i para os anos de experiência – X1 (por

exemplo x1i=4 anos) e outro valor x2i para o score no teste de

inteligência – X2 (por exemplo x2i=3), o volume de vendas vai variar

devido a outras influências aleatórias. Isto é, vendedores com 4 anos de

experiência e score 3 no teste de inteligência, podem apresentar volumes

de vendas diferentes.

Assim, para x1i e x2i fixos Yi é uma variável aleatória de média µYi .

Temos n valores de cada variável independente:

i=1 i=2 ... i=n

X1 x11 x12 ... x1n

X2 x21 x22 ... x2n

Xk xk1 xk2 ... xkn

10

Temos então n variáveis aleatórias,

11kk11101 ExxY +β++β+β=

22kk12102 ExxY +β++β+β=

nknkn110n ExxY +β++β+β=

Em notação matricial,

EXYn

2

1

k

1

0

knn2n1

2k2212

1k2111

n

2

1

E

EE

xxx1

xxx1xxx1

Y

YY

⎥⎥⎥⎥

⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

β

ββ

×

⎥⎥⎥⎥

⎢⎢⎢⎢

=

⎥⎥⎥⎥

⎢⎢⎢⎢

β

Y vector das respostas aleatórias

X Matriz significativa do modelo

β Vector dos parâmetros do modelo

E Vector dos erros aleatórios

Outra forma de escrever o modelo é então,

Y=Xβ+E

11

Admite-se que E1, E2,..., En são variáveis aleatórias independentes

de média zero e variância σ2.

Então, para quaisquer valores x1i, x2i,...,xki fixos, Yi é uma

variável aleatória de média kiki110Y x...xi

β++β+β=µ e variância

σ2.

Isto significa que para um conjunto de valores fixos x1i, x2i,...,xki de

X1,...,Xk , podemos calcular a média de Yi,

kiki110Y x...xi

β++β+β=µ , que depende de x1i, x2i,...,xki . O desvio

padrão σ é uma medida da dispersão dos valores de Yi à volta da sua

média iYµ e é sempre o mesmo quaisquer que sejam os valores das

variáveis independentes que fixemos.

Os dados para a análise de regressão e correlação múltipla são da

forma:

(y1, x11, x21,...,xk1), (y2, x12, x22,...,xk2) ,..., (yn, x1n, x2n,...,xkn).

Cada observação obedece à seguinte relação:

ikiki22i110i

iY

x...xxy ε+µ

β++β+β+β= i=1,...,n .

Realização da v.a. Ei

12

Temos então o seguinte sistema de equações,

⎪⎪⎩

⎪⎪⎨

ε+β++β+β=

ε+β++β+β=ε+β++β+β=

nknkn110n

22kk12102

11kk11101

xxy

xxyxxy

Em notação matricial o sistema pode ser representado por,

εβ

⎥⎥⎥⎥

⎢⎢⎢⎢

ε

εε

+

⎥⎥⎥⎥

⎢⎢⎢⎢

β

ββ

×

⎥⎥⎥⎥

⎢⎢⎢⎢

=

⎥⎥⎥⎥

⎢⎢⎢⎢

n

2

1

k

1

0

knn2n1

2k2212

1k2111

n

2

1

Xyxxx1

xxx1xxx1

y

yy

y vector das observações da variável dependente

X Matriz significativa do modelo

β Vector dos parâmetros do modelo

ε Vector das realizações da variável aleatória residual

Isto é,

y=Xβ+ε

13

A partir dos dados disponíveis (observados) estimamos β0 ,β1,...,

kβ e substituímos estes parâmetros teóricos pelas suas estimativas b0,

b1, ...,bk para obter a equação de regressão estimada:

kk22110x,...,x,x/Y xb...xbxbbˆyk21

++++=µ=

Esta equação estima o valor médio de Y para um conjunto de

valores x1, x2,...,xk fixo, mas é usada para estimar o próprio valor de Y.

Por exemplo, se quiséssemos predizer o volume de vendas de um

vendedor com 4 anos de experiência e score 3 no teste de inteligência,

uma escolha lógica seria o volume médio de vendas dos vendedores

com estas características:

3b4bbˆy 2103x,4x/Y 21×+×+=µ= == .

Estimação pelo método dos mínimos quadrados

Associado a cada observação (yi, x1i, x2i,...,xki) está um resíduo,

)xb...xbxbb(yyyd kiki22i110iiii ++++−=−=

Este método consiste em escolher b0, b1,..., bk de modo a minimizar

a soma dos quadrados dos resíduos di.

Soma dos

quadrados dos

resíduos

= ∑ ∑= =

−−−−−==n

1i

n

1i

2kiki22i110i

2i )xb...xbxbby(dSSE

14

Para determinar b0, b1,..., bk de modo a minimizar SSE resolve-se o

sistema de equações:

0b

SSE 0b

SSE 0b

SSE

k10=

∂∂

∧∧=∂∂

∧=∂∂

Obtém-se o vector ( ) yXXX

b

bb

b t1t

k

1

0

−=

⎥⎥⎥⎥

⎢⎢⎢⎢

= estimativa para

⎥⎥⎥⎥

⎢⎢⎢⎢

β

ββ

k

1

0

.

O estimador é obviamente, ( ) YXXX

ˆ

ˆˆ

ˆ t1t

k

1

0

−=

⎥⎥⎥⎥

⎢⎢⎢⎢

β

ββ

=β .

Para k=1 (no caso da regressão simples) teríamos,

( ) yXXXbb

b t1t

1

0 −=⎥

⎤⎢⎣

⎡=

onde X tem apenas 2 colunas (pois k=1), mas como vimos b0 e b1

podem também ser determinados por,

xbyb e x nx

y x nyxb 10n

1i

22i

n

1iii

1 −=−

−=

=

= .

Cada coeficiente de regressão estimado bi , i=1,...,k (estimativa de

βi), estima o efeito sobre o valor médio da variável dependente Y de

uma alteração unitária da variável independente Xi, mantendo-se

constantes todas as restantes variáveis independentes.

15

COEFICIENTE DE CORRELAÇÃO E DE DETERMINAÇÃO

Seja y a média dos valores observados para a variável dependente.

Para uma qualquer observação yi tem-se:

)yy()yy()yy( iiii −+−=−

Pode-se mostrar que elevando ao quadrado ambos os membros e

somando para todas as observações resulta que:

∑∑∑===

−+−=−n

1i

2i

n

1i

2ii

n

1i

2i )yy()yy()yy(

SST = SSE + SSR

SST Soma dos quadrados totais

SSE Soma dos quadrados dos resíduos

SSR Soma dos quadrados da regressão

Isto é:

Variação total

de Y à volta da

sua média

=

Variação que o

ajustamento não

consegue explicar

+

Variação

explicada pelo

ajustamento

Coeficiente de determinação –r2:

16

SSTSSE1

SSTSSESST

SSTSSRr2 −=

−==

r2 é a proporção de variação da variável dependente Y que é

explicada pelo modelo, isto é pela equação de regressão ajustada, ou

equivalentemente, é a proporção da variação de Y explicada em termos

lineares pelas variáveis independentes.

Note que:

• 0≤r2≤1;

• r2≅1 (próximo de 1) significa que grande parte da variação de Y

é explicada linearmente pelas variáveis independentes.

• r2≅0 (próximo de 0) significa que grande parte da variação de Y

não é explicada linearmente pelas variáveis independentes.

Neste sentido este coeficiente pode ser utilizado como uma medida

da qualidade do ajustamento, ou como medida da confiança depositada

na equação de regressão como instrumento de previsão:

r2≅0 modelo linear muito pouco adequado

r2≅1 modelo linear bastante adequado

À raiz quadrada de r2 dá-se o nome de:

17

• coeficiente de correlação simples (se está envolvida apenas

uma variável independente)

• coeficiente de correlação múltiplo (se estão envolvidas pelo

menos 2 variáveis independentes)

Coeficiente de Correlação Simples

2rr ±=

È uma medida do grau de associação linear entre as variáveis X e

Y.

• -1≤r≤1;

• r>0 (positivo) indica que as duas variáveis tendem a variar no

mesmo sentido, isto é, em média um aumento na variável X

provocará um aumento na variável Y;

• r<0 (negativo) indica que as duas variáveis tendem a variar em

sentido inverso, isto é, em média um aumento na variável X

provocará uma diminuição na variável Y;

• r=1 e r=-1 indicam a existência de uma relação linear perfeita

entre X e Y, positiva e negativa respectivamente;

18

• r=0 indica a inexistência de qualquer relação ou tendência linear

entre X e Y podendo no entanto existir uma relação não linear

entre elas. Isto é, é possível que as duas variáveis estejam

fortemente associadas (movimentos numa variável estão

associados a movimentos na outra) sem que o relacionamento

seja linear.

r pode ser calculado a partir da seguinte fórmula:

2n

1i

2i

2n

1iii1

n

1ii0

2

yny

ynxybybrr

−+±=±=

∑∑

=

== com o sinal do declive b1.

Coeficiente de Correlação Múltiplo

È uma medida do grau de associação linear entre Y e o conjunto de

variáveis X1, X2,...,Xk.

• 0≤r≤1;

• r=1 indica a existência de uma associação linear perfeita, isto é,

Y pode ser expresso exactamente como combinação linear de X1,

X2,...,Xk;

• r=0 indica a inexistência de uma relação linear entre a variável

dependente Y e o conjunto de variáveis independentes X1,

X2,...,Xk.

19

PROPRIEDADES DOS ESTIMADORES DOS MÍNIMOS

QUADRADOS E TESTES DE HIPÓTESES

O método dos mínimos quadrados fornece estimativas pontuais b0,

b1,...,bk para β0, β1,..., βk . Os estimadores que fornecem estas

estimativas são:

( ) YXXX

ˆ

ˆˆ

ˆ t1t

k

1

0

−=

⎥⎥⎥⎥

⎢⎢⎢⎢

β

ββ

=β .

Se os erros Ei além de serem independentes com valor esperado nulo

e variância constante - σ2, seguirem uma distribuição normal, então

pode-se mostrar que os estimadores k10ˆ,...,ˆ,ˆ βββ são tais que:

• ( ) iiˆE β=β i=1,...,k;

• ( ) ii2

i cˆVar σ=β

onde cii é o elemento diagonal da linha i+1 da matriz ( ) 1tXX−

.

Na regressão simples estas variâncias podem ser dadas por:

( )22

n

1i

2i

n

1i

2i

20

xnxn

xˆVar

−σ=β

=

= e ( )2

n

1i

2i

21

xnx

1ˆVar−

σ=β

∑=

;

• Cada iβ tem distribuição normal: iβ ~ N(βi, ii2cσ ).

20

Como, em geral, σ2 é desconhecido estimamos ( )iˆVar β por 2

ˆiSβ que

se obtém substituindo nas formulas anteriores σ2 pelo seu estimador,

1knSSES2

−−= .

Então,

iiii22

ˆ c1kn

SSEcSSi −−

==β .

21

Testes sobre os coeficientes de regressão

Ocasionalmente, poderá ser de suspeitar que uma variável

explicativa particular não é muito útil, isto é, que a sua influência sobre

a variável dependente não é significativa. Para saber se é este o caso

testamos a hipótese nula de que o coeficiente para esta variável é nulo:

0:H0:H

i1

i0

≠β=β

.

Sabemos que

iβ ~ N(βi, ii2cσ ),

então

)1,0(Nc

ˆ~

ii

ii

σβ−β .

Como σ2 é desconhecido, substituímos σ pelo seu estimador

1knSSES

−−=

vindo,

1knii

ii

ˆ

ii tcS

ˆ

S

ˆ~

i

−−β

β−β=

β−β .

A estatística do teste, se H0 é verdadeira, é:

1knii

i

ˆ

i tcS

S0ˆ

~i

−−β

−β=

−β .

22

Se H0 for rejeitada então temos evidência de que βi≠0, isto é a

variável explicativa Xi é útil na predição do valor da variável

dependente.

Se H0 não for rejeitada então a variável explicativa Xi é geralmente

retirada da equação de regressão pois não influência significativamente

a variável resposta Y.

Mais geralmente, podemos testar a hipótese nula de que o coeficiente

seja igual a um determinado valor βi0:

0ii1

0ii0

:H:H

β≠ββ=β .

A estatística do teste, se H0 é verdadeira, é:

1knii

0ii

ˆ

0ii t

cS

ˆ

S

ˆ~

i

−−β

β−β=

β−β .

Poderiam também ser conduzidos testes unilaterais em vez de testes

bilaterais:

0ii1

0ii0

:H:H

β>ββ=β 0

ii1

0ii0

:H:H

β<ββ=β .

23

Teste F – para testar a significância da regressão

Este teste serve para saber se a regressão é ou não significativa.

A hipótese nula é:

H0: a equação de regressão não explica a variação na variável resposta

ou equivalentemente,

H0: não existe relação linear entre a variável dependente e o conjunto de variáveis independentes utilizadas

Matematicamente:

0 um menos pelo:H0...:H

i1

k210

≠β=β==β=β

.

Pode-se mostrar que se H0 for verdadeira, a estatística do teste

k1kn2 F

SkSSR

)1kn(SSEkSSRF ~ −−=−−

= .

Note que,

SSTSSESSTSSR

k1kn

SSESSR

k1kn

)1kn(SSEkSSRF ×

−−=×

−−=

−−=

2

2

R1R

k1kn

−×

−−= .

24

Rejeitamos H0 para valores grandes da estatística do teste F. À parte

da constante k

1kn −− a estatística F é a razão entre a variação explicada

e a não explicada em Y. É natural que digamos que a regressão é

significativa só quando a proporção da variação explicada é grande. Isto

ocorre só quando a razão F é grande. Por esta razão devemos sempre

rejeitar H0 para valores de F muito grandes.

Se H0 não for rejeitada então é o mesmo que dizer que o conjunto de

variáveis explicativas contribuem pouco para a explicação da variação

da variável dependente.

Na regressão simples para testar a significância da regressão

consideramos as hipóteses,

0:H0:H

11

10

≠β=β

e portanto a estatística teste a usar pode ser,

2nH Sobˆ

1 tS

01

~ −β

−β .

25

Os resultados descritos podem ser convenientemente resumidos na

tabela da ANOVA seguinte:

Fonte de

variação

Soma dos

Quadrados

Graus de

Liberdade

Quadrados

Médios

Razão F

Devido à

Regressão SSR= ( )∑

=−

n

1i

2i yy

k k

SSR

Devido aos

resíduos SSE= ( )∑

=−

n

1i

2ii yy

n-k-1 1kn

SSE−−

= 2S 2S

kSSRF =

Total SST= ( )∑

=−

n

1i

2i yy

n-1