Regressão Linear - sigarra.up.pt

1Métodos Estatísticos de Previsão

Bernardo Almada-Lobo

Regressão Linear

90

92

94

96

98

100

102

104

106

108

110

0 5 10 15 20

MÉTODOS ESTATÍSTICOS DE PREVISÃO


Regressão

A regressão é uma das técnicas estatísticas mais potentes e de utilização mais frequente.

É um método matemático utilizado para descrever a relação entre variáveis

• Regressão linear simples• Regressão linear múltipla• Regressão não linear


Regressão


Regressão

Para uma equação de uma recta y = b0 + b1x, ao valor b0 chama-se ordenada na origem e ao valor b1 chama-se declive .


Regressão

Interpretação gráfica do declive:


Regressão Linear Simples

Um modelo de regressão linear simples descreve uma relação entre duas variáveis quantitativas X, independente, e Y, dependente

( ) 0 0α β β β (β α β )n n n n n nY X X E Y X E X= + ⋅ − + ⇔ = + ⋅ + = − ⋅

( ) ( )

nn

nn

Ya associado aleatório erroE

estimar a fixos parâmetros,

)N,,1n(Y,X de observação ésimanY,X

−−βα

=−− L



),0(INE 2n σ

Aos valores observados Xn não estão associados quaisquer erros, devendo ser encarados como constantes.

Os erros considerados no modelo de regressão linear simples incidem sobre os valores observados de Y.

Na teoria da regressão admitem-se as seguintes hipóteses sobre os erros:

1. valor esperado nulo e variância constante2. são mutuamente independentes3. são normalmente distribuídos

Note que, a hipótese de que existe uma recta de regressão que se ajusta aos dados está implícita em todo o processo.



Exemplo:Idade e preço de uma amostra 11 Orions





( )2Yn ,INY

nσµ

Se as hipóteses referidas se verificarem, os valores de Yn são independentes e seguem uma distribuição normal:

( )XXnYn−⋅β+α=µ


A figura assinala a diferença entre a recta de regressão da população (que gostaríamos de conhecer mas não conhecemos) e a recta estimada a partir da amostra.



nXUma vez que os valores são constantes, é também constante.X

Logo, X0 ⋅β−α=β também é constante

A figura ilustra o significado de 0α e β

X

x1 x2 x3 x4 x5 x6 X

Y

0β

α

( )0

α β

β β

n n

n n

Y X X

Y X

= + ⋅ − ⇔

= + ⋅



Os parâmetros da recta de regressão podem ser estimados pelo método dos mínimos quadrados

( )[ ]{ }∑ ∑= =

−⋅β+α−==N

1n

N

1n

2

nn2n XXYESEQMIN ( ) ( )[ ]

( )

=−

−⋅−=

=⋅=

⇒

∑

∑

∑

=

=

=

XX

XYN

1n

2

n

N

1n

nn

N

1n

n

SS

XX

YYXX

B

YYN1

A

XX

XY

N

1n

n

ssˆb

yyN1

â

=β=

=⋅=α= ∑=

A partir de um conjunto particular de observações (xn, yn) obtêm-se as estimativas seguintes:


0

1

2

3

4

5

6

0 10 20 30 40 50XY

0

1

2

3

4

5

6

0 10 20 30 40 50XY

xx −yy −


Note que, a recta estimada passa sempre pelo ponto )Y,X(

XX

Y

( )XXY nn −⋅β+α=Y

( ) yXXyY

yâ

n =−⋅β+=

=α=



Se a relação entre Xn e µµµµYn for efectivamente linear e os erros foremindependentes, tiverem valor esperado nulo e variância constante, pode demonstrar-se que:

1. A e B são estimadores não-enviesados, eficientes e consistentes

2. A matriz de variância-covariância dos estimadores é

( ) ( )( ) ( )

σσ

=

XX2

2

S0

0N

BVARA,BCOV

B,ACOVAVAR

Como Cov(a,b)=0, conclui-se que A e B não são correlacionados, o que não acontece com B0 e B1, uma vez que ββββ0 é função de ββββ.

Deste facto resulta a vantagem do modelo

( ) nnn EXXY +−⋅+= βα relativamente a 0β βn n nY X E= + ⋅ +

X0 ⋅β−α=β



XXSBVar

2

)(σ=

Estimativa de β é melhor quando os valores de x estão mais espalhados.



( )[ ]2

1 1

22

2

1ˆ2

1∑ ∑

= =−⋅−−⋅

−=⋅

−=

N

n

N

nnnn XXBAY

NE

NS

3. Um estimador não-enviesado de σσσσ2 é



82)yy()xx(s

40)xx(s

30y

10x

5N

n

nnXY

n

2nXX

∑

∑=−⋅−=

=−=

=

=

=

ExemploAdmitindo que a relação entre as variáveis X e Y é linear, pretende-se estimar os parâmetros do modelo de regressão correspondente:

n xn yn

1 12 33

2 8 24

3 14 39

4 10 31

5 6 23

n yn )( xxba nYn−⋅+=µ

nynn ye µˆ −=

1 33 30 + 2.05⋅ 2 = 34.1 33 − 34.1 = −1.1

2 24 30 + 2.05⋅ (−2) = 25.9 24 − 25.9 = −1.9

3 39 30 + 2.05⋅ 4 = 38.2 39 − 38.2 = 0.8

4 31 30 + 2.05⋅ 0 = 30.0 31 − 30.0 = 1.0

5 23 30 + 2.05⋅ (−4) = 21.8 23 − 21.8 = 1.2

∑=

=⋅−

=σ=N

1n

2n

22 63.2e2N

1ˆs

05.2ssb

30ya

XXXY ==

==

0658.0ssˆ

527.0Nsˆ

XX22

B

22A

==σ

==σ

Podemos também estimar a variância dos erros e dos estimadores:



Se En IN(0,σσσσ2), é possível especificar as distribuições dos estimadoresde αααα, ββββ e σσσσ2

( ) 2N2 t

NS

AN,NA −

α−⇒σα

( )BXABt

SX

N1

S

BSX

N1

,NB 02N

XX

2

002

XX

2

00 ⋅−=+⋅

β−⇒

σ⋅

+β −

( ) 2N

XX

XX2 t

SS

BS,NB −

β−⇒σβ

A partir destas expressões é possível definir I.C. e T.H.

( )0

α β

β β

n n

n n

Y X X

Y X

= + ⋅ − ⇔

= + ⋅1.

2.

3.




Intervalos de Confiança para os parâmetros de regre ssão

Os intervalos de confiança bilaterais a (1- γγγγ) . 100% vêm

( ) N1S2tA: 2N ⋅⋅γ±α −

( ) 18.3205.0t3 =

EXEMPLO (CONT.)

( ) ( ) XX2

2N0 SXN1S2tBXA: +⋅⋅γ±⋅−β −

( ) XX2N S1S2tB: ⋅⋅γ±β −

[ ]87.2,23.140163.218.305.2: ⇒⋅⋅±β

( ) [ ]95.17,05.140105163.218.305.21030: 20 ⇒+⋅⋅±⋅−β

[ ]31.32,69.275163.218.330: ⇒⋅⋅±α

1.

2.

3.



Testes de hipóteses para os parâmetros de regressão

Os testes de hipóteses relativos aos parâmetros podem ser realizados recorrendo aos intervalos de confiança. Alternativamente, os testes podem ser efectuados pelo método clássico:

( )( ) ( ) ( )

( )2N

XX

2

000

0000000001

0000t

SX

N1

S

BXAET:.VERDH

,,:H

:H−

+⋅

β−⋅−=⇒

β<ββ>ββ≠β

β=β

2N

XX

00

0001

00t

SS

BET:.VERDH

,,:H

:H−

β−=⇒

β<ββ>ββ≠β

β=β

2N0

0

0001

00t

NS

AET:.VERDH

,,:H

:H−

α−=⇒

α<αα>αα≠α

α=α1.

2.

3.



Quando se pretende realizar um teste bilateral à hipótese nula H0: ββββ=0, pode recorrer-se a um procedimento baseado na ANOVA

( ) ( )[ ]{ } ( )[ ]{ }44444 344444 214444 34444 214434421

XX2

YYXX2YY SBSVR

RESIDUAL.V

n

2

nn

SBVDRREGRESSÃOÀDEVIDA.V

n

2

n

SVTTOTAL.V

n

2

n XXBAYYXXBAYY

⋅−=⋅==

∑∑∑ −⋅+−+−−⋅+=−



2N,10

1

0F

DQMRDQMDR

ET:.VERDH0:H

0:H−=⇒

≠β

=β

O procedimento de teste ANOVA tem a seguinte estrutura:

Tabela ANOVA para o modelo de regressão linear simples

FONTES DE VARIAÇÃO

VARIAÇÕES (Somas de quadrados)

GRAUS DE LIBERDADE (Número de termos

independentes)

DESVIOS QUADRÁTICOS

MÉDIOS

VALORES ESPERADOS

DEVIDA À REGRESSÃO (DR)

(Variação explicada pela regressão)

VDR = B2 · SXX

= B · SXY

GL1 = 1

DQMDR = VDR

E [DQMDR] = σσσσ2 + ββββ2 · SXX

RESIDUAL (R)

(Variação residual, não explicada)

VR = SYY - B · SXY GL2 = N−−−− 2 DQMR = VR/GL 2 E [DQMR] = σσσσ2

TOTAL (T)

(Variação total)

VT = SYY

GL = GL 1 + GL2 = N −−−− 1



Exemplo (anterior)

Admitindo que a relação entre as variáveis X e Y é linear, pretende-se estimar os parâmetros do modelo de regressão correspondente

n xn yn

1 12 33

2 8 24

3 14 39

4 10 31

5 6 23

05.2ssb

30ya

XXXY ==

==



Exemplo (cont.)%50:H0:H 10 =α≠β=β

FONTES VARIAÇÕES G.L. DQM

DR 168.1 1 168.1

R 7.9 3 2.633

T 176.0 4

( ) ( )

0

3,1

H Rejeitar

0.41%Pprova de Valor13.1005.0F84.63633.2

1.168ET ==>==

[ ]87.2,23.140163.218.305.2 ⇒⋅⋅±∈βI.C.:

( ) ( )%41.0Pprova de Valor18.3205.0t99.74062.1

05.2ET 3 ==>==T.H.:

ANOVA:


Regressão

Dado que cada novo valor Y se admite independente dos anteriores, são constantes e A e B são independentes, pode-se mostrar que a

variância do erro de previsão vem:

Previsões com base no modelo de regressão linear si mples

( )XXBAˆY Y −⋅+=µ=

( )[ ] ( )[ ]XXBAEXXYY −⋅+−+−⋅β+α=−=δ

( ) ( ) 2

XX

2

SXX

N1

1)Y(VAR)Y(VARVAR σ⋅

−++=+=δ

O erro que se comete na previsão vem

XX e,, ββββαααα

Y

µ µ µ µ y

f (y|x)

X

x 1

x 2

σσσσ

µ µ µ µ Y 2

µ µ µ µ Y 1

σσσσ

Para cada valor de X, a melhor previsão de Y é dada por

( ) ( )( ) ( )

σσ

=

XX2

2

S0

0NBVARA,BCOV

B,ACOVAVAR


Regressão

( ) ( )XX

2

2N SXX

N1

1S2tY−++⋅⋅γ± −

Admitindo a normalidade dos erros En , temos que seguem também distribuições Normais.

Assim, o intervalo de previsão a (1- γγγγ).100% será:

δδδδeˆ, YY

( )XX

2

SXX

N1

1SY−++⋅±

Se tn-2(γ/2)=1 a banda de previsão a (1-γγγγ).100% é definida por:

Quando se considera todos os valores possíveis de X, os intervalos formam uma banda de previsão.


Regressão

N1

1SY:BBANDA +⋅±

Banda A - tem apenas a ver com a estimativa do desvio-padrão do erro E

Banda B - acrescenta, relativamente à banda A, o termo correspondente ao erro de estimação de αααα

Banda C - acrescenta, relativamente à banda B, o termo correspondente ao erro de estimação de ββββ

Y

x

y = a + b (x - x) i i.A

B C

X

)( xxbay nn −⋅+=

1SY:ABANDA ⋅±

( )XX

2

SXX

N1

1SY:CBANDA−++⋅±


Regressão

Uma relação que pareça linear dentro da gama de valores observados Xn, pode ter um comportamento não-linear numa gama mais alargada.

Apesar de a banda de previsão definida alargar à medida que as observações se afastam da média de X, esta não contempla esse tipo de situações, assentando no pressuposto de que a relação é efectivamente linear.

X

Y

Gama de valores observados

Relação linear ajustada

Relação verdadeira (não linear)

Valor extrapo- lado de Y

Novo valor de X


Regressão

Extrapolação no exemplo do Orion



Regressão linear simples e correlação entre variáve is

Embora a análise de correlação seja uma técnica menos potente do que a regressão linear simples , pois apenas revela o grau de relacionamento linear entre variáveis sem especificar a forma que ele assume, ambas estão intimamente ligadas.

Na regressão linear simples , os valores observados de X são encarados como constantes, podendo não ser representativos de uma qualquer distribuição populacional

Na análise de correlação , para que a partir do coeficiente de correlação amostral se possam fazer inferências relativas ao coeficiente de correlação populacional, é preciso que as observações (Xn,Yn) sejam representativas da população conjunta de X e Y



( ) ( )∑=

−⋅−⋅−

=N

nnnXY yyxx

Nc

11

1

( ) ( )

( ) ( )( )11

11

11

11

1

2

1

2

1 ≤≤−⋅

=−⋅

−⋅−⋅

−

−⋅−⋅−=

∑∑

∑

==

=XY

YX

XY

N

nn

N

nn

N

nnn

XY rss

c

yyN

xxN

yyxxN

r

Covariância amostral (permite inferir acerca da população)

Coeficiente de correlação amostral (medida adimensional)

0

1

2

3

4

5

6

0 10 20 30 40 50X

Y

xx −yy −



Se os valores Xn não forem obrigatoriamente representativos da população deX, podem situar-se numa zona restrita dessa população, provocando o enviesamento do coeficiente de correlação amostral

Y

Zona centralX

Enviesamento do coeficiente de correlação amostral calculado a partir de observações pertencentes à zona central da população de x



Na análise de correlação não se faz qualquer distinção entre variável dependente e variável independente

A existência de correlação implica que

• X é causa de Y, ou• Y é causa de X, ou ainda• Uma outra variável é causa simultânea de X e Y

Que sentido fará, no contexto da regressão, calcular o coeficiente de correlação amostral ?XYR



( )( )∑∑

−

−⋅=⋅=

n

2

n

n

2

n2

YY

XX2

2XY

YY

XXB

SSB

R

Se X for claramente assumida como variável predeterminada, o cálculo do quadrado do coeficiente de correlação amostral, o coeficiente de determinação , representa a proporção da variação de y que é explicada pela regressão

( ) ( ) ( )[ ]

( )∑∑

∑∑

==

==

−⋅+==

−+−=−=N

nn

N

nn

N

nnnn

N

nnYY

xxbe

yyyyyys

1

22

1

2

1

2

1

2 ˆˆ

L

Não--explicada Explicada


O montante global dos seguros de vida efectuados pelas famílias de um determinado país depende do rendimento anual do agregado familiar. Na tabela seguinte apresentam-se os valores destas variáveis, expressas em unidades monetárias do país em causa, para um conjunto de 12 famílias considerado representativo da população.

Estime a relação entre as duas variáveis e o intervalo de previsão do montante global de seguros de vida efectuados por uma família com um rendimento anual agregado de 20 000 [u.m]


Rendimento anual

[1000 u.m.]

Capital seguro

[1000 u.m.]

14 31

19 40

23 49

12 20

9 21 15 34

22 54

25 52

15 28

10 21

12 24

16 34


Regressão Linear Múltipla

• O modelo de regressão linear múltipla é uma extensão do modelo de regressão linear simples.

• Permite descrever uma relação entre um conjunto de variáveis quantitativas independentes, Xj (j=1,2,...,J), e uma variável, Y, quantitativa dependente.

• O objectivo será o de construir um modelo que se ajuste melhor aos dados do que o modelo de regressão linear simples.



y = β0 + β1x

X

Y

X2

1

O modelo de regressão linear simples considera apenas uma variável independente, “X”

Y =β0 + β 1X + E

O modelo de regressão linear múltipla considera duas, ou mais, variáveis independentes, X1 e X2.

Y = b0 + b1x1 + b2x2 + E

Agora, a recta é

transformada num plano

y = β0+ β1

x1+ β2

x2



O modelo de regressão linear múltipla :

nJJnJ1n11n E)XX()XX(Y +−⋅β++−⋅β+α= L

)Y,X,,X( nJnn1 L n-ésima observação das variáveis X1,...,XJ e Y

jX média das observações da variável Xj

J1 ,,, ββα L parâmetros fixos a estimar

nE erro aleatório associado a Yn



Modelo de regressão linear populacional bivariado

X2

Y

X1µµµµYX = ββββ0 + ββββ1X1i + ββββ2X2i

ββββ0

Yi = ββββ0 + ββββ1X1i + ββββ2X2i + εεεεi

ResponsePlane

(X1i,X2i)

(Observed Y)

εεεεi

X2

Y

X1µµµµYX = ββββ0 + ββββ1X1i + ββββ2X2i

ββββ0

Yi = ββββ0 + ββββ1X1i + ββββ2X2i + εεεεi

ResponsePlane

(X1i,X2i)

(Observed Y)

εεεεi



X2

Y

X1

b0

Yi = b0 + b1X1i + b2X2i + ei

ResponsePlane

(X1i,X2i)

(Observed Y)

^

ei

Yi = b0 + b1X1i + b2X2i

X2

Y

X1

b0

Yi = b0 + b1X1i + b2X2i + ei

ResponsePlane

(X1i,X2i)

(Observed Y)

^

ei

Yi = b0 + b1X1i + b2X2i

Modelo de regressão linear amostral bivariado



En IN (0,σ2)

A este modelo estão subjacentes as seguintes hipóteses:

1. Os valores Xjn, e portanto, os seus valores esperados são encarados como constantes predeterminadas, sem erro

2. Os erros En são mutuamente independentes, têm valor esperado nulo, variância constante e são normalmente distribuídos, isto é,



Os parâmetros podem ser estimados recorrendo ao método dos mínimos quadrados minimizando a seguinte função:

J1 ,,, ββα L

[ ]{ }2

n

JJnJ1n11n

n

2n )XX()XX(YESEQ ∑∑ −⋅β++−⋅β+α−== L

0)]()([)2( 111 =−⋅−⋅⋅⋅−−⋅−−⋅−= ∑ JJnJnn

n XXXXYSEQ ββα∂α

∂

0)]()([)()2( }{ 111111

=−⋅−⋅⋅⋅−−⋅−−⋅−⋅−= ∑ JJnJnn

nn XXXXYXXSEQ ββα∂β

∂

0)]()([)()2( }{ 111 =−⋅−⋅⋅⋅−−⋅−−⋅−⋅−= ∑ JJnJnn

nJJnJ

XXXXYXXSEQ ββα

∂β∂

(...)

Sendo o mínimo atingido para



A primeira equação permite obter o estimador de , que é idêntico ao que foi definido para o modelo de regressão linear simples:

α

YYN1

An

n =⋅= ∑Desenvolvendo as restantes equações, obtém-se o seguinte sistema cuja

resolução permite obter os estimadores de J1 ,, ββ L

YXXXJXX2XX1

YXXXJXX2XX1

YXXXJXX2XX1

JJJ2J1J

2J22212

1J12111

SSBSBSB

)(

SSBSBSB

SSBSBSB

=⋅++⋅+⋅

=⋅++⋅+⋅

=⋅++⋅+⋅

L

L

L

L

)XX()XX(S22112j1jjnjjnj

n

XX −⋅−=∑onde )YY()XX(S njjn

n

YX j−⋅−=∑e



1

XXXX

XXXX2

J1JJ

J111

J1

JJ1J

J111

SS0

SS0

00N

)B(Var)B,B(Cov)A,B(Cov

)B,B(Cov)B(Var)A,B(Cov

)B,A(Cov)B,A(Cov)A(Var−

⋅σ=

L

LLLL

L

L

L

LLLL

L

L

Se a relação entre as variáveis Xj e µy for linear e se os erros En forem independentes, tiverem valor esperado nulo e variância constante pode demonstrar-se que:

1. Os estimadores A e B1,...,Bj são não-enviesados, eficientes e consistentes.

2. A matriz de variância-covariância dos estimadores A e B1,...Bj é:



3. Um estimador não-enviesado de σ2 é definido pela expressão:

2JJnJ

n

1n11n

n

22

)]XX.(B)XX.(BAY[1JN

1

E1JN

1S

−−−−−−⋅−−

=

=⋅−−

=

∑

∑

L


ExemploConsiderem-se as observações das variáveis X1, X2 e Y que constam da tabela. Admitindo que o valor esperado de Y é uma função linear de X1 e X2, estimem-se os parâmetros do modelo de regressão correspondente.n x1n x2n yn 1 5.0 7.2 51.7 2 5.8 7.8 56.4 3 4.2 8.1 49.3 4 6.0 8.7 60.7 5 4.8 6.6 48.9 6 5.6 7.5 54.1 7 4.4 9.0 54.9 8 5.2 6.3 49.8 9 5.4 8.4 57.9 10 4.6 6.9 50.4

10.5)6.48.50.5(101

x1 =+⋅⋅⋅++⋅=10N =

65.7)9.68.72.7(101

x2 =+⋅⋅⋅++⋅=

41.53)4.504.567.51(101

y =+⋅⋅⋅++⋅=

3.3)1.56.4()1.50.5()xx(S 22

i

21i1xx 11

=−+⋅⋅⋅+−=−=∑42.7)65.79.6()65.72.7()xx(S 22

i

22i2xx 22

=−+⋅⋅⋅+−=−=∑45.0)65.79.6()1.56.4()65.72.7()1.50.5()xx()xx(SS

i

2i21i1xxxx 1221=−⋅−+⋅⋅⋅+−⋅−=−⋅−== ∑67.15)41.534.50()1.56.4()41.537.51()1.50.5()yy()xx(S

i

i1i1yx1=−⋅−+⋅⋅⋅+−⋅−=−⋅−=∑

16.24)41.534.50()65.79.6()41.537.51()65.72.7()yy()xx(Si

i2i2yx2=−⋅−+⋅⋅⋅+−⋅−=−⋅−=∑

19.147)41.534.50()41.537.51()yy(S 22

i

2iyy =−+⋅⋅⋅+−=−=∑



As estimativas dos parâmetros de regressão podem então obter-se nos seguintes termos:

41.53yâ ==α=

=⋅+⋅

=⋅+⋅⇒

16.24b42.7b45.0

67.15b45.0b3.3

21

21

=β=

=β=⇒

99.2ˆb

34.4ˆb

22

11

=⋅+⋅

=⋅+⋅

YXXX2XX1

YXXX2XX1

22212

12111

SSbSb

SSbSb

Exemplo (cont.)



)65.7(99.2)10.5(34.441.53ˆ 21 −⋅+−⋅+= iiY xxi

µA partir de pode-se calcular a estimativa de σ2

n yn Ynµ

Ynii ye µˆ −=

1 51.7 51.630 0.070

2 56.4 56.897 -0.497

3 49.3 50.850 -1.550

4 60.7 60.458 0.242

5 48.9 48.967 -0.067

6 54.1 55.132 -1.032

7 54.9 54.410 0.490

8 49.8 49.306 -0.006

9 57.9 56.956 0.944

10 50.4 48.996 1.404

983.0]404.107.0[1210

1e

1JN1

ˆs 22

n

2n

22 =+⋅⋅⋅+⋅−−

=⋅−−

=σ= ∑

1

2212

2111

xxxx

xxxx2

2

^

12

^21

^

1

^

SS

SSˆ

)B(Var)B,B(Cov

)B,B(Cov)B(Var−

⋅σ=

−−

=−

⋅=

133.0018.0

018.0300.01

42.745.0

45.030.3983.0

548.0ˆ300.0)B(Var1B1

^

=σ⇒= 365.0ˆ133.0)B(Var2B2

^

=σ⇒=

090.0365.0548.0

018.0ˆ018.0)B,B(Cov

21 B,B21

^

−=⋅

−=ρ⇒−=

e estimar a variância dos estimadores:




Onde var(B1),...,Var(Bj ) são definidos a partir da matriz variância-covariância.

Se , é possível especificar as distribuições dos estimadores A e

B1,...,BJ

),0( 2σINEn

..............

A N (α, σ2/N)

B1 N [β1,Var(B1)]

BJ N [βJ,Var(BJ)]

1JNtN/S

A−−

α−1JN

J

JJ t)B(raV

B−−

β−1JN

1

11 t)B(raV

B−−

β−

Nestas condições, temos as distribuições seguintes:



A partir das expressões anteriores é possível definir intervalos de confiança e testes de hipóteses envolvendo os parâmetros de regressão.

Intervalos de Confiança:

N/1S)2/(tA: 1JN ⋅⋅γ±α −−

)B(raV)2/(tB: j1JNjj ⋅γ±β −−

Teste de Hipóteses:

O teste relativo ao parâmetro αααα será:H0: α =α0

H1: α ≠ α0 , α < α0 ou α > α0 N/S

AET 0α−=

H0 verdadeira ⇒ ET 1JNt −−

Note que, os intervalos assim definidos estão correctamente especificados quando considerados individualmente. No entanto, o nível de confiança para o conjunto dos intervalos definidos para A e Bj (j=1,...,J) é, de facto, diferente do considerado.



Relativamente aos parâmetros ββββj deverá primeiro ser testada a hipótese de que todos eles são nulos contra a hipótese de que pelo menos um dele é diferente de zero.

444444444 3444444444 21

L

444444444 3444444444 21

L

4434421

L

L

)SBSB(SVR

2JJnJ

n

1n11n

SBSBVDR

2JJnJ

n

1n11

SVT

n

2n

YJXJY1X1YY

YJXJY1X1YY

)]XX.(B)XX.(BAY[

]Y)XX.(B)XX.(BA[)YY(

⋅++⋅−=

⋅++⋅==

−−−−−−+

+−−++−+=−

∑

∑∑

Teste de Hipóteses (cont.):

Tal teste será realizado recorrendo à técnica de Análise de Variância que se fundamenta na seguinte decomposição:



FONTES DE VARIAÇÃO

VARIAÇÕES (Somas de quadrados)

GRAUS DE LIBERDADE (Número de termos

independentes)

DESVIOS QUADRÁTICOS

MÉDIOS

VALORES ESPERADOS

DEVIDA À REGRESSÃO (DR) YXJYX1 J1

SBSB=

=VDR

⋅⋅ ⋅⋅⋅ ++++++++

GL1 = J

DQMDR = VDR/GL 1

E [DQMDR] =

=σσσσ2 + + + + f B1 , ⋅⋅⋅,BJ( )[ ]2

RESIDUAL (R)

(Variação residual "não explicada")

VR = SYY - VDR GL2 = N – J – 1 DQMR = VR/GL 2 E [DQMR] = σσσσ2

TOTAL (T)

(Variação total)

VT = SYY

GL = GL 1 + GL2 = N- 1

Na ANOVA referente à regressão linear múltipla adopta-se esta decomposição.

Donde decorre a estrutura do teste ANOVAH0: β1 = β2=....= βJ =0

H1: algum βj ≠ 0 DQMRDQMDR

ET = H0 verdadeira ⇒ ET 1JN,JF −−



Utilizando os dados do exemplo anterior, vamos testar as hipóteses

H0: β 1 = β 2 = 0

H1: β 1 ou β 2 ≠ 0.

A tabela ANOVA correspondente vem:

FO NTES VARIAÇÕ ES G.L. DQM

DR 140.3 2 70.15

R 6.9 7 0.983

T 147.2 9

Exemplo (cont.)

74.4)05.0(F34.71983.0

15.70ET 7,2 ==α== >

H0 é rejeitada ao nível de significância de 5% (valor de prova quase nulo)



Quando a hipótese nula é rejeitada é necessário verificar quais os βj que são diferentes de zero. Uma via possível consiste na realização dos seguintes testes individuais aos parâmetros.

H0: βj =0

H1: βj ≠ 0, βj > 0 ou βj < 0,

)B(raVET

j

jβ= H0 verdadeira ⇒ 1JNt −−ET

Das expressões anteriores relativas aos estimadores de Bj decorre a seguinte estrutura para os testes:



365.2)025.0(t92.7548.034.4

)B(Var

bET 7

1

^

1 =>===

365.2)025.0(t19.8365.099.2

)B(Var

bET 7

2

^

2 =>===

Exemplo (cont.)

548.0ˆ1B =σ 365.0ˆ

2B =σSabendo que b1 = 4.34 b2 = 2.99

H0: β1 = 0 é rejeitada ao nível de significância de 5% (valor de prova quase nulo)

H0:β1 = 0 e H0: β2 = 0 H1: β1 ≠ 0 H1: β2 ≠ 0

H0: β2 = 0 também é rejeitada ao nível de significância de 5% (igualmente com valor de prova praticamente nulo).


Exemplo.

Estime e teste o modelo de regressão para as seguintes variáveis:

1823083

98038

98545

22180117

1310062

119556

99049

196069

X2X1Y



Y X1 X2 Syy Sx1x1 Sx2x2 Sx1x2 Sx1y Sx2y69 60 19 17.0 3025.0 27.6 -288.8 -226.9 21.749 90 9 252.0 625.0 22.6 118.8 396.9 75.456 95 11 78.8 400.0 7.6 55.0 177.5 24.462 100 13 8.3 225.0 0.6 11.3 43.1 2.2117 180 22 2717.0 4225.0 68.1 536.3 3388.1 430.045 85 9 395.0 900.0 22.6 142.5 596.3 94.438 80 9 722.3 1225.0 22.6 166.3 940.6 127.783 230 18 328.5 13225.0 18.1 488.8 2084.4 77.0

64.9 115.0 13.8 4518.9 23850.0 189.5 1230.0 7400.0 852.8

a= 64.88

23850 b1 + 1230 b2 = 74001230 b1 + 189.5 b2 = 852.75

b1= 0.12b2= 3.74

ANOVAFV Var GL DQM ET= 21.93798DR 4056.595 2 2028.298 F2,5= 5.786135R 462.2799 5 92.45598T 4518.875 7 R2xy= 89.77%




O problema associado à realização destes testes reside no facto de o nível de significância do conjunto dos testes ser diferente daquele que foi especificado.

Esta dificuldade pode ser contornada com o método de selecção de regressores .



• No modelo de regressão múltipla admitiu-se que as variáveis independentes (os regressores) eram designadas à partida.

• Na maioria das situações práticas não é possível especificar à partida, com segurança, o conjunto ideal de regressores.

• Num cenário real podem existir uma multiplicidade de regressores potencialmente úteis na explicação do comportamento da variável dependente, havendo que seleccionar de entre eles aqueles que devem figurar no modelo.

• De seguida serão discutidos diferentes métodos de selecção de regressores.

Selecção de Regressores



1. Construir os modelos de regressão que combinem de todas as maneiras possíveis os regressores potenciais.

2. Ordenar os modelos de regressão de acordo com um critério de qualidade (por exemplo, minimizar os DQMR).

3. Avaliar em detalhe um número restrito de modelos considerados melhores, de acordo com o critério fixado em (2).

Método Exaustivo

O ponto (3) está associado à incapacidade de definir um critério único que, em todas as circunstâncias, permita comparar objectivamente a qualidade dos modelos.

Se o número de regressores potenciais for J, o número de modelos alternativos a construir é 2J-1.



1. Ajustar tantos modelos de regressão linear simples quantos os regressores potenciais. Incluir no modelo aquele que explica a maior proporção da variação da variável dependente. Se nenhum regressor explicar uma proporção significativa da variação o método termina.

2. Construir modelos de regressão dupla que associem o regressor seleccionado em (1) e cada um dos restantes regressores potenciais.De entre os novos regressores que explicam uma proporção adicional significativa da variação total, incluir no modelo aquele que explica a maior proporção.

3. Prosseguir a tentativa de construção de modelos de ordem superior adoptando um procedimento idêntico ao descrito.

4. O método termina quando nenhum dos regressores potenciais explica umproporção adicional significativa da variação total ou quando todos os regressores forem incluídos no modelo.

5. Este método não garante a selecção do melhor conjunto de regressores.

Método Progressivo


.rejeitadaH41.4)05.0(F0.2218/90

110ET0:H 018,120 ⇒

=>==→=β

Considere-se o problema da selecção de regressores admitindo que se dispõe de 20 observações de uma variável dependente (Y) e de três variáveis candidatas a figurarem como regressores num modelo de regressão múltipla (X1, X2 e X3).

Exemplo

Passo (1): construir três modelos de regressão linear simples

Modelo Y = Y(X1):

Fontes Variações G.L. DQM

DR (X1) 60 1 60

R 140 18 140/18

T 200 19

Modelo Y = Y(X2):


DR (X2) 110 1 110

R 90 18 90/18

T 200 19

Modelo Y = Y(X3):


DR (X3) 20 1 20

R 180 18 180/18

T 200 19

O regressor que explica a maior proporção da variação total é X2.

O teste ANOVA permite verificar que a proporção da variação explicada ésignificativa.



Modelo Y = Y(X2, X1):


DR (X2,X1) 120 2 120/2

R 80 17 80/17

T 200 19

Modelo Y = Y(X2, X3):


DR (X2,X3) 135 2 135/2

R 65 17 65/17

T 200 19

Vamos agora de testar se o contributo adicional de X3 para a explicação da variação de Y é significativo. Para tal tem-se de alterar a tabela ANOVAcorrespondente decompondo:

VDR(X2, X3) = VDR(X2) + VDR(X3|X2)


DR (X2,X3) 135 2 135/2

DR (X2) (110) (1)

DR (X3|X2) (25) (1) 25

R 65 17 65/17

T 200 19

Passo (2) construir os dois modelos de regressão linear dupla Y = Y(X2, X1) e Y = Y(X2, X3)

O regressor que explica uma proporção adicional maior da variação total é X3.



O teste ANOVA a realizar tem a seguinte estrutura:

H0: β3 = 0

H1: β3 ≠ 0 DQMDR)X|X(DQMDR

ET 23= H0 verdadeira ⇒ ET F1,N-3.

45.4)05.0(F54.617/65

25DQMR

)X|X(DQMDRET 17,1

23 =>===

Nestas condições, é incluído no modelo o regressor X3, que assim se junta ao regressor X2

Passo (3) construir o modelo de regressão linear tripla Y = Y(X2, X3, X1)Fontes Variações G.L. DQM

DR (X2,X3,X1) 140 3 135/2

DR (X2,X3) (135) (2)

DR (X1|X2,X3) (5) (1) 5

R 60 16 60/16

T 200 19

.rejeitada ão 50.4)05.0(33.1

16/60

5),|(016,1

321 nHFDQMR

XXXDQMDRET ⇒

=<===

Neste caso, o teste ANOVA permite verificar que, a proporção adicional da variação total que é explicada por X1 não é significativa




1. Incluir no modelo todos os regressores potenciais.

2. Retirar do modelo, um a um, regressores cuja presença não contribua para explicar uma proporção significativa da variação total

3. Prosseguir a tentativa de construção de modelos de ordem inferior adoptando um procedimento idêntico ao descrito.

Método Regressivo

Método Regressão Passo a Passo

Consistem em versões dos métodos progressivo e regressivo nas quais os regressores que tenham sido incorporados no modelo ou dele excluídos em passos anteriores são reexaminados


2. Utilize o método de selecção de regressores para o exemplo:

Y 69 49 56 62 117 45 38 83X1 60 90 95 100 180 85 80 230X2 19 9 11 13 22 9 9 18




ANOVA y=f(X1) ANOVA y=f(X1,X2)df SS MS F V.P. df SS MS F V.P.

DR(X1) 1 2296.0 2296.0 6.2 0.047 DR(X1,X2) 2 4056.6 2028.3 21.9 0.003R 6 2222.9 370.5 R 5 462.3 92.5

Total 7 4518.9 Total 7 4518.9

ANOVA y=f(X2) ANOVA y=f(X1,X2)df SS MS F V.P. df SS MS F V.P.

DR(X2) 1 3837.4 3837.4 33.8 0.001 DR(X1,X2) 2 4056.6 2028.3R 6 681.5 113.6 DR(X2) 1 3837.4

Total 7 4518.9 DR(X1|X2) 1 219.2 219.2 2.4 0.184Residual 5 462.3 92.5

Total 7 4518.9


Incorporação de regressores qualitativos: variáveis mudas

As variáveis mudas são incorporadas nos modelos de regressão com o objectivo de representar o efeito de factores qualitativos.

Exemplo

Numa determinada empresa de artes gráficas existe uma secção dedicada ao fabrico de um tipo de cartões. Na figura representam-se, para essa secção, observações das variáveis

X: dimensões de diferentes encomendas de cartões

Y: custos de produção associados à satisfação das encomendas.

Y

X

- com urgência+

- normal

+

+

+

+

++ +

As observações foram classificadas em encomendas satisfeitas em regime normal e encomendas satisfeitas com urgência.



nnnnnnN EZX'E)ZZ()XX(Y +⋅γ+⋅β+α=+−⋅γ+−⋅β+α=

Com base na figura parece razoável adoptar o seguinte modelo

Em que Zn represente um variável muda que toma os seguintes valores

=urgenteregimeopara,1

normalregimeopara,0Zn

Para representar adequadamente um factor com k níveis devem ser incluídas no modelo de regressão k - 1 variáveis mudas, por exemplo, para considerar três regimes de satisfação de encomendas

regime normal: Z1 = 0, Z2 = 1regime urgente: Z1 = 1, Z2 = 0regime muito urgente: Z1 = 1, Z2 = 1.

=normalfornãoregimeose,1

normalforregimeose,0Z1

=urgentefornãoregimeose,1

urgenteforregimeose,0Z2

No exemplo γ representa o valor esperado do custo adicional associado ao regime urgente.

nn22n11nn EZZX'Y +⋅γ+⋅γ+⋅β+α=



Regressão

• A técnica de regressão linear simples pode ser utilizada em modelos não-lineares desde que os modelos sejam convertíveis em modelos lineares por aplicações de transformações às variáveis.• Vamos considerar alguns exemplos de aplicação frequente.

Regressão Não-Linear

Método:

1. Transformar a variável X

2. Transformar a variável Y

3. Aplicar método de regressão linear às variáveis transformadas


Regressão Não Linear

Uma relação deste tipo pode ser linearizada recorrendo à seguinte transformação da variável independente

nn X

1U =

nn

n EX

'Y:Modelo +β+α=

X

Y

nnn EU'Y:olinearizad.Mod +⋅β+α=

Exemplo 1



Linearização através de uma transformação logarítmica da variável dependente )Yln(Z nn =

nnn EX'Z:olinearizad.Mod +⋅β+α=

nn EX'n eY:lexponenciaModelo +⋅β+α=

X

Y

Exemplo 2



nnn EU'Z:olinearizadMod. +⋅β+α=

linearização:

)Yln(Z nn =

nn X

1U =

)0e0'com(eY:ScurvaModelo nn EX/'n <β>α= +β+α

XXXX

YYYY

Exemplo 3


Regressão

Entre uma variável dependente Y e uma variável independente X pode existir uma relação polinomial de grau J, que pode ser representada por um modelo do tipo:

Regressão Polinomial

nJJ

nJ22

n2n1n E)XX()XX()XX(Y +−⋅β++−⋅β+−⋅β+α= L

Onde ∑⋅=n

nXN1

X ∑⋅=n

2n

2 XN1

X ∑⋅=n

Jn

J XN1

X...

Este modelo designa-se por modelo de regressão polinomial simples e pode ser convertido num modelo de regressão linear múltipla fazendo corresponder a cada potência uma nova variável substituindo:

jnjn XXJ,,1jPARA == L


Obtendo-se o modelo linearizado:

nJJnJ1n11n E)XX()XX(Y +−⋅β++−⋅β+α= L

O problema da escolha do grau do polinómio é equivalente ao problema da selecção de regressores anteriormente abordado.

Exemplo

X Y1 552 703 754 655 60

2n2n1n XXY ⋅β+⋅β+α=MODELO:

40

45

50

55

60

65

70

75

80

0 1 2 3 4 5 6

X

Y



nn 2211n XXY ⋅β+⋅β+α=obtendo-se o seguinte modelo:

≡

≡2

2

1

XX

XXVamos definir as seguintes variáveis:

−=

=⇔

⇔

−=⋅+⋅

=⋅+⋅⇔

=⋅+⋅

=⋅+⋅

9.3b

1.24b

25374b60b

560b10b

SSbSb

SSbSb

2

1

21

21

yxxx2xx1

yxxx2xx1

22212

12111

0.36119.331.2465XX'â 2211 =⋅+⋅−=⋅β−⋅β−α=α=

21Y x9.3x1.240.36ˆn

⋅+⋅+=µ

X1=X X2=X2 Y1 1 552 4 703 9 754 16 655 25 60

3x1 =

5N=

65y =11x2 =

10S11xx =

374S22xx =

60S21xx =

5S yx1=

25S yx2−=

40

45

50

55

60

65

70

75

80

0 1 2 3 4 5 6

X

Y



� O coeficiente de determinação ( ), que traduz a proporção da variação total de

Y explicada pela regressão ajustada, corresponde ao coeficiente de correlação r

elevado ao quadrado;

� Este coeficiente apresenta uma limitação: o denominador da expressão que lhe

está subjacente tem um valor fixo, enquanto que o numerador só pode aumentar.

Assim, ao adicionar-se uma nova variável na equação da regressão, o

numerador aumentará, no mínimo, ligeiramente, resultando num aumento do

coeficiente de determinação, mesmo que a introdução da nova variável resulte

numa equação menos eficiente;

� Em teoria, usando um número infinito de variáveis independentes para explicar

a variação da variável dependente, resulta num igual a 1. Por outras palavras,

o coeficiente de determinação pode ser manipulado, logo deve ser suspeitado;

2XYR

2XYR




VR da liberdade de graus de n.º : 1-K-N

VT da liberdade de graus de totaln.º : 1-N

regressão dagrau : K

sobservaçõe de n.º : N

( )

−−−−−=

1

1 . R11R 22

XYKN

N

Coeficiente de Determinação Ajustado ( )2XYR

� Dado que a introdução de um regressor irrelevante aumentará ligeiramente o

, é desejável tentar corrigi-lo, reduzindo-o de uma forma apropriada;

� O coeficiente de determinação ajustado, , é uma tentativa de tentar corrigir o

, ajustando o numerador e o denominador da expressão através dos

respectivos graus de liberdade;

� Contrariamente ao coeficiente de determinação, o coeficiente de determinação

ajustado pode diminuir em valor se a contribuição da variável adicional na

explicação da VT, for inferior ao impacto que essa adição acarreta nos graus de

liberdade.

2XYR

2XYR

2XYR


3. Considere a seguinte série temporal, com 10 observações:


Com base nestes dados, efectue previsões dos valores de Zt (para t = 2007, 2008, 2009 e 2010), recorrendo aos seguintes métodos:

i) regressão polinomial;ii) regressão linear de variáveis transformadas.

Entre as previsões efectuadas pelos dois métodos quais adoptaria?

t 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006

Zt 100 120 200 307 351 456 690 796 955 1195

Documents

Regressão Linear - sigarra.up.pt