27
Regressão Linear Simples Econometria Alexandre Gori Maia Bibliografia Básica: Maia, Alexandre Gori (2017). Econometria: conceitos e aplicações. Cap. 1-3; 5. Ementa: Definição; Estimador de MQO para RLS; Teorema de Gauss-Markov; Variância dos Estimadores; Teste t para os coeficientes; Análise de Varância

Regressão Linear Simples - eco.unicamp.br · Seja o modelo de Regressão Linear Simples ... expoente de X não é igual a 1. Modelo é linear nos parâmetros pois todos os expoentes

  • Upload
    lytruc

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

Regressão Linear Simples

Econometria

Alexandre Gori Maia

Bibliografia Básica:

Maia, Alexandre Gori (2017). Econometria: conceitos e aplicações. Cap. 1-3; 5.

Ementa:

• Definição;

• Estimador de MQO para RLS;

• Teorema de Gauss-Markov;

• Variância dos Estimadores;

• Teste t para os coeficientes;

• Análise de Varância

Mínimos Quadrados - EQT

Y1

1 Passo) Definir Erro Quadrático Total:

Y2 Y3 Y4 Y5

e1

e2

e3e4

e5 e2 = Y2 –

e3 = Y3 –

e4 = Y4 –

e5 = Y5 –

25

24

23

22

21 e e e e e EQT

25

24

23

22

21 θ)Y θ)Y θ)Y θ)Y θ)Y EQT (((((

θ)(Y ) θ ( EQT5

1i

2i

Supondo que Y seja uma função de : Yi = + ei

e1 = Y1 – Os erros ei

representam os

erros de

mensuração de Y a

partir de .

A função EQT é

uma medida do

erro total que

cometemos ao

utilizar para

estimar Y na

função Yi=+ei

EQT - Exemplo

Y1 = 100

Y2 = 200

Y3 = 300

Y4 = 400

Y5 = 500

Seja o conjunto

de valores de Y θ)(Y ) θ ( EQT

5

1i

2i

EQT()

300.000 100

150.000 200

100.000 300

150.000 400

300.000 500 0

50.000

100.000

150.000

200.000

250.000

300.000

350.000

0 100 200 300 400 500 600

*

Supondo que Y seja uma função de : Yi = + ei

Para este conjunto de dados, o valor de que minimizaria a função

EQT (*) seria o 300.

Estimador de Mínimos Quadrados

2 Passo) Encontrar que minimiza EQT:

)θ(Y e EQTn

1i

2i

n

1i

2i

ˆˆ

^

EQ

T0

ˆ

θ

EQT

*^

0 θd

EQTd

ˆ

n

1i

i 1))(θ2(Y θd

EQTd ˆˆ

n

1i

n

1i

i θ2Y2 ˆ

0θ2nY2 θd

EQTd n

1i

i

ˆˆ

n

Y

θ

n

1i

Para uma amostra de tamanho n teremos:

ii eY ˆˆ

^

Função de Regressão Populacional

X

YYi = + Xi + ei Modelo de Regressão

Linear Simples para Y

na população

Y é a variável dependente ou regressando

X é a variável independente ou explanatória

Onde:

Xi

E(Y/Xi)

E(Y/Xi) é a esperança condicional de Y e representa o valor esperado de Y

para o i-ésimo valor de X

é o intercepto ou constante do modelo

é o coeficiente angular do modelo

ei é o erro, ou variação de Yi não explicada pelo modelo

ei

Yi

Erro de previsão:Seja Xi a i-ésima observação de X, teremos:

Yi é o valor observado em Y para o i-ésimo valor de X

E(Y/Xi) = + Xi

ou

Seja a relação entre Y e X na população:

Interpretação dos CoeficientesPara cada valor controlado de X, teremos

um valor esperado de Y.

X1 X

Y

E(Y1)

e1

X2X3

e2

e3

O erro representa variáveis omitidas ou

mesmo dificuldades para mensurar aquelas

presentes no modelo.

Pressupõe-se que o efeito do erro seja

mínimo e que este esteja aleatoriamente

distriuído em torno da reta de regressão.

X

Y

E(Yi)

Xi

X

Y

0

E(Y/0)=

)0()0/(YE

dX

Xd

dX

YdE

X

YE )()()(

Para compreendermos a interpretação

dos coeficientes do modelo:

O intercepto representa o valor esperado de Y

quando o valor controlado de X for nulo:

O coeficiente angular , por sua vez, representa

a variação marginal no valor esperado de Y

dada uma variação unitária em X

Função de Regressão Amostral

X

Y

Yi = + Xi + ei

Função de regressão amostral:

Yi = + Xi

Y previsto pelo ajuste:

^

Xi

Yi^

ei

ei = Yi – Yi

Resíduo, valor não previsto pelo ajuste:

^

Função de Erro Quadrático Total (EQT):

e e e EQT2

n2

22

1 ˆ...ˆˆ

2nn

222

211 )YY)YY )YY EQT ˆ(...ˆ(ˆ(

)Y(Y EQTn

1i

2ii

ˆ )]Xβ[Yn

1i

2ii

ˆˆ(

Em uma amostra, a relação entre Y e X será dada por:

^ ^ ^

^ ^

^

^

Método de Mínimos Quadrados

X

Y

ê2

ê1

ê3

ê4 ê5

ê6 ên

)]ˆˆ([1

2

n

i

ii XβαYEQT

Mínimos Quadrados Ordinários:

O método de mínimos quadrados ordinários (MQO)

ajustará a reta que apresentar as menores distâncias

quadráticas entre os valores observados e a reta (êi).

Em outras palavras, os estimadores de MQO dos

parâmetros e minimizarão o valor da função de

Erro Quadrático Total (EQT), dada por:

n

i ii XY2 EQT

10)1)](ˆˆ([

ˆ

Para encontrar os valores que minimizam a função EQT:

XβY 1ˆˆ

n

1i

22i

n

1i

ii

XnX

YXnYX

β̂

n

i iii XXY2 β

EQT1

0))](ˆˆ([ˆ

(1)

(2)

Estimadores de MQO

Estimadores de Mínimos Quadrados Ordinários:

iii eXY

Seja o modelo de Regressão Linear Simples (RLS) para o conjunto de dados

populacionais e sua equivalente representação na amostra:

Os estimadores de MQO para os parâmetros e , ou seja, os estimadores que

minimizam o valor de êi2, serão dadas por:

XβY ˆˆ

n

i

i

n

i

ii

XnX

YXnYX

β

1

22

1ˆe

Para simplificar os cálculos, podemos demonstrar que essas expressões podem

também ser dadas como função dos desvios de X e Y em relação às suas

respectivas médias amostrais:

XβY ˆˆ

n

i

i

n

i

ii

n

i

i

n

i

ii

n

i

i

n

i

ii

x

Yx

x

yX

x

yx

β

1

2

1

1

2

1

1

2

1ˆe

Onde: XXx ii YYy ii e

(3)

(5)(4)

iii eXY ˆˆˆ

Estimadores de MQO - Exemplo

Y

(Renda)

X

(Anos

Estudo)

4 1

8 4

10 6

12 7

Seja a relação entre renda familiar em salários mínimos (Y), anos de

estudo (X) do responsável pela família:

iii eXY

Para cada ano adicional de escolaridade da

pessoa responsável, espera-se um acréscimo de

1,98 SM na renda familiar. O rendimento esperado

para famílias lideradas por pessoas sem

escolaridade seria de 2,71 SMs.

A partir dos dados de uma amostra de 4 oobservações, os

estimadores de MQO para a função amostral serão:

iii eXY ˆˆˆ

XβY ˆˆ

n

i

i

n

i

ii

x

yx

β

1

2

1ˆ 29,121

27

71,2)5,4(29,15,8

iii eXY ˆ29,171,2

Distribuição Amostral dos Estimadores

Y

X

Seja uma população com 20 observações:

Y=+X+e

Função de

Regressão

Populacional

Y=+X+e

Função ajustada

para amostra 1

^ ^

Os estimadores de MQO variarão aleatoriamente em função dos valores

observados na amostra.

Y

X

^

Y=+X+e

Função ajustada

para amostra 2

^ ^ ^

Teorema de Gauss-Markov

Teorema de Gauss-Markov

Sob a hipótese da veracidade de alguns pressupostos, os estimadores obtidos pelo

método de mínimos quadrados ordinários serão os Melhores Estimadores Lineares

Não Viesados (MELNV, ou BLUE - Best Linear Unbiased Estimator).

Em outras palavras:

)ˆE( estimador não viesado

E:

)'ˆVar()ˆVar( estimador mais eficiente que ’,

qualquer que seja ’ outro estimador

de

^

^

1 – Relação Linear

X

Y

Modelo é linear nas variáveis pois todos

os expoentes de Y e X são iguais a 1.

iii eβXαY

Modelo é linear nos parâmetros pois

todos os expoentes dos parâmetros são

iguais a 1.

X

Y iii eβXαY 2

Modelo não é linear nas variáveis pois o

expoente de X não é igual a 1.

Modelo é linear nos parâmetros pois

todos os expoentes dos parâmetros são

iguais a 1.

Linearidade nos parâmetros

e nas variáveis

Linearidade nos parâmetros

2- Valores de X são Fixos

Y

XX2

E(Y2)

X1

E(Y1)

iii eXY

Pressupõe que o valor de X seja controlado em repetidas amostras para

se observar variações aleatórias de Y.

Premissa utilizada em inúmeras

demonstrações, embora seja, muitas

vezes, pouco factível. Nessas

circunstâncias, cuidados adicionais

deverão ser tomados para que as

estimativas de MQO não sejam viesadas.

3 - Esperança Condicional Zero

Os erros apresentam esperança condicional zero, ou seja, esses não

podem estar associados aos regressores.

A média dos erros associados a cada

valor controlado de X será sempre 0,

não importa qual seja o valor de X.

X

Y

Xi

E(Y/Xi)

ei

Yi

0)()|( ii eEXeE ii XXYE )/(

4 - Homocedasticidade

Homocedasticidade

2)/( ii XeVar

Heterocedasticidade

Y

XjX1

E(Y1)

X2

E(Y2)

Var(e2)=2

Var(e1)=2

Y

XjX1 X2

Var(e2)=22E(Y1)

Var(e1)=21

E(Y2)

A variabilidade dos erros deve ser constante, qualquer que seja o valor

de :X

5 – Ausência de Autocorrelação

Não Autocorrelacionado

0)(),( sttstt eeEeeCov

Autocorrelacionado

e

t

0)( stteeE e

t

0)( stteeE

Não há correlação entre os erros do modelo regressão:

A autocorrelação é frequente em análise de séries temporais de dados

espaciais.

Modelo Clássico de Regressão Linear

1) Relação Linear entre X e Y:

O ajuste só é válido para relações lineares.

2) Os valores de X são fixos em repetidas amostras, não aleatórios:

Quem varia é o regressando, o regressor é fixo e dado, qualquer que seja a

amostra. Fazemos a pressuposição que dado um valor de X, Y irá variar

segundo uma distribuição de probabilidade com valor esperado dado por E(Y|Xi).

3) Esperança condicional dos erros igual a zero, ou seja, E(e|Xi)=0:

É a mesma coisa afirmar que E(Y|Xi)=+Xi.

4) A variabilidade dos erros é constante, ou seja, E(ei2)=2

Os erros são homocedásticos, ou seja, sua variância é a mesma para qualquer X.

5) Os erros são não autocorrelacionados, ou seja, E(eiej)=0:

Não há relação entre valores ordenados dos erros segundo tempo ou espaço.

6) Os erros apresentam distribuição normal: Não é um pressuposto necessário para que os estimadores de MQO sejam

MELNV, mas necessário para que as inferências sejam válidas.

Modelo

Clá

ssic

o d

e R

egre

ssão L

inear

Variância dos EstimadoresVariância dos estimadores de MQO:

Caso os pressupostos do Teorema de Gauss-Markov sejam válidos, o método de

MQO oferecerá estimadores não viesados para os coeficientes do modelo e para

suas respectivas variâncias. As variâncias dos estimadores e seus respetivos

estimadores serão dados por:

Seja o modelo de RLS:

iii eXY

2

22)ˆ()ˆ(

ixEVar

2

2

22)ˆ()ˆ(

i

i

xn

XEVar

Onde 2=Var(ei) é a variânica dos erros ou variância da regressão e 2 seu

respectivo estimador, dado por:

2

ˆˆ

22

n

ei

2

2

22

2

22ˆ ˆ

ii

i

x

X

nxn

XS

2

22ˆ

ˆ

ixS

iiii yxye ̂ˆ 22

^

onde

H0: =0

H1: 0

Então, para verificar que os estimadores de MQO são significativos:

Sob a hipótese de H0 ser

verdadeiro temos...

),0(ˆ 2̂

~N

0 ̂

p/2 p/2

valor obtido pela amostra

p é a probabilidade de erro

ao afirmar que é

significativo no modelo

Teste de hipótese para :

H0: =0

H1: 0 Sob a hipótese de H0 ser

verdadeiro temos...

),0(ˆ 2

β̂~Nβ

0 ̂

p/2 p/2

p é a probabilidade de erro

ao afirmar que é

significativo no modelo

Teste de hipótese para 1:

valor obtido pela amostra

Teste t para os Estimadores

Y

(Renda)

X

(Anos

Estudo)

4 1

8 4

10 6

12 7

Seja a relação entre renda familiar em salários mínimos (Y), anos de

estudo (X) do responsável pela família:

iii eXY

A partir dos dados de uma amostra de 4 oobservações, as

estimativas de MQO para a função amostral serão:

iii eXY ˆˆˆ iii eXY ˆ29,171,2

Variância dos Estimadores - Exemplo

As estimativas das variâncias dos erros e dos estimadores de

MQO serão:

22

2

2

22ˆ 4165,01735,01429,0

21

5,4

4

1

ix

X

nS

2

2

22ˆ 0825,00068,0

21

1429,0ˆ

ixS

22

2 3780,01429,024

2857,0

2

ˆˆ

n

ei

H0: =0

H1: 0

Conhecendo os erros padrões e a fdp dos estimadores, temos que:

Aplicando a estatística de

teste tn–2

2t

0 52,6

0,011 0,011

a probabilidade de erro ao

afirmar que o intercepto é

significativo no modelo é de

0,2%

Teste de hipótese para 0:

H0: =0

H1: 0

Aplicando a estatística

de teste tn–2

2t

0 6,15

0,002 0,002

a probabilidade de erro ao

afirmar que a variável X é

significativa no modelo é de

0,4%

Teste de hipótese para 1:

42,0

71,20ˆ

ˆ

St

08,0

29,10ˆ

ˆ

St

Teste t- Exemplo

Análise de Variância

Y

Y

n

1i

2i )YY(SQReg ˆ

n

1i

2i )Y(YSTQ

n

1i

2i )iY(Y SQRes ˆ

Y

Quando X explica Y Quando X não explica Y

Maior Soma dos

Quadrados da

Regressão

Menor Soma dos

Quadrados da

Regressão

X

Y

X

Y^

Y^

Soma Total dos Quadrados (STQ)

Mensura a variabilidade total da variável dependente.

Soma dos Quadrados

n

ii

n

ii y)Y(YSTQ

1

2

1

2

Soma dos Quadrados da Regressão (SQReg)

Mensura a variabilidade da variável dependente explicada

pelo modelo.

n

i

ii

n

i

i

n

i

i yxx)YY(gSQ1

1

1

221

1

2 ˆˆˆRe

Soma dos Quadrados da Regressão (SQReg)

Mensura a variabilidade residual, não explicada pelo

modelo.

n

i

ii

n

i

i

n

i

i

n

i

ii yxye)Y(YsSQ1

1

1

2

1

2

1

2 ˆˆˆRe

Coeficiente de Determinação (R2):

Definição: Estima a proporção da variabilidade da

variável dependente (Y) que é explicada pela(s) variável(eis)

independente(s) do modelo de regressão.

1

Escala de R2:

independência

linearrelação

linear exata

Coeficiente de Determinação

n

ii

n

ii

n

ii

n

ii

n

ii

n

ii

y

x

y

e

)Y(Y

)YY(

STQ

gSQR

1

2

1

2

21

1

2

1

2

1

2

1

2

2 ˆˆ

1

ˆRe

0 A significância das escalas depende muito da

natureza da variável dependente

Análise de Variância

H0: 1=0 (o modelo não contribui)

H1: 10 (o modelo contribui)

Problema: O modelo contribui para explicar Y?

Sob a hipótese

de H0 ser

verdadeiro

temos...

2-n 1,F~2)-SQRes/(n

SQReg

F

p

Dados:

= nível de significância

SQReg = Soma dos Quadrados da Regressão

SQRes = Soma dos Quadrados dos Resíduos

n = número de observações 2-SQRes/n

SQRegF

Conclusão:

Rejeito H0 se valor p .

Análise de Variância

Tabela ANOVA (Analysis Of Variance)

Regressão

Resíduos

Total

FonteSoma dos

QuadradosGL

1

2-n

1-n

Quadrados

Médios

1

SQReg

2-n

SQRes

F

2)-SQRes/(n

SQReg/1F

Rejeito H0 quando valor p – prob (F > F1, n-2) - for menor que

nível de significância esperado ().

n

1i

2i )Y(YSTQ

n

1i

2i )YY(SQReg ˆ

n

1i

2ii )Y-(YSQRes ˆ