26
1 Prof. Lorí Viali, Dr. http://www.pucrs.br/famat/viali/ [email protected] Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística O modelo de regressão linear múltipla O modelo de regressão linear múltipla Introdução Introdução Definição e terminologia Definição e terminologia Interpretação Interpretação Estimação Estimação Interpretação revisitada Interpretação revisitada Qualidade do ajuste Qualidade do ajuste Propriedades estatísticas Propriedades estatísticas Regressão Linear Múltipla Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Definição Definição Maior Maior desvantagem desvantagem: Não Não é muito muito adequado adequado para para modelar modelar relações relações Ceteris Ceteris Paribus Paribus entre entre variáveis, variáveis, pois pois dificilmente dificilmente u + x β + β = y 1 0 0 = ) u E( = ) x | u E( Modelo odelo de de Regressão egressão Linear inear Simples imples Outros fatores relevantes permanecem fixos. Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Ajuda Ajuda a encontrar encontrar relações relações Ceteris Paribus entre entre variáveis variáveis; Melhora Melhora o ajuste ajuste ao ao dados dados; Maior Maior flexibilidade flexibilidade. Modelo odelo de de Regressão egressão Linear inear Múltipla últipla Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Sejam Sejam Y e X 1 , ... ..., X k – “k + 1” variáveis variáveis popula populacionais cionais. O objetivo objetivo é explicar explicar Y em em função função de de X 1 , ... ..., X k , isto isto é, como como Y se se altera altera se se uma uma ou ou todas todas as as variáveis variáveis X 1 , ... ..., X k se se alteram alteram. D efinição efinição efinição efinição efinição efinição efinição efinição e e e e e e e e T erminologia erminologia erminologia erminologia erminologia erminologia erminologia erminologia Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Como Como não não há há uma uma relação relação precisa precisa entre entre Y e X 1 , ... ..., X k , como como levar levar em em conta conta outros outros fatores fatores que que afetam afetam Y? Qual Qual a verdadeira verdadeira relação relação funcional funcional entre entre Y e X i , i = 1, 2, ... ..., k? Como Como capturar capturar uma uma relação relação ceteris ceteris paribus paribus entre entre Y e X i , i = 1, 2, ... ..., k (se (se este este for for o caso)? caso)? Problemas roblemas

Regressão Linear Múltipla - pucrs.br · Da mesma forma que na regressão linear simples os estimadores de mínimos quadrados dos coeficientes de regressão podem ser obtidos, minimizando

Embed Size (px)

Citation preview

11

Prof. Lorí Viali, Dr.http://www.pucrs.br/famat/viali/

[email protected] Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O modelo de regressão linear múltiplaO modelo de regressão linear múltipla

IntroduçãoIntrodução

Definição e terminologiaDefinição e terminologia

InterpretaçãoInterpretação

EstimaçãoEstimação

Interpretação revisitadaInterpretação revisitada

Qualidade do ajusteQualidade do ajuste

Propriedades estatísticasPropriedades estatísticas

Regressão Linear Múltipla

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

DefiniçãoDefinição

MaiorMaior desvantagemdesvantagem::

NãoNão éé muitomuito adequadoadequado parapara modelarmodelar

relaçõesrelações CeterisCeteris ParibusParibus entreentre variáveis,variáveis,

poispois dificilmentedificilmente

u+xβ+β=y 10

0=)uE(=)x|uE(

MModeloodelo dede RRegressão egressão LLinear inear SSimplesimplesOutrosfatores

relevantespermanecem

fixos.

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

AjudaAjuda aa encontrarencontrar relaçõesrelações Ceteris

Paribus entreentre variáveisvariáveis;;

MelhoraMelhora oo ajusteajuste aoao dadosdados;;

MaiorMaior flexibilidadeflexibilidade..

MModeloodelo dede RRegressão egressão LLinear inear MMúltiplaúltipla

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

SejamSejam YY ee XX11 ,,......,, XXkk –– ““kk ++ 11”” variáveisvariáveis

populapopulacionaiscionais..

OO objetivoobjetivo éé explicarexplicar YY emem funçãofunção dede

XX11 ,,......,, XXkk ,, istoisto éé,, comocomo YY sese alteraaltera sese umauma

ouou todastodas asas variáveisvariáveis XX11,, ......,, XXkk sese

alteramalteram..

DDDDDDDDefiniçãoefiniçãoefiniçãoefiniçãoefiniçãoefiniçãoefiniçãoefinição e e e e e e e e TTTTTTTTerminologiaerminologiaerminologiaerminologiaerminologiaerminologiaerminologiaerminologia

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

ComoComo nãonão háhá umauma relaçãorelação precisaprecisa entreentre YY ee

XX11 ,,......,, XXkk,, comocomo levarlevar emem contaconta outrosoutros fatoresfatores

queque afetamafetam YY??

QualQual aa verdadeiraverdadeira relaçãorelação funcionalfuncional entreentre YY ee

XXii,, ii == 11,, 22,, ......,, kk??

ComoComo capturarcapturar umauma relaçãorelação ceterisceteris paribusparibus

entreentre YY ee XXii,, ii == 11,, 22,, ......,, kk (se(se esteeste forfor oo caso)?caso)?

PProblemasroblemas

22

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

OO (MLRM)(MLRM) ModeloModelo LinearLinear dede

RegressãoRegressão MúltiplaMúltipla éé dadodado pelapela seguinteseguinte

equaçãoequação::

UXβXβXββY kk22110 +++++= L

O O O O O O O O MMMMMMMModeloodeloodeloodeloodeloodeloodeloodelo

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

YY:: variávelvariável dependente,dependente, variávelvariável explicada,explicada,

variávelvariável dede resposta,resposta, variávelvariável prevista,prevista,

regressando,regressando, saída,saída, efeitoefeito..

XXii:: variáveisvariáveis independentes,independentes, variáveisvariáveis

explicativas,explicativas, variáveisvariáveis dede controle,controle, preditorespreditores,,

regressoresregressores,, entradas,entradas, causascausas..

UU:: erro,erro, distúrbiodistúrbio ouou ruídoruído..

TTTTTTTTerminologiaerminologiaerminologiaerminologiaerminologiaerminologiaerminologiaerminologia

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

erros de medida;

forma funcional inadequada;

variabilidade inerente das variáveis

envolvidas;

outros fatores além de X1 ,..., Xk que afetam

a variável Y.

O termoO termo U U U U U U U U representa:representa:

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Média nulaMédia nula

E(U) = 0E(U) = 0

Média condicional Média condicional nulanula

E(U| XE(U| X1,1, XX2,2, ..., ..., XXkk) = E(U) = 0) = E(U) = 0

HHipótesesipóteses AAdicionais dicionais SSobre obre UUUUUUUU

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Para estimar os parâmetros

β0, β1,..., βk da equação de regressão

múltipla é necessário uma amostra da

população!

( ){ }n,,1=i:y,x,,x,x ikii2i1 KK

O Método dos Mínimos Quadrados

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Considere uma amostra aleatória de

tamanho nnnn da população.

Supondo que esta amostra satisfaça o

modelo pode-se escrever:

ikiki22i110i UXβXβXββY +++++= L

Onde a letra i refere-se a i-ésimaobservação.

33

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A descrição do modelo de regressão

múltipla é normalmente apresentado de

forma matricial.

A equação anterior pode ser escrita

como:UβXY +=

Onde:

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

=

=

=

=

U

...

U

U

U

β

...

β

β

β

X...XX

........... .

X...XX

X...XX

X

Y

...

Y

Y

Y

n

2

1

k

1

0

nk2n1n

k22221

k11211

n

2

1

(nx1)U kx1β (nxk)X )1nx(Y →→→→

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Note-se que cada linha da matriz X

representa um conjunto de valores das variações

independentes referentes a umaumaumauma observaçãoobservaçãoobservaçãoobservação, ao

passo cada coluna representa um conjunto de

valores de umaumaumauma variávelvariávelvariávelvariável independenteindependenteindependenteindependente nas nnnn

observações amostrais. A primeira coluna de X é

composta inteiramente de valores iguais a um.

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

As hipóteses vistas para a regressão linear

simples podem ser colocadas na forma

matricial da seguinte forma:

)Σ,0(N~U

Onde “0” é um vetor-coluna de zeros e Σ é

uma matriz nxn.

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Onde In é uma matriz-identidade

de ordem nxn, com unidades na

diagonal principal e zeros em todo o

resto.

Iσ n2Σ =

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Os elementos da matriz X são não

estocásticos com valores fixados em

amostras repetidas, e a matriz

((((1111/n)(X’X)/n)(X’X)/n)(X’X)/n)(X’X) é não singular e tal que, para

qualquer tamanho amostral, seus

elementos são finitos.

44

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Da mesma forma que na regressão linear

simples os estimadores de mínimos quadrados

dos coeficientes de regressão podem ser

obtidos, minimizando a soma dos quadrados

dos resíduos, isto é:

∑∑==

−−−−==n

1i

2kiki110i

n

1i

2i )XβXββY(UΦ L

Estimação dos Parâmetros

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

=

=

=

−−−−−=∂

−−−−−=∂

−−−−−=∂

n

1ikiki110iki

k

n

1ikiki110ii1

2

n

1ikiki110i

1

)XβXββY(X2Φ

.... ..........

)XβXββY(X2Φ

)XβXββY(2Φ

β

β

β

L

L

L

Diferenciando Φ em relação aos parâmetros de

regressão: β1, β2, ..., βk, tem-se:

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

∑∑∑∑

∑∑∑∑

∑∑∑

====

====

===

+++=

+++=

+++=

n

1i

2k

n

1ikii21

n

1iki0

n

1iki i

n

1ikii2k

n

1i

2i21

n

1ii20

n

1ii2 i

n

1ikik

n

1ii110

n

1ii

XYX

XYX

Y

kiβ...XXβXβ

.... ..........

XXβ...βXβ

Xβ...Xββn

Igualando cada derivada a zero e

reagrupando os termos, tem-se:

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

XXβXβ kk2 2110ββY −−−−= L

Para resolver as equações normais de

mínimos quadrados, escreve-se a primeira

equação da seguinte forma:

Onde:

Xn

1X e Y

n

1Y

n

1ikik

n

1ii ∑=∑=

==

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Estimação dos Parâmetros

Substituindo a equação anterior nas demais

equações, obtém-se após algumas simplificações:

kkk2k21k1Yk

k3k2231133Y

k2k2221122Y

βββ

... ... ... ...

βββ

βββ

mmmm

mmmm

mmmm

−−−=

−−−=

−−−=

L

L

L

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Onde:

( )( )

( )( )

K,..,2,1k,j

Y

n

1ikikjijjk

n

1ikkiiYk

XXXXm

XXYm

=

−−=

−−=

=

=

55

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Estimação dos Parâmetros

Estas equações podem ser resolvidas

para . A solução é simples,

porém trabalhosa. Se K = 2, isto é, para o

caso de duas variáveis, tem-se:

k21 β.., ,β ,β

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Estimação dos Parâmetros

mmmmmmmm

mmmmmmmm

mmmmmmmm

mmmmmmmm

12122211

121Y112Y

2212

1211

2Y12

1Y11

2

12122211

2Y12221Y

2212

1211

222Y

121Y

1

β

β

−==

−==

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

EExemplo xemplo UUmm

Considere os dados como sendo das

variáveis: Y = Quantidade vendida de um

produto, X1 = Preço do produto e X2 = Gasto

com a divulgação do produto. Determinar a

equação de regressão de Y em função de X1 e

de X2.

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Q (kg) Preço (R$) Investimento (R$ mil)5555 100100 550550

7070 9090 6306309090 8080 720720

100100 7070 7007009090 7070 625625

105105 7070 7357358080 7070 560560

110110 6565 715715125125 6060 750750115115 6060 690690130130 5555 715715130130 5050 650650

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Y X1 X2 Y2 Y X1 YX2 X1 X2

5555 100100 550550

7070 9090 630630

9090 8080 720720

100100 7070 700700

9090 7070 625625

105105 7070 735735

8080 7070 560560

110110 6565 715715

125125 6060 750750

115115 6060 690690

130130 5555 715715

130130 5050 650650

X 21 X 2

2

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Onde:

6300

75,125

3550

m m m

YY

2Y

Y1

=

=

−=

670

70

100Y

X

X

2

1

=

=

=

5400

49000

2502

m m m

12

22

11

−=

=

=

66

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Então:

1578,1161125,070).3077,1(100

1125,0)(49000.2250

)3550).(5400(75,125.2250

3077,1)(49000.2250

75,125).5400(49000.3550

β

5400β

5400β

0

22

21

=−−−=

=−

−−−=

−=−

−−−=

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Assim a equação procurada, será:

XX 21 11,01,31-116,16Y +=

Desta forma, uma redução de R$10 no preço

do produto, sem investimento em publicidade,

aumentaria as vendas em em aproximadamente 13

kg. Um aumento na publicidade de 100 mil, sem

alteração no preço, aumenta as vendas em 11 kg.

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

EExercício xercício UUm (Gujarati m (Gujarati –– 7.18)7.18)

A tabela apresenta dados sobre o produto brutoreal, trabalho e capital real no setor industrial deTaiwan.

(a) Ajuste os seguintes modelos aos dados da

tabela:

UXlnαXlnααYln 'tt22t110t +++=

UY tt22t110t XβXββ +++=

(b) Qual modelo oferece melhor ajuste e porquê?

Ano Y X1 X219581958 8911,48911,4 281,5281,5 120753120753

19591959 10873,210873,2 284,4284,4 122242122242

19601960 11132,511132,5 289,0289,0 125263125263

19611961 12086,512086,5 375,8375,8 128539128539

19621962 12767,512767,5 375,2375,2 131427131427

19631963 16347,116347,1 402,5402,5 13426713426719641964 19542,719542,7 478,0478,0 139038139038

19651965 21075,921075,9 553,4553,4 14645014645019661966 23052,023052,0 616,7616,7 153714153714

19671967 26128,226128,2 695,7695,7 164783164783

19681968 29563,729563,7 790,3790,3 17686417686419691969 33376,633376,6 816,0816,0 188146188146

19701970 38354,338354,3 848,4848,4 205841205841

19711971 46868,346868,3 873,1873,1 221748221748

19721972 54308,054308,0 999,2999,2 239715239715

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

EExercício xercício UUm (Gujarati m (Gujarati –– 7.18)7.18)

Onde

Y = Produto Bruto real (em milhões de NT $*)

X1 = Trabalho (por mil pessoas)

X2 = Capital Real (em milhões deNT $)

(*) Dólares Novos de TaiwanFonte: Thomas Pei-Fan Chen”, “Economic Growth and Structural

Change in Taiwan - 1952/1972, A Production Function Approach”, tese de

doutorado não-publicada, Departamento de Economia, Centro de

Graduação, City University of New York, Junho de 1976, Tabela II.

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

SSoluçãoolução dodo EExercício xercício UUm (Gujarati m (Gujarati –– 7.18)7.18)

77

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Forma Matricial

As equações normais do método dos

mínimos quadrados podem (e devem) ser

apresentadas em notação matricial, daseguinte forma:

β)X'X(Y'X =

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Onde:

β

...

β

β

β

XX...XXX

............

XX...XXX

X...Xn

XX'

YX

...

YX

Y

Y'X

k

1

0

ikik2i ikik

ik2i2i2i1i

ik2i

ik i

1i i

i

=

=

=

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

AA SSoluçãoolução

)Y'X(β )X'X( 1−=

A solução para será, então:β

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

EExemploxemplo DDoisois

Considere os dados como sendo de três

variáveis, sendo uma dependente Y e duas

independentes X1 e X2. Determinar a

equação de regressão de Y em função de X1

e de X2.

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Y X1 X2

33 22 1122 33 5544 55 3355 77 6688 88 77

ii22110i UXβXββY +++=

O modelo para este caso será dado por:

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

EY

EY

EY

EY

EY

52105

42104

32103

22102

12101

β7β.8β.18

β.6β.7β.15

β.3β.5β.14

β.5β.3β.12

β.1β.2β.13

+++==

+++==

+++==

+++==

+++==

Substituindo os valores temos:

88

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

As equações podem ser expressas de

forma matricial, fazendo:

=

8

5

4

2

3

Y

=

781

671

351

531

121

X

=

β

β

β

2

1

0

β

=

eeeee

5

4

3

2

1

E

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Tem-se, então:

+

=

=

eeeee

β

β

β

5

4

3

2

1

2

1

0

781

671

351

531

121

8

5

4

2

3

y

A forma matricial é, então: y = βx + e

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A solução é dada por: Xy)XX( '' 1β

−=

Assim, para os valores dados, tem-se:

=

8

5

4

2

3

76351

87532

11111

β

781

671

351

531

121

76351

87532

11111

1

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Resolvendo por partes:

=

12013022

13015125

22255

XX '

=

111

131

22

yX '

−−

−−

−−

=−

13010072

100116140

721401220

1016

1)XX( ' 1

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Os coeficientes serão:

=

−−

−−

−−

=

25,0

00,1

50,0

111

131

22

13010072

100116140

721401220

1016

A equação de regressão, será:

21iX.25,0X50,0Y −+=

YYE iii −=

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

)YY()YY(YY iiii −−−=−

Na ANOVA a variabilidade entorno damédia geral é decomposta em variabilidadedentro e entre tratamentos. Na Análise deRegressão a variabilidade total é decompostaem variabilidade sobre a regressão (Explicada)e variabilidade devido a regressão (Não-Explicada). Para mostrar esta decomposiçãovamos partir da seguinte identidade:

Qualidade do Ajuste

99

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

)]YY()YY([)YY(ii

2

ii2 −−−=−

Elevando os dois lados ao quadrado, tem-se:

∑ −∑ −=−==

∑=

+n

1ii

2n

1iii

2n

1ii

2)YY()YY()YY(

Manipulando algebricamente, tem-se:

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

∑ −===

n

1i

2i )YY(SQTVT

SQT (Soma dos Quadrados Total )

(TSS = Total Sum of Squares)

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

∑ −===

n

1i

2i )YY(SQEVE

SQE (SSSSoma dos QQQQuadrados EEEExplicados ou Ajustados)

(ESS = Explained Sum of Squares)

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

∑ −=∑====

n

1i

2n

1i

2i )YY(ESQRVR ii

SSR (SSSSoma dos QQQQuadrados dos RRRResíduos)

(RSS = Residual Sum of Squares)

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

∑ −∑ −=−==

∑=

+n

1ii

2n

1iii

2n

1ii

2)YY()YY()YY(

Assim:

SQT = SQR + SQE

n -1 = (n - k - 1) + kG.L.

Assim, a tabela da ANOVA para aAnálise de Regressão, fica:

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

FonteFonte Soma dos Soma dos QuadradosQuadrados

GLGL Média dos Média dos QuadradosQuadrados

FF

RegressãoRegressão SQESQE kk MQE=SQE/kMQE=SQE/k

Resíduo Resíduo (Erro)(Erro)

SQRSQRn n –– k k -- 11

MQS = MQS = SQR/SQR/

(n (n –– k k –– 1)1)MQE/MQSMQE/MQS

1010

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

SQT

SQR1

SQT

SQER 2 −==

( )( )

( ) ( )

∑ −

∑ −

∑ −−

=

==

=

n

1i

2

i

n

1i

2

i

2n

1iii

2

YYYY

YYYYR

ComoComo nana regressãoregressão simplessimples podepode--sesedefinirdefinir oo coeficientecoeficiente dede determinaçãodeterminação ouou RR22

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

R2 é uma função não decrescente do

número de regressores. Conforme aumenta o

número de variáveis explicativas R2

geralmente também aumenta. Para verificar

isto, basta lembrar que:

VT

VR1

VT

VER 2 −==

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Então é

independente do número de variáveis Xno modelo.

( )

( ) ( )∑ −

∑−=

∑ −

∑ −−=

=

=

=

=n

1i

2

i

n

1i

2i

n

1i

2

i

n

1i

2

2

YY

E1

YY

YY1R

ii

( )∑ −==

n

1i

2

i YYVT

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Mas

depende do número de variáveis

independentes existentes no modelo.

Assim, pelo menos intuitivamente, a

medida que aumenta o número de variáveis

X, VR deve diminuir ou não aumentar.

( )∑ −=∑===

n

1i

2n

1i

2i ii YYEVR

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Assim R2, conforme definido irá

aumentar. Desta forma ao se comparar dois

modelos de regressão com a mesma variável

dependente mas diferente número de variáveis

independentes, deve-se ter cautela na

interpretação de R2.

1111

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Assim para comparar dois modelos com

números diferentes de variáveis explicativas é

conveniente levar em conta esta diferença.

Para fazer isto define-se um coeficiente de

determinação alternativo, denominado de R2

ajustado, da seguinte forma:

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

)1n/(VT

)kn/(VR1R

2

−−=

Onde k = número de parâmetros do

modelo incluindo o intercepto. Esta medida é

ajustada para o número de g.l. associados às

variações que fazem parte do seu cálculo.

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Ou ainda:

( )

( )

( )

( )∑ −−

∑ −−−=

∑ −

∑ −

−=

=

=

=

=

n

1i

2

i

n

1i

2

n

1i

2

i

n

1i

2

2

YY)kn(

YY)1n(1

1n

YY

kn

YY

1Rii

ii

S

σ1R

2Y

22 −=

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Onde o numerador é a variância residual,

isto é, uma estimativa dos termos erro e o

denominador a variância da variável Y.

2R pode ser determinado a partir de R2 da

seguinte forma:

1n

knR 2R 2

−=

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Desta forma se existir apenas uma variável

explicativa os dois coeficientes são iguais. A

partir de k = 2, o coeficiente ajustado será

sempre menor do que o coeficiente não ajustado.

Observe que se R2 = 1, então também será

um e se R2 = 0, poderá ser menor do que 1

se k > 1.

2R2R

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

1212

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

NãoNão--TendenciosidadeTendenciosidade

Os estimadores de mínimos quadrados

ordinários da regressão linear múltipla são

não-tendenciosos, isto é:

kk

22

11

00

β)βE(

...

β)βE(

β)βE(

β)βE(

=

=

=

=

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Variância dos EstimadoresVariância dos Estimadores

Três fatores influenciam a variância dos Três fatores influenciam a variância dos

estimadoresestimadores

Variância do erroVariância do erro

Variação de XVariação de Xii

GrauGrau dede relaçãorelação linearlinear entreentre asas

variáveisvariáveis explicativasexplicativas

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

TeoremaTeorema 33:: sobsob asas hipótesehipótese jájá mencionadas,mencionadas,temtem--sese::

)1kn(

SQRE

)1kn(

n

1i

2i

22 S−−

=−−

== ∑=

22 σ)σE( =

Como estimar Como estimar σσ22??

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Variância dos EstimadoresVariância dos Estimadores

AA variânciavariância dosdos estimadoresestimadores ββ jj éé dadadada

porpor::

)R1(SST

σ)βVar(

2jj

2

j−

=

∑=

−=n

1i

2jjij )XX(SST

=

=

==n

1i

2jji

n

1i

2jji

j

j2j

)XX(

)XX(

SST

SSER

ondeonde

ee

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Teorema de GaussTeorema de Gauss--MarkovMarkov

Sob as hipóteses (H1) - (H5) os estimadores

de MQO são BLUE (Best Linear Unbiased

Estimators), isto é, são os melhores

estimadores, no sentido de possuírem menor

variância (maior eficiência), dentro da classe

dos estimadores lineares e não-viesados..

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Todos os estimadores

Estimadores linearesEstimadores não-tendenciosos

MQO

1313

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Inferência em modelos de regressão linear múltipla.

Distribuição dos estimadores de MQO;

Testes de hipóteses sobre um único parâmetro:

o teste t;

Intervalos de confiança;

Testando restrições lineares nos parâmetros: o

teste F.

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Sob as hipóteses (H1) - (H6) econdicionalmente nos valores observados dasvariáveis independentes.

( ))β,Var(βN~β jjj

( )1,0N~)βVar(

ββ

j

jj −LogoLogo

Teorema Teorema

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Testes de Hipóteses Sobre um Único ParâmetroTestes de Hipóteses Sobre um Único Parâmetro

HipótesesHipóteses sobresobre oo parâmetroparâmetro bjbj podempodem serser

testadastestadas porpor::

UXβXβXββY kk22110 +++++= L

1knβ

jj tσ

ββ

j

−−=−

ConsidereConsidere oo modelomodelo

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

IntervalosIntervalos dede ConfiançaConfiança

σtβ βj

1knj ⋅± −−

Da mesma forma podem ser criados

intervalos de confiança para os parâmetros

estimados, através das seguintes expressões:

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Testando Hipóteses Sobre uma Testando Hipóteses Sobre uma

Combinação Linear de ParâmetrosCombinação Linear de Parâmetros

ConsidereConsidere aa regressão,regressão, abaixo,abaixo, ondeonde salsal éésalario,salario, secsec éé oo númeronúmero dede anosanos emem escolaescolasecundária,secundária, uniuni éé oo númeronúmero dede anosanos nanauniversidadeuniversidade ee expexp éé oo númeronúmero dede anosanos dedeexperiênciaexperiência profissionalprofissional..

Uexpβuniβsecββ)sallog( 3210 ++++=

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

SeSe quisermosquisermos verificarverificar sese umum anoano aa maismais dede

escolaescola secundáriasecundária equivaleequivale aa umum anoano adicionaladicional

nana universidade,universidade, qualqual hipótesehipótese deveriadeveria sersertestada?testada?

HH00:: ββ11 == ββ22

ComoComo testartestar HH00??

1414

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

RedefinaRedefina HH00 dada seguinteseguinte formaforma::

HH00:: β11 -- ββ22 == 00

σ21 ββ

211kn

ββt

−−−

−=

A estatística do teste será:A estatística do teste será:

SoluçãoSolução

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

)β,βCov(2)βV()βV()ββV( 212121 −+=−

OO erroerro padrãopadrão dada diferençadiferença dosdos doisdois

estimadores,estimadores, seráserá::

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

ConsistênciaConsistência dosdos estimadoresestimadores

NormalidadeNormalidade assintóticaassintótica

Propriedades assintóticasPropriedades assintóticas

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

AtéAté oo momentomomento foramforam estudadasestudadas asaspropriedadespropriedades emem amostrasamostras pequenaspequenas dosdos estimadoresestimadoresdede mínimosmínimos quadradosquadrados..

PorPor exemplo,exemplo, aa propriedadepropriedade dede nãonão--tendenciosidadetendenciosidade dosdos estimadoresestimadores dede MQOMQO valevale paraparaqualquerqualquer tamanhotamanho dede amostraamostra..

EstasEstas propriedadespropriedades sãosão conhecidasconhecidas comocomo

propriedadespropriedades exatasexatas dosdos estimadoresestimadores..

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

OO próximopróximo passopasso éé estudarestudar quaisquais sãosão asas

propriedadespropriedades dosdos estimadoresestimadores dede MQOMQO quandoquando

oo tamanhotamanho dada amostraamostra crescecresce..

EstasEstas propriedadespropriedades sãosão conhecidadasconhecidadas comocomo

propriedadespropriedades assintóticasassintóticas..

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

ConsistênciaConsistência

RelembrandoRelembrando queque sobsob asas hipóteseshipóteses dede

GaussGauss--MarkovMarkov

ParaPara cadacada tamanhotamanho dede amostraamostra n,n, oo

estimadorestimador possuipossui umauma distribuiçãodistribuição dede

probabilidadeprobabilidade..

jj β]βE[ =

1515

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

ConsistênciaConsistência

ComoComo oo estimadorestimador éé nãonão--tendenciosotendencioso,, aa

médiamédia dede cadacada distribuiçãodistribuição éé simplesmentesimplesmente

ββjj..

SeSe oo estimadorestimador forfor consistente,consistente, aa medidamedida

queque nn crescecresce aa distribuiçãodistribuição ficafica maismais

concentradaconcentrada emem tornotorno dada médiamédia..

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Seja um estimador do parâmetro β j

para uma amostra de tamanho n. será um

estimador consistente se, para um número ε

qualquer:

^

0)ε|ββPr(|lim jjn

=>−∞→

Definição

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

^^

TeoremaTeoremaTeoremaTeorema:::: sob as hipóteses (H1) - (H4),

os estimadores de mínimos quadrados

ordinários são consistentes.

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Normalidade

TeoremaTeorema:: sobsob asas hipóteseshipóteses dede GaussGauss--

MarkovMarkov (H(H11 aa HH55)) osos estimadoresestimadores dede MQOMQO

sãosão assintoticamenteassintoticamente normaisnormais ondeonde::

= ∑

=∞→

n

1i

2ij

n

2j r

n

1plima

( ) ( )1,0Nβse

ββn

D

j

jj→

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

ParaPara osos parâmetrosparâmetros dede inclinaçãoinclinação

ss22 éé umum estimadorestimador consistenteconsistente dede

σσ22 == V(UV(Ujj),), parapara todotodo jj

→− 2

j

2D

jja

σ ,0N )ββ(n

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O que acontece quando variáveis

irrelevantes são incluídas no modelo?

Considere que o modelo abaixo tenha

sido especificado.

UXβXβXββY 3322110 ++++=

1616

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Considere ainda que o efeito de X3 em Y,após a inclusão de X1 e X2 no modelo, sejanulo. Isto é:

2211021

213213

xβxββ)x,x|yE(

)x,x|yE()x,x,x|yE(0β

++=

=⇒=

Mas na prática não se sabe a priori queβ3= 0. O que acontecerá com os estimadores?

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

OO queque aconteceacontece quandoquando variáveisvariáveis

relevantesrelevantes nãonão sãosão incluídasincluídas nono modelo?modelo?

OsOs estimadoresestimadores serãoserão viesadosviesados

(tendenciosos)(tendenciosos)..

OO viésviés éé geralmentegeralmente chamadochamado dede viésviés dede

variáveisvariáveis omitidasomitidas..

UXβXββY 22110 +++=

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

ConsidereConsidere oo seguinteseguinte modelomodelo populacionalpopulacional::

Agora,Agora, suponhasuponha queque nono modelomodelo estimadoestimado aa

variávelvariável XX22 nãonão foifoi incluídaincluída..

( )

( )∑

=

=

=

+=

n

1i

21i1

n

1ii1i1

1

110

XX

YXX

β~

Xβ~

β~

Y~

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Nem sempre se quer testar os coeficientes

individuais da regressão. Pode ser necessário e é

conveniente testar o modelo como um todo, isto é

testar se:0β...ββ:H k320 ====

Este caso pode ser tratado através da análise

de variância (ANOVA).

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O modelo de Regressão Múltipla Geral é

dado por:

0β...ββ:H k320 ====

Yi = β1 + β2X1i + β3X2i + …+βkXki + Ui

Para testar a hipótese nula de que:

1717

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Isto é, todos os coeficientes são nulos,

contra a alternativa de que nem todos são

simultaneamente nulos, determina-se:

)kn/(SQR

)1k/(SQEF

−=

A expressão tem uma distribuição F com

k - 1 e n - k graus de liberdade.Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

)kn/()R1(

)1k/(R

)R1)(1k(

R)kn(

)]SQT/SQE(1)[1k(

)SQT/SQE)(kn(

)SQESQT)(1k(

SQE)kn(

SQR)1k(

SQE)kn(

)kn/(SQR

)1k/(SQEF

2

2

2

2

−−

−=

−−

−=

=−−

−=

=−−

−=

=−

−=

−=

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

∑ −=∑====

n

1i

2n

1i

2i )YY(ESQRVR ii

SSR (SSSSoma dos QQQQuadrados dos RRRResíduos)

(RSS = Residual Sum of Squares)

Onde:

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

∑ −===

n

1i

2)YY(SQEVE i

SQE (SSSSoma dos QQQQuadrados EEEExplicados)

(ESS = Explained Sum of Squares)

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

∑ −∑ −=−==

∑=

+n

1ii

2n

1iii

2n

1ii

2)YY()YY()YY(

e:

SQT = SQR + SQE

n -1 = (n - k - 1) + kG.L.

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O resultado anterior mostra que F e R2

variam diretamente. Assim se R2 = 0, então F é

zero. Quanto maior o valor de R2 maior será o

valor de F. Desta forma o teste F que é de

ajuste do modelo também testa a significância

do coeficiente de determinação.

1818

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A decisão entre um modelo linear ou um

modelo log-linear (o lagaritmo do regressor é

uma função dos logaritmos dos regressores) éuma questão básica na análise empírica. Para

testar:

H0: Modelo Linear;

H1: Modelo Log-Linear.

Pode-se utilizar o teste MWD.

Decidindo entre modelos competitivos

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O teste MWD foi proposto por

MacKinnon, White e Davidson e envolve as

seguintes etapas:

Estimar o modelo linear e determinar osvalores ;

Estimar o modelo log-linear e obter os

valores ;

Y

^Yln

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Obtenha Z1 = ;

Fazer uma regressão de Y sobre os valores de X e Zotidos como acima. Rejeitar H0 se o coeficiente de Z1 forestatisticamente significativo através do teste ttradicional;

Obter Z2 =

Regredir o ln de Y sobre os logaritmos de Xs e Z2.Rejeitar H1 se o coeficiente de Z2 for significativo peloteste t.

Yln^

Yln −

)Ylnanti( Yln^ )

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O modelo clássico de Regressão Linear é baseado

em um conjunto de hipóteses simplificadoras:

É linear nos parâmetros;

Os regressores Xi são fixos em amostragens

repetidas;

A expectância dos Ui é zero;

A variância de Ui é constante e homocedástica.

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Se Ui não são autocorrelacionados;

Se os Xi são aleatórios eles são

independentes ou não-correlacionados com Ui;O número de observações (n) deve ser maior

que o número de regressoes (k);

Não há relação linear entre os regressoes,

isto é, multicolinearidade;Os termos Ui são normais.

1919

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Três questões devem ser respondidas:

Qual o desvio mínimo em relação a uma

hipótese, para que isto faça diferença?

Como verificar se uma hipótese foi, de fato,violada, numa situação específica?

Que correção adotar quando uma ou mais

hipóteses não forem verdadeiras?

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O termo multicolinearidade foi cunhado por

Ragnar Frisch na obra “Statistical Confluence

Analysis by Means of Complete Regression

Systems” do Instituto de Economia da

Universidade de Oslo que foi publicada em 1934.

O termo significa a existência de uma relação

“perfeita” linear entre algumas ou todas as

variáveis explicativas do modelo.

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Assim para uma regressão que envolva “k”variáveis explicativas: X1, X2, …, Xk, diremos queexiste uma relação linear exata se:

λ1X1 + λ2X2 + λkXk = 0

Onde λ1, λ2, …, λk são constantes não

simultaneamente nulos.

A idéia de multicolinearidade inclui ainda:

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

λ1X1 + λ2X2 + λkXk + Vi = 0

Onde o termo Vi é estocástico.

O termo multicolinear como definido inclui

apenas relacionamento linear mas isto não exclui

outras relações como por exemplo: X2 = X1.X1

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A existência da multicolinearidade

pefeita torna os coeficientes da regressão

indeterminados e seus erros padrãoinfinitamente grandes. Se a

multicolinearidade não for alta (não perfeita)

os coeficientes de regressão poderão ser

determinados mas os erros padrão serãograndes.

2020

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Se as hipóteses do modelo são satisfeitas os

estimadores de MQO dos coeficientes da

regressão são MELNV. Pode-se mostrar quemesmo que as variáveis sejam altamente

colineares os MQO ainda mantém a

propriedade MELNV. Assim as conseqüências

práticas podem ser:

Conseqüências da multicolinearidade

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

As estimativas apresentarem grandes

variâncias e como resultante ter-se-á:

Intevalos de confiança maiores;

Alguns coeficientes podem ser nãosignificativos;

O R2 ainda ser alto, mesmo com coeficientes

não significativos.

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Este é um fenômeno essencialmente

amostral, conseqüência decorrente em boa parte

de dados não-experimentais coletados na

maioria das Ciências Sociais. A seguir algumas

regras práticas para detectar sua presença:

Percepção da multicolinearidade

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Um R2 alto com poucos regressores

significativos;

Altas correlações dois a dois entre os

regresssores;

Índice de Condição (IC)

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O número de condição “k” é definido

como:

Mínimo Autovalor

Máximo Autovalork =

Índice de CondiçãoÍndice de Condição

kMínimo Autovalor

Máximo AutovalorIC ==

O Índice de Condição (IC) é definido,então, como:

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Pode-se adotar, então, a seguinte regra

empírica. Se k estiver entre 100 e 1000 existe

multicolinearidade de moderada a forte. Se

estiver acima de 1000 a multicolinearidade é

grave. Da mesma pode-se utilizar o IC. Se ele

estiver entre 10 e 30 colinearidade moderada a

forte e acima de 30 grave.

2121

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Uma hipótese importante do modelo

clássico de regressão linear é a de que a

variância de cada termo residual (Ui) é

constante e igual a σ2.

Homo (igual) scedasticidade (dispersão) ,

oun ..., 2, 1, i σ)U(E 22

i ==

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

σ)x/Y(V 2i =

Alternativamente a homoscedasticidade

pode ser expressa por:

A heteroscedasticidade é, então dada por:

σ)x/Y(V 2ii =

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Alguns causas da heteroscedasticidade

podem ser:

Situações de aprendizagem e erro;

Aumento de renda com aumento da liberdadede escolha de como dispor a renda;

Melhora nas técnicas de coleta de dados,

menos erros, menor variabilidade;

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A heteroscedasticidade é mais comum

quando os dados são provenientes de cortes de

séries temporais. OO queque aconteceacontece comcom osos

estimadoresestimadores dosdos MQOMQO ee comcom suassuas variânciasvariâncias nana

presençapresença dede heteroscedasticidadeheteroscedasticidade??

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Vamos supor o modelo de Regressão

Linear Simples: Yi = α + βXi + Ui e que:

A inclinação da linha de regressão é dada

por:

σ)U(E 2i

2i =

∑ −

∑ −==

XnX

YXnXY

S

Sb

22XX

XY

2222

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Neste caso, a variância do estimador será

dada por:

∑ −

∑ −=

])XX([

σ)XX()b(V

i2 2

2ii

2

Se σσ 22i = , então a expressão acima

ficará reduzida ao caso usual.

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Neste caso o estimador MQO continua

linear e não tendencioso, mas não será mais

de variância mínima.

EleEle nãonão éé eficienteeficiente,, poispois nãonão levaleva ememconsideraçãoconsideração aa informaçãoinformação dede queque parapara cadacada xx

aa variânciavariância dede YY éé diferentediferente.. ParaPara obterobter umum

estimadorestimador eficienteeficiente éé precisopreciso fazerfazer usouso dodo

métodométodo dosdos MQGMQG..

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O MQO não leva em conta as diferentes

variabilidades dos resíduos, conferindo a

mesma importância para cada observação. O

MQG leva em conta explicitamente tal

informação e por isto é capaz de produzir

estimadores eficientes na presença de

heteroscedasticidade.

MQGMQG (Mínimos(Mínimos QuadradosQuadrados Generalizados)Generalizados)

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Como saber se existe heteroscedasticidade

nos dados? Não existe um método seguro com

valores amostrais. Como, em geral, só existe

um Y para cada X, dectetar a presença de

heroscedasticidade não é simples.

A maioria dos métodos se baseia no exame

dos resíduos.

DetectandoDetectando aa HeterocedasticidadeHeterocedasticidade

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Teste de Park;

Teste de Glejser;

Teste de Spearman de correlação da ordem;

Teste de Goldfeld-Quandt;

Teste de Breusch-Pagan-Godfrey;

Teste Geral de Heteroscedasticidade deWhite;

TestesTestes formaisformais

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

As medidas corretivas devem levar em

conta as duas seguintes situações:

Quando as variabilidades resíduais forem

conhecidas e

Quando elas não forem conhecidas.

MedidasMedidas CorretivasCorretivas

2323

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Se as variabilidades residuais

forem conhecidas então deve-se

utilizar o Método dos Mínimos

Quadrados Generalizados ou

Ponderados, onde a ponderação é

dada por:

σ

1w 2

ii =

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Se as variabilidades residuais não forem

conhecidas pode-se adotar os seguintes

procedimentos:

Variâncias e erros-padrão consistentes em

heteroscedasticidade segundo White;

Hipóteses plausíveis a respeito do padrão de

heteroscedasticidade;

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Uma hipótese importante do modelo

clássico de regressão linear é a de que não

existe autocorrelação ou correlação serial entre

os resíduos Ui.

No entanto, a correlação pode ocorrer,

então deve-se responder:

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Qual a sua natureza?

Quais as conseqüências teóricas e

práticas?

Como corrigir o problema quando ele

ocorre?

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O termo autocorrelação pode ser entendidocomo a “correlação entre os termos de observaçõesno tempo” [séries temporais} ou “espaciais” [dados

de corte].

No modelo clássico a suposição é de que:

E(UiUj) = 0 se i ≠ j

Isto é, um dado resíduo “i” não é influenciado

por um outro dado resíduo “j”.

AA NaturezaNatureza

2424

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Inércia ou rigidez. Séries como PNB,

Índices de Preços, Produção, Emprego e

Desemprego são cíclicas;

Viés de especificação: variáveis excluídas.

Viés de especificação: forma funcional

incorreta;

Fenômeno da Teia de Aranha.

CausasCausas dada AutocorrelaçãoAutocorrelação

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A oferta de produtos agrícolas reflete um

fenômeno denominado de Teia de Aranha, em

que a oferta reage ao preço como uma

defasagem de um período de tempo, pois as

decisões relativas à oferta levam um certo

tempo para serem implementadas.

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Defasagens. Em uma regressão de série temporal

do consumo sobre a renda, não é raro verificar

que o consumo no período corrente depende,

entre outras coisas, do consumo no período

anterior;

Manipulações de dados. Dados trimestrais

agregados de médias de dados mensais;

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O que ocorre com os estimadores de MQO

se E(UiUj) ≠ 0 (para i ≠ j) e as demais

hipóteses forem mantidas?

Neste caso os estimadores, a exemplo, do

caso heteroscedástico, são ainda lineares e não

tendeciosos.

EstimativasEstimativas porpor MQOMQO comcom AutocorrelaçãoAutocorrelação

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

No entanto sua variância será afetada.

Neste caso eles não mais terão variância

mínima, isto é, eles não serão eficientes.

Aqui, também, a exemplo da

heteroscedasticidade pode-se encontrar um

estimador que seja eficiente.

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Para isto será necessário utilizar

MQG – Mínimos Quadrados

Generalizados, que incorpora qualquer

informação adicional que tivermos através

da transformação das variáveis.

2525

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A autocorrelação é um problema

potencialmente sério e medidas corretivas

devem ser tomadas. Entretanto,

inicialmente, é necessário, verificar se ela

existe. Alguns testes para detectar a

autocorrelação.

DetectandoDetectando aa AutocorrelaçãoAutocorrelação

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Método Gráfico. Representar

graficamente os resíduos (Ut) e os

resíduos padronizados (Ut/s);

Teste das carreiras ou de Geary.

O teste d de Durbin-Watson

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Quando a estrutura da autocorrelação

é conhecida utilizar a transformação de

Prais-Winsten e a Equação de Diferença

Generalizada ou de Quase-Diferença.

MedidasMedidas CorretivasCorretivas

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Quando o autocorrelação não é conhecida.

Embora simples de aplicar a regressão de

diferença generalizada é geralmente difícil de

rodar, pois, na prática, poucas vezes se

conhece o valor de ρ. Por isto foram criados

métodos alternativos.

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Método da primeira diferença. Para

aplicá-lo é necessário fazer o teste de

Berenblutt-Webb de que ρ = 1.

O processo iterativo de Cochrane-

Orcutt para estimar ρ.

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O método de Cochrane-Orcutt em duas

etapas. É uma versão abreviada do

processo iterativo.

Método de Durbin em duas etapas

para estimar ρ.

2626

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

PARK, R. E. Estimation with Heteroscedastic Error

Terms. Econometrica. v. 34, n. 34, Out de 1966. p.

888.

GLEJSER, H. A New Test for Heteroscedasticity.

Journal of the American Statistical Association. v.

64, 1969. p. 316-23.

GOLDFELD, S. M., QUANDT, R. E. Nonlinear

Methods of Econometrics. Amesterdã: North-

Holland, 1972.

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

BREUSCH, T., PAGAN, A. A Simple Test for

Heteroscedasticity and Random Coefficient

Variation. Econometrica. v. 47, 1979. p. 1287-94.

GODFREY, L. Testing for Multiplicative

Heteroscedasticity. Jornal of Econometrics. v. 8,

1978. p. 227-36.

WHITE, H. A Heteroscedasticity Consistent

Covariance Matrix Estimator and a Direct Test of

Heteroscedasticity. Econometrica. v. 48, 1980. p. 817-

18.

Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

GEARY, R. C. Relative Efficiency of Count of Sign

Changes for Assessing Residual Autoregression in Least

Squares Regression. Biometrika, v. 57, 1970. P. 123-27.

DURBIN, J., WATSON, G. S. Testing for Serial

Correlation in Least-Squares Regression. Biometrika. v.

38, 1951. p. 159-71.

BERENBLUTT, I. I., WEBB, G. I. A New Test for

Autocorrelated Errors in the Linear Regression Model.

Journal of the Royal Statistical Society. Série B, v. 35,

n. 1, 1973. P. 33-50.Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

COCHRANE, D. ORCUTT, G. H. Application of Least

Squares Regressions to Relationships Containing

Autocorrelated Error Terms. Journal of the Royal

Statistical Society. v . 44, 1949. P. 32-61.

DURBIN, J. Estimation of Parameters in Time-Series

Regression Models. Journal of the Royal Statistical

Society. Série B. v. 22, 1960. p. 139-153.