Introdu§£o aos modelos de regress£o mltipla e ... cnaber/aula_Intro_MRLM_REG_2S_2014.pdf  an

  • View
    214

  • Download
    0

Embed Size (px)

Text of Introdu§£o aos modelos de regress£o mltipla e ......

Introducao aos modelos de regressao multipla e

analise de dados: parte 1

Prof. Caio Azevedo

Prof. Caio Azevedo

Introducao aos modelos de regressao multipla e analise de dados: parte 1

Ajuste de modelos de regressao linear simples normais

homocedasticos no R

Funcao lm.

Comando geral lm(y x1), y: variavel resposta, x1: variavel

explicativa.

Modelo sem intercepto lm(y 1 + x1), y: variavel resposta, x1:

variavel explicativa.

Prof. Caio Azevedo

Introducao aos modelos de regressao multipla e analise de dados: parte 1

Exemplo 1: sem considerar as etiologias cardacas

Yi = 0 + 1xi + i

Parametro Estimativa EP IC(95%) Estat. t p-valor

0 6,563 0,356 [5,859 ; 7,268] 18,434

Exemplo 1: sem considerar as etiologias cardacas

Yi = 0 + 1xi + i (cont.)

O consumo de oxigenio para pacientes submetidos a carga 0 tende a

se apresentar entre 5,859 e 7,268 ml/(kg.min).

Por outro lado, o aumento esperado no consumo para o aumento em

uma unidade da carga tende a se apresentar entre 0,072 e 0,100

ml/(kg.min).

A etapa de verificacao de qualidade de ajuste do modelo, que

deve preceder a sua utilizacao para fins inferenciais, sera

discutida posteriormente. Isso vale para todos os exemplos

que veremos.

Prof. Caio Azevedo

Introducao aos modelos de regressao multipla e analise de dados: parte 1

Dispersao entre carga e consumo e reta ajustada

0 20 40 60 80 100

51

01

52

0

Consumo de oxignio em funo da carga

carga

vo

2

Prof. Caio Azevedo

Introducao aos modelos de regressao multipla e analise de dados: parte 1

Consumos de oxigenio observado e predito modelo

5 10 15 20

51

01

52

0

consumo de oxignio observado

co

nsu

mo

de

oxig

n

io p

red

ito

Prof. Caio Azevedo

Introducao aos modelos de regressao multipla e analise de dados: parte 1

Exemplo 4: consumo de combustvel

Dos 48 estados (contguos) dos Estados Unidos (em um certo ano)

mediu-se:

Taxa do combustvel no estado em USD - taxa.

Proporcao de motoristas licenciados - licenca.

Renda per capita em USD - renda.

Ajuda federal para as estradas em mil USD - estradas.

Consumo de combustvel por habitante - consumo.

Objetivo: tentar explicar o consumo de combustvel em funcao das

outras variaveis. Fonte de consulta: Paula (2013). Fonte original

(Gray, 1989).

Prof. Caio Azevedo

Introducao aos modelos de regressao multipla e analise de dados: parte 1

Diagrama de dispersao entre consumo e as var. explicativas

5 6 7 8 9 10

40

06

00

80

0

taxa do combustvel no estado (USD)co

nsu

mo

de

co

mbu

st

ve

l p

or

ha

bita

nte

0.45 0.50 0.55 0.60 0.65 0.70

40

06

00

80

0

proporo de motoristas licenciadosco

nsu

mo

de

co

mbu

st

ve

l p

or

ha

bita

nte

3000 3500 4000 4500 5000

40

06

00

80

0

renda per capita (USD)co

nsu

mo

de

co

mbu

st

ve

l p

or

ha

bita

nte

0 5000 10000 15000

40

06

00

80

0

ajuda federal para as estradas em mil (USD)co

nsu

mo

de

co

mbu

st

ve

l p

or

ha

bita

nte

Prof. Caio Azevedo

Introducao aos modelos de regressao multipla e analise de dados: parte 1

Box plot das variaveis explicativas

56

78

91

0

taxa

0.4

50

.55

0.6

5

licena

30

00

40

00

50

00

renda

0

50

00

10

00

0

estradas

Prof. Caio Azevedo

Introducao aos modelos de regressao multipla e analise de dados: parte 1

Medidas resumo das variaveis

Variavel Media DP CV(%) Min. Mediana Max.

consumo 576,77 111,89 19,40 344,00 568,50 968,00

taxa 7,67 0,95 12,40 5,00 7,50 10,00

licenca 0,57 0,06 9,73 0,45 0,56 0,72

renda 4241,83 573,62 13,52 3063,00 4298,00 5342,00

estradas 5565,42 3491,51 62,74 431,00 4735,50 17782,00

Prof. Caio Azevedo

Introducao aos modelos de regressao multipla e analise de dados: parte 1

Correlacoes entre as variaveis

consumo taxa licenca renda estradas

consumo . -0,45 0,70 -0,24 0,02

taxa . . -0,29 0,01 -0,52

licenca . . . 0,16 -0,06

renda . . . . 0,05

estradas . . . . .

Prof. Caio Azevedo

Introducao aos modelos de regressao multipla e analise de dados: parte 1

Exemplo 4: consumo de combustvel

Modelo 1

consumoi = 0+1taxai+2licencai+3rendai+4estradasi+i , i = 1, ..., 48

Yi = 0 + 1x1i + 2x2i + 3x3i + 4x4i + i , i = 1, ..., 48

ii.i.d. N(0, 2).

0 : consumo esperado para estados com valor zero para todas as

covariaveis simultaneamente.

j : incremento (positivo ou negativo) no consumo esperado para o

aumento em uma unidade da variavel j , j = 1, 2, 3, 4, mantendo-se

as outras fixas.Prof. Caio Azevedo

Introducao aos modelos de regressao multipla e analise de dados: parte 1

Exemplo 4: consumo de combustvel

Modelo 2

Yi = 0 + 1(x1i x1) + 2(x2i x2) + 3(x3i x3) + 4(x4i x4) + i , (1)

i = 1, ..., 48, x j =1

48

48i=1 xij , j = 1, 2, 3, 4

ii.i.d. N(0, 2).

0 : consumo esperado para estados com valor de cada covariavel

igual a sua respectiva media.

j : incremento (positivo ou negativo) no consumo esperado para o

aumento em uma unidade da variavel j , j = 1, 2, 3, 4, mantendo-se

as outras fixas.

Prof. Caio Azevedo

Introducao aos modelos de regressao multipla e analise de dados: parte 1

Inferencia

Ja vimos como ajustar o modelo (estimar os parametros), atraves da

metodologia de MQO.

Veremos agora como construir intervalos de confianca e testar

hipoteses.

Dos resultados apresentados nos slides Introducao aos modelos de

regressao normais lineares, temos que

j N(j , 2j), (np)2

2 2(np) e j

(np)22 .

Logo,jj2j t(np), portanto (considerando-se

P(X t 1+2

) = 1+2 ,X t(np)), temos que

IC (j , ) =[j t 1+

2

2j ; j + t 1+

2

2j

]Prof. Caio Azevedo

Introducao aos modelos de regressao multipla e analise de dados: parte 1

Testes de hipoteses

Suponha que queremos testar H0 : j = j0 vs H1 : j 6= j0, para

algum j , em que j0 e um valor fixado.

Estatstica do teste Tt =jj02j

, em que j e o estimador de MQO

de j e 2 = 1np

(Y X

) (Y X

).

Prof. Caio Azevedo

Introducao aos modelos de regressao multipla e analise de dados: parte 1

Testes de hipoteses

Sob H0, Tt t(np). Assim, rejeita-se H0 se |tt | tc , em que

tt =jj02j

e P(X tc |H0) = /2,X t(np), j e o j-esimo

elemento de =(XX

)1Xy e 2 = 1np

(y X

) (y X

)De modo equivalente, rejeita-se H0 se p-valor , em que

p-valor = 2P(X |tt ||H0), X t(np)

Prof. Caio Azevedo

Introducao aos modelos de regressao multipla e analise de dados: parte 1

ANOVA para modelos de regressao

Suponha o seguinte modelo:

Yi = 0 + 1x1i + 2x2i + ...+ p1x(p1)i + i , ii.i.d N(0, 2)

Logo Yiind. N(0 +

p1j=1 jxji ,

2).

O modelo acima define uma media (condicional aos valores de

xji , j = 1, ..., p 1; i = 1, ..., n) para cada observacao Yi .

Defina Yi = 0 + 1x1i + 2x2i + ...+ p1x(p1)i (valor predito pelo

modelo).

O resduo e definido por Ri = i = Yi Yi .

Prof. Caio Azevedo

Introducao aos modelos de regressao multipla e analise de dados: parte 1

Nosso objetivo e considerar um modelo que explique adequadamente

a variabilidade dos dados, ou seja, um modelo para o qual os

resduos sejam pequenos.

Pode-se provar que, a soma de quadrados total

SQT =n

i=1(Yi Y )2, pode ser decomposta como:

SQT =n

i=1

(Y Yi )2 SQM

+n

i=1

(Yi Yi )2 SQR

Assim, quanto maior for o valor de SQM em relacao a SQR, maior

sera a contribuicao da parte sistematica para explicar a variabilidade

dos dados. Portanto, mais provavel que exista (pelo menos um)

j 6= 0, j = 1, ..., p 1.

Prof. Caio Azevedo

Introducao aos modelos de regressao multipla e analise de dados: parte 1

SQM: soma de quadrados do modelo ; SQR: soma de quadrados dos

resduos.

Portanto, como estatstica de teste, podemos comparar, de alguma

forma, as somas de quadrados (do modelo e dos resduos).

Pergunta: como construir uma estatstica de teste adequada ?

Adequada: que serve para testar as hipoteses de interesse, que

possua distrisbuicao conhecida (sob H0 e sob H1) e que tenha um

razoavel poder (assumindo-se ser possvel fixar o