26
Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X j e Y não é linear (j = 1, 2, ... , p) (2) erros não tem variância constante (3) erros correlacionados (4) erros não são normalmente distribuídos (5) modelo não ajusta bem a uma ou mais observações (6) uma ou mais covariáveis, ou interações não foram incluídas no modelo homoscedasticidade prováveis dados atípicos (avaliar sua influência)

Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

Análise de Resíduos no MRLM

→ investigar características que comprometem a validade do MRLM:

(1) relação entre Xj e Y não é linear (j = 1, 2, ... , p)

(2) erros não tem variância constante(3) erros correlacionados(4) erros não são normalmente distribuídos(5) modelo não ajusta bem a uma ou mais observações(6) uma ou mais covariáveis, ou interações não foram incluídas

no modelo

homoscedasticidade

prováveis dados atípicos

(avaliar sua influência)

Page 2: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

OBSERVAÇÕES:1) Textos destacados em vermelho, são elementos novos com relação a análise de resíduos no MRLS

2) Um padrão sistemático nos gráficos, que não o aleatório, sugere que pelo menos uma das suposições do MRLM não está sendo satisfeita; Exceções:

gráfico de resíduos parciaisq-q plot normal dos resíduos

Page 3: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

Gráficos de Resíduos

1) diagrama de dispersão de predito e resíduo→ detectar heterocedasticidade de εi (i = 1, 2, … , n)

→ detectar não-linearidade entre vetor (X1 , X

2 , …, X

p ) e Y

→ detectar prováveis dados atípicos

2) gráfico probabilístico normal (q-q plot normal) dos resíduos→ detectar não normalidade de εi

→ detectar dados atípicos

Page 4: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

Se conhecida a ordem de coleta de dados:3) gráfico de resíduos versus sequencia de coleta de dados (i × ei)→ detectar εi correlacionados com a ordem de coleta dos dados

4) diagrama de dispersão da covariável Xj e resíduo

→ detectar variação na magnitude de σ2 em relação a Xj

→ detectar não-linearidade entre Xj e Y

→ detectar prováveis dados atípicos j = 1, 2, … , p

Page 5: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

5) diagrama de dispersão de Xj e resíduo parcial

→ detectar não-linearidade entre Xj e Y, indicando, de forma

mais precisa, como transformar Xj para obtenção da linearidade

*o gráfico mostra a relação entre Y e Xj

, na presença das

demais covariáveis Xi (i ≠ j = 1, 2, ... , p)

*se a relação entre Y e Xj for linear, o gráfico deve apresentar

uma reta com inclinação próxima a

*se a relação verificada for não linear, isso indica que Xj deve

ser transformada, de alguma forma, para ser inserida no modelo

β̂ j

Page 6: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

Se conhecido os valores da variável omitida:6) diagrama de dispersão de covariável omitida e resíduo→ detectar padrão não aleatório, indicando que a adição da variável omitida pode melhorar o ajuste do modelo

7) diagrama de dispersão de interação omitida e resíduo→ examinar se alguma ou todas as interações são requeridas no modelo

8) diagrama de dispersão de Xj e X

k ( j ≠ k = 1, 2, ... , p)

*não é um gráfico de resíduos, mas contribui para verificar adequação do modelo!!→ estudar a relação entre covariáveis e disposição dos dados na variação do vetor (X

1 , X

2 , …, X

p )

→ detectar dados atípicos

Page 7: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

Exemplo 4livro-texto da Unicamp (pág.285)

→ medida de tecido adiposo por tomografia (Y) está relacionada com outras 4 medidas?X

1 : circunferência da cintura

X2 : medida de tecido adiposo por ultrassonografia_1

X3 : medida de tecido adiposo por ultrassonografia_2

X4 : pregas cutâneas

* medidas de tecido adiposo foram realizadas na região abdominal

n = 29 indivíduos

Page 8: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X
Page 9: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

##LEITURA DOS DADOSrm(list=ls())dados <- read.table('exemplo4.csv', dec=',', h=T)head(dados)

y cintura ultra1 ultra2 prega1 12667 92 79 32.5 49.52 5518 107 53 68.0 45.03 8238 90 72 35.0 41.54 5753 113 48 65.0 41.05 4719 82 66 28.0 37.26 6067 93 50 37.0 42.0

Page 10: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

##ANÁLISE EXPLORATÓRIA# matriz de diagramas de dispersãoplot(dados)

y

70 90 110 20 40 60

5000

15000

7090

110

cintura

ultra1

4060

80

2040

60

ultra2

5000 15000 40 60 80 36 40 44 48

3640

4448

prega

Page 11: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

# matriz de correlação estimadacor(dados)

y cintura ultra1 ultra2 pregay 1.0000000 0.5249396 0.6366333 0.1373292 0.4826469x1 0.5249396 1.0000000 0.1683468 0.7559398 0.3846363x2 0.6366333 0.1683468 1.0000000 0.1246206 0.2225078x3 0.1373292 0.7559398 0.1246206 1.0000000 0.2009520x4 0.4826469 0.3846363 0.2225078 0.2009520 1.0000000

Page 12: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

##MRLM SEM INTERAÇÃO# ajuste de MQ com 4 covariáveisajuste <- lm(dados)ajuste

Call:lm(formula = dados)

Coefficients:(Intercept) cintura ultra1 ultra2 prega -22659.7 225.3 122.9 -139.8 165.7

ajusta modelo com todos os efeitos principais, sem interação;o mesmo que: lm(y ~ . , data=dados)se resposta na 1a coluna de dados

Page 13: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

##INFERÊNCIAS SOBRE OS COEFICIENTES DO MRLM# teste F para testar H0: beta_1 = … = beta_p = 0 versus # H1: pelo menos um betaj diferente de 0; j=1,2,3,...,psummary(ajuste)

Call:lm(formula = dados)

Residual standard error: 1705 on 24 degrees of freedomMultiple R-squared: 0.7638, Adjusted R-squared: 0.7244 F-statistic: 19.4 on 4 and 24 DF, p-value: 3.066e-07

#pelo menos uma covariável contribui significativamente p/ explicar a resposta

# ou, alternativamente: teste F com modelos encaixados

Page 14: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

## teste t parcial # H0: beta_j = 0 na presença das demais covariáveis versus H1: beja_j<>0# j=0,1,2,...,psummary(ajuste)

Call:lm(formula = dados)

Residuals: Min 1Q Median 3Q Max -3562.7 -770.6 266.1 1212.3 2914.8

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -22659.70 4388.20 -5.164 2.75e-05 ***cintura 225.33 46.00 4.898 5.38e-05 ***ultra1 122.87 23.48 5.234 2.30e-05 ***ultra2 -139.80 37.83 -3.695 0.00113 ** prega 165.75 107.16 1.547 0.13502 ---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

#efeito de cintura na presença das demais covariáveis é significativo#o mesmo para ultra1 e ultra2

Page 15: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

# ou alternativamente: teste F com modelos encaixados

# ou outra abordagem: análise de resíduos parciaisresiduo <- ajuste$res

#residuos parciaisattach(dados)res_p1 <- residuo + ajuste$coef[2] * cinturares_p2 <- residuo + ajuste$coef[3] * ultra1res_p3 <- residuo + ajuste$coef[4] * ultra2res_p4 <- residuo + ajuste$coef[5] * prega

# gráfico de Xj vs residuo parcial correspondenteplot(cintura, res_p1)plot(ultra1, res_p2)plot(ultra2, res_p3)plot(prega, res_p4)

Page 16: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

70 80 90 100 110

16000

22000

28000

cintura

res_p1

40 50 60 70 80 90

4000

8000

12000

ultra1

res_p2

20 30 40 50 60 70

-10000

-6000

-2000

ultra2

res_p3

36 38 40 42 44 46 48 50

4000

7000

10000

prega

res_p4

#provável relação linear entre tomografia e cintura, na presença das demais covariáveis#o mesmo para ultra1(negativa) e ultra2

Page 17: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

# modelo final não inclui efeito de pregaajuste_final <- lm(y~cintura+ultra1+ultra2, data=dados)

# devemos incluir interações?ajuste_int <- lm(y~cintura*ultra1*ultra2, data=dados)anova(ajuste_final,ajuste_int)

Analysis of Variance Table

Model 1: y ~ cintura + ultra1 + ultra2Model 2: y ~ cintura * ultra1 * ultra2 Res.Df RSS Df Sum of Sq F Pr(>F)1 25 76731844 2 21 54601840 4 22130004 2.1278 0.1131

#não há evidências contra H0 e a favor H

1 , ou seja, não podemos dizer

que pelo menos um efeito de interação seja significativo, na presença de cintura, ultra1 e ultra2

{H0 : β4=β5=β6=β7=0H1: pelo menos um β j≠0 ; j=4,5,6,7

Page 18: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

# Modelo Final:ajuste_final <- lm(y~cintura+ultra1+ultra2, data=dados)summary(ajuste_final)

Call:lm(formula = y ~ cintura + ultra1 + ultra2, data = dados)

Residuals: Min 1Q Median 3Q Max -3298.2 -1254.1 55.2 1036.6 2844.8

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -17999.98 3278.26 -5.491 1.05e-05 ***cintura 250.18 44.29 5.649 7.03e-06 ***ultra1 129.22 23.75 5.441 1.20e-05 ***ultra2 -148.59 38.43 -3.867 0.000698 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1752 on 25 degrees of freedomMultiple R-squared: 0.7402, Adjusted R-squared: 0.7091 F-statistic: 23.75 on 3 and 25 DF, p-value: 1.721e-07

Page 19: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

##DIAGNÓSTICO DO MODELO# coeficientes de determinação múltiplo e ajustadosummary(ajuste_final)

Call:lm(formula = y ~ cintura + ultra1 + ultra2, data = dados)

Residual standard error: 1752 on 25 degrees of freedomMultiple R-squared: 0.7402, Adjusted R-squared: 0.7091 F-statistic: 23.75 on 3 and 25 DF, p-value: 1.721e-07

#74,02% da variabilidade observada de Tomografia é explicada pelo modelo

#não existe uma grande possibilidade de existir covariáveis desnecessárias no modelo#já que os dois coeficientes de determinação diferem pouco

Page 20: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

# coeficiente de determinação parcial de Xj|demais covariáveis# j = 1, 2, 3

ajuste1 <- lm(y~ultra1+ultra2, data=dados)anova1 <- anova(ajuste1,ajuste_final)names(anova1)

[1] "Res.Df" "RSS" "Df" "Sum of Sq" "F" "Pr(>F)"

R2_cintura <- (anova1$RSS[1]-anova1$RSS[2])/anova1$RSS[1]

ajuste2 <- lm(y~cintura+ultra2,dados)anova2 <- anova(ajuste2,ajuste)R2_ultra1 <- (anova2$RSS[1]-anova2$RSS[2]/anova2$RSS[1]

ajuste3 <- lm(y~cintura+ultra1,dados)anova3 <- anova(ajuste3,ajuste)R2_ultra2 <- (anova3$RSS[1]-anova3$RSS[2]/anova3$RSS[1]

cbind(R2_cintura, R2_ultra1, R2_ultra2)

R2_cintura R2_ultra1 R2_ultra2[1,] 0.561 0.584 0.431

#redução percentual da SQRes ao incluir Xj no modelo com as demais covariáveis

Page 21: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

##ANÁLISE DE RESÍDUOSpredito <- ajuste_final$fitresiduo <- ajuste_final$res

# transformacoes dos residuos#residuos padronizadosz <- rstandard(ajuste_final)# residuos studentizadoszstudent <- rstudent(ajuste_final)#residuos parciaisattach(dados)res_p1 <- residuo + ajuste_final$coef[2] * cinturares_p2 <- residuo + ajuste_final$coef[3] * ultra1res_p3 <- residuo + ajuste_final$coef[4] * ultra2

options(digits=3)

cbind(y, predito, residuo, z, zstudent, res_p1, res_p2, res_p3)

Page 22: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

y predito residuo z zstudent res_p1 res_p2 res_p31 12667 10395 2271.71 1.36418 1.38933 25288 12480 -25572 5518 5513 4.65 0.00308 0.00302 26774 6853 -100993 8238 8619 -380.94 -0.22337 -0.21907 22135 8923 -55824 5753 6814 -1061.10 -0.70246 -0.69516 27209 5141 -107195 4719 6882 -2163.35 -1.27906 -1.29635 18351 6365 -63246 6067 6230 -162.51 -0.09623 -0.09430 23104 6298 -56607 7814 9068 -1254.08 -0.74062 -0.73375 23513 8179 -83868 5721 8337 -2616.18 -1.58211 -1.63410 18649 7657 -78179 7936 8120 -184.41 -0.11689 -0.11456 26084 5760 -627710 7350 6796 554.43 0.33558 0.32954 25072 6628 -524111 11139 9877 1262.27 0.74584 0.73903 26780 10307 -542412 7017 6261 755.81 0.44713 0.43986 25023 7734 -622813 5551 5496 55.24 0.03318 0.03251 19319 8002 -366014 4077 2203 1874.15 1.23405 1.24772 18136 8787 -109815 3527 6825 -3298.23 -1.98648 -2.12091 17967 3680 -671616 3074 6204 -3130.42 -1.82945 -1.92605 19135 4752 -907417 5014 4062 952.44 0.57040 0.56254 22468 7219 -476818 5075 2900 2175.38 1.33892 1.36159 22190 7667 -243119 9878 8208 1669.62 0.98197 0.98124 24686 11102 -457120 8688 10417 -1729.44 -1.08173 -1.08558 19536 8543 -485021 4022 2985 1036.63 0.64382 0.63610 20801 6270 -297522 9389 9490 -101.29 -0.06962 -0.06822 23916 11916 -864523 9863 9463 400.20 0.23505 0.23056 24167 9445 -494924 7744 9142 -1397.52 -0.82317 -0.81770 22119 7131 -630125 5924 7396 -1472.42 -0.88358 -0.87957 23045 5053 -711926 9139 8494 645.07 0.38643 0.37976 21660 9690 -292127 9902 9722 179.74 0.12292 0.12047 27449 11034 -1022228 7870 5600 2269.70 1.37123 1.39709 22284 11056 -293129 18991 16146 2844.83 2.20120 2.40203 31615 13570 -2504

Page 23: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

# graficos de residuospar(mfrow=c(2,2))# residuo vs preditoplot(predito, residuo, pch=20, xlab="Predito", ylab="Residuo")title("Diagrama de Dispersão")abline(h=0)

# q-q plot normal enveloperequire(car)require(MASS)qqPlot(residuo, pch=20, xlab="Quantis N(0,1)", ylab="Quantis Amostrais")title("Q-Q Plot Normal")# residuo transformado vs preditoplot(predito, z, pch=20, xlab="Predito", ylab="Residuo padronizado")

title("Diagrama de Dispersão")abline(h=0)abline(h=2, lty=3)abline(h=-2, lty=3)plot(predito, zstudent, pch=20, xlab="Predito", ylab="Residuo studentizado")title("Diagrama de Dispersão")abline(h=0)abline(h=2, lty=3)abline(h=-2, lty=3)identify(predito,zstudent,n=2)

Page 24: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X
Page 25: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

#residuos parciaisres_p1 <- residuo + ajuste_final$coef[2] * cinturares_p2 <- residuo + ajuste_final$coef[3] * ultra1res_p3 <- residuo + ajuste_final$coef[4] * ultra2

# gráfico de Xj vs residuo parcial correspondenteplot(cintura, res_p1)plot(ultra1, res_p2)plot(ultra2, res_p3)

Page 26: Análise de Resíduos no MRLMniveam/ce071/resíduos.pdf · Análise de Resíduos no MRLM → investigar características que comprometem a validade do MRLM: (1) relação entre X

#provável relação linear entre tomografia e a covariável, na presença das demais