Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
Modelos de Análise de Variância
Análise de Diagnóstico: Checar as suposições
adotadas na formulação do modelo
ijjijy 2;0~ Nij
Normalidade
Variância constante ( homocedasticidade )
Independência
Delineamento Completamente Aleatorizado: k
tratamentos, r réplicas (balanceado)
iid
Suposições
T1 T2 . . . Tk
Y11 Y21 . . . Yk1
Y1n1 Y2 n2 . . . Yk nk
. . . . . . Yij . . .
Amostra
n1 n2 . . . nk
1y
1s 2s ks
. . .
. . .
Normalidade
Variância constante
Independência
);( 2
1 N );( 2
2 N );( 2 kN População...
2y ky
Tabela de ANOVA
F.V. g l SQ QM F p
ENTRE k-1
DENTRO n-k
TOTAL n-1
2)( yyn jj
ij
jij yy 2)(
ij
ij yy 2)(
SQE / (k-1)
SQR / (n-K)
QME / QMR
k...21H:
F = F ( k-1 , n-k )As suposições adotadas no modelo garantem
a validade da distribuição da estatística F!
QME
QMR
ANOVA
2~ ( ; ); ; 0ij j j j j
j
Y N
0 1 2 1: ... ... 0k kH
H1: existe pelo menos uma diferença entre as médias
Construção da Tabela de ANOVA e Ajuste do Modelo de ANOVA
Entender o Efeito de Tratamento: Comparações Múltiplas entre Médias
iid
Análise de Diagnóstico das premissas do Modelo
ANOVA – Análises de Diagnóstico
Análise dos Resíduos
ˆ ˆ (1 )ij ij ij ij j ij ii ij ii ijy y y y y h y h y
ˆ
Re 1
ij
ij
ii
rQM s h
ˆ
Re
ij
ijQM s
1
'ii i ih X X X X
Resíduo semi-studentizado
Resíduo studentizado
ANOVA – Análises de Diagnóstico
Análise Descritiva dos Resíduos
Histogramas e box-plots dos resíduos
Quantis dos resíduos contra quantis da normal
ˆ ˆ ordem(obs) ˆjjj y
Distribuição simétrica?
Normalidade?
erros independentes homocedasticidade
tendências não
modeladas
Uso dos Resíduos
studentizados.
43210-1-2-3
8
7
6
5
4
3
2
1
0
Residual
Fre
qu
en
cy
Histogram of Residuals
2520151050
5
0
-5
Observation Number
Re
sid
ua
l
I Chart of Residuals
Mean=7,77E-16
UCL=4,897
LCL=-4,897
12111098765
4
3
2
1
0
-1
-2
-3
Fit
Re
sid
ua
l
Residuals vs. Fits
210-1-2
4
3
2
1
0
-1
-2
-3
Normal Plot of Residuals
Normal Score
Re
sid
ua
l
Residual Model Diagnostics
As suposições do modelo ANOVA parecem estar satisfeitas.
E quando os dados não satisfazem as suposições impostas pelo modelo?
Quais são as medidas remédio para tentar satisfazer as suposições?
Teste para a verificação da Normalidade
Teste de Shapiro-Wilk, Teste de Kolmogorov-Smirnov
Testes para a verificação da homocedasticidade (variâncias homogêneas)
Teste de Hartley (H=max(sj2)/min(sj
2): assume dados balanceados
Teste de Bartlet (supõe Normalidade)
Teste de Levene (robusto, baseado nos desvios absolutos das
observações em relação à mediana)
ANOVA – Análises de Diagnóstico
2
0 : ~ ( ; ); 1,2,..., ; 1,2,...ij j jH Y N i n j K
2 2
0 : 1,2,...jH j K
Medidas Remédio
Fugas da Normalidade
O modelo de ANOVA é robusto para fugas (moderadas) da Normalidade
Aleatorização : Box, Hunter and Hunter (1978) e Oehlert (2010) mostram que
sob aleatorização das unidades experimentais aos tratamentos
é possível construir uma distribuição de referência para a
estatística F, a qual equivale à distribuição teórica F(k-1,n-k)
Os testes sob o modelo ANOVA são baseados na distribuição
amostral da “Média”. Logo, o Teorema Limite Central pode ser usado
Caudas mais pesadas ou mais leves que a
normal, assimetria, não são aceitas!
Testar a normalidade (H0: Yij ~ N(j;2) ): teste Qui-quadrado de
aderência, teste de Kolmogorov-Smirnov, teste de Shapiro
Medidas Remédio - Fugas da Normalidade
População 1 ... População k
kH ...: 1
Sob o modelo Normal homocedástico o “efeito de
tratamentos” equivale (se reduz) a um teste de comparação entre médias.
Deve ser discutido com o pesquisador se isso traduz o objetivo da pesquisa!
Lembrar que quando utilizamos a Média como o parâmetro que resume o objetivo do
estudo, mais importante que a suposição de Normalidade é a suposição de “Simetria”
da distribuição dos dados.
1 k...
2
1 ,N 2, kN
Medidas Remédio - Fugas da Independência
Alternativas para quando a hipótese de Independência entre as
observações não estiver satisfeita:
Ajuste de Modelos mais Gerais que estruturem a matriz de
covariâncias de Y (Ex.: modelos lineares mistos)
Medidas Repetidas
Dados LongitudinaisSituações Clássicas:
;ijjijy 2;0~ Nij
iid
2
2
00
...
00
nnYV
Séries temporais
Uso de testes de aleatorização para cálculo de p-valores (Exemplo: uso de
dados externos de uma série industrial - ver Box, Hunter e Hunter, 1978)
Pode-se usar tranformação spectral das observações para atingir a independência
Medidas Remédio - Heterocedasticidade
Análises Parciais: considerando somente os grupos com variâncias
homogêneas
Transformação dos Dados Originais para atingir a homocedasticidade
Utilização de Modelos mais Gerais: que atendam ao padrão de
variâncias heterogêneas (Ex. Poisson, Binomial, Binomial Negativa)
Lembrar que “heterocedasticidade” pode ser uma diferença
importante entre os grupos (Ex. modelos de componentes de
variância)
No caso da Rejeição da hipótese de homogeneidade de variâncias
(Bartlett, Levene), algumas alternativas são:
Realizar ajustes ponderados (equivale a transformar os dados)
Transformação de Variáveis
A hipótese de normalidade é válida mas as variâncias não são
homogêneas:
2
111 ;0~;; jijijnppnn NeeeeXY
Ajuste por mínimos quadrados ponderados:
;www eXY
eWe
XWX
YWY
w
w
w
2/1
2/1
2/1
2/1 jjnn swdiagW
WYXWXX 1
iid
Transformação de Variáveis
i2
i
2
i i proporcional a : YY 1 YYYou
1Y
Y
Transformação (potência) de Box-Cox (Y): obter os
estimadores que minimizem
i i YY log proporcional a :
proporcional a :
ij
ijij XY2
Exemplo 1 – Análises Parciais
Variable N Mean StDev
Filter 20 22,550 3,663
Membrane 20 35,50 7,21
Open Cup 20 30,800 3,054
Badge 20 27,350 2,815
Dados: Arquivo Radon
DCA com 1 fator em 4 níveis
Filter Membrane OpenCup Badge
15
25
35
45
Fator
Radia
ção
Análise de Diagnóstico
-10 0 10
0
5
10
15
Residual
Fre
qu
en
cy
Histogram of Residuals
0 10 20 30 40 50 60 70 80
-10
0
10
Observation Number
Re
sid
ua
l
I Chart of Residuals
5
1
5
5
22
X=0,000
3,0SL=10,85
-3,0SL=-10,85
25 30 35
-10
0
10
Fit
Re
sid
ua
l
Residuals vs. Fits
-2,5-2,0-1,5-1,0-0,50,0 0,51,0 1,5 2,0 2,5
-10
0
10
Normal Plot of Residuals
Normal Score
Re
sid
ua
l
Residual Model Diagnostics
Heterocedasticidade
(porém a variância não cresce com a Média)
Há evidência de pelo menos uma diferença entre as variâncias dos grupos
(presença de heterocedasticidade)
Qual a hipótese em teste ? Qual a conclusão?
2 3 4 5 6 7 8 9 10 11 12
95% Conf idence Interv als f or Sigmas
Bartlett's Test
Test Statistic: 23,522
P-Value : 0,000
Levene's Test
Test Statistic: 8,727
P-Value : 0,000
Factor Lev els
1
2
3
4
Homogeneity of Variance Test for C5
One-way Analysis of Variance
Analysis of Variance for C5
Source DF SS MS F P
Grupos 2 686,7 343,3 33,59 0,000
Error 57 582,7 10,2
Total 59 1269,4
Concl. ?
Comparação dos Grupos: Filter, OpenCup e Badge
Excluindo o Grupo Membrane da análise!
Hipóteses ?
Outras Transformações – Atribuição de Postos
U.e. radiação grupos postos
1 26 1 26,0
2 21 1 8,0
3 16 1 1,5
... ... ... ...
19 17 1 3,0
20 25 1 19,5
21 45 2 78,5
22 33 2 61,0
... ... ... ...
40 39 2 74,5
41 36 3 69,5
42 34 3 65,5
59 31 3 56,0
60 27 3 32,5
61 21 4 8,0
62 23 4 13,0
... ... ... ...
79 30 4 51,5
80 28 4 38,5
variável
original
variável
transformada
n=80 k=4
Neter et al. (1996): esta alternativa
de análise é equivalente ao teste
não-paramétrico de Wruskal-Wallis
One-way Analysis of Variance
Analysis of Variance for postos
Source DF SS MS F P
grupos 3 23510 7837 31,36 0,000
Error 76 18992 250
Total 79 42502
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev -------+---------+---------+---------
1 20 15,00 10,85 (---*--)
2 20 60,13 21,78 (--*---)
3 20 51,28 13,06 (---*--)
4 20 35,60 15,40 (---*--)
-------+---------+---------+---------
Pooled StDev = 15,81 20 40 60
Concl. ?
Hipóteses ?
Exemplo 2
50,37 22,13 121,21
42,29 33,22 127,15
média
dp
M1 M2 M3
4,41 8,24 106,19
100,65 81,16 33,83
14,45 7,35 78,88
47,13 12,29 342,81
85,21 1,61 44,33
Dados: Tempo (h) até a primeira intervenção farmacológica de acordo com o
método cirúrgico
ANOVA Clássica
-100 -50 0 50 100 150 200
0
1
2
3
4
5
6
Residual
Fre
qu
en
cy
Histogram of Residuals
0 5 10 15
-200
-100
0
100
200
300
Observation Number
Re
sid
ua
l
I Chart of Residuals
1
X=0,000
3,0SL=218,4
-3,0SL=-218,4
20 70 120
-100
0
100
200
Fit
Re
sid
ua
l
Residuals vs. Fits
-2 -1 0 1 2
-100
0
100
200
Normal Plot of Residuals
Normal Score
Re
sid
ua
l
Residual Model Diagnostics
Heterocedasticidade
do tipo Variância crescendo com a Média
Observação
atípica (outlier)
Exemplo 2
Método
M1
M2
M3
Dados: Tempo (h) até a primeira intervenção farmacológica de acordo com o
método cirúrgico
j
j
Y
s2
j
j
Y
s2
j
j
Y
s
35,5
49,9
133,4
0.84
1,50
1,05
0.017
0,068
0,009
Heterocedasticidade: qual transformação usar?
A transformação logaritmica parece ser a mais indicada
já que a relação é a mais estável entre os grupos.
j
j
Y
s
ANOVA Clássica
ln(tempo)
-2,0 -1,5-1,0-0,5 0,0 0,5 1,0 1,5 2,0
0
1
2
3
4
Residual
Fre
qu
en
cy
Histogram of Residuals
0 5 10 15
-5-4-3-2-1012345
Observation Number
Re
sid
ua
l
I Chart of Residuals
X=0,000
3,0SL=4,342
-3,0SL=-4,342
2,5 3,5 4,5
-2
-1
0
1
2
Fit
Re
sid
ua
l
Residuals vs. Fits
-2 -1 0 1 2
-2
-1
0
1
2
Normal Plot of Residuals
Normal Score
Re
sid
ua
l
Residual Model Diagnostics
ANOVA Clássica
ln(tempo)
Analysis of Variance for ln(tempo)
Source DF SS MS F P
Metodo 2 11,452 5,726 3,79 0,053
Error 12 18,135 1,511
Total 14 29,587
Hipóteses ?
Concl. ?
Exemplo
C5 C10 C15 C20 C25
10,72 14,13 18,61 24,55 32,36
11,22 14,79 19,50 25,70 33,38
11,75 15,49 20,40 26,92 35,48
12,31 16,22 21,37 28,18 37,15
Dados: Crescimento celular de acordo com a dose
11,5000 15,1575 19,9700 26,3375 34,7175
0,68445 0,90005 1,18538 1,56372 2,06217
média
dp
ANOVA Clássica
-2,5-2,0-1,5-1,0-0,50,0 0,51,01,52,0 2,5
0
1
2
3
4
Residual
Fre
qu
en
cy
Histogram of Residuals
0 10 20
-4
-3
-2
-1
0
1
2
3
4
Observation Number
Re
sid
ua
l
I Chart of Residuals
X=0,000
3,0SL=3,710
-3,0SL=-3,710
10 15 20 25 30 35
-2,5-2,0-1,5-1,0-0,50,00,51,01,52,02,5
Fit
Re
sid
ua
l
Residuals vs. Fits
-2 -1 0 1 2
-2,5-2,0-1,5-1,0-0,50,00,51,01,52,02,5
Normal Plot of Residuals
Normal Score
Re
sid
ua
l
Residual Model Diagnostics
Heterocedasticidade
Variância cresce com a Média
Há um padrão
de dependência!
Transformação Log
-0,06 -0,04-0,02 0,00 0,02 0,04 0,06
0
1
2
3
4
5
Residual
Fre
qu
en
cy
Histogram of Residuals
0 10 20
-0,2
-0,1
0,0
0,1
0,2
Observation Number
Re
sid
ua
l
I Chart of Residuals
X=0,000
3,0SL=0,1740
-3,0SL=-0,1740
2,5 3,0 3,5
-0,05
0,00
0,05
Fit
Re
sid
ua
lResiduals vs. Fits
-2 -1 0 1 2
-0,05
0,00
0,05
Normal Plot of Residuals
Normal Score
Re
sid
ua
l
Residual Model Diagnostics
modelar a possível correlação
entre observaçõesO padrão de dependência permanece
Além disso, o crescimento celular parece ser linear com o aumento da dose.
Gráfico de Dispersão
5 10 15 20 25
10
20
30
40
Dose
cre
scim
ento
celu
lar
A inclusão do efeito linear de dose no modelo pode melhorar a análise
dos resíduos.
O crescimento celular parece ser linear com o aumento da dose: