Upload
internet
View
108
Download
0
Embed Size (px)
Citation preview
ANÁLISE DE VARIÂNCIA I – ANOVA DE UM FATOR
Ho: A VARIÂNCIA ENTRE TRATAMENTOS E A VARIÂNCIA INTRÍNSECA ÀS AMOSTRAS NÃO SÃO DIFERENTES
GRAUS DE LIBERDADE DE F: )]1([
)1(
CL
L
VARIÂNCIA EXPLICADA (BETWEEN) ou ENTRE TRATAMENTOS
Numerador:
VARIÂNCIA NÃO EXPLICADA (WITHIN) ou INTRÍNSECA (FLUTUAÇÕES)
Denominador
i
lg
xs
scF
2
2
..
Wannacott & Wannacott, 1972
Distribuição F de frequências:
A área hachurada (α = 5%) move-se em direção à unidade, à medida que o grau de liberdade (g.l. ou d.f.) aumenta
Premissas iniciais de ANOVA:
As amostras foram escolhidas aleatoriamente.
As amostras originam-se de sub-populações que têm distribuição normal e mesma variância.
A contribuição para a variância total tem que ser aditiva: admitir a independência entre os desvios dentro dos grupos e os desvios entre grupos para poder admitir que a soma total dos quadrados é o resultado do somatório das somas de quadrados das variâncias em análise.
Exemplo 1:
Em um programa de intercalibração entre laboratórios, a instituição gestora enviou para cada um de 3 laboratórios A, B e C, 5 réplicas aleatoriamente distribuídas entre eles.
Com ANOVA, podemos comparar as médias de várias amostras (e não só duas a duas, como vínhamos fazendo).
Questão para testar: a diferença de resultados é devida à diferença de desempenho entre laboratórios, ou será devida a uma flutuação aleatória, fruto de um conjunto de situações intrínsecas às réplicas, ou outros fatores não explicados?
AMOSTRA LABORATÓRIO
1 2 3 4 5 i s2 i
A 48,4 49,7 48,7 48,5 47,7 48,6 0,52 B 56,1 56,3 56,9 57,6 55,1 56,4 0,87 C 52,1 51,1 51,6 52,1 51,1 51,6 0,25
X 52,2 0,55= s2
s2X 15,5
F tabelado, (α ≤ 0,05) = 3,88 => PODE-SE REJEITAR Ho
i
lg
xs
scF
2
2
..
14155,0
5,15512;2
F
H0: não há diferença de desempenho entre laboratórios
A C B Média das
variâncias
Variância das médias
Exemplo 2:
Dentro do mesmo programa de intercalibração entre laboratórios, a instituição gestora enviou 5 réplicas aleatoriamente distribuídas para vários outros laboratórios. Neste exemplo vamos comparar o desempenho dos laboratórios D, E e F.
Questão para testar: a diferença de resultados é devida à diferença de desempenho entre laboratórios, ou será devida a uma flutuação aleatória, fruto de um conjunto de situações intrínsecas às réplicas, ou outros fatores não explicados?
LAB\AMOSTRA 1 2 3 4 5 i s2 i D 54,6 45,7 56,7 37,7 48,6 48,6 57,2 E 53,4 57,5 54,3 52,3 64,5 56,4 24,3 F 56,7 44,7 50,6 56,5 49,5 51,6 25,8
X 52,2 35,8= s2
s2X
15,5
F tabelado, (α ≤ 0,05) = 3,88 => NÃO SE PODE REJEITAR Ho
H0: não há diferença de desempenho entre laboratórios
16,28,35
5,155]12;2
FPor quê???
A variância não explicada é enorme!!!!
ixs 2
Labs D, E e F
Labs A, B e C
continua
Tabela F: probabilidade de F para α=5% e α=1% (negrito) Graus de liberdade do numerador
Gra
us d
e li
berd
ade
do d
enom
inad
or.
Tabela F: probabilidade de F para α=5% e α=1% (negrito) Graus de liberdade do numerador
Gra
us d
e li
berd
ade
do d
enom
inad
or
Continuação: graus de liberdade do numerador entre 14 e 26
ANALISE DE VARIANCIA II
Lembrando os laboratórios D, E e F da aula anterior, em que cada um apresentou 5 resultados de 15 réplicas, aleatoriamente distribuídas entre eles: não foi possível rejeitar H0 com [g.l.]=2;12 e =0,05
PORQUE A VARIÂNCIA NÃO EXPLICADA ERA MUITO GRANDE
Suponha que os 5 resultados anteriores, de cada labora-tório, foram obtidos, cada um, usando-se 5 marcas de re-agentes aleatoriamente distribuídos entre os laboratórios.
IMPORTANTE:
Não há preferência de certo laboratório por certo reagente. Todos os reagentes são usados por todos os laboratórios.
Os resultados dos laboratórios D, E e F podem ser agora reagrupados segundo o reagente usado.
REAGENTES (j) LAB (i) 1 2 3 4 5 Xi
D 56,7 45,7 48,3 54,6 37,7 48,6 E 64,5 53,4 54,3 57,5 52,6 56,4 F 56,7 50,6 49,5 56,5 44,7 51,6 Xj 59,3 49,9 50,7 56,2 44,9 52,2
21
2
)1(
1
L
iXL
si
21
2
)1(
1
C
jXC
sjx
QUEM SABE, AQUELA GRANDE VARIÂNCIA NÃO EXPLICADA, NO TESTE ENTRE LABORATÓRIOS, PODE SER DEVIDA, EM PARTE, A UMA VARIÂNCIA INTRÍNSECA AOS REAGENTES?
VARIÂNCIAS EXPLICADAS:
ENTRE LABORATÓRIOS:
C . = 5 . 15,5 = 77,5 com [g.l.]=(L-1)
ENTRE REAGENTES:
L . = 3 . 31,8 = 95,4com [g.l.]=(C-1)
31,8 < 35,8 (variância não explicada antes),
mas sobra ainda um RESÍDUO
2s
2s
Temos a Variância Explicada no desempenho do Laboratórios
Temos a Variância Explicada pela qualidade do Reagente usado
E.... temos um resíduo de variabilidade, um ruído, que vamos “distribuir” por todo o sistema !!!!!
REAGENTES (j) LAB (i) 1 2 3 4 5 Xi
D 56,7 45,7 48,3 54,6 37,7 48,6 E 64,5 53,4 54,3 57,5 52,6 56,4 F 56,7 50,6 49,5 56,5 44,7 51,6 Xj 59,3 49,9 50,7 56,2 44,9 52,2
VARIÂNCIA RESIDUAL:
Só há uma observação do laboratório E usando reagente 4 NÃO HÁ VARIÂNCIA;
Sem variância (sem erro), como prever o desempenho do laboratório E cada vez que ele usar o reagente 4?
VALOR OBSERVADO em E4: Xij = XE4 = 57,5 (Xij > j e > i)
VALOR ESPERADO: ij = + ( i- ) + ( j- ) = i +j -Xx̂ X X X
= 52,2+(56,4-52,2)+(56,2-52,2) = 60,4 4ˆ
Ex
Quem é a diferença entre valor observado (xij) e valor esperado ?ij
x̂
Elemento aleatório, que restou inexplicado, após o ajuste de laboratório e de reagente
XE4 - E4 = 57,5 - 60,4 = - 2,9x̂
REAGENTES (j) LAB (i) 1 2 3 4 5 Xi
D 56,7 45,7 48,3 54,6 37,7 48,6 E 64,5 53,4 54,3 57,5 52,6 56,4 F 56,7 50,6 49,5 56,5 44,7 51,6 Xj 59,3 49,9 50,7 56,2 44,9 52,2
INTERESSANTE?! o desempenho do laboratório E ao usar o reagente 4 ficou 2,9 unidades abaixo do valor esperado...Surpreendente, pois 57,5 é maior que a média do laboratório E e do reagente 4
REAGENTES (j) LAB (i) 1 2 3 4 5 Xi
D 56,7 45,7 48,3 54,6 37,7 48,6 E 64,5 53,4 54,3 57,5 52,6 56,4 F 56,7 50,6 49,5 56,5 44,7 51,6 Xj 59,3 49,9 50,7 56,2 44,9 52,2
VARIÂNCIA RESIDUAL DO SISTEMA
11
2 1 1
2
CLr
L
i
C
jjiij
s
1,139,55,15
*58;22
2
11
1
LABCL
LLAB
Fs
sCF
r
ix
2,169,58,31
*38;42
2
11
1
REAGCL
CREAG
Fs
s
LFr
jx
VARIÂNCIA RESIDUAL DO SISTEMA
112
2
CL
Xjxixijx
rs
46,4
1,13
8;2;05,0
8;2
F
FLAB
84,3
2,16
8;4;05,0
8;4
F
FREAG
Rejeita-se H0, com <0,05
Rejeita-se H0, com <0,05
CONCLUSÃO:
O teste ficou mais forte porque se reduziu a VARIÃNCIA NÃO EXPLICADA, mas o denominador de F perdeu 4 graus de
liberdade
Se A = B,
qual o Intervalo de Confiança de 95% destas diferenças?
INTERVALOS DE CONFIANÇA INDIVIDUAIS:
(A - B) = (A - B) ± t[2,5%;L(C-1)] . s . 1/CA + 1/CB,
onde sé a raiz quadrada da variância não explicada
(A - B) = (48,6 - 56,4) ± 2,18 . 0,55 . 2/5
(A - B) = -7,8 ± 1,0
(A - C) = -3,0 ± 1,0
(B - C) = +4,8 ± 1,0
E, no conjunto?
IC (0,95)3 = 0,857
e, se n = 100?
INTERVALOS DE CONFIANÇA SIMULTÂNEOS (COMPARAÇÃO MÚLTIPLA):
(A - B) = (A - B) ± F[5%;(L-1);L(C-1)] . s . [(L-1)/C] * 2
onde sé a raiz quadrada da variância não explicada
(A - B) = (48,6 - 56,4) ± 3,89 . 0,55 . 2/5 * 2
(A - B) = -7,8 ± 1,3
(A - C) = -3,0 ± 1,3
(B - C) = +4,8 ± 1,3
DIFERENÇAS ENTRE MÉDIAS DE POPULAÇÕES (i -I), ESTIMADAS DE MÉDIAS DE AMOSTRAS (i-I)
IC95% SIMULTÂNEO = VALOR ± 1,3:
A B C
A 0 -7,8 -3,0
B +7,8 0 +4,8
C +3,0 -4,8 0
-9,1 < (A - B) < -6,5
-4,3 < (A - C) < -1,7
+3,5 < (B - C) < +6,1
1 2 3 4 5
A 48.4 49.7 48.7 48.5 47.7
B 56.1 56.3 56.9 57.6 55.1
C 52.1 51.1 51.6 52.1 51.1
Anova: fator único
RESUMO
Grupo Contagem Soma Média Variância
Laboratório A 5 243 48.6 0.52
Laboratório B 5 282 56.4 0.87
Laboratório C 5 258 51.6 0.25
52.2 0.55
15.5
ANOVA
Fonte da variação SQ gl MQ Fcalculado valor-P F crítico
Entre grupos 154.8 2 77.4 141.6 4.515E-09 3.89
Dentro dos grupos 6.56 12 0.55
Total 161.36 14
Media das médias
Variância da média das médias, Variância entre tratamentos,Variância explicada
Média das variânciasdentro dos grupos, não explicada
SQ=MQ . Grau de
liberdade.
MQ = Produto de (C ou L) pela Variância de cada fator = variância explicada pelo fator.Entre grupos:77,4=5x15,5;Dentro dos grupos:0,55=média das variâncias de cada grupo
F calculado== MQ entre grupos / MQ dentro dos grupos
Prob. de F calculado
F de alfa critico = 0.05(especificado pelo usuário)
LAB\REAG 1 2 3 4 5D 56,7 45,7 48,3 54,6 37,7E 64,5 53,4 54,3 57,5 52,6F 56,7 50,6 49,5 56,5 44,7
Anova: fator duplo sem repetição
RESUMO Contagem Soma Média VariânciaLaboratorio D 5 243 48,6 57,2Laboratorio E 5 282 56,5 23,7Laboratorio F 5 258 51,6 25,8
52,215,7
Reagente 1 3 178 59,3 20,3Reagente 2 3 150 49,9 15,2Reagente 3 3 152 50,7 10,1Reagente 4 3 169 56,2 2,17Reagente 5 3 135 45,0 55,6
52,231,4
ANOVAFonte da variação SQ gl MQ F valor-P F críticoLaboratórios 157 2 79 12,8 0,0032 4,46Reagentes 377 4 94 15,3 0,0008 3,84Erro ou Resíduo 49 8 6
Total 584 14
Labs Amostras VALORES
1 A 1 48.4
2 A 2 49.7
3 A 3 48.7
4 A 4 48.5
5 A 5 47.7
6 B 1 56.1
7 B 2 56.3
8 B 3 56.9
9 B 4 57.6
10 B 5 55.1
11 C 1 52.1
12 C 2 51.1
13 C 3 51.6
14 C 4 52.1
15 C 5 51.1
Todos os laborató-rios têm desempe-
nhos diferentes (α ≤ 0,01)
Se posso rejeitar H0, quais são os laborató-
rios diferentes?
Se posso rejeitar H0, quais são as fumarolas
diferentes?
Conteúdo de CO2(%) em quatro fumarolas
CO2 Fumarola
1 27 1
2 28 1
3 31 1
4 32 1
5 33 1
6 31 2
7 34 2
8 35 2
9 36 2
10 39 2
11 40 2
12 30 3
13 38 3
14 42 3
15 43 3
16 16 4
17 20 4
18 21 4
19 26 4
20 27 4
21 29 4
22 35 4
ANOVA de um fator rejeitou H0 com
α < 0,001
Rock, 1986, Tab. 11.2
TUKEY: As fumarolas 2 e 3 têm CO2 diferente da fumarola 4
Labs Reagente Valores
1 D 1 56.7
2 D 2 45.7
3 D 3 48.6
4 D 4 54.6
5 D 5 37.7
6 E 1 64.5
7 E 2 53.4
8 E 3 52.3
9 E 4 57.5
10 E 5 52.6
11 F 1 56.7
12 F 2 50.6
13 F 3 49.5
14 F 4 56.5
15 F 5 44.7
Nonparametrics Statistics Kruskal-Wallis ANOVA by Ranks and Median
TestTradução livre de Statistica v. 7.1®
•Ambos os testes são alternativas não-paramétricas para o teste ANOVA de um fator.
•É necessário que o BD contenha variáveis código (codes) que identifiquem univocamente cada membro dos grupos em
comparação.
Premissas e Interpretações:
O “Teste Kruskal-Wallis ANOVA por postos” assume que a variável é
contínua e medida, pelo menos, em escala ordinal. Ele avalia a hipótese de
que as diferentes amostras foram extraídas da mesma distribuição, ou de
distribuições que têm a mesma MEDIANA.
Portanto, sua interpretação é, basicamente, a mesma do teste ANOVA,
exceto porque ele compara postos ao invés de médias.
Premissas e Interpretações:
O Teste da Mediana é uma versão mais “crua” do Kruskal-Wallis ANOVA.
Ele simplesmente conta o número de casos, em cada grupo, que estão abaixo ou
acima da mediana comum e computa o valor de χ2 numa tabela de contingência
2 x k.
Sob a hipótese de nulidade (todas as amostras originam-se de populações com
medianas idênticas), espera-se que, aproximadamente 50% de todos os casos,
em cada amostra, fiquem abaixo (ou acima) da mediana comum.
O Teste de Medianas é particularmente útil quando a escala contém limites
artificiais, de modo que muitos casos caem “fora da escala”. Nesta situação, o
Teste da Mediana é, de fato, o único teste apropriado para comparar amostras.
A probabilidade de um H=12,6 sob H0 é muito pequena. Rejeito H0: as
fumarolas têm medianas diferentes