ANÁLISE DE VARIÂNCIA I – ANOVA DE UM FATOR H o : A VARIÂNCIA ENTRE TRATAMENTOS E A VARIÂNCIA INTRÍNSECA ÀS AMOSTRAS NÃO SÃO DIFERENTES GRAUS DE LIBERDADE

ANÁLISE DE VARIÂNCIA I – ANOVA DE UM FATOR

Ho: A VARIÂNCIA ENTRE TRATAMENTOS E A VARIÂNCIA INTRÍNSECA ÀS AMOSTRAS NÃO SÃO DIFERENTES

GRAUS DE LIBERDADE DE F: )]1([

)1(

CL

L

VARIÂNCIA EXPLICADA (BETWEEN) ou ENTRE TRATAMENTOS

Numerador:

VARIÂNCIA NÃO EXPLICADA (WITHIN) ou INTRÍNSECA (FLUTUAÇÕES)

Denominador

i

lg

xs

scF

2

2

..

Wannacott & Wannacott, 1972

Distribuição F de frequências:

A área hachurada (α = 5%) move-se em direção à unidade, à medida que o grau de liberdade (g.l. ou d.f.) aumenta

Premissas iniciais de ANOVA:

As amostras foram escolhidas aleatoriamente.

As amostras originam-se de sub-populações que têm distribuição normal e mesma variância.

A contribuição para a variância total tem que ser aditiva: admitir a independência entre os desvios dentro dos grupos e os desvios entre grupos para poder admitir que a soma total dos quadrados é o resultado do somatório das somas de quadrados das variâncias em análise.

Exemplo 1:

Em um programa de intercalibração entre laboratórios, a instituição gestora enviou para cada um de 3 laboratórios A, B e C, 5 réplicas aleatoriamente distribuídas entre eles.

Com ANOVA, podemos comparar as médias de várias amostras (e não só duas a duas, como vínhamos fazendo).

Questão para testar: a diferença de resultados é devida à diferença de desempenho entre laboratórios, ou será devida a uma flutuação aleatória, fruto de um conjunto de situações intrínsecas às réplicas, ou outros fatores não explicados?

AMOSTRA LABORATÓRIO

1 2 3 4 5 i s2 i

A 48,4 49,7 48,7 48,5 47,7 48,6 0,52 B 56,1 56,3 56,9 57,6 55,1 56,4 0,87 C 52,1 51,1 51,6 52,1 51,1 51,6 0,25

X 52,2 0,55= s2

s2X 15,5

F tabelado, (α ≤ 0,05) = 3,88 => PODE-SE REJEITAR Ho

i

lg

xs

scF

2

2

..

14155,0

5,15512;2

F

H0: não há diferença de desempenho entre laboratórios

A C B Média das

variâncias

Variância das médias

Exemplo 2:

Dentro do mesmo programa de intercalibração entre laboratórios, a instituição gestora enviou 5 réplicas aleatoriamente distribuídas para vários outros laboratórios. Neste exemplo vamos comparar o desempenho dos laboratórios D, E e F.

Questão para testar: a diferença de resultados é devida à diferença de desempenho entre laboratórios, ou será devida a uma flutuação aleatória, fruto de um conjunto de situações intrínsecas às réplicas, ou outros fatores não explicados?

LAB\AMOSTRA 1 2 3 4 5 i s2 i D 54,6 45,7 56,7 37,7 48,6 48,6 57,2 E 53,4 57,5 54,3 52,3 64,5 56,4 24,3 F 56,7 44,7 50,6 56,5 49,5 51,6 25,8

X 52,2 35,8= s2

s2X

15,5

F tabelado, (α ≤ 0,05) = 3,88 => NÃO SE PODE REJEITAR Ho

H0: não há diferença de desempenho entre laboratórios

16,28,35

5,155]12;2

FPor quê???

A variância não explicada é enorme!!!!

ixs 2

Labs D, E e F

Labs A, B e C

continua

Tabela F: probabilidade de F para α=5% e α=1% (negrito) Graus de liberdade do numerador

Gra

us d

e li

berd

ade

do d

enom

inad

or.

Tabela F: probabilidade de F para α=5% e α=1% (negrito) Graus de liberdade do numerador

Gra

us d

e li

berd

ade

do d

enom

inad

or

Continuação: graus de liberdade do numerador entre 14 e 26

ANALISE DE VARIANCIA II

Lembrando os laboratórios D, E e F da aula anterior, em que cada um apresentou 5 resultados de 15 réplicas, aleatoriamente distribuídas entre eles: não foi possível rejeitar H0 com [g.l.]=2;12 e =0,05

PORQUE A VARIÂNCIA NÃO EXPLICADA ERA MUITO GRANDE

Suponha que os 5 resultados anteriores, de cada labora-tório, foram obtidos, cada um, usando-se 5 marcas de re-agentes aleatoriamente distribuídos entre os laboratórios.

IMPORTANTE:

Não há preferência de certo laboratório por certo reagente. Todos os reagentes são usados por todos os laboratórios.

Os resultados dos laboratórios D, E e F podem ser agora reagrupados segundo o reagente usado.

REAGENTES (j) LAB (i) 1 2 3 4 5 Xi

D 56,7 45,7 48,3 54,6 37,7 48,6 E 64,5 53,4 54,3 57,5 52,6 56,4 F 56,7 50,6 49,5 56,5 44,7 51,6 Xj 59,3 49,9 50,7 56,2 44,9 52,2

21

2

)1(

1

L

iXL

si

21

2

)1(

1

C

jXC

sjx

QUEM SABE, AQUELA GRANDE VARIÂNCIA NÃO EXPLICADA, NO TESTE ENTRE LABORATÓRIOS, PODE SER DEVIDA, EM PARTE, A UMA VARIÂNCIA INTRÍNSECA AOS REAGENTES?

VARIÂNCIAS EXPLICADAS:

ENTRE LABORATÓRIOS:

C . = 5 . 15,5 = 77,5 com [g.l.]=(L-1)

ENTRE REAGENTES:

L . = 3 . 31,8 = 95,4com [g.l.]=(C-1)

31,8 < 35,8 (variância não explicada antes),

mas sobra ainda um RESÍDUO

2s

2s

Temos a Variância Explicada no desempenho do Laboratórios

Temos a Variância Explicada pela qualidade do Reagente usado

E.... temos um resíduo de variabilidade, um ruído, que vamos “distribuir” por todo o sistema !!!!!


D 56,7 45,7 48,3 54,6 37,7 48,6 E 64,5 53,4 54,3 57,5 52,6 56,4 F 56,7 50,6 49,5 56,5 44,7 51,6 Xj 59,3 49,9 50,7 56,2 44,9 52,2

VARIÂNCIA RESIDUAL:

Só há uma observação do laboratório E usando reagente 4 NÃO HÁ VARIÂNCIA;

Sem variância (sem erro), como prever o desempenho do laboratório E cada vez que ele usar o reagente 4?

VALOR OBSERVADO em E4: Xij = XE4 = 57,5 (Xij > j e > i)

VALOR ESPERADO: ij = + ( i- ) + ( j- ) = i +j -Xx̂ X X X

= 52,2+(56,4-52,2)+(56,2-52,2) = 60,4 4ˆ

Ex

Quem é a diferença entre valor observado (xij) e valor esperado ?ij

x̂

Elemento aleatório, que restou inexplicado, após o ajuste de laboratório e de reagente

XE4 - E4 = 57,5 - 60,4 = - 2,9x̂


D 56,7 45,7 48,3 54,6 37,7 48,6 E 64,5 53,4 54,3 57,5 52,6 56,4 F 56,7 50,6 49,5 56,5 44,7 51,6 Xj 59,3 49,9 50,7 56,2 44,9 52,2

INTERESSANTE?! o desempenho do laboratório E ao usar o reagente 4 ficou 2,9 unidades abaixo do valor esperado...Surpreendente, pois 57,5 é maior que a média do laboratório E e do reagente 4


D 56,7 45,7 48,3 54,6 37,7 48,6 E 64,5 53,4 54,3 57,5 52,6 56,4 F 56,7 50,6 49,5 56,5 44,7 51,6 Xj 59,3 49,9 50,7 56,2 44,9 52,2

VARIÂNCIA RESIDUAL DO SISTEMA

11

2 1 1

2

CLr

L

i

C

jjiij

s

1,139,55,15

*58;22

2

11

1

LABCL

LLAB

Fs

sCF

r

ix

2,169,58,31

*38;42

2

11

1

REAGCL

CREAG

Fs

s

LFr

jx

VARIÂNCIA RESIDUAL DO SISTEMA

112

2

CL

Xjxixijx

rs

46,4

1,13

8;2;05,0

8;2

F

FLAB

84,3

2,16

8;4;05,0

8;4

F

FREAG

Rejeita-se H0, com <0,05

Rejeita-se H0, com <0,05

CONCLUSÃO:

O teste ficou mais forte porque se reduziu a VARIÃNCIA NÃO EXPLICADA, mas o denominador de F perdeu 4 graus de

liberdade

Se A = B,

qual o Intervalo de Confiança de 95% destas diferenças?

INTERVALOS DE CONFIANÇA INDIVIDUAIS:

(A - B) = (A - B) ± t[2,5%;L(C-1)] . s . 1/CA + 1/CB,

onde sé a raiz quadrada da variância não explicada

(A - B) = (48,6 - 56,4) ± 2,18 . 0,55 . 2/5

(A - B) = -7,8 ± 1,0

(A - C) = -3,0 ± 1,0

(B - C) = +4,8 ± 1,0

E, no conjunto?

IC (0,95)3 = 0,857

e, se n = 100?

INTERVALOS DE CONFIANÇA SIMULTÂNEOS (COMPARAÇÃO MÚLTIPLA):

(A - B) = (A - B) ± F[5%;(L-1);L(C-1)] . s . [(L-1)/C] * 2

onde sé a raiz quadrada da variância não explicada

(A - B) = (48,6 - 56,4) ± 3,89 . 0,55 . 2/5 * 2

(A - B) = -7,8 ± 1,3

(A - C) = -3,0 ± 1,3

(B - C) = +4,8 ± 1,3

DIFERENÇAS ENTRE MÉDIAS DE POPULAÇÕES (i -I), ESTIMADAS DE MÉDIAS DE AMOSTRAS (i-I)

IC95% SIMULTÂNEO = VALOR ± 1,3:

A B C

A 0 -7,8 -3,0

B +7,8 0 +4,8

C +3,0 -4,8 0

-9,1 < (A - B) < -6,5

-4,3 < (A - C) < -1,7

+3,5 < (B - C) < +6,1

1 2 3 4 5

A 48.4 49.7 48.7 48.5 47.7

B 56.1 56.3 56.9 57.6 55.1

C 52.1 51.1 51.6 52.1 51.1

Anova: fator único

RESUMO

Grupo Contagem Soma Média Variância

Laboratório A 5 243 48.6 0.52

Laboratório B 5 282 56.4 0.87

Laboratório C 5 258 51.6 0.25

52.2 0.55

15.5

ANOVA

Fonte da variação SQ gl MQ Fcalculado valor-P F crítico

Entre grupos 154.8 2 77.4 141.6 4.515E-09 3.89

Dentro dos grupos 6.56 12 0.55

Total 161.36 14

Media das médias

Variância da média das médias, Variância entre tratamentos,Variância explicada

Média das variânciasdentro dos grupos, não explicada

SQ=MQ . Grau de

liberdade.

MQ = Produto de (C ou L) pela Variância de cada fator = variância explicada pelo fator.Entre grupos:77,4=5x15,5;Dentro dos grupos:0,55=média das variâncias de cada grupo

F calculado== MQ entre grupos / MQ dentro dos grupos

Prob. de F calculado

F de alfa critico = 0.05(especificado pelo usuário)

LAB\REAG 1 2 3 4 5D 56,7 45,7 48,3 54,6 37,7E 64,5 53,4 54,3 57,5 52,6F 56,7 50,6 49,5 56,5 44,7

Anova: fator duplo sem repetição

RESUMO Contagem Soma Média VariânciaLaboratorio D 5 243 48,6 57,2Laboratorio E 5 282 56,5 23,7Laboratorio F 5 258 51,6 25,8

52,215,7

Reagente 1 3 178 59,3 20,3Reagente 2 3 150 49,9 15,2Reagente 3 3 152 50,7 10,1Reagente 4 3 169 56,2 2,17Reagente 5 3 135 45,0 55,6

52,231,4

ANOVAFonte da variação SQ gl MQ F valor-P F críticoLaboratórios 157 2 79 12,8 0,0032 4,46Reagentes 377 4 94 15,3 0,0008 3,84Erro ou Resíduo 49 8 6

Total 584 14

Labs Amostras VALORES

1 A 1 48.4

2 A 2 49.7

3 A 3 48.7

4 A 4 48.5

5 A 5 47.7

6 B 1 56.1

7 B 2 56.3

8 B 3 56.9

9 B 4 57.6

10 B 5 55.1

11 C 1 52.1

12 C 2 51.1

13 C 3 51.6

14 C 4 52.1

15 C 5 51.1

Todos os laborató-rios têm desempe-

nhos diferentes (α ≤ 0,01)

Se posso rejeitar H0, quais são os laborató-

rios diferentes?

Se posso rejeitar H0, quais são as fumarolas

diferentes?

Conteúdo de CO2(%) em quatro fumarolas

CO2 Fumarola

1 27 1

2 28 1

3 31 1

4 32 1

5 33 1

6 31 2

7 34 2

8 35 2

9 36 2

10 39 2

11 40 2

12 30 3

13 38 3

14 42 3

15 43 3

16 16 4

17 20 4

18 21 4

19 26 4

20 27 4

21 29 4

22 35 4

ANOVA de um fator rejeitou H0 com

α < 0,001

Rock, 1986, Tab. 11.2

TUKEY: As fumarolas 2 e 3 têm CO2 diferente da fumarola 4

Labs Reagente Valores

1 D 1 56.7

2 D 2 45.7

3 D 3 48.6

4 D 4 54.6

5 D 5 37.7

6 E 1 64.5

7 E 2 53.4

8 E 3 52.3

9 E 4 57.5

10 E 5 52.6

11 F 1 56.7

12 F 2 50.6

13 F 3 49.5

14 F 4 56.5

15 F 5 44.7

Nonparametrics Statistics Kruskal-Wallis ANOVA by Ranks and Median

TestTradução livre de Statistica v. 7.1®

•Ambos os testes são alternativas não-paramétricas para o teste ANOVA de um fator.

•É necessário que o BD contenha variáveis código (codes) que identifiquem univocamente cada membro dos grupos em

comparação.

Premissas e Interpretações:

O “Teste Kruskal-Wallis ANOVA por postos” assume que a variável é

contínua e medida, pelo menos, em escala ordinal. Ele avalia a hipótese de

que as diferentes amostras foram extraídas da mesma distribuição, ou de

distribuições que têm a mesma MEDIANA.

Portanto, sua interpretação é, basicamente, a mesma do teste ANOVA,

exceto porque ele compara postos ao invés de médias.

Premissas e Interpretações:

O Teste da Mediana é uma versão mais “crua” do Kruskal-Wallis ANOVA.

Ele simplesmente conta o número de casos, em cada grupo, que estão abaixo ou

acima da mediana comum e computa o valor de χ2 numa tabela de contingência

2 x k.

Sob a hipótese de nulidade (todas as amostras originam-se de populações com

medianas idênticas), espera-se que, aproximadamente 50% de todos os casos,

em cada amostra, fiquem abaixo (ou acima) da mediana comum.

O Teste de Medianas é particularmente útil quando a escala contém limites

artificiais, de modo que muitos casos caem “fora da escala”. Nesta situação, o

Teste da Mediana é, de fato, o único teste apropriado para comparar amostras.

A probabilidade de um H=12,6 sob H0 é muito pequena. Rejeito H0: as

fumarolas têm medianas diferentes

Documents

ANÁLISE DE VARIÂNCIA I – ANOVA DE UM FATOR H o : A VARIÂNCIA ENTRE TRATAMENTOS E A VARIÂNCIA INTRÍNSECA ÀS AMOSTRAS NÃO SÃO DIFERENTES GRAUS DE LIBERDADE