TAD - PUC-Rio, 1999 Projeto de Experimentos. TAD - PUC-Rio, 1999 Comparação de 2 Tratamentos Experimentos comparativos simples Técnicas: uso de conjuntos

TAD - PUC-Rio, 1999

Projeto de Experimentos

TAD - PUC-Rio, 1999

Comparação de 2 Tratamentos

• Experimentos comparativos simples• Técnicas:

uso de conjuntos de referência externa randomização e blocagem testes de significância e intervalos de confiança

• Exemplos: fertilizantes, máquinas, processos industriais algoritmos, sistemas, CPUs

TAD - PUC-Rio, 1999

Uso de Distribuições de Referência Externas

• Deseja-se avaliar se um método modificado gerou melhores resultados que o método tradicional

• Dispõe-se de um conjunto de dados grande sobre o método tradicional

TAD - PUC-Rio, 1999

Exemplo

• Algoritmo A já é rotineiramente executado para tarefa Z e surge a proposta de usar algoritmo B

• 10 execuções de A:– média de tempo de execução tA=84.24s

• 10 execuções deB:– média de tempo de execução tB=82.94s

TAD - PUC-Rio, 1999

Exemplo

• Por conta de variações nos tempos individuais não há evidência suficiente para dizer que B é melhor do que A

• Erro experimental! algoritmo não determinístico timer com pouca acurácia ou resolução interferência de outros programascompetição por bandaalocação de recursos aleatória

TAD - PUC-Rio, 1999

Populações Conceituais

• Considerando as 2 populações conceituais: observações do tempo de execução de A observações do tempo de execução de B

queremos saber se a média da população 1 é maior do que a média da população 2

TAD - PUC-Rio, 1999

Hipótese Nula

• Supomos que não existe diferença entre as médias:A = B

e verificamos a chance da diferença observada ter ocorrido por acaso.

• no exemplo: Por acaso existem dados sobre 210 execuções anteriores de A...

TAD - PUC-Rio, 1999

210 (!) observações de A

tempo

execução100 200

7880

868482

88

TAD - PUC-Rio, 1999

para testar a hipótese nula:

• quantas vezes a diferença entre dois grupos sucessivos de 10 observações diferiu por mais de 1,3 seg?

• calcula-se as 191 diferenças entre conjuntos adjacentes de 10 observações...

TAD - PUC-Rio, 1999

Distribuição das diferenças

-1.8

-1.4

-1.2

-0.9

-0.7

-0.5

-0.3

-0.1 0.

20.

40.

60.

81.

11.

4

1v

v1,3

-2,0 -1,0 0 1,0

TAD - PUC-Rio, 1999

comparação com a distribuição de referência

• Em apenas 9 casos as diferenças excedem 1,3

• 9 em 191: A probabilidade de cair em uma diferença de 1,3 pode ser aproximada por 9/191=0,047

• Diz-se que a diferença é significativa estatisticamente com nível de probabilidade 0,047

TAD - PUC-Rio, 1999

conclusões

• A hipótese nula fica desacreditada...• Parece que o algoritmo B é melhor do que

A...

TAD - PUC-Rio, 1999

outro exemplo:diagnóstico de pacientes

• Dr A. afirma que pode reconhecer que pessoa tem doença D olhando sua língua, método muito mais barato que o exame convencional.

• Desejamos fazer um teste para saber se ele está meramente adivinhando ou se ele realmente consegue diagnosticar D

TAD - PUC-Rio, 1999

Teste realizado

• Dr A. examina 4 grupos de 4 pacientes; em cada grupo 1 paciente tem D

• Se ele comete um erro em algum grupo, o experimento acaba; conclui-se que ele está adivinhando

• Se ele completa os 4 sem nenhum erro, o experimento acaba e conclui-se que ele não está meramente adivinhando.

TAD - PUC-Rio, 1999

interpretação -se ele adivinha:

1 Pr(parada no 1o): 3/42 Pr(parada no 2o): 1/4*3/4= 3/163 Pr(parada no 3o): 1/4*1/4*3/4= 3/644 Pr(falha no 4o): 1/4*1/4*1/4*3/4= 3/256

255/2565 Pr(sucesso): 1/4*1/4*1/4*1/4=1/256 chance de rejeitar a hipótese de advinhação e

ela ser correta: 1/256

TAD - PUC-Rio, 1999

Jargão

• região de rejeição (evento 5): região crítica• tamanho da região crítica associada ao nível

de significâncianível de significância: chance de rejeitar uma hipótese

verdadeiraO aumento da região crítica aumenta a chance de

erroneamente rejeitarmos uma hipótese verdadeiraFala-se em níveis de significância mais altos quando as

regiões críticas são menores!

TAD - PUC-Rio, 1999

testes de hipótese

• hipóteses nunca podem ser provadas ou negadas em termos absolutos

• rejeição: “Ou a hipótese está errada, ou em nosso

experimento observamos um resultado que é improvável sob esta hipótese e mais provável se outra hipótese for verdadeira; o nível de improbabilidade é indicado pelo nível de significância”

TAD - PUC-Rio, 1999

dificuldades

• O médico pode ter algum nível de acerto sem que consiga acertar sempre…

• por exemplo, em cada 3 grupos de 4 ele acerta 2 vezes

• P(sucesso)=2/3*2/3*2/3*2/3=16/81• P(falha)=65/81• em 65 de 81 experimentos, concluiríamos que ele

diagnostica em 1/4 dos casos (adiv.) quando de fato diagnostica em 2/3!

TAD - PUC-Rio, 1999

testes de hipótese

• aceitação deve ser encarada como não-rejeição!– não existe evidência suficiente de que hipótese

seja falsa!

mais interessante seria poder estimar a probabilidade p de acerto do diagnóstico– veremos depois em intervalos de confiança

TAD - PUC-Rio, 1999

algoritmos A e B - outra forma

• Sob certas condições:

(y - )/s(n)1/2

tem uma distribuição t com l graus de liberdade– y tem distribuição normal com média – s, com l graus de liberdade, é calculado a partir de

observações normal e independentemente distribuídas

TAD - PUC-Rio, 1999

Distribuição de referência externa com base na distribuição t

• Podemos comparar sequências de 10 observações disjuntas e considerar que as diferenças entre elas terão uma distribuição normal...

TAD - PUC-Rio, 1999

Diferenças

83,94 83,51 -0,43

83,99 84,42 0,43

... ... ...

85,18 84,28 -0,9

84,18 84,01 -0,17

y1 y2

yAyB-yAyB

84,24 85,54 1,3

y1y2-

variância das diferenças s2 = 0,36desvio padrão s = 0,6

hipótese: diferenças seguem distribuição normalcom média 0

TAD - PUC-Rio, 1999

hipótese nula

• Como todas as observações usaram o mesmo algoritmo A, podemos assumir que a média da população (y2-y1) é 0

• Podemos calcular a variância da amostra:s2 = ((-0,43-0)2 + (0,43-0)2 +...+(-0,17-0)2 ) / 10 = 0,36

• e o desvio padrão s=0,6

TAD - PUC-Rio, 1999

hipótese nula

• No experimento com A e B, (yB-yA) = 1,3

• t = (1,3 - 0)/0,6 = 2,17• Podemos usar a tabela da distribuição t com

10 graus de liberdade para interpolar e concluir que P(t>2,17)=0,028

TAD - PUC-Rio, 1999

problema: normalmente não temos uma massa de dados para formar

uma distribuição de referência

TAD - PUC-Rio, 1999

Amostras Aleatórias

• É comum assumirmos que um conjunto de dados é uma amostra aletória da população conceitual de todas as observações possíveis.

• Ao testar a hipótese nula, estamos testando se o conjunto de observações (20 no caso) pode ser explicado como uma amostra aleatória de uma única população comum.

TAD - PUC-Rio, 1999

com amostras aleatórias...

• os valores de y são distribuidos de forma independente em torno das médias:– os erros y11- A, y12- A, ...,y21- B, y22- B, ...,

variam independentemente.

• A distribuição da média y tem propriedades especiais:– E(y) = – V(y) = 2/n

TAD - PUC-Rio, 1999

interpretação

• Suponha que uma urna contém um número muito grande de bilhetes brancos, cada um com um valor numérico (uma observação y) com média e variância 2.– aleatoriamente tiramos uma amostra de 10

bilhetes– calculamos a média e escrevemos em um bilhete

azul– colocamos o bilhete azul em outra urna

TAD - PUC-Rio, 1999

interpretação

• Os bilhetes da urna azul terão uma distribuição com média e variância 2/n.– A distribuição original não precisa ser normal– A nova distribuição será “mais aproximadamente”

normal...

TAD - PUC-Rio, 1999

para amostras grandes

• y como estimador de • s2 como estimador de 2

– s2 tem valor médio 2 e varia em torno desse valor com desvio padrão 1/n1/2

TAD - PUC-Rio, 1999

voltando ao exemplo

• Suponha que os dois conjuntos de 10 observações são amostras aleatórias– vamos assumir que os algoritmos A e B dão

origem a distribuições com o mesmo formato (e mesma variância***) e médias possivelmente diferentes a e b.

TAD - PUC-Rio, 1999

cálculos

– variâncias V(yA) = 2/nA

V(yB) = 2nB

V(yB-yA) = 2/nA + 2nB= 2(1/nA + 1/nB)

– supondo a distribuição de y normal...z = ((yB-yA) - (B - A))/(1/nA + 1/nB)1/2

teria uma distribuição normal unitária– mas não temos !

TAD - PUC-Rio, 1999

referência externa

• Podemos usar a coleção de 210 observações, para a qual o desvio padrão é 2,88, como o valor do desvio padrão das populações amostradasz = 1,3 - (B - A)/1,29para a hipótese nula:z = 1,3/1,29 = 1,01P(z>1,01) (consultando a tabela!) = 0,156

TAD - PUC-Rio, 1999

o que mudou:

• aqui estamos usando a hipótese de amostragem aleatória para a distribuição das diferenças, mas ainda estamos dependendo da referência externa para calcular a variância!

TAD - PUC-Rio, 1999

amostra de uma população normal

• Se a amostra é tirada de uma população com distribuição normal com média e variância 2:1 A distribuição de y também é normal2 A variância da amostra, s2, tem uma distribuição

chi-quadrada.3 A quantidade tem distribuição t

com (n-1) graus de liberdade (n é o tamanho da amostra)

(y - )

s(n)1/2

TAD - PUC-Rio, 1999

população normal

• importância do terceiro resultado:– O desvio (y - ) pode ser julgado em relação a

uma estimativa do desvio padrão de y, s(n)1/2, obtida internamente da amostra

TAD - PUC-Rio, 1999

população com distribuição normal

• considerando que as diferenças tenham distribuição normal

V(yB-yA) = 2/nA + 2nB= 2(1/nA + 1/nB)

desvio padrão: (1/nA + 1/nB)1/ 2

então (tínhamos que (y- s(n)1/2 seguia distribuição t)

(yB-yA) - (0)/s(1/nA + 1/nB)1/ 2 segue distribuição t

TAD - PUC-Rio, 1999

Contas

(yB-yA) = 1,3s 2 =[Soma(yA-yA)2 + Soma(yB-yB)2]/ (nA+nB-2)=10,87t = 1,3/1,47 = 0,88P(t>0,88)= (interpolação!) 0,195

TAD - PUC-Rio, 1999

Randomização e Blocagem

• precauções no projeto do experimento– randomização garante validade de inferências– blocagem elimina fontes de variação

TAD - PUC-Rio, 1999

exemplo de randomização

• Jardineiro quer testar fertilizantes A e B para plantas de tomates…B é fertilizante novo

• Ele tem 11 lotes disponíveis, e resolve tratar 6 deles com B e 5 com A

TAD - PUC-Rio, 1999

Randomização

posição 1 2 3 4 5 6 7 8 9 10 11

método Á A B B A B B B A A B

tempo 29,9 11,4 26,6 23,7 25,3 28,5 14,2 17,9 16,5 21,1 24,3

A B

29,9 26,6

11,4 23,7

25,3 28,5

16,5 14,2

21,1 17,9

24,3

20,84 22,53

TAD - PUC-Rio, 1999

Randomização

• Algum método aleatório é usado para escolher a ordem em que os experimentos com A e B serão realizados

• Poderíamos comparar a diferença das médias com todas as diferenças obtidas por diferentes atribuições de 5 A e 6 B a essas colunas

• combinação de 11 5 a 5 (ou 6 a 6) = 462

TAD - PUC-Rio, 1999

distribuição randômicaposição 1 2 3 4 5 6 7 8 9 10 11

método Á A B B A B B B A A B

método A A A A A B B B B B B

método A A A A B B B B A B B

método A A A B A A B B B B B

método A A B A A A B B B B B

método A B A A B B B B A A B

método A A B B B A A A B B B

método B B B B A A A B B A A

… … … … … … … … … … …

tempo 29,9 11,4 26,6 23,7 25,3 28,5 14,2 17,9 16,5 21,1 24,3

TAD - PUC-Rio, 1999

distribuição das diferenças das médias

-9 -7 -5 -3 -1 1 3 5 7 9 11

1,69

33%

não há razão para duvidar da hipótese nula!

TAD - PUC-Rio, 1999

Randomização

• Com amostras aleatórias de uma população com distribuição normal, poderíamos comparar a quantidade

((yB-yA) - (B - A))/s1/nA + 1/nB)1/2

com a distribuição t com nA + nB - 2 graus de liberdade

• se randomizarmos o experimento, podemos usar a distribuição t como aproximação para a distribuição randomizada

TAD - PUC-Rio, 1999

Comparação em Pares: exemplo

• experimento com materiais diferentes de solado• 10 pessoas usando materiais diferentes em cada sapato

0

2

4

6

8

10

12

14

16

0 5 10 15

TAD - PUC-Rio, 1999

uso da diferença

• Usando a diferença de desgaste entre os 2 sapatos, eliminamos a variação entre 2 meninos

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

1.2

0 5 10 15

TAD - PUC-Rio, 1999

Experimento

• objetivo é saber se o material B, mais barato, resulta ou não em maior desgaste– randomização: 10 lançamentos de

moeda determinaram se o material B deveria ser usado no sapato direito ou esquerdo

• Ca Ca Co Ca Co Ca Ca Ca Co Ca

0,80,60,3-0,11,1-0,20,30,50,3média: 0,41

TAD - PUC-Rio, 1999

distribuição de randomização

• Sob a hipótese nula, de não haver diferença entre A e B, o fato de colocar no sapato esq. ou direito não faria diferença alguma nos resultados; apenas afetaria o sinal da diferença.

• Os 10 lançamentos de moedas poderiam dar 1024 resultados diferentes:– m = (+/- 0,8 +/- 0,6 ... +/- 0,3)/10

TAD - PUC-Rio, 1999

randomização - resultados

• Apenas 3 das possíveis somas dão valores maiores que 0,41. 4 dão exatamente 0,41

• considerando metade dos empates:5/1024=0,005 (0,5%)

• aumento de desgaste é altamente significativo estatisticamente!

TAD - PUC-Rio, 1999

usando a distribuição t

• (d - )/sd/(n)1/2 tem distribuição t com (n-1) graus de liberdade d = 0,41sd

2 = Soma(d-d)2/((n-1) = 0,149sd = 0,386sd/(n)1/2 =0,386/(10)1/2 =0,122(d - )/sd/(n)1/2 = (0,41-0)/0,122 = 3,4Pr(t>3,4) com 9 graus de liberdade 0,004 compatível com resultado anterior!

TAD - PUC-Rio, 1999

outros exemplos de pares

• Comparação da percepção visual de objetos aparecendo à esquerda e à direita.

• comparação de tempos de comunicação com diferentes mecanismos– uso de diversos programas, cada um com os dois

mecanismos

• se não há como controlar a carga externa– poderíamos executar os algoritmos A e B

simultaneamente, e considerar os pares

Documents

TAD - PUC-Rio, 1999 Projeto de Experimentos. TAD - PUC-Rio, 1999 Comparação de 2 Tratamentos Experimentos comparativos simples Técnicas: uso de conjuntos