24
Inferência para várias populações normais – análise de variância (ANOVA) Capítulo 15, Estatística Básica (Bussab&Morettin, 8a Edição) 9a AULA – 11/05/2015 MAE229 - Ano letivo 2015 Lígia Henriques-Rodrigues 9a aula (11/05/2015) MAE229 1 / 24

Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

Embed Size (px)

Citation preview

Page 1: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

Inferência para várias populações normais –análise de variância (ANOVA)

Capítulo 15, Estatística Básica(Bussab&Morettin, 8a Edição)

9a AULA – 11/05/2015

MAE229 - Ano letivo 2015Lígia Henriques-Rodrigues

9a aula (11/05/2015) MAE229 1 / 24

Page 2: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

Motivação

Ideia chave: Construir um teste para comparar k (k > 2) populaçõesnormais com a mesma variância.

Exemplos:

Para curar uma certa doença existem quatro tratamentos possíveis: A, B,C e D. Pretende-se saber se existem diferenças significativas nostratamentos no que diz respeito ao tempo necessário para eliminar adoença.

Comparar três lojas quanto ao volume médio de vendas.

. . ..

9a aula (11/05/2015) MAE229 2 / 24

Page 3: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

Seja Y a v.a. de interesse de uma determinada população (indivíduos,animais, empresas....), e admita-se que os elementos da população podemser classificados em níveis de um fator.

Exemplo: Consideremos:Y – altura dos indivíduos (variável de interesse)P – população constituída por todos os indivíduos,fator: sexo (com dois níveis F e M) (i = 1,2).

Extraímos uma amostra de dimensão n1 da população P1 : pessoas do sexomasculino (y11, y12, . . . , y1n1).

Extraímos uma amostra de dimensão n2 da população P2 : pessoas do sexofeminino (y21, y22, . . . , y2n2),

e suporemos que as amostras recolhidas são independentes

9a aula (11/05/2015) MAE229 3 / 24

Page 4: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

Seja:

E(Y ) = µ – a média global da v.a. Y para a população P (média das alturasde todos os indivíduos)

E(Y |P1) = µ1 – a média da v.a. Y para a subpopulação P1 (média dasalturas do homens)

E(Y |P2) = µ2 – a média da v.a. Y para subpopulação P2 (média das alturasdas mulheres)

Neste exemplo, a hipótese a testar é,

H0 : µ1 = µ2 = µ versus H1 : µ1 6= µ2

A questão é saber se o factor exerce alguma influência na variação dacaracterística em estudo.

9a aula (11/05/2015) MAE229 4 / 24

Page 5: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

No caso mais geral, admitimos que temos k amostras independentes, de ksubpopulações (populações) P1,P2, . . . ,Pk , e onde k representa o númerode níveis do fator,

subpopulação P1 =⇒ amostra y11, y12, . . . , y1n1

subpopulação P2 =⇒ amostra y21, y22, . . . , y2n2

· · · · · · · · ·subpopulação Pk =⇒ amostra yk1, yk2, . . . , yknk

onde

P1 ∼ N(µ1, σ2)

P2 ∼ N(µ2, σ2)

· · · · · · · · ·Pk ∼ N(µk , σ

2)

9a aula (11/05/2015) MAE229 5 / 24

Page 6: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

Sejam:

Yij – v.a.’s que representam as observações (i = 1, . . . , k e j = 1, . . . ,ni )ni – dimensão da subpopulação Pi (i = 1, . . . , k )k – número de níveis do fatorµi – média da subpopulação Pi (i = 1, . . . , k )µ – média global (de todas as subpopulações)

τi = µ− µi – o efeito do nível i (∑k

i=1 τi = 0)eij – v.a’s que representam o erro aleatório de cada observação e quesupomos independentes entre si (E(eijeim) = 0 e E(e1je2m) = 0), e comvariância σ2.

Modelo

Yij = µi + eij , i = 1, . . . , k j = 1, . . . ,ni

= µ+ τi + eij , i = 1, . . . , k j = 1, . . . ,ni

9a aula (11/05/2015) MAE229 6 / 24

Page 7: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

Objetivo

Admitindo que temos um fator com k níveis, o objetivo é estimar as médiasde cada uma das subpopulações µi (i = 1, . . . , k ) e testar a hipótese

{H0 : µ1 = µ2 = . . . = µk = µH1 : µi 6= µj , para algum par (i , j)

ou {H0 : τ1 = τ2 = . . . = τk = 0H1 : τi 6= 0, para algum i

Nota: O modelo anterior é designado de modelo de efeitos (níveis) fixos umavez que as subpopulações, determinadas pelos níveis do fator, sãopré-determinadas.

9a aula (11/05/2015) MAE229 7 / 24

Page 8: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

Exemplo: Para curar uma certa doença existem quatro tratamentospossíveis: A, B, C e D.

Pretende-se saber se existem diferenças significativas nos tratamentos noque diz respeito ao tempo necessário para eliminar a doença.

Temos apenas um factor, Tratamento, que se apresenta em quatro níveis, A,B, C e D.

Através da aplicação da análise de variância com um factor ou one-wayANOVA, podemos saber se os tratamentos produzem os mesmos resultadosno que diz respeito à característica em estudo.

9a aula (11/05/2015) MAE229 8 / 24

Page 9: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

Pressupostos:

A aplicação da análise de variância pressupõe a verificação das seguintescondições:

As amostras devem ser aleatórias e independentes.

As amostras devem ser extraídas de populações normais.

As populações devem ter variâncias iguais σ21 = σ2

2 = . . . = σ2k , ou seja, o

modelo é homocedástico.

9a aula (11/05/2015) MAE229 9 / 24

Page 10: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

Temos então duas situações possíveis:

H0 é verdadeiro: As diferenças observadas entre as médias amostrais sãodevidas a flutuações amostrais e portanto todas as amostras provêm depopulações com médias iguais. Como se supôs que todas as populações sãonormais e têm variâncias iguais, isto é o mesmo que extrair todas asamostras de uma única população.

H0 é falso: As diferenças observadas entre as médias amostrais sãodemasiado grandes para serem devidas unicamente a flutuações amostrais.As médias das populações não são iguais e as amostras recolhidas provêmde populações diferentes.

9a aula (11/05/2015) MAE229 10 / 24

Page 11: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

Análise Variância - ANOVAA análise de variância vai estimar a variância por dois métodos diferentes, umsob a validade da hipótese nula e o outro não.

As duas estimativas obtidas são depois comparadas para tomarmos umadecisão: se os grupos tiverem todos a mesma média (isto é, se H0 éverdadeiro), as duas estimativas devem estar próximas uma da outra, casocontrário (isto é, se H1 é verdadeiro) devem diferir significativamente.

9a aula (11/05/2015) MAE229 11 / 24

Page 12: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

Decomposição da soma de quadradosSeja

N =k∑

i=1

ni , y i =

∑nij=1 yij

ni, y =

∑ki=1∑ni

j=1 yij

N=

∑ki=1 niy i

N.

k∑i=1

ni∑j=1

(yij − y)2

︸ ︷︷ ︸SQTot

=k∑

i=1

ni(y i − y)2

︸ ︷︷ ︸SQEnt

+k∑

i=1

ni∑j=1

(yij − y i)2

︸ ︷︷ ︸SQDen

SQTot = SQEnt + SQDen

9a aula (11/05/2015) MAE229 12 / 24

Page 13: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

• SQTot –> é a soma de quadrados total e mede a variação total nos dados;

• SQEnt –> é a soma de quadrados entre os níveis, ou grupos, do factor emede a variação entre grupos (populações); é por vezes designada porvariação explicada, pois ela é explicada pelo facto de as amostras poderemprovir de populações diferentes;

• SQDen –> é a soma de quadrados dentro dos níveis, ou grupos, do factor emede a variação dentro dos grupos (populações); é por vezes designada porvariação não explicada ou residual, pois é atribuída a flutuações dentro domesma população, portanto não pode ser explicada pelas possíveisdiferenças entre os grupos (populações).

9a aula (11/05/2015) MAE229 13 / 24

Page 14: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

Estimativa entre da variância:Mostra-se que:

SQEntσ2 =

∑ki=1 ni(y i − y)2

σ2 ∼H0

χ2(k−1)

e que a estimativa da variância σ2 é dada por:

QMEnt =SQEntk − 1

.

Estimativa dentro da variância:Mostra-se que:

SQDenσ2 =

∑ki=1∑ni

j=1(yij − y i)2

σ2 ∼H0

χ2(N−k)

e que a estimativa da variância σ2 é dada por:

QMDen =SQDenN − k

.

9a aula (11/05/2015) MAE229 14 / 24

Page 15: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

Estatística de TesteA estimativa dentro da variância, QMDen , não é afectada pela veracidade oufalsidade de H0.

Ao contrário, a estimativa entre da variância, QMEnt, já o é, sendoaproximadamente igual a QMDen quando H0 é verdadeira e maior do queesta se H0 é falsa.

F =QMEntQMDen

∼H0

F(k−1,N−k)

• Se H0 é verdadeira, σ2 pode ser estimada pelos dois processos e como asduas estimativas serão aproximadamente iguais, a razão F será próxima de 1.

• Se H0 for falsa, as diferenças nas médias populacionais vão provocar maiorvariabilidade nas médias amostrais e portanto QMEnt será também grandecomparativamente com QMDen. A razão F tomará um valor maior que 1.

Região CríticaRC=(c,+∞), onde P(F(k−1,N−k) > c) = α

9a aula (11/05/2015) MAE229 15 / 24

Page 16: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

Tabela de Análise de Variância

Fonte da graus de SQ QM FVariação (F.V.) liberdade (g.l.)

Entre k − 1 SQEnt QMEnt=SQEntk − 1

QMEntQMDen

grupos

Dentro N − k SQDen QMDen=SQDenN − k

dos gruposTotal N − 1 SQTot QMTot

9a aula (11/05/2015) MAE229 16 / 24

Page 17: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

Fórmulas para cálculo das somas de quadrados

• SQTot =∑k

i=1∑ni

j=1 y2ij − Ny2;

• SQDen =∑k

i=1(ni − 1)S2i =

∑ki=1

(∑nij=1 y2

ij − niy2i

)• SQEnt =

∑ki=1 ni(y i − y)2 =

∑ki=1 niy

2i − Ny2

Dados balanceadosSe n1 = n2 = . . . = nk = n então N = nk .

9a aula (11/05/2015) MAE229 17 / 24

Page 18: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

Exemplo (pág. 431): Uma escola analisa seu curso por meio de umquestionário com 50 questões sobre diversos aspectos de interesse. Cadapergunta tem uma resposta, numa escala de 1 a 5 (a v.a. Y ), em que a maiornota significa melhor desempenho. Na última avaliação, usou-se umaamostra de alunos de cada período, e os resultados estão na tabela abaixo.Existem as indicações estatísticas para dizer que o desempenho no cursotem uma influencia de período de aplicação do curso?

PeríodoManhã Tarde Noite

4,2 2,7 4,64,0 2,4 3,93,1 2,4 3,82,7 2,2 3,72,3 1,9 3,63,3 1,8 3,54,1 3,4

2,8

9a aula (11/05/2015) MAE229 18 / 24

Page 19: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

Fator: período com 3 níveis

i = 1 – manhã (n1 = 7)i = 2 – tarde (n2 = 6)i = 3 – noite (n2 = 8)

N = 7 + 6 + 8 = 21

Hipóteses: H0 : µ1 = µ2 = µ3 versus H1 : µi 6= µj , para algum par (i , j)

Estatística de Teste: F =QMEntQMDen

∼H0

F(2,18)

TABELA ANOVA

9a aula (11/05/2015) MAE229 19 / 24

Page 20: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

Teste de HomocedasticidadeUma das suposições para a aplicação da técnica da ANOVA é que avariância é igual em todos os níveis, mas nem sempre é possível garantir queeste pressuposto é válido. Este teste tem como pressuposto que aspopulações tenham distribuição normal. Além disso, só é aplicável quando asdiferentes amostras envolvidas têm dimensões ni ≥ 4 (∀i).

Teste de Bartlett• Hipótese Nula: H0 : σ2

1 = σ22 = . . . = σ2

k

• Calcular a variância comum

S2 =

∑ki=1(ni − 1)S2

iN − k

=SQDenN − k

= QMDEn

• Calcular

M = (N − k) ln S2 −k∑

i=1

(ni − 1) ln S2i

9a aula (11/05/2015) MAE229 20 / 24

Page 21: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

• Calcular

C = 1 +1

3(k − 1)

[k∑

i=1

( 1ni − 1

)−( 1

N − k

)]

• Estatística de Teste (distribuição aproximada válida para amostras grandes):

MC∼H0

χ2(k−1)

• Região Crítica: RC=(c,+∞), com α = P(χ2(k−1) > c).

9a aula (11/05/2015) MAE229 21 / 24

Page 22: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

Exemplo: Suponha que é director de marketing de uma empresa quepretende relançar um produto no mercado. Você estudou três campanhas demarketing diferentes, cada uma deles combina de modo diferente factorescomo o preço do produto, a apresentação do produto, promoçõesassociadas, etc. Qualquer uma destas campanhas é levada a cabo no pontode venda, não havendo qualquer publicidade nos meios de comunicação.Para saber se há diferença entre as três campanhas relativamente à suaeficácia, cada uma delas é feita num conjunto de lojas seleccionadasaleatoriamente, durante um período de duração limitada. Note que as lojassão seleccionadas de modo a que as três amostras sejam aleatórias eindependentes entre si. As vendas (em unidades monetárias) registradasdurante este período constam da tabela seguinte.

9a aula (11/05/2015) MAE229 22 / 24

Page 23: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

Campanha 1 Campanha 2 Campanha 38 10 76 8 55 12 86 7 67 9 7

10 511

Total 32 67 38

Seja Yi a v.a. que representa o volume de vendas da loja sujeita à campanhai (i = 1,2,3).

Estatísticasy1 = 6.4; y2 = 9.5714; y3 = 6.3333; y = 7.611SQEnt = 44.04; QMEnt = 22.015; SQDen = 30.2476; QMDen = 2.0165

9a aula (11/05/2015) MAE229 23 / 24

Page 24: Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf · variação não explicada ou residual, pois é atribuída a flutuações dentro do ... associadas,

• H0 : σ21 = σ2

2 = σ23 versus H1 : σ2

i 6= σ2j , para algum par (i , j)

• QMDen = 22.015

• M = 1.065

• C = 1.09167

• MC∼H0

χ2(2)

• RC = (9.21,+∞)

• M/C = 0.976 /∈ RC

Ao nível de significância de 0.01, não se pode rejeitar a hipótese de que astrês variáveis populacionais tenham iguais variâncias.

TABELA ANOVA

9a aula (11/05/2015) MAE229 24 / 24