Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
Teste de hipóteses para médias e proporções amostrais
Prof. Marcos Pó
Métodos Quantitativos para Ciências Sociais
Uma sanitarista desconfia que, em geral, os recém-nascidos de determinada região podem estar abaixo do peso esperado. Para verificar isso ela obtém os dados de 36 recém-nascidos e verifica uma média de 3,150kg e um desvio-padrão de 0,600kg. A média de peso esperada é de 3,300kg de acordo com a OMS.
Verifique se a amostra permite afirmarmos que o peso médio dos recém-nascidos nessa é menor que o padrão da OMS, com probabilidade de 5% da amostra ter obtido um resultado que não reflete o parâmetro real da população.
2
Exemplo: dados amostrais x parâmetros da população
3
É uma metodologia que define regras de decisão para julgar se as evidências estatísticas amostrais permitem suportar – ou refutar – uma hipótese quantitativa sobre um parâmetro populacional, com base nas probabilidades de cometer determinados tipos de erro.
Temos dois tipos de hipóteses:
► H0 - Hipótese nula: sempre possui uma afirmação de igualdade. É nula no sentido de negar o fenômeno investigado. Assim, os valores amostrais verificados seriam resultado apenas de um acaso amostral.
► HA - Hipótese alternativa: é o complemento da hipótese nula e significa que os valores encontrados na amostra trazem evidências fortes da existência do fenômeno. Costuma ser a hipótese de trabalho, que só será aceita se a evidência estatística for forte.
4
Teste estatístico de hipótese
Testes possíveis
Diferença entre médias ou proporções
Diferença entre desvios-padrão (será tratado juntamente com ANOVA)
5
Uma cooperativa quer usar o vergalhão tipo A em suas obras. Há um lote à venda, mas não é possível identificar se é do tipo A ou do tipo B, cujos parâmetros estão na tabela. Para a tomada de decisão será disponibilizada a média do teste de resistência à tração de uma amostra aleatória de 25 peças.
(a). Com a regra de decisão “se a média do teste for superior à 1500kg considero que são do tipo A e compro; caso contrário devem ser do B e não compro”, que erros podemos cometer?
(b). Como poderíamos estabelecer uma regra de decisão para que o risco de comprar peças comuns seja inferior a 5%?
6
Erros de decisão
Tipo Resistência à tração Desvio-padrão
A 1.600 kg 300 kg
B 1.400 kg 400 kg
Erros de decisão em um teste de hipótese
Contexto da decisão: temos uma hipótese, ou seja, fazemos uma afirmação sobre um parâmetro da realidade .
Realidade
Rejeitar hipótese nula
Não rejeitar hipótese nula
Julg
ame
nto
da
amo
stra
Rejeitar hipótese nula
Erro Tipo I (α)
Rejeitar uma hipótese verdadeira
Não rejeitar hipótese nula
Erro Tipo II (β) Aceitar uma hipótese
falsa
7
Erros de julgamento: α (alfa) e β (beta)
A probabilidade de incorrermos no Erro Tipo I (α) é chamada de nível de significância do teste. O resultado da amostra é tanto mais significante quanto menor for o α. Normalmente é fixado em:
É difícil determinar a probabilidade de incorrer no Erro Tipo II (β), pois normalmente não temos muitos elementos sobre a hipótese alternativa de um problema.
Ao se diminuir a probabilidade de α , aumenta-se a de β. Para escolher que risco queremos correr é necessário analisar o contexto da pesquisa e seus possíveis impactos.
8
10%
5% * Evento raro
1% ** Evento raríssimo
0,1% *** Evento raríssimo
Exemplo de raridade
9
Como sabemos que determinado card de Pokémon é raro para fazer uma boa troca?
Regra de decisão: Região Crítica
Testar uma hipótese significa verificar se a nossa evidência amostral é forte o suficiente para podermos rejeitar a Hipótese Nula. Para isso estabelecemos um intervalo onde consideraremos ser adequado fazer essa rejeição, a região crítica, com base no nosso alfa ().
► Se a estatística do teste estiver na região crítica consideramos haver evidência significativa de H0 ser falsa, portanto podemos aceitar HA.
► Caso não esteja na região crítica dizemos que não há evidência amostral significativa para rejeitar H0.
10
Regiões críticas de teste de médias e proporções
11 Prof. Marcos Vinicius Pó
H0 HA Tipo de teste Ilustração
μ=100
p=0,50
μ≠100
p≠0,50 Bicaudal
μ≤100
p≤0,50
μ>100
p>0,50 Unicaudal
μ≥100
p≥0,50
μ<100
p<0,50 Unicaudal
Imag
ens:
Wik
iped
ia C
om
mo
ns
R.C.
R.C.
R.C.
R.C.
Probabilidade de significância (p-valor)
Alternativamente a se definir arbitrariamente um valor para α, podemos determinar o p-valor do teste.
Nesse caso, em vez de se calcular a região crítica para aceitar ou rejeitar a hipótese, calcula-se a probabilidade de ocorrer ao acaso tal valor para 𝑥 ou 𝑝 .
A seguir julga-se se isso consiste em uma evidência suficiente para rejeitar a hipótese nula, ou seja, um evento raro ou dizemos que H0 é rejeitada a um determinado nível de p-valor.
12
Roteiro para o teste de hipótese
1. Definir as hipóteses.
► Nula (H0)
► Alternativa (HA)
2. Especificar as evidências estatísticas.
► Estimadores e propriedades da estatística (distribuição, média, desvio-padrão...)
3. Fixar a probabilidade de cometer o Erro Tipo I (α) e especificar a regra de decisão.
► Referência para aceitar ou rejeitar a hipótese (região crítica)
4. Apreciar a evidência.
5. Decidir e interpretar o resultado.
13
14
Exemplo: proporção x população (baseado em fatos reais)
2. Desconfiada dos resultados do sorteio de grupos realizado por seu professor de Métodos Quantitativos, a aluna R. resolveu testar o dado utilizado fazendo 600 lançamentos, onde o lado três foi sorteado 123 vezes.
(a) Qual o p-valor do teste?
(b) Podemos afirmar, ao nível de 5%, que o dado é viciado em relação ao lado três?
(c) Podemos afirmar que o dado é viciado ao nível de 1%?
15
Os julgamentos no teste de hipóteses de médias e
proporções podem se dar em situações distintas, de acordo
com as informações que possuímos.
Pressuposto: as variâncias das amostras ou populações são iguais (homocedásticas)
16
Situações para julgamentos de médias e proporções
CONTRA UMA POPULAÇÃO
Temos as estatísticas da amostra e sabemos os
parâmetros da população
CONTRA OUTRA AMOSTRA
Conhecemos apenas as estatísticas amostrais
AMOSTRAS INDEPENDENTES
Não há relação entre as amostras selecionadas
AMOSTRAS DEPENDENTES (PAREADAS)
As amostras são relacionadas
• Populações: normais e homocedásticas (σX = σY = σ)
• Lembrar que:
• Podemos definir um intervalo de confiança da diferença da média das amostras X e Y, com n e m elementos respectivamente.
No caso da distribuição t, o gl será n+m-2 (se soubermos o σ da população) ou o tamanho da menor amostra menos 1 (se só conhecermos os s das amostras).
17
Considerações para amostras independentes
mnNYXE YX
22
;0~)(
mn
YXZ
YX 22
)()()( YEXEYXE
)()()( YEXEYXE
)()()( YVarXVarYXVar
IC do teste da diferença de duas médias
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0 5 10 15 20- +
0
(0,1)N
z -z
2
2
1
0)( YXE
)()()( YVarXVarYXVar mn
YXz
s11
.
19
Exemplo: diferença entre amostras
3. Uma rede de lojas testou duas estratégias de venda em lojas de mesmo porte e perfil do público. Para compará-las utilizou-se amostras de 50 clientes, obtendo-se as médias de gasto de R$62 e R$71. Sabendo-se que o desvio-padrão em ambos os casos é de R$20, é possível afirmar que as estratégias obtiveram resultados diferentes? Dê um intervalo de confiança para a diferença.
20
Cena de mercado. Século 15 www.wga.hu
Amostras dependentes (pareadas)
Nesse caso, a quantidade de elementos de X e Y são iguais.
As amostras podem ser entendidas como pares (X1-Y1,..., Xn- Yn) e, assim, podemos definir a variável D = X–Y, resultando na amostra D1,...,Dn.
Assim reduzimos o problema a uma única população e amostra, com as seguintes características:
21
YXYXn
Dn
i ii 1
1
n
iD DDi
nS
1
22
1
1
Exemplo: amostras pareadas
4. Uma lanchonete quer saber se a introdução de uma pausa afeta a produtividade dos seus funcionários. Para isso verificou o total de lanches produzidos por cada um de seus 6 chapeiros ao longo de dias aleatórios sem e com o intervalo. Os resultados indicam melhora na produtividade?
22
Chapeiro Sem
intervalo Com
intervalo Diferença
(Sem-Com)
1 23 28 -5
2 35 38 -3
3 29 29 0
4 33 37 -4
5 43 42 1
6 32 30 2
média 32,5 34 -1,5 dpad 6,63 5,76 2,88
Teste de hipótese para proporção
Idêntico ao teste de médias, considerando que a estatística 𝑝 tem distribuição aproximadamente normal.
n
pppNp
)1(,~ˆ
23
m
pp
n
ppNppE
)1()1(;0~)ˆˆ( 2211
21
A distribuição das proporções amostrais tende a uma normal, com valor esperado p e variância igual a p(1-p)/n
A diferença de duas proporções amostrais tende a uma distribuição normal, com valor esperado 0 (zero) e variância igual a somas das variâncias das duas proporções amostrais
O valor observado de Z é a diferença das duas proporções amostrais sobre o desvio-padrão da distribuição de diferenças (raiz da soma das duas variâncias amostrais)
𝒁𝒐𝒃𝒔 = 𝒑𝟏 − 𝒑𝟐
𝒑𝟏(𝟏 − 𝒑𝟏)𝒏𝟏
+𝒑𝟐(𝟏 − 𝒑𝟐)𝒏𝟐