Upload
others
View
12
Download
0
Embed Size (px)
Citation preview
1/41
ESTIMACAO INTERVALAR
Departamento de Matematica
2021
2/41
No ambito da Inferencia Estatıstica, que agora se inicia, ao calcular
estatısticas amostrais (ex. media amostral) existe o objectivo adicional de
caracterizar a populacao a partir da qual a amostra foi retirada, procurando
designadamente estimar parametros desta populacao.
3/41
Estimacao Pontual
Definicao - Estimativa Pontual
Uma estimativa pontual de um parametro desconhecido θ e um valor obtido a
partir da amostra que se destina a fornecer valores aproximados do parametro.
Definicao - Estimador
Um estimador θ e a estatıstica que fornece estimativas pontuais.
Exemplo (birthwt): Seja X o peso das criancas ao nascer. Admita-se que
X ∼ N(µ, σ2), onde µ e desconhecido. O parametro a estimar e entao µ, um
estimador sera X =∑n
i=1 Xi/n e 2944.7kg uma estimativa pontual.
4/41
Como avaliar a precisao das estimativas pontuais?
A estimacao pontual nao fornece meios directos para aferir a qualidade da
estimativa.
Alternativamente, pode-se determinar intervalos que contenham θ com uma
confianca elevada e que, mantendo essa confianca, tenham uma amplitude tao
pequena quanto possıvel. Estes sao chamados Intervalos de Confianca.
5/41
Estimacao de Intervalos de Confianca
Definicao - Intervalo de Confianca
Um Intervalo de Confianca (IC) de probabilidade p = 1− α para o parametro
θ e um intervalo aleatorio (θ1, θ2) que satisfaz
P(θ1 ≤ θ ≤ θ2) = 1− α, 0 < α < 1
A probabilidade 1− α chama-se grau de confianca.
Normalmente α e um valor muito reduzido por forma a termos confiancas
elevadas.
6/41
Estatısticas de Teste
Propriedades genericas:
1. X ∼ N(0, 1) ⇒ X 2 ∼ χ21
2. X1, ...,Xn ∼ N(0, 1) independentes ⇒ Σni=1X
2i ∼ χ2
n
3. V1,V2, ...,Vn v.a.’s χ2gi
independentes ⇒ Σni=1Vi ∼ χ2
Σgi
4. Z ∼ N(0, 1) e V ∼ χ2n independentes ⇒ X = Z√
V/n∼ tn
Variaveis Aleatorias Importantes
Considerando X1, ...,Xn uma a.a. iid com distribuicao N(µ, σ2), e considerando
as propriedades anteriores, obtem-se
(n− 1)S′2
σ2∼ χ2
n−1 ounS2
σ2∼ χ2
n−1
X− µS′/√
n∼ tn−1
7/41
Intervalo de Confianca para o valor medio de uma populacao Normal
com Variancia Desconhecida
Anteriormente referiu-se que X−µσ/√
n∼ N(0, 1)
Mas, agora, o desvio padrao populacional σ e desconhecido. Este pode ser
substituıdo pelo desvio padrao amostral S
T =X − µS/√n∼ tn−1.
Estimacao Intervalar
IC para a Media de uma populacao Normal com VarianciaDesconhecida
Anteriormente referiu-se que X−µσ/
√n ∼ N(0,1)
Mas, agora, o desvio padrao populacional σ e desconhecido.Este pode ser substituido pelo desvio padrao amostralcorrigido S′
T =X − µ
S′/√
n∼ tn−1.
e graficamente
x
tn−1
1−α
α/2 α/2
− tα 2 tα 20
16 Raquel Menezes / Susana Faria Metodos Estatısticos
8/41
Podemos, entao, estabelecer as seguintes equivalencias
P(−tα/2 < T < tα/2
)= 1− α ⇔
P
(−tα/2 <
X − µS/√n< tα/2
)= 1− α ⇔
P
(X − tα/2
S√n< µ < X + tα/2
S√n
)= 1− α
DEFINICAO: Um IC para a media µ de uma populacao Normal com
variancia desconhecida, a um grau de confianca 1− α, e dado por(X − tα/2
S√n, X + tα/2
S√n
)
9/41
Exemplo: suponha que a pressao arterial sistolica media para uma amostra de
49 motoristas empregados numa determinada empresa de transporte ”xpto”seja
130 (mm Hg) com desvio padrao 21. O IC de 95% para a media da populacao
e: (124,136) mm Hg.
Interpretacao: temos 95% de confianca de que a media da populacao esta
dentro desse intervalo.
Suponha que a pressao arterial sistolica media entre a populacao em geral (nao
aquela constituıda por motoristas) seja 120 (mm Hg). Este valor esta fora do
intervalo de confianca de 95% (124, 136), sugerindo que a pressao arterial
sistolica media entre os motoristas empregados na empresa de transporte
”xpto”e significativamente maior do que a media da populacao geral.
10/41
Exemplo: Considere os dados de valores de colesterol (mmol/l) utilizado no
artigo Rassias et al (1991) [Eur J Clin Nutr. 1991 Jun;45(6):315-20. Linoleic
acid lowers LDL cholesterol without a proportionate displacement of saturated
fatty acid]. Obtenha intervalos de confianca a 90% e a 95%.
6.0 6.4 7.0 5.8 6.0 5.8 5.9 6.7 6.1 6.5 6.3 5.8
11/41
Exemplo (birthwt): Relativamente a esta base de dados pretende-se obter um
intervalo de confianca a 95% para o verdadeiro peso medio das criancas ao
nascer.
Como σ2 e desconhecido, um IC a 95% para o peso medio das criancas ao
nascer e: 2944.587± 1.972663×√
531753.5/189 ≡ (2839.952, 3049.222)
Confirme os resultados recorrendo a software estatıstico.
12/41
Exemplo (birthwt): Um dos objetivos desta base de dados e verificar se maes
nao fumadoras tem filhos com maior peso que maes fumadoras.
Dadas duas a.a’s independentes X1, ...,Xn e Y1, ...,Ym tais que Xi e Yi , sao
provenientes de populacoes normais com variancias desconhecidas, queremos
comparar as medias populacionais, µX e µY atraves da diferenca de X e Y .
13/41
Intervalo de Confianca para a Diferenca de valores medios de duas
populacoes Normais com Variancias Desconhecidas e iguais
Admita-se que as duas variancias σ2X e σ2
Y sao iguais, σ2 = σ2X = σ2
Y , logo
Z =X − Y − (µX − µY )
σ√
1n
+ 1m
∼ N(0, 1)
Caso σ2 seja desconhecido, a variancia conjunta pode ser estimada por
S2p =
(n − 1)S2X + (m − 1)S2
Y
n + m − 2
14/41
Substituindo-se σ desconhecido pelo desvio padrao amostral anterior, obtem-se
T =X − Y − (µX − µY )
Sp
√1n
+ 1m
∼ tn+m−2
e, consequentemente,
DEFINICAO: Um IC para a diferenca de medias µX − µY de duas populacoes
Normais com variancias desconhecidas e iguais, obtido a partir de duas
amostras independentes, a um grau de confianca 1− α, e dado por(X − Y − tα
2Sp
√1
n+
1
m, X − Y + tα
2Sp
√1
n+
1
m
)
15/41
Intervalo de Confianca para a diferenca de valores medios de duas
populacoes Normais com Variancias Desconhecidas e diferentes
Admita-se que σ2X e σ2
Y sao desconhecidas e diferentes, logo
T =X − Y − (µX − µY )√
S2Xn
+S2Ym
∼ tgl
gl =
(S2Xn
+S2Ym
)2
(S2Xn
)2
n−1+
(S2Ym
)2
m−1
Quando gl nao for um numero inteiro, recomenda-se que se adopte o inteiro
imediatamente inferior.
16/41
DEFINICAO: Um IC para a diferenca de medias µX −µY de duas populacoes
Normais com variancias desconhecidas e diferentes, obtido a partir de duas
amostras independentes, a um grau de confianca 1− α, e dado por(X − Y − tα
2
√S2X
n+
S2Y
m, X − Y + tα
2
√S2X
n+
S2Y
m
)
17/41
Exemplo: A extensao em que a saude de um bebe e afetada pelos pais fumar e
uma importante preocupacao de saude publica. Os dados a seguir sao as
concentracoes urinarias de cotinina; as medicoes foram feitas numa amostra de
bebes expostos ao fumo domestico e em uma amostra de bebes nao expostos.
Utilize intervalos de confianca para comparar os nıveis de cotinina nos dois
grupos?
Nao expostos (n1 = 7) 8 11 12 14 20 33 43
Expostos (n2 = 8) 35 56 83 92 128 150 176 208
18/41
Exemplo (birthwt): XNF = 3055.696, S2NF = 566492 e X F = 2771.919,
S2F = 435118.2; tα
2;187 = 1.972731.
XNF − X F = 283.777; S2p = 114×566492+73×435118.2
187= 515207
Um IC a 95% para a diferenca de medias dos pesos das criancas das duas
populacoes (maes nao fumadoras e maes fumadoras) com variancias
desconhecidas e iguais e dado por 283.777±√
515207×√
1115
+ 174≡(72.76 ,
494.80).
19/41
Intervalo de Confianca para a diferenca de valores medios em
amostras emparelhadas
Exemplos: Existem situacoes em que os dois grupos de comparacao sao
emparelhados. Considere os seguintes cenarios:
. uma unica amostra de participantes e cada participante e medida
duas vezes, uma antes e depois de uma intervencao;
. uma unica amostra de participantes e cada participante e medido
duas vezes em duas condicoes experimentais diferentes (por exemplo,
em um ensaio cruzado);
. um objectivo desses estudos pode ser comparar as pontuacoes medias
medidas antes e depois da intervencao, ou comparar as pontuacoes
medias obtidas com as duas condicoes em um estudo cruzado.
20/41
Dadas duas a.a’s emparelhadas X1, ...,Xn e Y1, ...,Yn . Nestes casos, o
parametro de interesse e a diferenca media, µD , em que D denota a diferenca
dos valores de Xi e Yi , por exemplo Di = Yi − Xi . O tamanho da amostra (que
neste caso e o numero de participantes distintos ou pares distintos). Uma vez
calculada, a media e o desvio padrao das pontuacoes de diferenca (D).
DEFINICAO: Um IC para a diferenca de medias µX − µY de duas
populacoes Normais obtido a partir de duas amostras emparelhadas, a um grau
de confianca 1− α, e dado por
(D − tα
2SE(D), D + tα
2SE(D)
)onde SE(D) denota o desvio padrao das pontuacoes de diferenca (D).
21/41
Exemplo: Foi conduzido um estudo para investigar a eficacia de uma nova
dieta na reducao do colesterol. Os resultados para os indivıduos selecionados
aleatoriamente sao apresentados na tabela em baixo. Utilize intervalos de
confianca para averiguar se os nıveis de colesterol dos indivıduos sao em media
mais baixos apos a dieta?
Indivıduo A B C D E F G H I
Antes 209 210 205 198 216 217 238 240 222
Depois 199 207 189 209 217 202 211 223 201
22/41
Exemplo: A pressao arterial sistolica de 12 mulheres entre as idades de 20 e 35
foram medidas antes e apos a administracao de um contraceptivo oral
recentemente desenvolvido. Os dados sao mostrados na Tabela em baixo.
Utilize intervalos de confianca para averiguar se ocorreram alteracoes
significativas no valor medio da pressao arterial sistolica?
Antes 122 126 132 120 142 130 142 137 128
132 128 129
Depois 127 128 140 119 145 130 148 135 129
137 128 133
23/41
Exemplo (Framingham): no estudo de Framingham, os participantes fazem
exames clınicos aproximadamente a cada quatro anos. Suponha que queremos
comparar a pressao arterial sistolica entre os exames (ou seja, mudancas ao
longo de 4 anos). Os dados abaixo sao resultados da pressao arterial sistolica
medidas no sexto e setimo exames numa amostra de n = 15 participantes
seleccionados aleatoriamente.
Indivıduo Exame 6 Exame 7 Diferenca
1 168 141 -27
2 111 119 8
3 139 122 -17
4 127 127 0
5 155 125 -30
6 115 123 8
7 125 113 -12
8 123 106 -17
9 130 131 1
10 137 142 5
11 130 131 1
12 129 135 6
13 112 119 7
14 141 130 -11
15 122 121 -1
24/41
Intervalo de Confianca para uma proporcao p
Exemplos: Em muitos problemas e preciso estimar proporcoes,
probabilidades ou racios:
. a proporcao de pecas defeituosas num lote de fabrico;
. a prevalencia de tabagismo nos trabalhadores do hospital de
Guimaraes.
. a proporcao de indivıduos com hipertensao entre os participantes no
estudo de framingham.
Em qualquer destes casos determina-se uma relacao k/n, i.e. a
frequencia relativa.
Esta-se perante problemas modelaveis por variaveis binomiais com
parametro p.
25/41
Podemos utilizar o Teorema do Limite Central para obter IC’s aproximados
para uma proporcao p. Suponha que a v.a. X ∼ Bin(n, p) esta em condicoes
de se poder aproximar a uma N(np, np(1− p)).
Um estimador para p e dado por
p =X
n∼ N(p, p(1− p)/n).
Centrando e reduzindo tem-se
Z =p − p√
p(1− p)/n=
Xn− p√
p(1− p)/n∼ N(0, 1).
26/41
DEFINICAO: Um IC aproximado para p, a um grau de confianca 1− α, e
dado por (p − zα
2
√p(1− p)
n, p + zα
2
√p(1− p)
n
)
27/41
Exemplo (birthwt):
p = 59189
= 0.3121693.
Um IC com um grau de confianca 95% para a p:
0.3121693± 1.96× 0.03370583 ou seja
(0.2461071 , 0.3782315).
28/41
Exemplo: suponhamos que a prevalencia de tabagismo entre uma amostra de
100 trabalhadores agrıcolas em Guimaraes seja de 20%. Determine o Intervalo
de Confianca de 95% para a proporcao de tabagismo da populacao.
Exemplo: na coorte de Framingham Heart Study, havia num determinado
momento 1219 participantes sendo tratados para hipertensao e 2.313 que nao
estavam em tratamento. Qual a estimativa de proporcao de indivıduos em
tratamento no estudo? Qual o intervalo de confianca para esta proporcao?
29/41
Intervalo de Confianca para a diferenca de duas proporcoes p1 − p2
Consideremos X e Y variaveis aleatorias que representam uma determinada
caracterıstica de duas populacoes com distribuicao de Bernoulli com parametros
p1 e p2 respectivamente. Ou seja X ∼ Bin(n1, p1) e Y ∼ Bin(n2, p2). Pelo
Teorema do Limite Central podemos aproximar estas distribuicoes a Normal,
N(n1p1, n1p1(1− p1)) e N(n2p2, n2p2(1− p2)), respectivamente.
Deste modo, um estimador para p1 e dado por
p1 =X
n1∼ N(p1, p1(1− p1)/n1).
Do mesmo modo, um estimador para p2 e dado por
p2 =Y
n2∼ N(p2, p2(1− p2)/n2).
30/41
Assim, temos que
p2 − p2 =X
n1− Y
n2∼ N
(p1 − p2,
p1(1− p1)
n1+
p2(1− p2)
n2
).
Com isso podemos construir um intervalo de confianca da forma usual.
DEFINICAO: Um IC aproximado para p1 − p2, a um grau de confianca 1−α,
e dado por
(p1 − p2 − zα
2× SE , p1 − p2 + zα
2× SE
)com SE =
√p1(1−p1)
n1+ p2(1−p2)
n2.
31/41
Exemplo (Framingham): a tabela seguinte contem dados sobre doenca
cardiovascular entre participantes que nao eram fumadores e aqueles que eram
fumadores no momento do quinto exame no estudo de Framingham.
Livre de DCV Com DCV
Nao Fumador 2757 298
Fumador 663 81
Um intervalo (-0.0133, 0.0361), indica-nos que estamos 95% confiantes de que
a diferenca na proporcao da proporcao de DCV em fumadores em comparacao
com nao fumadores esta entre -0,0133 e 0,0361. Como o intervalo de confianca
de 95% inclui o valor zero, concluımos que a diferenca na DCV entre
fumadores e nao fumadores nao e estatisticamente significativa.
32/41
Exemplo: A tabela em baixo, para um dos exames da coorte Framingham,
mostra o numero de homens e de mulheres diagnosticados com ou sem doenca
cardiovascular (DCV). Estime a prevalencia de DCV em homens e em mulheres
usando um intervalo de confianca de 95%.
Livre de DCV Com DCV
Homens 1548 244
Mulheres 1872 135
Sera que podemos assumir que as prevalencias nos dois generos sao iguais?
Qual e a estimativa das diferencas entre essas prevalencias? Sera que podemos
obter um intervalo de confianca para a diferenca de proporcoes?
33/41
Exemplo (birthwt): Utilize intervalos de confianca a 95% para verificar se a
proporcao de criancas que nascem com baixo peso e igual em maes fumadoras
e maes nao fumadoras.
O que podera fazer para comparar essas mesmas proporcoes para as diferentes
racas das maes?
34/41
Calculo do tamanho amostral para uma proporcao
Na fase de planeamento de um estudo, um investigador precisa ter alguma
ideia de um tamanho amostral apropriado para a sua investigacao. Se uma
amostra for muito pequena, pode ser impossıvel obter resultados
estatisticamente significativos (significancia estatıstica) ou estimar as medidas
da populacao com confianca suficiente.
Para determinar o tamanho mınimo da amostra para estimar uma proporcao,
sao necessarias as seguintes informacoes:
. proporcao populacional estimada (p);
. grau de confianca (p.e. 95%);
. precisao absoluta necessaria em qualquer lado da proporcao (d=erro).
35/41
Exemplo (proporcao): um investigador deseja estimar a prevalencia de
covid-19 entre funcionarios municipais.
Quantos trabalhadores devem ser incluıdos na amostra para que a prevalencia
possa ser estimada dentro de 3 por cento do valor real com 95% de confianca,
se for conhecido que a taxa real provavelmente nao excedera 15%.
Proporcao populacional estimada (p) = 15%
Precisao absoluta (d) = 3%
Erro do IC (d): 1.96 ∗√
p ∗ (1− p)/n
1.96 ∗√
p ∗ (1− p)/n ≤ 0.03 → n ≥ 1.962 ∗ (0.15 ∗ 0.85)/0.032 → n > 544.
Seria necessario ter uma amostra de 545 funcionarios.
36/41
Calculo do tamanho amostral para estimar µ
O fundamental no calculo de tamanho de amostra envolve as seguintes
quantidades:
. A magnitude/margem do erro estatıstico aceito pelo investigador. Quanto
menos o pesquisador quer errar em suas conclusoes, maior sera o tamanho
da amostra.
. O tamanho da diferenca entre desfechos (clinicamente significativa) em
uma comparacao entre grupos/populacoes. Diferencas menores exigem
amostras maiores.
. Do tempo, recursos financeiros e pessoal disponıveis, bem como da
dificuldade em se obterem os dados e da complexidade do estudo.
37/41
Calculo do tamanho amostral para estimar µ
. E necessario uma estimativa de s2. Para esse efeito podemos recorrer a
resultados de uma amostra piloto ou de resultados da literatura.
. E Necessario estabelecer o erro de estimacao admissıvel (d = X − µmargem de erro ou metade da amplitude do intervalo), ou diferenca
maxima entre a media amostral e a verdadeira. Quanto menor esta
diferenca maior o valor de n.
. Especificar o grau de confianca 1− α. Neste caso, o quantil da
distribuicao t de Student, tα/2 depende dos graus de liberdade. Sugere-se
comecar com um n0, recorrendo a distribuicao normal, calcular os graus de
liberdade gl e obter tα/2;gl . Usando calculos iterativamente, obtem-se o
valor de n.
38/41
Calculo do tamanho amostral para estimar µ
. Se o valor de n obtido for muito grande, pode-se aumentar a margem de
erro ou reduzir ao nıvel de significancia.
. O valor calculado de n e uma aproximacao, pois s2 e baseado numa
estimativa obtida na literatura ou por uma amostra piloto.
. Se o verdadeiro valor da variancia populacional (σ2) fosse conhecido,
poderıamos obter directamente o valor de n a partir da distribuicao normal
reduzida.
39/41
Calculo do tamanho amostral para estimar µ
Exemplo: Um investigador deparou-se perante um estudo com media e desvio
padrao para a contagem de eritrocitos: 4.8 e 0.6 milhoes por mm3,
respectivamente. Considere um erro d = 0.4 milhao por mm3, ou seja 5% do
valor medio e 1− α igual a 95%. Determine qual o tamanho da amostra.
Exemplo: Suponha que uma pequena amostra piloto de n = 10, extraıda de
uma populacao, forneceu os valores x = 139 e s2 = 16 para medidas de pressao
arterial. Qual o tamanho amostral necessario para estimar a media populacional
µ com erro amostral de no maximo 5 e um grau de confianca 1− α = 0, 95.
40/41
SPSS: dicas
Como obter IC para uma proporcao: No menu Analisar - Testes nao
parametricos - Uma amostra: Objetivo (Customizar analise); Campos
(selecionar a variavel); Configuracoes (Customizar analise - teste binomial -
opcoes: teste exato; Especificar valores de sucesso)
Em alternativa, abrir uma nova base de dados e colocar uma variavel com o
valor de r (nº de sucessos) e outra de n (nº total). Abrir um ficheiro de sintaxis
e correr os seguintes comandos:
compute alpha=.05.
compute p=r/n.
compute lower=idf.beta(alpha/2,r+.5,n-r+.5).
compute upper=idf.beta(1-alpha/2,r+.5,n-r+.5).
formats r n (f8.0) p lower upper (f8.5).
list r n p lower upper.
41/41
SPSS: dicas
Como obter IC para a diferenca de duas proporcoes: Abrir uma nova base
de dados e colocar uma variavel com o valor de r1 (nº de sucessos grupo 1) e
outra de n1 (nº total grupo 1); r2 (nº de sucessos grupo 2) e outra de n2 (nº
total grupo 2). Abrir um ficheiro de sintaxis e correr os seguintes comandos:
compute alpha=.05.
compute p1=r1/n1.
compute p2=r2/n2.
compute p=p1-p2.
compute se=sqrt((p1 * (1 - p1) / n1) + (p2 * (1 - p2) / n2)).
compute lower=(p1-p2)-idf.norm(1-alpha/2,0,1)*se.
compute upper=(p1-p2)+idf.norm(1-alpha/2,0,1)*se.
formats r1 n1 r2 n2 (f8.0) p lower upper (f8.5).
list r1 n1 r2 n2 p lower upper.