Inferência Estatística Estimação Intervalar

1/41

ESTIMACAO INTERVALAR

Departamento de Matematica

2021

2/41

No ambito da Inferencia Estatıstica, que agora se inicia, ao calcular

estatısticas amostrais (ex. media amostral) existe o objectivo adicional de

caracterizar a populacao a partir da qual a amostra foi retirada, procurando

designadamente estimar parametros desta populacao.

3/41

Estimacao Pontual

Definicao - Estimativa Pontual

Uma estimativa pontual de um parametro desconhecido θ e um valor obtido a

partir da amostra que se destina a fornecer valores aproximados do parametro.

Definicao - Estimador

Um estimador θ e a estatıstica que fornece estimativas pontuais.

Exemplo (birthwt): Seja X o peso das criancas ao nascer. Admita-se que

X ∼ N(µ, σ2), onde µ e desconhecido. O parametro a estimar e entao µ, um

estimador sera X =∑n

i=1 Xi/n e 2944.7kg uma estimativa pontual.

4/41

Como avaliar a precisao das estimativas pontuais?

A estimacao pontual nao fornece meios directos para aferir a qualidade da

estimativa.

Alternativamente, pode-se determinar intervalos que contenham θ com uma

confianca elevada e que, mantendo essa confianca, tenham uma amplitude tao

pequena quanto possıvel. Estes sao chamados Intervalos de Confianca.

5/41

Estimacao de Intervalos de Confianca

Definicao - Intervalo de Confianca

Um Intervalo de Confianca (IC) de probabilidade p = 1− α para o parametro

θ e um intervalo aleatorio (θ1, θ2) que satisfaz

P(θ1 ≤ θ ≤ θ2) = 1− α, 0 < α < 1

A probabilidade 1− α chama-se grau de confianca.

Normalmente α e um valor muito reduzido por forma a termos confiancas

elevadas.

6/41

Estatısticas de Teste

Propriedades genericas:

1. X ∼ N(0, 1) ⇒ X 2 ∼ χ21

2. X1, ...,Xn ∼ N(0, 1) independentes ⇒ Σni=1X

2i ∼ χ2

n

3. V1,V2, ...,Vn v.a.’s χ2gi

independentes ⇒ Σni=1Vi ∼ χ2

Σgi

4. Z ∼ N(0, 1) e V ∼ χ2n independentes ⇒ X = Z√

V/n∼ tn

Variaveis Aleatorias Importantes

Considerando X1, ...,Xn uma a.a. iid com distribuicao N(µ, σ2), e considerando

as propriedades anteriores, obtem-se

(n− 1)S′2

σ2∼ χ2

n−1 ounS2

σ2∼ χ2

n−1

X− µS′/√

n∼ tn−1

7/41

Intervalo de Confianca para o valor medio de uma populacao Normal

com Variancia Desconhecida

Anteriormente referiu-se que X−µσ/√

n∼ N(0, 1)

Mas, agora, o desvio padrao populacional σ e desconhecido. Este pode ser

substituıdo pelo desvio padrao amostral S

T =X − µS/√n∼ tn−1.

Estimacao Intervalar

IC para a Media de uma populacao Normal com VarianciaDesconhecida

Anteriormente referiu-se que X−µσ/

√n ∼ N(0,1)

Mas, agora, o desvio padrao populacional σ e desconhecido.Este pode ser substituido pelo desvio padrao amostralcorrigido S′

T =X − µ

S′/√

n∼ tn−1.

e graficamente

x

tn−1

1−α

α/2 α/2

− tα 2 tα 20

16 Raquel Menezes / Susana Faria Metodos Estatısticos

8/41

Podemos, entao, estabelecer as seguintes equivalencias

P(−tα/2 < T < tα/2

)= 1− α ⇔

P

(−tα/2 <

X − µS/√n< tα/2

)= 1− α ⇔

P

(X − tα/2

S√n< µ < X + tα/2

S√n

)= 1− α

DEFINICAO: Um IC para a media µ de uma populacao Normal com

variancia desconhecida, a um grau de confianca 1− α, e dado por(X − tα/2

S√n, X + tα/2

S√n

)

9/41

Exemplo: suponha que a pressao arterial sistolica media para uma amostra de

49 motoristas empregados numa determinada empresa de transporte ”xpto”seja

130 (mm Hg) com desvio padrao 21. O IC de 95% para a media da populacao

e: (124,136) mm Hg.

Interpretacao: temos 95% de confianca de que a media da populacao esta

dentro desse intervalo.

Suponha que a pressao arterial sistolica media entre a populacao em geral (nao

aquela constituıda por motoristas) seja 120 (mm Hg). Este valor esta fora do

intervalo de confianca de 95% (124, 136), sugerindo que a pressao arterial

sistolica media entre os motoristas empregados na empresa de transporte

”xpto”e significativamente maior do que a media da populacao geral.

10/41

Exemplo: Considere os dados de valores de colesterol (mmol/l) utilizado no

artigo Rassias et al (1991) [Eur J Clin Nutr. 1991 Jun;45(6):315-20. Linoleic

acid lowers LDL cholesterol without a proportionate displacement of saturated

fatty acid]. Obtenha intervalos de confianca a 90% e a 95%.

6.0 6.4 7.0 5.8 6.0 5.8 5.9 6.7 6.1 6.5 6.3 5.8

11/41

Exemplo (birthwt): Relativamente a esta base de dados pretende-se obter um

intervalo de confianca a 95% para o verdadeiro peso medio das criancas ao

nascer.

Como σ2 e desconhecido, um IC a 95% para o peso medio das criancas ao

nascer e: 2944.587± 1.972663×√

531753.5/189 ≡ (2839.952, 3049.222)

Confirme os resultados recorrendo a software estatıstico.

12/41

Exemplo (birthwt): Um dos objetivos desta base de dados e verificar se maes

nao fumadoras tem filhos com maior peso que maes fumadoras.

Dadas duas a.a’s independentes X1, ...,Xn e Y1, ...,Ym tais que Xi e Yi , sao

provenientes de populacoes normais com variancias desconhecidas, queremos

comparar as medias populacionais, µX e µY atraves da diferenca de X e Y .

13/41

Intervalo de Confianca para a Diferenca de valores medios de duas

populacoes Normais com Variancias Desconhecidas e iguais

Admita-se que as duas variancias σ2X e σ2

Y sao iguais, σ2 = σ2X = σ2

Y , logo

Z =X − Y − (µX − µY )

σ√

1n

+ 1m

∼ N(0, 1)

Caso σ2 seja desconhecido, a variancia conjunta pode ser estimada por

S2p =

(n − 1)S2X + (m − 1)S2

Y

n + m − 2

14/41

Substituindo-se σ desconhecido pelo desvio padrao amostral anterior, obtem-se

T =X − Y − (µX − µY )

Sp

√1n

+ 1m

∼ tn+m−2

e, consequentemente,

DEFINICAO: Um IC para a diferenca de medias µX − µY de duas populacoes

Normais com variancias desconhecidas e iguais, obtido a partir de duas

amostras independentes, a um grau de confianca 1− α, e dado por(X − Y − tα

2Sp

√1

n+

1

m, X − Y + tα

2Sp

√1

n+

1

m

)

15/41

Intervalo de Confianca para a diferenca de valores medios de duas

populacoes Normais com Variancias Desconhecidas e diferentes

Admita-se que σ2X e σ2

Y sao desconhecidas e diferentes, logo

T =X − Y − (µX − µY )√

S2Xn

+S2Ym

∼ tgl

gl =

(S2Xn

+S2Ym

)2

(S2Xn

)2

n−1+

(S2Ym

)2

m−1

Quando gl nao for um numero inteiro, recomenda-se que se adopte o inteiro

imediatamente inferior.

16/41

DEFINICAO: Um IC para a diferenca de medias µX −µY de duas populacoes

Normais com variancias desconhecidas e diferentes, obtido a partir de duas

amostras independentes, a um grau de confianca 1− α, e dado por(X − Y − tα

2

√S2X

n+

S2Y

m, X − Y + tα

2

√S2X

n+

S2Y

m

)

17/41

Exemplo: A extensao em que a saude de um bebe e afetada pelos pais fumar e

uma importante preocupacao de saude publica. Os dados a seguir sao as

concentracoes urinarias de cotinina; as medicoes foram feitas numa amostra de

bebes expostos ao fumo domestico e em uma amostra de bebes nao expostos.

Utilize intervalos de confianca para comparar os nıveis de cotinina nos dois

grupos?

Nao expostos (n1 = 7) 8 11 12 14 20 33 43

Expostos (n2 = 8) 35 56 83 92 128 150 176 208

18/41

Exemplo (birthwt): XNF = 3055.696, S2NF = 566492 e X F = 2771.919,

S2F = 435118.2; tα

2;187 = 1.972731.

XNF − X F = 283.777; S2p = 114×566492+73×435118.2

187= 515207

Um IC a 95% para a diferenca de medias dos pesos das criancas das duas

populacoes (maes nao fumadoras e maes fumadoras) com variancias

desconhecidas e iguais e dado por 283.777±√

515207×√

1115

+ 174≡(72.76 ,

494.80).

19/41

Intervalo de Confianca para a diferenca de valores medios em

amostras emparelhadas

Exemplos: Existem situacoes em que os dois grupos de comparacao sao

emparelhados. Considere os seguintes cenarios:

. uma unica amostra de participantes e cada participante e medida

duas vezes, uma antes e depois de uma intervencao;

. uma unica amostra de participantes e cada participante e medido

duas vezes em duas condicoes experimentais diferentes (por exemplo,

em um ensaio cruzado);

. um objectivo desses estudos pode ser comparar as pontuacoes medias

medidas antes e depois da intervencao, ou comparar as pontuacoes

medias obtidas com as duas condicoes em um estudo cruzado.

20/41

Dadas duas a.a’s emparelhadas X1, ...,Xn e Y1, ...,Yn . Nestes casos, o

parametro de interesse e a diferenca media, µD , em que D denota a diferenca

dos valores de Xi e Yi , por exemplo Di = Yi − Xi . O tamanho da amostra (que

neste caso e o numero de participantes distintos ou pares distintos). Uma vez

calculada, a media e o desvio padrao das pontuacoes de diferenca (D).

DEFINICAO: Um IC para a diferenca de medias µX − µY de duas

populacoes Normais obtido a partir de duas amostras emparelhadas, a um grau

de confianca 1− α, e dado por

(D − tα

2SE(D), D + tα

2SE(D)

)onde SE(D) denota o desvio padrao das pontuacoes de diferenca (D).

21/41

Exemplo: Foi conduzido um estudo para investigar a eficacia de uma nova

dieta na reducao do colesterol. Os resultados para os indivıduos selecionados

aleatoriamente sao apresentados na tabela em baixo. Utilize intervalos de

confianca para averiguar se os nıveis de colesterol dos indivıduos sao em media

mais baixos apos a dieta?

Indivıduo A B C D E F G H I

Antes 209 210 205 198 216 217 238 240 222

Depois 199 207 189 209 217 202 211 223 201

22/41

Exemplo: A pressao arterial sistolica de 12 mulheres entre as idades de 20 e 35

foram medidas antes e apos a administracao de um contraceptivo oral

recentemente desenvolvido. Os dados sao mostrados na Tabela em baixo.

Utilize intervalos de confianca para averiguar se ocorreram alteracoes

significativas no valor medio da pressao arterial sistolica?

Antes 122 126 132 120 142 130 142 137 128

132 128 129

Depois 127 128 140 119 145 130 148 135 129

137 128 133

23/41

Exemplo (Framingham): no estudo de Framingham, os participantes fazem

exames clınicos aproximadamente a cada quatro anos. Suponha que queremos

comparar a pressao arterial sistolica entre os exames (ou seja, mudancas ao

longo de 4 anos). Os dados abaixo sao resultados da pressao arterial sistolica

medidas no sexto e setimo exames numa amostra de n = 15 participantes

seleccionados aleatoriamente.

Indivıduo Exame 6 Exame 7 Diferenca

1 168 141 -27

2 111 119 8

3 139 122 -17

4 127 127 0

5 155 125 -30

6 115 123 8

7 125 113 -12

8 123 106 -17

9 130 131 1

10 137 142 5

11 130 131 1

12 129 135 6

13 112 119 7

14 141 130 -11

15 122 121 -1

24/41

Intervalo de Confianca para uma proporcao p

Exemplos: Em muitos problemas e preciso estimar proporcoes,

probabilidades ou racios:

. a proporcao de pecas defeituosas num lote de fabrico;

. a prevalencia de tabagismo nos trabalhadores do hospital de

Guimaraes.

. a proporcao de indivıduos com hipertensao entre os participantes no

estudo de framingham.

Em qualquer destes casos determina-se uma relacao k/n, i.e. a

frequencia relativa.

Esta-se perante problemas modelaveis por variaveis binomiais com

parametro p.

25/41

Podemos utilizar o Teorema do Limite Central para obter IC’s aproximados

para uma proporcao p. Suponha que a v.a. X ∼ Bin(n, p) esta em condicoes

de se poder aproximar a uma N(np, np(1− p)).

Um estimador para p e dado por

p =X

n∼ N(p, p(1− p)/n).

Centrando e reduzindo tem-se

Z =p − p√

p(1− p)/n=

Xn− p√

p(1− p)/n∼ N(0, 1).

26/41

DEFINICAO: Um IC aproximado para p, a um grau de confianca 1− α, e

dado por (p − zα

2

√p(1− p)

n, p + zα

2

√p(1− p)

n

)

27/41

Exemplo (birthwt):

p = 59189

= 0.3121693.

Um IC com um grau de confianca 95% para a p:

0.3121693± 1.96× 0.03370583 ou seja

(0.2461071 , 0.3782315).

28/41

Exemplo: suponhamos que a prevalencia de tabagismo entre uma amostra de

100 trabalhadores agrıcolas em Guimaraes seja de 20%. Determine o Intervalo

de Confianca de 95% para a proporcao de tabagismo da populacao.

Exemplo: na coorte de Framingham Heart Study, havia num determinado

momento 1219 participantes sendo tratados para hipertensao e 2.313 que nao

estavam em tratamento. Qual a estimativa de proporcao de indivıduos em

tratamento no estudo? Qual o intervalo de confianca para esta proporcao?

29/41

Intervalo de Confianca para a diferenca de duas proporcoes p1 − p2

Consideremos X e Y variaveis aleatorias que representam uma determinada

caracterıstica de duas populacoes com distribuicao de Bernoulli com parametros

p1 e p2 respectivamente. Ou seja X ∼ Bin(n1, p1) e Y ∼ Bin(n2, p2). Pelo

Teorema do Limite Central podemos aproximar estas distribuicoes a Normal,

N(n1p1, n1p1(1− p1)) e N(n2p2, n2p2(1− p2)), respectivamente.

Deste modo, um estimador para p1 e dado por

p1 =X

n1∼ N(p1, p1(1− p1)/n1).

Do mesmo modo, um estimador para p2 e dado por

p2 =Y

n2∼ N(p2, p2(1− p2)/n2).

30/41

Assim, temos que

p2 − p2 =X

n1− Y

n2∼ N

(p1 − p2,

p1(1− p1)

n1+

p2(1− p2)

n2

).

Com isso podemos construir um intervalo de confianca da forma usual.

DEFINICAO: Um IC aproximado para p1 − p2, a um grau de confianca 1−α,

e dado por

(p1 − p2 − zα

2× SE , p1 − p2 + zα

2× SE

)com SE =

√p1(1−p1)

n1+ p2(1−p2)

n2.

31/41

Exemplo (Framingham): a tabela seguinte contem dados sobre doenca

cardiovascular entre participantes que nao eram fumadores e aqueles que eram

fumadores no momento do quinto exame no estudo de Framingham.

Livre de DCV Com DCV

Nao Fumador 2757 298

Fumador 663 81

Um intervalo (-0.0133, 0.0361), indica-nos que estamos 95% confiantes de que

a diferenca na proporcao da proporcao de DCV em fumadores em comparacao

com nao fumadores esta entre -0,0133 e 0,0361. Como o intervalo de confianca

de 95% inclui o valor zero, concluımos que a diferenca na DCV entre

fumadores e nao fumadores nao e estatisticamente significativa.

32/41

Exemplo: A tabela em baixo, para um dos exames da coorte Framingham,

mostra o numero de homens e de mulheres diagnosticados com ou sem doenca

cardiovascular (DCV). Estime a prevalencia de DCV em homens e em mulheres

usando um intervalo de confianca de 95%.

Livre de DCV Com DCV

Homens 1548 244

Mulheres 1872 135

Sera que podemos assumir que as prevalencias nos dois generos sao iguais?

Qual e a estimativa das diferencas entre essas prevalencias? Sera que podemos

obter um intervalo de confianca para a diferenca de proporcoes?

33/41

Exemplo (birthwt): Utilize intervalos de confianca a 95% para verificar se a

proporcao de criancas que nascem com baixo peso e igual em maes fumadoras

e maes nao fumadoras.

O que podera fazer para comparar essas mesmas proporcoes para as diferentes

racas das maes?

34/41

Calculo do tamanho amostral para uma proporcao

Na fase de planeamento de um estudo, um investigador precisa ter alguma

ideia de um tamanho amostral apropriado para a sua investigacao. Se uma

amostra for muito pequena, pode ser impossıvel obter resultados

estatisticamente significativos (significancia estatıstica) ou estimar as medidas

da populacao com confianca suficiente.

Para determinar o tamanho mınimo da amostra para estimar uma proporcao,

sao necessarias as seguintes informacoes:

. proporcao populacional estimada (p);

. grau de confianca (p.e. 95%);

. precisao absoluta necessaria em qualquer lado da proporcao (d=erro).

35/41

Exemplo (proporcao): um investigador deseja estimar a prevalencia de

covid-19 entre funcionarios municipais.

Quantos trabalhadores devem ser incluıdos na amostra para que a prevalencia

possa ser estimada dentro de 3 por cento do valor real com 95% de confianca,

se for conhecido que a taxa real provavelmente nao excedera 15%.

Proporcao populacional estimada (p) = 15%

Precisao absoluta (d) = 3%

Erro do IC (d): 1.96 ∗√

p ∗ (1− p)/n

1.96 ∗√

p ∗ (1− p)/n ≤ 0.03 → n ≥ 1.962 ∗ (0.15 ∗ 0.85)/0.032 → n > 544.

Seria necessario ter uma amostra de 545 funcionarios.

36/41

Calculo do tamanho amostral para estimar µ

O fundamental no calculo de tamanho de amostra envolve as seguintes

quantidades:

. A magnitude/margem do erro estatıstico aceito pelo investigador. Quanto

menos o pesquisador quer errar em suas conclusoes, maior sera o tamanho

da amostra.

. O tamanho da diferenca entre desfechos (clinicamente significativa) em

uma comparacao entre grupos/populacoes. Diferencas menores exigem

amostras maiores.

. Do tempo, recursos financeiros e pessoal disponıveis, bem como da

dificuldade em se obterem os dados e da complexidade do estudo.

37/41


. E necessario uma estimativa de s2. Para esse efeito podemos recorrer a

resultados de uma amostra piloto ou de resultados da literatura.

. E Necessario estabelecer o erro de estimacao admissıvel (d = X − µmargem de erro ou metade da amplitude do intervalo), ou diferenca

maxima entre a media amostral e a verdadeira. Quanto menor esta

diferenca maior o valor de n.

. Especificar o grau de confianca 1− α. Neste caso, o quantil da

distribuicao t de Student, tα/2 depende dos graus de liberdade. Sugere-se

comecar com um n0, recorrendo a distribuicao normal, calcular os graus de

liberdade gl e obter tα/2;gl . Usando calculos iterativamente, obtem-se o

valor de n.

38/41


. Se o valor de n obtido for muito grande, pode-se aumentar a margem de

erro ou reduzir ao nıvel de significancia.

. O valor calculado de n e uma aproximacao, pois s2 e baseado numa

estimativa obtida na literatura ou por uma amostra piloto.

. Se o verdadeiro valor da variancia populacional (σ2) fosse conhecido,

poderıamos obter directamente o valor de n a partir da distribuicao normal

reduzida.

39/41


Exemplo: Um investigador deparou-se perante um estudo com media e desvio

padrao para a contagem de eritrocitos: 4.8 e 0.6 milhoes por mm3,

respectivamente. Considere um erro d = 0.4 milhao por mm3, ou seja 5% do

valor medio e 1− α igual a 95%. Determine qual o tamanho da amostra.

Exemplo: Suponha que uma pequena amostra piloto de n = 10, extraıda de

uma populacao, forneceu os valores x = 139 e s2 = 16 para medidas de pressao

arterial. Qual o tamanho amostral necessario para estimar a media populacional

µ com erro amostral de no maximo 5 e um grau de confianca 1− α = 0, 95.

40/41

SPSS: dicas

Como obter IC para uma proporcao: No menu Analisar - Testes nao

parametricos - Uma amostra: Objetivo (Customizar analise); Campos

(selecionar a variavel); Configuracoes (Customizar analise - teste binomial -

opcoes: teste exato; Especificar valores de sucesso)

Em alternativa, abrir uma nova base de dados e colocar uma variavel com o

valor de r (nº de sucessos) e outra de n (nº total). Abrir um ficheiro de sintaxis

e correr os seguintes comandos:

compute alpha=.05.

compute p=r/n.

compute lower=idf.beta(alpha/2,r+.5,n-r+.5).

compute upper=idf.beta(1-alpha/2,r+.5,n-r+.5).

formats r n (f8.0) p lower upper (f8.5).

list r n p lower upper.

41/41

SPSS: dicas

Como obter IC para a diferenca de duas proporcoes: Abrir uma nova base

de dados e colocar uma variavel com o valor de r1 (nº de sucessos grupo 1) e

outra de n1 (nº total grupo 1); r2 (nº de sucessos grupo 2) e outra de n2 (nº

total grupo 2). Abrir um ficheiro de sintaxis e correr os seguintes comandos:

compute alpha=.05.

compute p1=r1/n1.

compute p2=r2/n2.

compute p=p1-p2.

compute se=sqrt((p1 * (1 - p1) / n1) + (p2 * (1 - p2) / n2)).

compute lower=(p1-p2)-idf.norm(1-alpha/2,0,1)*se.

compute upper=(p1-p2)+idf.norm(1-alpha/2,0,1)*se.

formats r1 n1 r2 n2 (f8.0) p lower upper (f8.5).

list r1 n1 r2 n2 p lower upper.

Documents

Inferência Estatística Estimação Intervalar