Upload
tiago-caetano
View
657
Download
2
Embed Size (px)
Citation preview
11
ESTATÍSTICA APLICADA
2. Estimativas Pontuais
A inferência estatística é em geral dividida em estimação e testes de hipóteses. Em estimação
pretende-se escolher um valor de um parâmetro de um conjunto possível de alternativas. Em geral,
uma estatística é usada para estimar um parâmetro populacional e, por isso, constitui uma estimativa
pontual do referido parâmetro. Assim, exemplos de estimativas pontuais são a média amostral, a
proporção amostral ou a variância amostral, usadas para estimar, respectivamente, a média de uma
população, a proporção de uma distribuição binomial ou a variância de uma população. Estas
estimativas fornecem um valor pontual para o parâmetro a estimar, sendo também referidas como
estimadores. Assim, a média aritmética x é um estimador de µ , assim como é um estimador de 2s2σ .
Contudo, como um estimador é o resultado de uma amostra aleatória, possui, portanto, uma
distribuição amostral. A distribuição da média amostral será aproximadamente normal, centrada em
µ . A figura 2.1 mostra uma possível distribuição da média amostral.
Figura 2.1-Distribuição de um estimador centrado.
Como os estimadores são variáveis aleatórias, importa estudar as suas propriedades estatísticas, por
forma a definir com maior certeza quão próxima está a estimativa do parâmetro que se pretende
estimar, ou em face de vários estimadores possíveis, qual o melhor. Estas propriedades são as
seguintes: não enviesamento, consistência e eficiência relativa.
Definição 2.1
Um estimador é um estimador não enviesado de θ̂ θ se e só se ˆE θ θ= .
O enviesamento de um estimador é dado pela diferença θ̂ ˆE θ θ− .
12
ESTATÍSTICA APLICADA
2. Estimativas Pontuais
Figura 2.2-Distribuição de dois estimadores, com e sem tendência.
Assim, o teorema 1.1 mostra que a média aritmética x é um estimador não enviesado para µ. Um
estimador não tendencioso possui, portanto, uma distribuição amostral centrada no parâmetro a ser
estimado. Na figura 1 o estimador A é não tendencioso e o estimador B apresenta um enviesamento.
Por outro lado, a figura 2 fornece as distribuições amostrais de dois estimadores não enviesados,
mas com diferentes variâncias.
Figura 2.3-Dsitribuição de dois estimadores não tendenciosos.
13
ESTATÍSTICA APLICADA
2. Estimativas Pontuais
Exemplo 2.1
Seja x uma variável aleatória com distribuição binomial. Mostre que x n , a proporção observada de
sucessos, é um estimador não tendencioso do parâmetro p . Calcule a variância do estimador.
Solução
[ ] pnpn
xEnn
xE ===
11
[ ] ( ) ( )2 2
11 1 1p pxV V x np p
n n n n− = = − =
Exemplo 2.2
Sejam 1 2, , , nx x … x uma amostra aleatória de uma população normal com média µ e variância 2σ .
Mostre que a variância amostral , é um estimador não tendencioso de 2s 2σ .
Solução
( )∑= −
−=
n
i
i
nxxs
1
22
1
( ) ( ) ( )[ ]
( ) ( )( ) ( )[ ]
( ) ( ) ( ) ( )
−+−−−−
−=
−+−−−−−
=
−−−−
=−+−−
=
∑ ∑
∑
∑∑
= =
=
==
n
i
n
iii
n
iii
n
ii
n
ii
xnxxxn
xxxxn
xxn
xxn
s
1
2
1
2
1
22
1
2
1
22
21
1
21
11
11
1
µµµµ
µµµµ
µµµµ
Contudo,
( ) ( ) ( ) ( )21
1222 µ
µµµµ −−=
−
−−=−−−∑
∑ =
=
xnn
nxnxxx
n
iin
ii .
Logo,
( )
−−−
−= ∑
=
n
ii xnx
ns
1
222 )(1
1 µµ .
Como cada ix é um valor seleccionado de uma população com média µ e variância 2σ , então
14
ESTATÍSTICA APLICADA
2. Estimativas Pontuais
( ) ( )
( )
2 2
22 2
1, 2,....i
x
E x i
E xn
µ σ
σµ σ
− = =
− = =
n.
Assim, o valor esperado de s2 é dado por,
[ ] ( )
( )[ ]
2
1
22
2
1
2
1
222
11
)(1
1
)(1
1
σ
σσ
µµ
µµ
=
−
−=
−−
−
−=
−−−
−=
∑
∑
∑
=
=
=
n
i
n
ii
n
ii
nn
n
xnExEn
xnxn
EsE
.
Fica assim demonstrado que é um estimador não tendencioso de 2s 2σ , qualquer que seja a forma
da distribuição da população amostrada, bem como a razão do uso do divisor -1 na fórmula de
cálculo da variância amostral. Convém notar, contudo, que não é um estimador não tendencioso
de
ns
σ , dado que, debaixo de transformações funcionais, o não enviesamento de um estimador nem
sempre é conservado.
Um estimador não é somente avaliado em termos do enviesamento, mas também com base na sua
variância. Nesse sentido, pretende-se que o estimador seja tão concentrado quanto possível à volta
do parâmetro a estimar. Um estimador, cujos valores se aproximam do parâmetro a estimar à medida
que n aumenta, é dito consistente.
Definição 2.2
O estimador é um estimador consistente do parâmetro θ̂ θ se e só se, para qualquer constante
positiva ε,
( )ˆlim 1n P θ θ ε→∞ − < →.
Um estimador é consistente se verificar as seguintes condições suficientes, mas não necessárias: θ̂
1. é não tendencioso. θ̂
2. V à medida que . ˆ 0θ → ∞→n
Convém notar que a consistência é uma propriedade assimptótica que não explicita a rapidez da
convergência, sendo no entanto mais fácil de analisar do que a eficiência.
15
ESTATÍSTICA APLICADA
2. Estimativas Pontuais
Exemplo 2.3
Mostre que a média aritmética x é um estimador consistente da média µ .
Solução
A média x é um estimador não tendencioso cuja variância
[ ] 02
→=n
xV σ quando . ∞→n
Entre dois estimadores não enviesados, como os da figura 2.3, o estimador A é preferível ao
estimador B, porque apresenta uma menor variância. A definição de eficiência permite comparar dois
estimadores não tendenciosos e , através da razão das variâncias, 1̂θ 2θ̂
1
2
ˆ
ˆV
V
θ
θ
.
Contudo, quando se pretende comparar um estimador tendencioso com um outro não enviesado, ou
mesmo um outro tendencioso, é necessário conjugar a tendência com a variância do estimador.
Assim, por exemplo, na figura 2.4 são apresentados três estimadores. Poderá ser justificada a
escolha do estimador C em virtude de apresentar uma menor variância, apesar de um grande
enviesamento. No entanto, e para que a escolha não seja subjectiva, é possível usar um critério que
combina a tendência com a variância. Esse critério, para um estimador , denominado como Erro
Quadrático Médio (EQM), é definido através da seguinte expressão,
θ̂
( )2ˆ ˆEQM E V E ˆθ θ θ θ= − = − − θ .
Assim, a eficiência de dois quaisquer estimadores pode ser calculada através da razão dos erros
quadráticos médios. Para o caso de dois estimadores não tendenciosos, esta razão é equivalente à
razão das variâncias.
16
ESTATÍSTICA APLICADA
2. Estimativas Pontuais
Figura 2.4-Comparação entre estimadores.
MÉTODO DOS MOMENTOS
Um dos métodos mais antigos para gerar estimadores pontuais é o chamado método dos
momentos, que tem por base o facto de que o momento de ordem , definido na origem, de uma
variável aleatória é . O momento de ordem para uma amostra pode ser definido de
forma semelhante.
kk
k E Xµ′ = k
Definição 2.2
O momento de ordem de um conjunto de observações, é a média da potência de ordem ,
simbolicamente representada por ,
k k
km′
1
nki
ik
xm
n=′ =∑
Assim, para o caso k =1, o primeiro momento populacional é µ e o correspondente momento
amostral é x . Para uma qualquer população definida por p parâmetros, o método dos momentos
consiste em resolver um sistema de p equações, m k 1,2 ,k k , pµ′ ′= = … .
Exemplo 2.4 Considere uma amostra de tamanho de uma população gama, cuja função densidade de
probabilidade é dada por
n
17
ESTATÍSTICA APLICADA
2. Estimativas Pontuais
( )11 0, 0, 0
( )0
xx e xf x
outros valores
α βα α β
β α− − > > > Γ=
sendo os momentos de ordem k, centrados na origem, dados por
( )( )
k
k
kβ αµ
αΓ +
′ =Γ
.
Use o método dos momentos para estimar os parâmetros α e β .
Solução
A função gama satisfaz a seguinte relação recursiva
( ) ( ) ( )1 1α α αΓ = − Γ −
e os primeiros momentos são
[ ]
( )2 21
E x
E x
αβ
α α β
=
= + .
Logo,
( )
12
2 1mm
αβ
α α β
′ = ′′ = +
e as correspondentes estimativas,
( )( )( )
21
22 1
22 1
1
ˆ
ˆ
mm m
m mm
α
β
′=
′ ′−
′ ′ −= ′
e como 1 x′ =m e 22
1
n
ii
m x=
′ = ∑ n
( )
( )
2
2
1
2
1
1
ˆ
ˆ
n
iin
ii
nx
x x
x x
nx
α
β
=
=
=
− −
=
∑
∑.
O método de estimação baseado nos momentos, apesar da sua simplicidade, tem desvantagens
quando comparado com o método da máxima verosimilhança, já que em alguns casos, as estimativas
produzidas não possuem as propriedades desejáveis de um estimador.
18
ESTATÍSTICA APLICADA
2. Estimativas Pontuais
MÉTODO DA MÁXIMA VEROSIMILHANÇA
Um dos melhores métodos para gerar estatísticas pontuais é o chamado método da Máxima
Verosimilhança desenvolvido por R. A. Fisher. Entre outras vantagens, Fisher demonstrou que os
estimadores gerados por este método eram suficientes, não tendenciosos e assimptoticamente de
variância mínima.
Para compreender o método, considere-se o seguinte exemplo. Uma urna contém um grande número
de bolas vermelhas e negras, na proporção de 3:1. Contudo, não se sabe qual das cores está
presente em maioria, se a vermelha se a negra. Para o efeito, uma amostra de 3 bolas é retirada
dessa urna. Assim, os resultados possíveis são (nº de bolas vermelhas, nº de bolas negras): (3,0);
(2,1); (1,2); (0,3). Para um grande número de bolas dentro da urna, as probabilidades podem ser
descritas por uma distribuição binomial. Contudo, as probabilidades associadas a cada um dos
eventos dependem de qual a cor presente em maioria. Se a cor maioritária for a vermelha, então a
probabilidade de retirar uma bola vermelha é p=3/4, caso contrário é p=1/4.
Nº de bolas vermelhas
0
1
2
3
p=3/4 1/64 9/64 27/64 27/64
p=1/4 27/64 27/64 9/64 1/64
A tabela lista as probabilidades de todos os acontecimentos possíveis, para os dois casos de cor
maioritária vermelha ou negra. Se, por exemplo, o resultado observado fosse 2 bolas vermelhas, a
maior probabilidade de tal ocorrência resulta da situação em que a cor vermelha é maioritária (27/64
contra 9/64), ou seja, tal favoreceria a escolha de p=3/4; inversamente, a ocorrência de 0 bolas
vermelhas, favoreceria a escolha de uma maioria de bolas negras, já que para esta situação a
probabilidade é muito maior (27/64 contra 1/64). Neste caso, esta tabela poderá ser vista como uma
tabela de decisão, em que o resultado 2 ou 3 favorece a hipótese vermelha, enquanto que um
resultado de 0 ou 1 favoreceria a escolha oposta.
Em resumo, com base nos valores observados na amostra aleatória, é escolhido um valor para a
estimativa que maximiza a probabilidade de obter aqueles dados. Assim, no caso discreto, uma
amostra aleatória de observações, n 1 2, , , nx x … x , com uma função de probabilidade dependente de
um parâmetro θ , então a probabilidade de observar estes valores independentes é dada por, n
1 2 1 2 1 2( , ,..., ) ( ) ( )... ( ) ( , ,..., ; )n nP x x x P x P x P x f x x xn θ= =
que corresponde à distribuição de probabilidade conjunta das variáveis aleatórias no ponto amostral
( 1 2, , , nx x … x ). Dado que os valores de 1 2, , , nx x … x , são conhecidos, esta função depende de θ , e
19
ESTATÍSTICA APLICADA
2. Estimativas Pontuais
é referida como função de verosimilhança. No caso contínuo, 1 2( , ,..., ; )nf x x x θ , representa a função
de densidade conjunta no ponto ( 1 2, , , nx x … x ). Fisher sugeriu que o valor de θ devia ser escolhido
por forma a maximizar esta função.
( )L f )xθ θ=
1 2( , ,f x x
1 2, , , nx x…
(1( ; )
0f x p
=
0,1xvalores
− =
1 21 1 ... 1nx x xp− −
ln
Definição 2.3
Se 1 2, , , nx x … x são os valores de uma amostra aleatória de uma população com parâmetroθ , a
função de verosimilhança é dada por,
1 2( , ,..., ;nx x
para valores de θ no domínio dado. ..., ; )nx θ é o valor da função de probabilidade conjunta
ou a função de densidade conjunta das variáveis aleatórias x observadas.
Assim, o método da máxima verosimilhança consiste na maximização da função de verosimilhança, e
por via do cálculo diferencial, no caso de um só parâmetro θ , o valor que anula a primeira derivada,
a que corresponde ao máximo.
Exemplo 2.5 Seja x uma variável aleatória de Bernoulli. A função de probabilidade é dada por
1)x xp poutros
−
onde p é o parâmetro a ser estimado.
Solução
( ) ( ) ( )
( )
( )
1 2
11
1
1
( ) 1 1
1
1
n
ii
nn
iii
i
x x
nxx
i
xn x
L p p p p p p
p p
p p==
−
=
−
= − − −
= −
∑ ∑= −
∏
1 x−
O máximo de ( )L p é também o máximo de ( )L p . Assim,
20
ESTATÍSTICA APLICADA
2. Estimativas Pontuais
( )
( )
1 1
11
1
ln ( ) ln ln 1
ln1
ˆ
n n
i ii i
nn
iiii
n
ii
L p x p n x p
n xxd L pdp p p
xp
n
= =
==
=
= + −
− = −
−
=
∑ ∑
∑∑
∑
−
.
Exemplo 2.6
Seja x uma variável aleatória exponencial com parâmetro λ . Calcule o estimador de máxima
verosimilhança para o parâmetro λ , com base numa amostra de tamanho . Considere, em
seguida, uma amostra de =10 valores respeitantes ao tempo de vida (em horas) de um
componente eléctrico (8.2, 40.5, 3.9, 7.7, 7.1, 3.3, 4.3, 25.4, 5.2,1.0). Estime o valor do
parâmetro
nn
λ com base nestes 10 valores.
Solução
1
1 2
1
1
1
1
( ) ( ) ( )... ( )
( )
ln ( ) ln
ln ( )
1ˆ
n
ii i
n
n xx n
in
ii
n
ii
n
ii
L f x f x f x
L e e
L n x
d L n xdn
xx
λλ
λ
λ λ λ
λ λ λ
λλ λ
λ
=
−−
=
=
=
=
=
∑= =
= −
= −
= =
∏
∑
∑
∑
1ˆ10.66 0.09410.66
x λ= ⇒ = = .
Os valores apresentados foram gerados a partir de uma distribuição exponencial com λ =0.1, e como
se pode ver pelo gráfico da Figura 2.5, o máximo do logaritmo da função de verosimilhança ocorre
para λ̂ =0.094.
21
ESTATÍSTICA APLICADA
2. Estimativas Pontuais
Figura 2.5-Função de verosimilhança para o exemplo 2.6.
Podem surgir, contudo, algumas situações em que poderá não ser fácil a aplicação do método da
máxima verosimilhança, nomeadamente nas situações em que não seja possível obter a derivada da
função de verosimilhança.
Exemplo 2.7
Sejam 1 2, , , nx x …
a
x os valores de uma amostra de uma distribuição uniforme, com parâmetros
0,α β == . Encontre o estimador de máxima verosimilhança para . a
Solução
A função densidade de probabilidade é dada por 1( ; )f x aa
= e a a função de máxima
verosimilhança por
1
1( ) ( ; )nn
ii
L a f x aa=
= =
∏ .
O valor da função da função de verosimilhança cresce à medida que a decresce. Contudo, para
qualquer valor observado, 0 ix a≤ ≤ , logo a não pode ser menor que qualquer valor da amostra, e a
função atinge o seu máximo quando a é igual ao maior dos valores na amostra, isto é, .
Esta situação é ilustrada na figura 2.6, e como se pode ver, as regras do cálculo não se podem
aplicar nesta situação, já que o máximo ocorre num ponto de descontinuidade.
ˆ max( )ia x=
22
ESTATÍSTICA APLICADA
2. Estimativas Pontuais
Figura 2.6-Função de verosimilhança para o exemplo 2.7.
Finalmente, importa referir, em jeito de resumo, algumas das propriedades mais importantes dos
estimadores de máxima verosimilhança.
Propriedades dos Estimadores de Máxima Versosimilhança
Em condições muito gerais, quando a dimensão da amostra é grande e se n θ̂ é o estimador de
máxima verosimilhança do parâmetro θ , então
a) θ̂ é aproximadamente um estimador não tendencioso;
b) a variância de θ̂ é quase tão pequena quanto a variância que poderia ser obtida com qualquer
outro estimador;
c) θ̂ tem uma distribuição aproximadamente normal.
Propriedade da Invariância
Sejam 1 2ˆ ˆ ˆ, , , kθ θ … θ os estimadores de máxima verosimilhança dos parâmetros 1 2, , , kθ θ … θ . Então,
o estimador de máxima verosimilhança de qualquer função ( )1 2, , , kh θ θ θ… destes parâmetros é a
mesma função ( 1 2ˆ ˆ ˆ, , , k )h θ θ θ… dos estimadores 1 2
ˆ ˆ, , , k̂θ θ θ… .
Existem outras técnicas de estimação, nomeadamente o método dos mínimos quadrados, que será
abordado no capítulo de regressão. Outras técnicas incluem os estimadores robustos [Hoaglin,
Mosteller and Tukey (1992)], os estimadores “jacknife” e os estimadores bayesianos [Mendenhall,
Wackerly and Scheaffer (1989)].
23
ESTATÍSTICA APLICADA
2. Estimativas Pontuais
EXERCÍCIOS 1. Considerando uma amostra aleatória de dimensão , encontre o estimador de máxima
verosimilhança para o parâmetro
nλ
( ) 0,1,2,!
xef x xx
λλ−
= = …
da distribuição de probabilidade de Poisson.
2. Considerando uma amostra aleatória de dimensão , encontre os estimadores de máxima
verosimilhança para os parâmetros
n
µ e 2σ 21
21( )2
, 0
x
f x e xµ
σ
πσµ σ
− − = −∞ ≤ ≤ ∞
−∞ ≤ ≤ ∞ >
da distribuição normal.
3. Considerando uma amostra aleatória de dimensão , encontre o estimador de máxima
verosimilhança para o parâmetro
nα da seguinte distribuição de probabilidade,
( )1 0( )
01x x
f xoutros valores
αα + < <=
.
4. Numa experiência binomial, foram observados x sucessos em tentativas. Encontre o estimador
de máxima verosimilhança para o parâmetro
np
( ) (1 ) 0,1,2, ,n x n xxf x C p p x−= − = … n
da distribuição binomial. É o estimador tendencioso?