cap2

11

ESTATÍSTICA APLICADA

2. Estimativas Pontuais

A inferência estatística é em geral dividida em estimação e testes de hipóteses. Em estimação

pretende-se escolher um valor de um parâmetro de um conjunto possível de alternativas. Em geral,

uma estatística é usada para estimar um parâmetro populacional e, por isso, constitui uma estimativa

pontual do referido parâmetro. Assim, exemplos de estimativas pontuais são a média amostral, a

proporção amostral ou a variância amostral, usadas para estimar, respectivamente, a média de uma

população, a proporção de uma distribuição binomial ou a variância de uma população. Estas

estimativas fornecem um valor pontual para o parâmetro a estimar, sendo também referidas como

estimadores. Assim, a média aritmética x é um estimador de µ , assim como é um estimador de 2s2σ .

Contudo, como um estimador é o resultado de uma amostra aleatória, possui, portanto, uma

distribuição amostral. A distribuição da média amostral será aproximadamente normal, centrada em

µ . A figura 2.1 mostra uma possível distribuição da média amostral.

Figura 2.1-Distribuição de um estimador centrado.

Como os estimadores são variáveis aleatórias, importa estudar as suas propriedades estatísticas, por

forma a definir com maior certeza quão próxima está a estimativa do parâmetro que se pretende

estimar, ou em face de vários estimadores possíveis, qual o melhor. Estas propriedades são as

seguintes: não enviesamento, consistência e eficiência relativa.

Definição 2.1

Um estimador é um estimador não enviesado de θ̂ θ se e só se Ê θ θ= .

O enviesamento de um estimador é dado pela diferença θ̂ Ê θ θ− .

12



Figura 2.2-Distribuição de dois estimadores, com e sem tendência.

Assim, o teorema 1.1 mostra que a média aritmética x é um estimador não enviesado para µ. Um

estimador não tendencioso possui, portanto, uma distribuição amostral centrada no parâmetro a ser

estimado. Na figura 1 o estimador A é não tendencioso e o estimador B apresenta um enviesamento.

Por outro lado, a figura 2 fornece as distribuições amostrais de dois estimadores não enviesados,

mas com diferentes variâncias.

Figura 2.3-Dsitribuição de dois estimadores não tendenciosos.

13



Exemplo 2.1

Seja x uma variável aleatória com distribuição binomial. Mostre que x n , a proporção observada de

sucessos, é um estimador não tendencioso do parâmetro p . Calcule a variância do estimador.

Solução

[ ] pnpn

xEnn

xE ===

11

[ ] ( ) ( )2 2

11 1 1p pxV V x np p

n n n n− = = − =

Exemplo 2.2

Sejam 1 2, , , nx x … x uma amostra aleatória de uma população normal com média µ e variância 2σ .

Mostre que a variância amostral , é um estimador não tendencioso de 2s 2σ .

Solução

( )∑= −

−=

n

i

i

nxxs

1

22

1

( ) ( ) ( )[ ]

( ) ( )( ) ( )[ ]

( ) ( ) ( ) ( )

−+−−−−

−=

−+−−−−−

=

−−−−

=−+−−

=

∑ ∑

∑

∑∑

= =

=

==

n

i

n

iii

n

iii

n

ii

n

ii

xnxxxn

xxxxn

xxn

xxn

s

1

2

1

2

1

22

1

2

1

22

21

1

21

11

11

1

µµµµ

µµµµ

µµµµ

Contudo,

( ) ( ) ( ) ( )21

1222 µ

µµµµ −−=

−

−−=−−−∑

∑ =

=

xnn

nxnxxx

n

iin

ii .

Logo,

( )

−−−

−= ∑

=

n

ii xnx

ns

1

222 )(1

1 µµ .

Como cada ix é um valor seleccionado de uma população com média µ e variância 2σ , então

14



( ) ( )

( )

2 2

22 2

1, 2,....i

x

E x i

E xn

µ σ

σµ σ

− = =

− = =

n.

Assim, o valor esperado de s2 é dado por,

[ ] ( )

( )[ ]

2

1

22

2

1

2

1

222

11

)(1

1

)(1

1

σ

σσ

µµ

µµ

=

−

−=

−−

−

−=

−−−

−=

∑

∑

∑

=

=

=

n

i

n

ii

n

ii

nn

n

xnExEn

xnxn

EsE

.

Fica assim demonstrado que é um estimador não tendencioso de 2s 2σ , qualquer que seja a forma

da distribuição da população amostrada, bem como a razão do uso do divisor -1 na fórmula de

cálculo da variância amostral. Convém notar, contudo, que não é um estimador não tendencioso

de

ns

σ , dado que, debaixo de transformações funcionais, o não enviesamento de um estimador nem

sempre é conservado.

Um estimador não é somente avaliado em termos do enviesamento, mas também com base na sua

variância. Nesse sentido, pretende-se que o estimador seja tão concentrado quanto possível à volta

do parâmetro a estimar. Um estimador, cujos valores se aproximam do parâmetro a estimar à medida

que n aumenta, é dito consistente.

Definição 2.2

O estimador é um estimador consistente do parâmetro θ̂ θ se e só se, para qualquer constante

positiva ε,

( )ˆlim 1n P θ θ ε→∞ − < →.

Um estimador é consistente se verificar as seguintes condições suficientes, mas não necessárias: θ̂

1. é não tendencioso. θ̂

2. V à medida que . ˆ 0θ → ∞→n

Convém notar que a consistência é uma propriedade assimptótica que não explicita a rapidez da

convergência, sendo no entanto mais fácil de analisar do que a eficiência.

15



Exemplo 2.3

Mostre que a média aritmética x é um estimador consistente da média µ .

Solução

A média x é um estimador não tendencioso cuja variância

[ ] 02

→=n

xV σ quando . ∞→n

Entre dois estimadores não enviesados, como os da figura 2.3, o estimador A é preferível ao

estimador B, porque apresenta uma menor variância. A definição de eficiência permite comparar dois

estimadores não tendenciosos e , através da razão das variâncias, 1̂θ 2θ̂

1

2

ˆ

ˆV

V

θ

θ

.

Contudo, quando se pretende comparar um estimador tendencioso com um outro não enviesado, ou

mesmo um outro tendencioso, é necessário conjugar a tendência com a variância do estimador.

Assim, por exemplo, na figura 2.4 são apresentados três estimadores. Poderá ser justificada a

escolha do estimador C em virtude de apresentar uma menor variância, apesar de um grande

enviesamento. No entanto, e para que a escolha não seja subjectiva, é possível usar um critério que

combina a tendência com a variância. Esse critério, para um estimador , denominado como Erro

Quadrático Médio (EQM), é definido através da seguinte expressão,

θ̂

( )2ˆ ÊQM E V E ˆθ θ θ θ= − = − − θ .

Assim, a eficiência de dois quaisquer estimadores pode ser calculada através da razão dos erros

quadráticos médios. Para o caso de dois estimadores não tendenciosos, esta razão é equivalente à

razão das variâncias.

16



Figura 2.4-Comparação entre estimadores.

MÉTODO DOS MOMENTOS

Um dos métodos mais antigos para gerar estimadores pontuais é o chamado método dos

momentos, que tem por base o facto de que o momento de ordem , definido na origem, de uma

variável aleatória é . O momento de ordem para uma amostra pode ser definido de

forma semelhante.

kk

k E Xµ′ = k

Definição 2.2

O momento de ordem de um conjunto de observações, é a média da potência de ordem ,

simbolicamente representada por ,

k k

km′

1

nki

ik

xm

n=′ =∑

Assim, para o caso k =1, o primeiro momento populacional é µ e o correspondente momento

amostral é x . Para uma qualquer população definida por p parâmetros, o método dos momentos

consiste em resolver um sistema de p equações, m k 1,2 ,k k , pµ′ ′= = … .

Exemplo 2.4 Considere uma amostra de tamanho de uma população gama, cuja função densidade de

probabilidade é dada por

n

17



( )11 0, 0, 0

( )0

xx e xf x

outros valores

α βα α β

β α− − > > > Γ=

sendo os momentos de ordem k, centrados na origem, dados por

( )( )

k

k

kβ αµ

αΓ +

′ =Γ

.

Use o método dos momentos para estimar os parâmetros α e β .

Solução

A função gama satisfaz a seguinte relação recursiva

( ) ( ) ( )1 1α α αΓ = − Γ −

e os primeiros momentos são

[ ]

( )2 21

E x

E x

αβ

α α β

=

= + .

Logo,

( )

12

2 1mm

αβ

α α β

′ = ′′ = +

e as correspondentes estimativas,

( )( )( )

21

22 1

22 1

1

ˆ

ˆ

mm m

m mm

α

β

′=

′ ′−

′ ′ −= ′

e como 1 x′ =m e 22

1

n

ii

m x=

′ = ∑ n

( )

( )

2

2

1

2

1

1

ˆ

ˆ

n

iin

ii

nx

x x

x x

nx

α

β

=

=

=

− −

=

∑

∑.

O método de estimação baseado nos momentos, apesar da sua simplicidade, tem desvantagens

quando comparado com o método da máxima verosimilhança, já que em alguns casos, as estimativas

produzidas não possuem as propriedades desejáveis de um estimador.

18



MÉTODO DA MÁXIMA VEROSIMILHANÇA

Um dos melhores métodos para gerar estatísticas pontuais é o chamado método da Máxima

Verosimilhança desenvolvido por R. A. Fisher. Entre outras vantagens, Fisher demonstrou que os

estimadores gerados por este método eram suficientes, não tendenciosos e assimptoticamente de

variância mínima.

Para compreender o método, considere-se o seguinte exemplo. Uma urna contém um grande número

de bolas vermelhas e negras, na proporção de 3:1. Contudo, não se sabe qual das cores está

presente em maioria, se a vermelha se a negra. Para o efeito, uma amostra de 3 bolas é retirada

dessa urna. Assim, os resultados possíveis são (nº de bolas vermelhas, nº de bolas negras): (3,0);

(2,1); (1,2); (0,3). Para um grande número de bolas dentro da urna, as probabilidades podem ser

descritas por uma distribuição binomial. Contudo, as probabilidades associadas a cada um dos

eventos dependem de qual a cor presente em maioria. Se a cor maioritária for a vermelha, então a

probabilidade de retirar uma bola vermelha é p=3/4, caso contrário é p=1/4.

Nº de bolas vermelhas

0

1

2

3

p=3/4 1/64 9/64 27/64 27/64

p=1/4 27/64 27/64 9/64 1/64

A tabela lista as probabilidades de todos os acontecimentos possíveis, para os dois casos de cor

maioritária vermelha ou negra. Se, por exemplo, o resultado observado fosse 2 bolas vermelhas, a

maior probabilidade de tal ocorrência resulta da situação em que a cor vermelha é maioritária (27/64

contra 9/64), ou seja, tal favoreceria a escolha de p=3/4; inversamente, a ocorrência de 0 bolas

vermelhas, favoreceria a escolha de uma maioria de bolas negras, já que para esta situação a

probabilidade é muito maior (27/64 contra 1/64). Neste caso, esta tabela poderá ser vista como uma

tabela de decisão, em que o resultado 2 ou 3 favorece a hipótese vermelha, enquanto que um

resultado de 0 ou 1 favoreceria a escolha oposta.

Em resumo, com base nos valores observados na amostra aleatória, é escolhido um valor para a

estimativa que maximiza a probabilidade de obter aqueles dados. Assim, no caso discreto, uma

amostra aleatória de observações, n 1 2, , , nx x … x , com uma função de probabilidade dependente de

um parâmetro θ , então a probabilidade de observar estes valores independentes é dada por, n

1 2 1 2 1 2( , ,..., ) ( ) ( )... ( ) ( , ,..., ; )n nP x x x P x P x P x f x x xn θ= =

que corresponde à distribuição de probabilidade conjunta das variáveis aleatórias no ponto amostral

( 1 2, , , nx x … x ). Dado que os valores de 1 2, , , nx x … x , são conhecidos, esta função depende de θ , e

19



é referida como função de verosimilhança. No caso contínuo, 1 2( , ,..., ; )nf x x x θ , representa a função

de densidade conjunta no ponto ( 1 2, , , nx x … x ). Fisher sugeriu que o valor de θ devia ser escolhido

por forma a maximizar esta função.

( )L f )xθ θ=

1 2( , ,f x x

1 2, , , nx x…

(1( ; )

0f x p

=

0,1xvalores

− =

1 21 1 ... 1nx x xp− −

ln

Definição 2.3

Se 1 2, , , nx x … x são os valores de uma amostra aleatória de uma população com parâmetroθ , a

função de verosimilhança é dada por,

1 2( , ,..., ;nx x

para valores de θ no domínio dado. ..., ; )nx θ é o valor da função de probabilidade conjunta

ou a função de densidade conjunta das variáveis aleatórias x observadas.

Assim, o método da máxima verosimilhança consiste na maximização da função de verosimilhança, e

por via do cálculo diferencial, no caso de um só parâmetro θ , o valor que anula a primeira derivada,

a que corresponde ao máximo.

Exemplo 2.5 Seja x uma variável aleatória de Bernoulli. A função de probabilidade é dada por

1)x xp poutros

−

onde p é o parâmetro a ser estimado.

Solução

( ) ( ) ( )

( )

( )

1 2

11

1

1

( ) 1 1

1

1

n

ii

nn

iii

i

x x

nxx

i

xn x

L p p p p p p

p p

p p==

−

=

−

= − − −

= −

∑ ∑= −

∏

1 x−

O máximo de ( )L p é também o máximo de ( )L p . Assim,

20



( )

( )

1 1

11

1

ln ( ) ln ln 1

ln1

ˆ

n n

i ii i

nn

iiii

n

ii

L p x p n x p

n xxd L pdp p p

xp

n

= =

==

=

= + −

− = −

−

=

∑ ∑

∑∑

∑

−

.

Exemplo 2.6

Seja x uma variável aleatória exponencial com parâmetro λ . Calcule o estimador de máxima

verosimilhança para o parâmetro λ , com base numa amostra de tamanho . Considere, em

seguida, uma amostra de =10 valores respeitantes ao tempo de vida (em horas) de um

componente eléctrico (8.2, 40.5, 3.9, 7.7, 7.1, 3.3, 4.3, 25.4, 5.2,1.0). Estime o valor do

parâmetro

nn

λ com base nestes 10 valores.

Solução

1

1 2

1

1

1

1

( ) ( ) ( )... ( )

( )

ln ( ) ln

ln ( )

1ˆ

n

ii i

n

n xx n

in

ii

n

ii

n

ii

L f x f x f x

L e e

L n x

d L n xdn

xx

λλ

λ

λ λ λ

λ λ λ

λλ λ

λ

=

−−

=

=

=

=

=

∑= =

= −

= −

= =

∏

∑

∑

∑

1ˆ10.66 0.09410.66

x λ= ⇒ = = .

Os valores apresentados foram gerados a partir de uma distribuição exponencial com λ =0.1, e como

se pode ver pelo gráfico da Figura 2.5, o máximo do logaritmo da função de verosimilhança ocorre

para λ̂ =0.094.

21



Figura 2.5-Função de verosimilhança para o exemplo 2.6.

Podem surgir, contudo, algumas situações em que poderá não ser fácil a aplicação do método da

máxima verosimilhança, nomeadamente nas situações em que não seja possível obter a derivada da

função de verosimilhança.

Exemplo 2.7

Sejam 1 2, , , nx x …

a

x os valores de uma amostra de uma distribuição uniforme, com parâmetros

0,α β == . Encontre o estimador de máxima verosimilhança para . a

Solução

A função densidade de probabilidade é dada por 1( ; )f x aa

= e a a função de máxima

verosimilhança por

1

1( ) ( ; )nn

ii

L a f x aa=

= =

∏ .

O valor da função da função de verosimilhança cresce à medida que a decresce. Contudo, para

qualquer valor observado, 0 ix a≤ ≤ , logo a não pode ser menor que qualquer valor da amostra, e a

função atinge o seu máximo quando a é igual ao maior dos valores na amostra, isto é, .

Esta situação é ilustrada na figura 2.6, e como se pode ver, as regras do cálculo não se podem

aplicar nesta situação, já que o máximo ocorre num ponto de descontinuidade.

ˆ max( )ia x=

22



Figura 2.6-Função de verosimilhança para o exemplo 2.7.

Finalmente, importa referir, em jeito de resumo, algumas das propriedades mais importantes dos

estimadores de máxima verosimilhança.

Propriedades dos Estimadores de Máxima Versosimilhança

Em condições muito gerais, quando a dimensão da amostra é grande e se n θ̂ é o estimador de

máxima verosimilhança do parâmetro θ , então

a) θ̂ é aproximadamente um estimador não tendencioso;

b) a variância de θ̂ é quase tão pequena quanto a variância que poderia ser obtida com qualquer

outro estimador;

c) θ̂ tem uma distribuição aproximadamente normal.

Propriedade da Invariância

Sejam 1 2ˆ ˆ ˆ, , , kθ θ … θ os estimadores de máxima verosimilhança dos parâmetros 1 2, , , kθ θ … θ . Então,

o estimador de máxima verosimilhança de qualquer função ( )1 2, , , kh θ θ θ… destes parâmetros é a

mesma função ( 1 2ˆ ˆ ˆ, , , k )h θ θ θ… dos estimadores 1 2

ˆ ˆ, , , k̂θ θ θ… .

Existem outras técnicas de estimação, nomeadamente o método dos mínimos quadrados, que será

abordado no capítulo de regressão. Outras técnicas incluem os estimadores robustos [Hoaglin,

Mosteller and Tukey (1992)], os estimadores “jacknife” e os estimadores bayesianos [Mendenhall,

Wackerly and Scheaffer (1989)].

23



EXERCÍCIOS 1. Considerando uma amostra aleatória de dimensão , encontre o estimador de máxima

verosimilhança para o parâmetro

nλ

( ) 0,1,2,!

xef x xx

λλ−

= = …

da distribuição de probabilidade de Poisson.

2. Considerando uma amostra aleatória de dimensão , encontre os estimadores de máxima

verosimilhança para os parâmetros

n

µ e 2σ 21

21( )2

, 0

x

f x e xµ

σ

πσµ σ

− − = −∞ ≤ ≤ ∞

−∞ ≤ ≤ ∞ >

da distribuição normal.

3. Considerando uma amostra aleatória de dimensão , encontre o estimador de máxima

verosimilhança para o parâmetro

nα da seguinte distribuição de probabilidade,

( )1 0( )

01x x

f xoutros valores

αα + < <=

.

4. Numa experiência binomial, foram observados x sucessos em tentativas. Encontre o estimador

de máxima verosimilhança para o parâmetro

np

( ) (1 ) 0,1,2, ,n x n xxf x C p p x−= − = … n

da distribuição binomial. É o estimador tendencioso?

Documents

cap2