18
8-Econometria, a.a. 2012-13 Capitolo 8 8-1 Il metodo della Massima Verosimiglianza 8-2 Proprieta` asintotiche degli stimatori ML 8-3 Test sulle ipotesi: Il test di Wald, il test LM, il test LR e il test bootstrap 8-4 Esempi 8-5 Appendice: La statistica LM e la sua distribuzione asintotica 8-6 Appendice: Efficienza degli stimatori di Massima Verosimiglianza 8-7 Appendice: La funzione Log-verosimiglianza concentrata 8-1 Il metodo della Massima Verosimiglianza Il metodo della massima verosimiglianza è un metodo di stima utilizzabile in presenza di modelli parametrici, dove per modello parametrico per un processo { } t t w si intende Una sequenza di distribuzioni di probabilità ( ) 1 ( , , ;) n n n f w w θ , ciascuna delle quali dipende da un parametro vettoriale θ (non noto e indipendente da )”. n Terminologia e una prima ipotesi: Sia { } 1, , t t = w n il processo delle osservazioni di un processo { } t w con modello parametrico ( (notare che e` stato omesso l’indice della distribuzione ) 1 ( , , ;) n n f w w θ n n f ); La funzione (della variabile θ ) definita da 1 1 (; , , ) ( , , ;) n L f n = θ w w w w θ dicesi funzione di verosimiglianza (del processo finito); Si assumerà sempre che i dati a disposizione sono stati generati da un processo la cui distribuzione è caratterizzata da un solo θ (in sostanza c’è una sola struttura del modello che ha generato i dati disponibili e quindi il modello e` correttamente specificato). Se il processo è del tipo { } ( , ) t t t y = w x (con eventualmente multivariata) il modello si può scrivere nella forma t y 1 1 1 1 1 ( , , , , ;) ( , , ; ( )| , , )( , , ; ( )) n n n n n f y y gy y h ϕ ψ = x x θ θ x x x x θ . e allora 1 1 ( , , ; ( )| , , ) n gy y n ϕ θ x x è un nuovo modello (spesso più semplice di quello originario), che si dirà modello condizionato. Evidentemente se l’interesse e` rivolto al solo parametro () ϕ θ e` opportuno considerare soltanto il modello condizionato. Come già segnalato in altre circostanze, una qualunque buona procedura di stima, deve fornire uno stimatore che converga in probabilità verso il parametro non noto. Naturalmente ulteriori proprietà dello stimatore consentono di affrontare problemi di inferenza. 1

Il Metodo della Massima Verosimiglianza - dm.uniba.itbasile/pagina_web_2013/Econometria/Econometria... · Newton) che utilizza il gradiente ((1) () n n k Q S ... la proprietà segue

  • Upload
    vuque

  • View
    224

  • Download
    0

Embed Size (px)

Citation preview

8-Econometria, a.a. 2012-13

Capitolo 8

8-1 Il metodo della Massima Verosimiglianza

8-2 Proprieta` asintotiche degli stimatori ML

8-3 Test sulle ipotesi: Il test di Wald, il test LM, il test LR e il test bootstrap

8-4 Esempi

8-5 Appendice: La statistica LM e la sua distribuzione asintotica

8-6 Appendice: Efficienza degli stimatori di Massima Verosimiglianza

8-7 Appendice: La funzione Log-verosimiglianza concentrata

8-1 Il metodo della Massima Verosimiglianza

Il metodo della massima verosimiglianza è un metodo di stima utilizzabile in presenza di

modelli parametrici, dove per modello parametrico per un processo { }t tw si intende

“Una sequenza di distribuzioni di probabilità ( )1( , , ; )n n nf w w θ… , ciascuna delle quali dipende da

un parametro vettoriale θ (non noto e indipendente da )”. n

Terminologia e una prima ipotesi: Sia { } 1, ,t t=w

… n il processo delle osservazioni di un processo

{ }tw con modello parametrico ( (notare che e` stato omesso l’indice della

distribuzione

)1( , , ; )n nf w w θ… n

nf );

• La funzione (della variabile θ ) definita da 1 1( ; , , ) ( , , ; )nL f n=θ w w w w θ… … dicesi funzione di

verosimiglianza (del processo finito);

• Si assumerà sempre che i dati a disposizione sono stati generati da un processo la cui

distribuzione è caratterizzata da un solo θ (in sostanza c’è una sola struttura del modello che ha

generato i dati disponibili e quindi il modello e` correttamente specificato).

• Se il processo è del tipo { }( , )t t ty=w x (con eventualmente multivariata) il modello si può

scrivere nella forma

ty

1 1 1 1 1( , , , , ; ) ( , , ; ( ) | , , ) ( , , ; ( ))n n n n nf y y g y y hϕ ψ=x x θ θ x x x x θ… … … … .

e allora 1 1( , , ; ( ) | , , )ng y y nϕ θ x x… … è un nuovo modello (spesso più semplice di quello originario),

che si dirà modello condizionato. Evidentemente se l’interesse e` rivolto al solo parametro ( )ϕ θ e`

opportuno considerare soltanto il modello condizionato.

• Come già segnalato in altre circostanze, una qualunque buona procedura di stima, deve fornire

uno stimatore che converga in probabilità verso il parametro non noto. Naturalmente ulteriori

proprietà dello stimatore consentono di affrontare problemi di inferenza.

1

8-Econometria, a.a. 2012-13

Rappresentazione della funzione verosimiglianza per modelli econometrici condizionati. Se

{ },t ty x e` un processo e e` un fissato intero, la funzione di verosimiglianza ha la seguente

rappresentazione:

n

• Per dati cross-section:

1 11 1

( ; ) ( ; | ) ( , , ; | , , ) ( ; | ) ( ; )n n

n n t t tt t

L L f y y f y f y= =

= = = =∏ ∏θ ty θ y x θ x x θ x θ… …

essendo le variabili del processo indipendenti;

• Per time-series:

1 1 1 1 1 11

( ; ) ( ; | , , , , , ) ( ; ) ( ; )n

n t n t t tt

L f y y y f y f y− −=

= ⋅ ⋅ ∏θ =y θ x x x θ x θ… … .

Si noti che in questo caso la funzione di verosimiglianza non e` costruita attraverso la

distribuzione condizionata; per questa ragione talvolta e` denominata funzione di verosimiglianza

parziale.

Si noti che nella notazione della funzione di verosimiglianza non è evidenziata la sua

dipendenza dalle variabili (che pero` non e` irrilevante almeno nella prova rigorosa dei risultati

teorici).

tx

Definizione – Sia la funzione di verosimiglianza di un modello relativa al processo delle

osservazioni

( ; )L θ y

{ } 1, ,t ty

= … n. Dicesi stima ML (Maximum Likelihood o di Massima Verosimiglianza)

per il parametro , il punto di massimo θ ˆ ˆ( )=θ θ y (spesso funzione anche di ) della

funzione , se esiste ed è unico.

1, , nx … x

y

( ; )L θ y

D’ora innanzi 1

( ; ) ( ; )n

t tt

L f=

=∏θ y θ e` la funzione di verosimiglianza condizionata (o parziale)

di un processo { },t ty x .

Osservazione:

• La stima di massima verosimiglianza ˆ ˆ( )=θ θ y (se esiste) è anche punto di massimo della

funzione obiettivo

1

1 1( ) ( ; ) log ( ; ) ( ; )n

n n tt

Q Q L ln n =

⎛ ⎞= = =⎜ ⎟⎝ ⎠

∑θ θ y θ y θ ty ,

avendo posto . ( ; ) log ( ; )t t t tl y f y=θ θ

2

8-Econometria, a.a. 2012-13

• In ipotesi di regolarità (che qui non saranno esplicitate ma generalmente valide nelle

applicazioni) della funzione , la stima ML è anche il suo unico punto stazionario e dunque

è (l’unica) soluzione dell’equazione

( ; )L θ y

θ̂

1

( ) 1 ( ; )n

n tt

t

Q l yn =

∂ ∂⎛ ⎞= ⇔ =⎜ ⎟∂ ∂⎝ ⎠

∑θ 0 θ 0θ θ

.

• Talvolta la funzione obiettivo, con la precedente struttura, non e` il logaritmo della funzione

di verosimiglianza, pero` e` in grado di fornire una buona stima del parametro. In tal caso la stima

dicesi QML (Quasi Maximum Likelihood). Un semplice esempio di stima QML e` la stima OLS

dei parametri di un modello di regressione lineare con errori non normali.( )1

• La stima ML (o QML) è generalmente soluzione di una equazione non lineare; una usuale

procedura (ma non è l’unica) per individuarla è il metodo di Newton (oppure il metodo Quasi-

Newton) che utilizza il gradiente (( 1)

( )( ) nnk

QS×

∂=

′∂θθ

θ), spesso denominato “score”, la matrice hessiana

(2

( )

( ) ( )( ) nnk k

S Q×

∂ ∂= = n

′∂ ∂ ∂θH θθ θ

θθ

) e la procedura iterativa

[ ] 11 ( ) ( )k k n k nS−+ = −θ θ H θ θk .

top

8-2 Proprieta` asintotiche degli stimatori ML

In questo capitolo, soltanto alcune ipotesi saranno formulate esplicitamente e saranno introdotte

quando se ne presenta la necessità; quelle di carattere tecnico saranno omesse. Per ragioni di

semplicita` spesso si utilizza ancora il simbolo θ per denotare il parametro vero (cioe` l’unico

parametro che identifica la struttura (o DGP) che ha generato i dati) e si fa riferimento a modelli per

time-series (non c’e` alcuna difficoltà aggiuntiva ad adattare i risultati ottenuti al caso di dati del

tipo cross-section).

Infine si segnala che i risultati qui presentati si riferiscono soltanto alle stime ML; per le stime

QML la validità delle proprietà asintotiche va verificata di volta in volta.

E’ naturale che le buone proprietà asintotiche di siano conseguenza delle proprietà della

funzione obiettivo e di quelle del processo. In particolare, per la consistenza dello stimatore, appare

ragionevole che debbano necessariamente sussistere le seguenti condizioni (cfr. 4.3 per una

situazione del tutto simile).

θ̂

Condizioni di identificabilità: 1 Si verifica facilmente che la stima OLS del parametro β del modello t ty tu′= +x β si ottiene minimizzando la funzione obiettivo costruita nell’ipotesi che { } 2. . .(0, )tu n i d σ∼ .

3

8-Econometria, a.a. 2012-13

i) converge in probabilità verso qualche funzione , che dipende soltanto da

(condizione che fa pensare alla validità di qualche legge dei grandi numeri, che di conseguenza

dovrà essere valida per il processo delle osservazioni);

( ; )nQ θ y 0 ( )Q θ θ

ii) (valore vero del parametro) è l’unico punto di massimo di . 0θ 0 ( )Q θ

Piu` precisamente si prova che se il processo { },t ty x e` stazionario ed ergodico, sotto ulteriori

ipotesi di carattere tecnico, sono valide le condizioni di identificabilita` i) e ii), donde in modo

standard segue la consistenza dello stimatore ML.

Rappresentazione e proprietà della funzione “score” e della matrice hessiana – Si assume

ulteriormente che siano valide le ipotesi che consentono il passaggio della derivata sotto il segno di

integrale (e in particolare che il supporto delle distribuzioni non dipende dal parametro θ ), allora

1) [ ]1 1

1 1( ) ( ; ) ( ; )n n

n t t tt t

S l y sn n= =

∂= =

′∂∑ ∑θ θ θθ ty e

1

1( ) ( ; )n

n t tt

H h yn =

= ∑θ θ ,

essendo

[ ] [ ]1( ; ) ( ; ) ( ; )( ; )t t t t t t

t t

s y l y f yf y

∂ ∂= =

′ ′∂ ∂θ θ

θ θ θθ e [ ] [ ]

2

( ; ) ( ; ) ( ; )t t t t t th y s y l y∂ ∂= =

′∂ ∂ ∂θ θ

θ θ θθ

2) ; E( ( ; ))t ts y =θ 0

infatti [ ]E( ( ; )) ( ; ) ( ; ) ( ; ) ( ; )t t t t t t t t t t t t ts y s y f y dy f y dy f y dy⎡ ⎤∂ ∂

= = = ⎢ ⎥′ ′∂ ∂ ⎣ ⎦∫ ∫ ∫R R R

θ θ θ θ θ 0θ θ

=

3) ( )var( ( ; )) E( ( ; ) ( ; ) ) E( ( ; ));t t t t t t t ts y s y s y h y′= = −θ θ θ θ

Infatti dalla 2) segue

E( ( ; )) ( ; ) ( ; ) =

( ; ) ( ; ) + ( ; ) ( ; ) ( ; )

E( ( ; )) E( ( ; ) ( ; ) )

t t t t t t t

t t t t t t t t t t t

t t t t t t

s y s y f y dy

h y f y dy s y s y f y dy

h y s y s y

⎡ ⎤∂ ∂= = ⎢ ⎥∂ ∂ ⎣ ⎦

′=

′= +

∫ ∫R

R R

0 θ θ θθ θ

θ θ θ θ θ

θ θ θ

t

e quindi l’asserto.

4) Il processo { }( ; )t ts yθ è una differenza martingala; (segue dalla 1), non appena si osserva che

da [ ]1 1( ; ) log ( | , , ; )t t t ts y f y y y−

∂=

′∂θ θ

θ… si ha 1 2E( ( ; )) E( ( ; ) | , , )t t t t t ts y s y y y− −=θ θ … ).

5) [ ]1

1( ; )( ) ( ;Avar ( ) ),

n

t tt

d

n ns yn

nS N S=

=⎛ ⎞⎜ ⎟⎝ ⎠

→∑ θθ 0 θ [ ]1

1Avar ( ) lim E( ( ; ) ( ; ) )n

n t tn tS p s y s y

n→∞=

t t ′= ∑θ θ θ ,

la matrice ( ) 1

1( ) lim E( ( ; ) ( ; ) )n

t t t tnk k tI p s y s

n→∞× =

⎛ ⎞ y ′=⎜ ⎟⎝ ⎠

∑θ θ θ dicesi matrice di informazione di Fisher ;

4

8-Econometria, a.a. 2012-13

la proprietà segue da qualche versione del teorema del limite centrale valido per differenze

martingale non necessariamente strettamente stazionarie (notare che il processo { }( ; )t ts yθ potrebbe

non essere strettamente stazionario).

Asintotica normalità degli stimatori di Massima Verosimiglianza – Intanto per si ha

; inoltre dalla formula di Taylor di punto iniziale θ (valore vero del parametro) si ha:

θ̂

ˆ( ; )nS =θ y 0

(*) ˆ ˆ( ; ) ( ; ) ( ; )( )n n nS S H= = +0 θ y θ y θ y θ θ−

con θ appartenente al segmento congiungente e θ . θ̂

Si assume che la matrice e` invertibile, avendo posto ( )H θ

1 1

1 1( ) lim ( ) lim ( ; ) lim E( ( ; ))n n

n t t tn n nt tH p H p h y p h y

n n→∞ →∞ →∞= =

⎛ ⎞= = =⎜ ⎟

⎝ ⎠∑ ∑θ θ θ θ t .( )2

Osservazione: Sussistono le seguenti due proprietà:

• ( ; ) ( )p

nH H→θ y θ ;

segue da 1

1( ) ( ; ) ( )n p

n t tt

H h y H θn =

⎛ ⎞=⎜ ⎟⎝ ⎠

→∑θ θ e p→θ θ .

• ( ; )nH θ y è invertibile per n sufficientemente grande;

segue dalla precedente e dall’invertibilita` della funzione . ( )H θ

Proposizione (asintotica normalità di ):θ̂ ( )3 Si ha

( )1ˆ ˆ( ) ( , ) ( ; ) ( , Avar(d

n nn H nS N− ⎡ ⎤− = ⎣ ⎦ →θ θ θ y θ y 0 θ))

,

con . 1 1ˆAvar( ) ( ) Avar( ( )) ( )nH S H− −=θ θ θ θ

Dimostrazione: Segue facilmente da (*) utilizzando la proprietà 5 e la precedente osservazione.

L’asintotica normalità di potrà essere utilizzata in problemi di inferenza (costruzione di test

su ipotesi o di stime di intervallo) se è disponibile una stima consistente della varianza asintotica di

. A tal fine è utile la seguente

θ̂

θ̂

2 L’esistenza del limite in probabilità segue dalla stazionarietà ed ergodicità del processo { }ty , e da ulteriori ipotesi che qui non sono state rese esplicite, che sono state riassunte sotto la dizione di ipotesi di regolarità e che sono valide nelle usuali applicazioni. 3 Si osservi che nella prova hanno un ruolo fondamentale le proprietà da 1) a 5) di e quindi la circostanza che

e` il logaritmo della funzione di verosimiglianza. Per le stime QML, non e` detto che per continuino a valere le stesse proprietà, pero` non e` escluso che in qualche modo si possa provare l’asintotica normalita` dello stimatore.

( )nQ θ( )nQ θ ( )nQ θ

5

8-Econometria, a.a. 2012-13

Proposizione: Per gli stimatori di massima verosimiglianza sussistono le seguenti

i) ; ( ) ( )I H= −θ θ

ii) 1 1ˆAvar( ) ( ) ( )H I− −= − =θ θ θ

Dimostrazione: La i) segue facilmente dalla proprietà 3, mentre la ii) segue dalla rappresentazione

di e dalla i). ˆAvar( )θ

Quanto provato finora, consente di proporre vari stimatori consistenti di : ˆAvar( )θ

1) 1

1

1ˆ ˆAvar( ) ( ; )n

t tHt

h yn

=

⎡= − ⎢

⎣ ⎦∑θ θ ⎤

⎥ , (stimatore Hessiana empirica);

2) 1

1

1ˆ ˆ ˆAvar( ) E( ( ; ) ( ; ) )n

t t t tIMt

s y s yn

=

⎡ ⎤′= ⎢⎣ ⎦∑θ θ θ ⎥ , (stimatore Matrice informazione);

3) 1

1

1ˆ ˆ ˆAvar( ) ( ; ) ( ; )n

t t t tBHHHt

s y s yn

=

⎡ ⎤′= ⎢⎣ ⎦∑θ θ θ ⎥ , (stimatore di Berndt-Hall-Hall-Hausman o OPG

(Outer-Product-of-the-Gradient));

4) 1 1

1 1 1

1 1 1ˆ ˆ ˆ ˆ ˆAvar( ) ( ; ) ( ; ) ( ; ) ( ; )n n n

t t t t t t t tSt t t

h y s y s y h yn n n

− −

= = =

⎡ ⎤ ⎡ ⎤ ⎡′= ⎢ ⎥ ⎢ ⎥ ⎢⎣ ⎦ ⎣ ⎦ ⎣ ⎦∑ ∑ ∑θ θ θ θ θ ⎤

⎥ , (stimatore Sandwich).

Osservazione: Lo stimatore Sandwich deve essere utilizzato quando ci sono seri dubbi sulla

corretta specificazione del modello, e pertanto quando c’e` il sospetto che lo stimatore possa essere

del tipo QML.

Prima di chiudere il paragrafo, si riassumono le principali proprietà degli stimatori ML in

ipotesi di regolarità:

• Consistenza;

• Asintotica normalità;

• Asintotica efficienza, nella classe degli stimatori asintoticamente corretti e -n consistenti

(per una prova, nel caso in cui il parametro e` unidimensionale, vedi l’appendice 8.6)

• Invarianza rispetto a trasformazioni invertibili (la prova non non presenta alcuna

difficolta`).

top

8-3 Test sulle ipotesi: Il test di Wald, il test LM, il test LR e il test bootstrap

Questo paragrafo non presenta particolari novità rispetto a quanto già noto; si presentano infatti

tre test (con validità asintotica) la cui costruzione non e` molto diversa da quella presentata in altri

contesti, la cui caratteristica comune e` quella che lo stimatore e` un punto di minimo di una

6

8-Econometria, a.a. 2012-13

opportuna funzione obiettivo. Qui sono descritte le tre statistiche che in modo standard consentono

la costruzione di test su ipotesi (lineari o non lineari) che comunque hanno una validità` asintotica.

Sia 1

1( ) ( ; )n

n tt

Q ln =

= ∑θ θ ty la funzione obiettivo, che consente di individuare la stima ML (o

QML) del parametro e si assume che sussistano le usuali ipotesi di regolarità (che garantiscono

l’asintotica normalità dello stimatore), sia inoltre assegnata la seguente ipotesi

θ

0

1

: ( ): ( )

H rH r

=⎧⎨ ≠⎩

θ 0θ 0

,

con regolare, l (essendo : lr Ω→ R k≤ ( )kΩ ⊂ R lo spazio dei parametri) e sia il rango della

matrice

l

(( )

( ) ( )l k

r R×

∂=

∂θ θ

θ) . Sia infine (risp. ) la stima ML del modello non ristretto (risp. del

modello ristretto).

θ̂ θ

La statistica di Wald: Intanto per il teorema del δ −metodo, ( )ˆ ˆ( ) ( ) ( ,Avar( ( ))d

n r r N r− →θ θ 0 θ

con

ˆ ˆAvar( ( )) ( )Avar( ) ( )r R R ′=θ θ θ θ ,

dove è ( )( ) ( )

l k

rR×

∂=∂

θθθ

ˆ

. Allora la statistica di Wald per l’ipotesi e` 0H

1ˆ ˆ ˆ ˆ( ) ( )Avar( ) ( ) ( )W nr R R r

−⎡ ⎤′ ′= ⎢ ⎥⎣ ⎦

θ θ θ θ θ ,

che (se e` vera) converge in distribuzione verso una 0H 2lχ .

La statistica LM: E` definita come la distanza pesata da 0 , dello “score” della funzione obiettivo

calcolato nella stima del modello ridotto. Denotato allora con θ la stima di massima

verosimiglianza del modello ridotto (dunque il punto stazionario di ) si ha ( , ) ( ) ( )n nQ r= +θ λ θ θ λL

• 1

( )

( ) ( )n n

k k

Q QLM n −

×

′⎛ ⎞ ⎛ ⎞∂ ∂= ⎜ ⎟ ⎜ ⎟∂ ∂⎝ ⎠ ⎝ ⎠

θ θΣθ θ

dove n

1

1 ( ; ) ( ; )t t t tt

s y s yn =

′= ∑Σ θ θ oppure 1

1 ( ; )n

t tt

h yn =

= − ∑Σ θ ;

• 2d

lLM χ→ nell’ipotesi . 0H

Per la prova vedi l’appendice 8-5.

Osservazione: La statistica (qui è stata

utilizzata la prima rappresentazione di ) e` uguale a

1

1 1 1( ; ) ( ; ) ( ; ) ( ; )

n n n

t t t t t t t tt t t

LM s y s y s y s y−

= = =

⎡ ⎤ ⎡ ⎤ ⎡′ ′= ⎢ ⎥ ⎢ ⎥ ⎢⎣ ⎦ ⎣ ⎦ ⎣∑ ∑ ∑θ θ θ θ ⎤

⎥⎦

Σ ESS (la somma dei quadrati dei valori

7

8-Econometria, a.a. 2012-13

previsti) nella regressione del modello ausiliario

( ; )t t ts y resi′⎡ ⎤= +⎣ ⎦θ βι d ,

essendo il vettore le cui coordinate sono tutte uguali ad 1. (Per la verifica e` sufficiente far

riferimento con la matrice delle osservazioni di

ι

resid= +Xβι X { }( ; )t ts yθ (versione matriciale

del precedente modello) e osservare che si ha ). 1

( ; )n

tt

s y=

′ ∑X θι = t

La statistica LR: In questo caso si confrontano i valori della funzione obiettivo nelle stime del

modello non ridotto e di quello ridotto, piu` precisamente si considera la statistica

( )ˆ( ; )ˆ ˆ2 ( ( ) ( )) 2 log 2 log( ( ; )) log( ( ; ))( ; )n n

fLR n Q Q f ff

⎛ ⎞= − = = −⎜ ⎟⎜ ⎟

⎝ ⎠

y θθ θ y θ y θy θ

,( ) 4

per la quale si ha 2d

lLR χ→ se è vera (la prova non è stata riportata). 0H

Osservazione:

i) Le tre statistiche non solo convergono alla stessa distribuzione nell’ipotesi , ma hanno la

stessa distribuzione asintotica quando l’ipotesi pur essendo falsa non e` molto distante da essa

(e pertanto i tre test, con lo stesso livello di significatività, hanno sostanzialmente la stessa

probabilità di errore del secondo tipo).

0H

0H

ii) I risultati segnalati per i tre test hanno soltanto validità` asintotica; per campioni finiti non è

detto che essi diano risultati vicini. Davidson e Mackinnon suggeriscono di utilizzare il metodo

bootstrap (parametrico, essendo i modelli completamente specificati) quando si rilevano differenze

sostanziali.

Il test bootstrap: Intanto si osserva che i precedenti test, utilizzano le distribuzioni asintotiche degli

stimatori e generalmente le proprietà finite dei tali stimatori non sono disponibili. Si comprende

allora l’utilita` di utilizzare anche il metodo del bootstrap (oltre ad uno dei precedenti) nella

costruzione di test su ipotesi; un differente risultato potrebbe essere causato dalla bassa dimensione

del campione.

Si richiama brevemente la procedura, che sostanzialmente riproduce quella gia` descritta in 3-7.

Sia θ il parametro sul quale e` formulata l’ipotesi e sia T la statistica che si vorra` utilizzare per la

costruzione del test. 4 I software econometrici in qualunque procedura di stima (OLS, NLS, 2SLS, ….) hanno nell’output “Log-likelihood =……”. Esso non e` altro che , con costruita assumendo che gli errori abbiano distribuzione normale.

ˆ ˆlog( ( ; )) ( )nf nQ=y θ θ ( ; )f y θ

8

8-Econometria, a.a. 2012-13

• Si stima il modello ridotto (assumendo quindi che l’ipotesi sia vera) e sia θ la stima di

; sia inoltre

0H

θ τ̂ il valore della statistica T (per il cui calcolo potrebbe essere necessario stimare

anche il modello non ridotto) nel campione a disposizione;

• Si generano campioni bootstrap (di lunghezza n ) utilizzando il DGP caratterizzato dal

parametro θ e sia

B

( )1, ,j j B

τ ∗

= … la sequenza dei valori della statistica T in essi;

• Il e` la frazione degli indici -valorep j per i quali si ha jτ τ∗ > .

top

8-4 Esempi

Si considerano alcuni semplici modelli parametrici e si costruisce la funzione obiettivo il cui

unico punto stazionario e la stima ML dei parametri. Soltanto nel primo caso si trovera` una

rappresentazione esplicita della stima ML e delle sue caratteristiche (varianza asintotica o matrice

di informazione di Fisher, e la sua stima). I software econometrici, che utilizzano metodi numerici

per individuare la stima ML, richiedono il generico addendo della funzione obiettivo, i valori

iniziali dei parametri per avviare la procedura iterativa e preferibilmente anche la rappresentazione

analitica dello score (le derivate parziali del generico addendo; se queste ultime mancano utilizzano

in loro sostituzione le derivate numeriche).

Esempio 1 (modello di regressione lineare con errori normali) – Sia { },t ty x un processo i.i.d. e

sia assegnato il modello

i iy iε′= +x β e 2. . .(0, )i n i dε σ∼ .

Si passa a costruire lo stimatore di Massima Verosimiglianza per il parametro 2( , ) 'σ=θ β

i) Costruzione della funzione obiettivo – Posto ( , )i iy i=w x si ha

2

2

2

2

( )1 1( ; ) log ( | ; ) log exp22

( )1 1log(2 ) log( )2 2

t tt t t t

t t

yl f y

y

σπσ

π σσ

⎛ ⎞′⎡ ⎤−= = −⎜ ⎟⎢ ⎥⎜ ⎟⎣ ⎦⎝ ⎠

′−= − − −

x βθ w x θ

x β

e quindi

( ) ( )( )22

2/ 22 1

1 1( , ; | ) exp22

n

t tn nt

L yσσπ σ =

⎛ ⎞′= −⎜ ⎟⎝ ⎠

∑β y x x β−

22 2

21

( )1 1 1 1( , ) log ( , ; | ) log(2 ) log( )2 2

nt t

nt

yQ Ln n

σ σ π σσ=

′⎡ ⎤−⎛ ⎞= = − − + −⎢ ⎥⎜ ⎟⎝ ⎠ ⎣ ⎦

∑ x ββ β y x .

9

8-Econometria, a.a. 2012-13

ii) Costruzione dello stimatore di ML – Si ha:

21

2 2

1

( )1

10 (

nn t t t

tnn

nt t

t

Q ynQ

Q yn

σ

σσ

=

=

′∂ −⎧

)

= ⇔ =⎪ ′∂∂ ⎪= ⇔ ⎨∂ ∂⎪ ′= ⇔ = −⎪ ∂⎩

x x β0 0β

0x β

θ

donde 1

1 1

1 1ˆn n

t t t tt t

yn n

= =

⎛ ⎞′= ⎜ ⎟⎝ ⎠∑ ∑β x x x e 2 2

1 1

1 1ˆˆ ˆ( )n n

t t tt t

y un n

σ= =

⎛ ⎞′= − =⎜ ⎟⎝ ⎠

2∑ ∑x β .

E’ utile osservare che gli stimatori ML della coppia 2( , )σβ sono gli stimatori dei minimi

quadrati (il secondo a meno di una costante moltiplicativa). E’ questo un caso, come d’altronde è

stato già segnalato, in cui anche in presenza di una non corretta specificazione (la distribuzione

degli errori non è normale) gli stimatori hanno comunque ancora “buone” proprietà. Inoltre le

proprietà finite di questi stimatori sono gia` state segnalate (cfr. 2-2), pertanto il seguente punto iii)

ha solo valore didattico.

iii) La matrice informazione di Fisher e la varianza asintotica dello stimatore – Posto

, si ha t t tu y ′= − x β

( )2

22 4

1

;1 1

2 2

t t

t

t

us

u

σ

σ σ

⎡ ⎤⎢ ⎥

= ⎢ ⎥⎢ ⎥− +⎢ ⎥⎣ ⎦

xw θ ,

(il calcolo della matrice hessiana è stato omesso in quanto qui non è di alcuna utilità) e da

quest’ultima si ottiene facilmente

( ) ( ) ( ) ( )2

4

1

E( ; ; ) E( ; ; | )1

2

t t

t t t t ts σ

σ

⎡ ⎤′⎢ ⎥⎛ ⎞′ ′= = ⎢ ⎥⎜ ⎟⎝ ⎠ ⎢ ⎥

⎢ ⎥⎣ ⎦

x x 0w θ s w θ s w θ s w θ x

0.

La semplice rappresentazione della varianza (condizionata) di ( );ts w θ , consente di scrivere

immediatamente la matrice d’informazione asintotica di Fisher e la stima della varianza asintotica

di 2ˆ ˆ ˆ( , )σ=θ β ; infatti si ha

22 1

4

1 1lim( , )

12

n

t tn tp

nI σσ

σ

→∞=

⎡ ⎤⎛ ⎞′⎢ ⎥⎜ ⎟⎝ ⎠⎢ ⎥=

⎢ ⎥⎢ ⎥⎣ ⎦

∑x x 0β

0 e

1

22 1

4

1 1ˆˆ ˆAvar( , ) .....

1ˆ2

n

t ttnσσ

σ

=

⎡ ⎤⎛ ⎞′⎢ ⎥⎜ ⎟⎝ ⎠⎢ ⎥= =

⎢ ⎥⎢ ⎥⎣ ⎦

∑x x 0β

0 .,

donde anche l’asintotica indipendenza degli stimatori e β̂ 2σ̂ .

10

8-Econometria, a.a. 2012-13

Osservazione: Si deve segnalare che nello svolgimento dell’esercizio (come d’altronde capita

frequentemente quando si utilizza il metodo ML come metodo di stima) non ci si è soffermati sulla

verifica della validità delle varie ipotesi (identificabilità, regolarità della funzione distribuzione,

……).

Esempio 2 (Stima di massima verosimiglianza in modelli di regressione lineare con errori

AR(1)) ( )5 – Si considera il modello parametrico

,t t ty u′= +x β u u 1t t tρ ε− + 1, | |< , 2. . .(0, )t n i d εε σ∼ . ρ=

Osservazione:

• Se si trascura la prima osservazione (eventualmente anche altre se tra i repressori ci sono ritardi

di ) il modello può essere scritto nella forma ty

1 1t t t t ty y ρ ε− −′ ′+ − +x β x β 2. . .(0, )t n i d, ρ= εσ∼ , , 2t ≥ε

che sostanzialmente non differisce da quello considerato in esercizio 1. Si osserva immediatamente

che la stima di massima verosimiglianza β e ρ coincide esattamente con la sima NLS.

Naturalmente la procedura ML fornisce maggiori informazioni sugli stimatori, in particolare la

distribuzione asintotica della terna 2ˆ ˆ ˆ( , , )ερ σβ .

• Alcune semplici considerazioni consentono di utilizzare anche la prima osservazione nella

procedura di stima del modello con il metodo della Massima Verosimiglianza.( )6 Qui di seguito

sono presentate due differenti procedure.

1) Intanto la funzione distribuzione per il modello condizionato (a ) è tx

1 1 1 2( , , ) ( | , , ) ( | ) ( )n n n 1 1f y y f y y y f y y f y−=… … ,

pertanto, per si ha 2t ≥

1 1

21 12

( , , ; ) log ( | , , ; , , )1 1log 2 log ( ) ,2 2

t t t t t t

t t t t

l y f y y

y y

ε ε

εε

ρ σ ρ σ

π σ ρ ρσ

− −

− −

= =

′ ′= − − − − − +

β x x β

x β x β

mentre per , l’unica informazione disponibile su (proveniente dal modello di regressione

lineare) è

1t = ty

1 1y u1′= +x β ,

con ( )2 21 (0, /(1 )u N εσ ρ−∼ ({ }tu

e` un processo AR(1) con errori normali e allora e` strettamente

5 La procedura qui presentata può essere utilizzata per la stima dei modelli di regressione con errori AR(p) (e in particolare per modelli AR(p). 6 Nel capitolo 7 e` stato utilizzato il metodo FGLS per la stima del modello senza l’ipotesi di normalita` degli errori, il quale utilizza tutte le osservazioni, ma richiede la stretta esogeneita` dei repressori.

11

8-Econometria, a.a. 2012-13

stazionario e ogni variabile del processo ha distribuzione normale con media nulla e varianza 2 /(1 )ε

2σ ρ− ) e quindi

( )2

2 21 1 1 1 1 12

1 1( , , ; ) log ( | ; , , ) log 2 log log(1 ) ( )2 2

l y f y yε ε εε

ρρ σ ρ σ π σ ρσ− ′= = − − + − −β x β x β− .

In definitiva la funzione obiettivo è

2

2 21 1 1 12

1

1 1( , , ) log 2 log log(1 )2 21 (1 )( ) ( ) .

2

n

n

t t t tt

Qn

y y yn

ε ε

ε

ρ σ π σ ρ

ρ ρσ − −

=

= − − + −

⎡ ⎤′ ′− − − + − − +⎢ ⎥⎣ ⎦

β

x β x β x β 2ρ ′

Il nuovo termine che appare nella funzione obiettivo, ha un ruolo importante nella procedura di

stima, in quanto obbliga la soluzione ρ̂ ad essere interna all’intervallo [ ]0,1 .

2) Si osserva che 21 1 0( ,y N u )ερ σ′ +x β∼ , pertanto nella funzione di verosimiglianza ci sarà anche

che potrà essere interpretato come un parametro non noto e di conseguenza il metodo della

massima verosimiglianza fornira` anche la sua stima (oltre naturalmente a quella di β ,

0u

ρ e 2εσ ).

Esempio 3 (Stima di un modello ( )AR p ): Sia { }ty un processo ( )AR p con errori normali, e

dunque

0 1 1t t p t p ty y yα α α− − ε+ + + + , { } 2. . .(0, )t n i dε= εσ∼ ,

e { }1t t ny

≤ ≤ il processo delle osservazioni. Posto 0 1( , , , p )α α α=α … , si ha

1 1 1 1 1( ; , , ) ( | , , ) ( | , , ) ( , , )n n n t p p pL y y f y y y f y y y f y y− − +=α … … … 1… ,

Al fine di ottenere una sua rappresentazione in funzione dei parametri non noti, si osserva che per

si ha t p>

21 0 12

1 1( | , , ) exp ( )22t t t p t t p t pf y y y y y y

εε

α α ασπσ− − − −1

⎡ ⎤= − − − − −⎢ ⎥

⎣ ⎦… ,

mentre 1( , , )pf y y… si scrive facilmente osservando che ha distribuzione multivariata

normale con media

1( , , )py y…

0 1/(1 )y pμ α α α= − − − e matrice di covarianza che si ottiene risolvendo il

sistema che individua le condizioni iniziali dell’equazione di Yule-Walker (vedi 5-6, pag. 13).

Evidentemente per minimizzare la funzione 1( ; , , )nL y yα … si dovranno utilizzare metodi numerici.

Se pero` dalla precedente rappresentazione si elimina l’ultimo fattore (si considera cioe` la funzione

di verosimiglianza condizionata alle prime osservazioni) allora la ricerca del minimo non

presenta alcun problema; tale minimo evidentemente coincide con . Si prova facilmente che

p

ˆ OLSα

12

8-Econometria, a.a. 2012-13

detto stimatore (quello ottenuto utilizzando la funzione di verosimiglianza condizionata) e`

asintoticamente equivalente allo stimatore di massima verosimiglianza. Le informazioni sulla sua

distribuzione asintotica, piu` precisamente sulla varianza asintotica, sono presenti piu` avanti nel

teorema 1.

Esempio 4 (Stima dei modelli ( )MA q ): Intanto si segnala che gli argomenti che saranno utilizzati

rimangono validi, con semplici adattamenti, anche in presenza di processi ( , )ARMA p q . Per rendere

l’esposizione piu` semplice si fa riferimento al caso in cui e` 1q = e dunque al processo

0 1t ty 1tβ ε β ε −= + − con { } 2. . .(0, )t n i d εε σ∼ e 1 1β < .

Se { }1t t ny

≤ ≤ e` il processo delle osservazioni, la corrispondente funzione di verosimiglianza si

scrive immediatamente non appena si osserva che ha distribuzione multivariata normale

con media

1( , , )ny y…

0β ι e matrice di covarianza

21 1

2( ) 2 1 1

( )

21

1 01 0

00 0 1

n

n n ε

β ββ β

σ

0

β

×

⎡ ⎤+ −⎢ ⎥− +⎢ ⎥=⎢ ⎥⎢ ⎥

+⎢ ⎥⎣ ⎦

Σ .

Per la ricerca del punto di massimo ci sono problemi di tipo numerico in quanto nella

rappresentazione della funzione di verosimiglianza e` presente l’inversa della matrice . ( )nΣ

E` disponibile una procedura alternativa relativamente piu` semplice, che si prova fornire uno

stimatore asintoticamente equivalente al precedente. Si considera la funzione di verosimiglianza

condizionata a { }ty t q< (essendo il processo invertibile la sigma algebra generata da { }ty t q≤ e`

equivalente a quella generata da { }t t qε < ) e si pongono uguali al valore medio le osservazioni non

disponibili, e dunque 0ty β= per o equivalentemente 0t ≤ 0tε = per 0t ≤ ; allora si ha (si assume

0 0β = e si pone 1β β= )

1 1y ε= , 2 2 1y yε β= − 23 3 2 3 2 1 3 2 1( ) ( )y y y y yε βε ε β β ε β β= − = − + = − +

11

, , …,

21 1 2( )t

t t t t t ty y yε βε ε β β β −− − −= − = − + + + y , ………….

donde

{ } 2 11 2 12

1 1( ) exp (22

tt s t t tf y y s t y y y y

εε

β β βσπσ

−− −

2)⎡ ⎤

≤ = − + + + +⎢ ⎥⎣ ⎦

e quindi

1 0 1( ) ( , , .... 0) ......................tL f y y ε ε−= = = = =β … .

Una ulteriore procedura, che poi e` quella utilizzata nei software econometrici utilizza i filtri di

13

8-Econometria, a.a. 2012-13

Kalman per costruire il logaritmo della funzione di verosimiglianza e naturalmente metodi numerici

per costruire la stima.

Il seguente teorema, del quale non e` riportata la dimostrazione, fornisce le proprietà asintotiche

di tali stimatori.

Teorema 1: Sia { }ty un processo ( , )ARMA p q , stazionario, invertibile e senza radici comuni, e

1 1 0 1 1t t p t p t t ty y y qα α β ε β ε ε− − −= + + + + + + − , { } 2. . .(0, )t n i dε εσ∼ , 0 1β = ,

una sua rappresentazione. Posto ( ) 1 1, ( , , , , ,p )qα α β β= =θ α β … … e considerata la stima di massima

verosimiglianza costruita con un campione di lunghezza n (e con una qualunque delle precedenti

procedure), allora

θ̂

1ˆ( ) ( , ( )d

n N I )−− →θ θ 0 θ , con 2.( ) p qI εσ= Γθ ,

essendo

• di ordine ; .p q

Γ Γ⎡ ⎤Γ = ⎢Γ Γ⎣ ⎦

αα αβ

βα ββ⎥ p q+

• e` la matrice di covarianza (di ordine Γαα p ) del processo ( )AR p

1 1t t p t pY Y Y tα α ε− −= + + + ,

• e` la matrice di covarianza (di ordine ) del processo Γββ q ( )AR q

1 1t t q t qZ Z Z z tβ ε− −+ + + = ,

• e` la matrice di cross-covarianza (di ordine Γαβ p q× ) dei due processi { }ty e { }tz , e dunque il

suo generico elemento e` E( )ij t i j t iy zγ + + += per 1, ,i p= … e 1, ,j q= … .

8-5 Appendice: La statistica LM e la sua distribuzione asintotica

Si segnalano i punti salienti della prova di quanto affermato in 8-3 sulla distribuzione asintotica

della statistica LM; naturalmente si fa riferimento alla situazione di quel paragrafo.

i) e` l’unica elemento di che soddisfa il sistema θ kR( ) ( )

( )n nnS R n

nr

⎧ ′+ =⎪⎨

=⎪⎩

θ θ λ 0

θ 0;

ii) ( ) ( ) ( ) (1)pnr R n o= − +θ θ θ θ (e` sufficiente adattare la prova del teorema del delta metodo);

iii) Dalla formula di Taylor ( ) ( ) ( ) ( ) (1)n n nnS nS H n o= + − +θ θ θ θ θ p segue che la sequenza

( ( )n nnS θ ) converge in distribuzione verso qualche variabile aleatoria;

iv) Dalla iii) e dalla prima equazione in i) segue che anche nnλ converge in distribuzione

14

8-Econometria, a.a. 2012-13

(poiché la matrice ( )R θ ha rango massimo ); r

v) ( ) ( ) ( ( ) ( )) ( ) (1)n n n nR n R n R R n R n o′ ′ ′ ′= + − = +θ λ θ λ θ θ λ θ λ p ;

vi) Sostituendo ii), iii) e v) in i) si ha ( )( ) ( ) ( )= (

( )n n

p

n

nH R nS oR n

⎡ ⎤′ ⎡ ⎤−⎡ ⎤ −+⎢ ⎥ ⎢ ⎥⎢ ⎥

⎣ ⎦ ⎢ ⎥ ⎣ ⎦⎣ ⎦

θ θθ θ θθ 0 0λ

1) ;

vii) Utilizzando la rappresentazione della matrice inversa di una matrice a blocchi si ha 11 1( ) ( ) ( ) ( ) ( ) ( ) (1)n n n nn R H R R H nS o−− −′⎡ ⎤= − +⎣ ⎦λ θ θ θ θ θ θ p

viii) Dalla vii) segue la convergenza in distribuzione di nnλ verso una normale;

ix) Definita come statistica la distanza pesata di LM nnλ da , si vede facilmente che coincide

con la distanza pesata di

0

( )nnS θ da 0 e si stabilisce immediatamente la sua distribuzione

asintotica (essendo ( )Avar( ( )) lim ( ) ( )n nS p H H= − =θ θ θ si ha 11Avar( ) ( ) ( ) ( )n R H R−− ′⎡ ⎤= ⎣ ⎦λ θ θ θ ).

top

8-6 Appendice: Efficienza degli stimatori di Massima Verosimiglianza

Sia ( ) ( )

1

1 1 1( ) log ( , ) ( , ) ( , )n

nn t t

tQ L l y l

n n n=

⎛ ⎞ ⎛= = =⎜ ⎟ ⎜⎝ ⎠ ⎝

∑θ θ n ⎞⎟⎠

y θ θ y la funzione obiettivo, il cui punto

stazionario e` la stima di massima verosimiglianza di θ , e si supponga che sussistano le usuali

ipotesi di regolarita`.

θ̂

Definizione 1: Uno stimatore che dipende da ( )nθ y (puo` dipendere anche da altre variabili se la

funzione di verosimiglianza e` una distribuzione condizionata o parziale) dicesi asintoticamente

corretto se ( )- lim E ( ( ) )n

np

→∞− =θ θ y θ 0

essendo ( )E ( ( ))nθ θ y la media rispetto alla distribuzione , con θ valore vero del

parametro; e dunque

( ) ( , )nL θ y

1) ( ) ( )- lim ( , ) ( )n

n n

np L d

→∞

⎛ ⎞− =⎜ ⎟⎜ ⎟

⎝ ⎠∫

R

θ y θ y y θ 0 .

Proposizione 2: Sia uno stimatore di θ e si supponga che ( )nθ

i) e` asintoticamente corretto, ( )nθ

ii) e` ( )nθ -n consistente e sia ( ) ( )

nAvar( ) - lim var ( )n p n

→∞

n⎡ ⎤= −⎣ ⎦θ θ θ la sua varianza asintotica.

Allora e` maggiore (o uguale) a quella dello stimatore di massima verosimiglianza.

In questo senso lo stimatore di massima verosimiglianza e` asintoticamente efficiente.

( )Avar( )nθ

15

8-Econometria, a.a. 2012-13

Dimostrazione: Intanto con un calcolo diretto si prova la seguente uguaglianza ( ) ( )

( )( , ) ( , )( , )n n

n

j j

L lLθ θ

∂ ∂=

∂ ∂θ y θ yθ y .

Ora derivando la -j esima uguaglianza in 1) rispetto a iθ (le ipotesi di regolarita` consentono lo

scambio della derivata sia con il limite che con l’integrale), si ha ( )

( ) ( )( , )- lim ( , ) ( )n

nn n

j jni

lp L d iθ δθ→∞

∂=

∂∫R

θ yθ y y y

donde (essendo ( ) ( , )E 0n

i

⎡ ⎤∂=⎢ ⎥∂⎣ ⎦

θθ y , cfr. 8-2)

( )( )( , )- lim E ( ( ) )

nn i

j jni

lp jθ θ δθ→∞

⎡ ⎤∂− =⎢ ⎥∂⎣ ⎦

θθ y y .

Si considera soltanto il caso in cui ( )θ=θ ha dimensione 1; il caso generale presenta maggiori

difficoltà`. Si ha 2 2( ) ( )

( ) ( ) 2( , ) ( , )1 - lim E ( ( ) ) - lim E E ( ( ) )n n

n n

n n

l lp pθ θθ θθ θ θ θθ θ→∞ →∞ θ

⎡ ⎤⎛ ⎞⎛ ⎞⎡ ⎤ ⎡ ⎤∂ ∂ ⎡ ⎤⎢ ⎥⎜ ⎟= − ≤⎜ ⎟⎢ ⎥ ⎢ ⎥ −⎣ ⎦⎜ ⎟∂ ∂⎢ ⎥⎣ ⎦ ⎣ ⎦⎝ ⎠ ⎝ ⎠⎣ ⎦

y yy y

( )2( ) 2

( )1 ( , )- lim E - lim E ( ( ) )n

n

n n

lp p nnθ θ

θ θ θθ→∞ →∞

⎛ ⎞⎡ ⎤∂ ⎡ ⎤⎜ ⎟= −⎢ ⎥ ⎢ ⎥⎜ ⎟ ⎣ ⎦∂⎣ ⎦⎝ ⎠

y y ,

(nel secondo passo e` stata utilizzata la disuguaglianza di Schwartz), donde la varianza asintotica

dello stimatore , che qui si sta assumendo ( ) ( )njθ y -n consistente, e` maggiore della varianza

asintotica dello stimatore di massima verosimiglianza.

top

9-7 Appendice: La funzione Log-verosimiglianza concentrata

Sia 1

( , ) ( , )n

tt

l l=

= ∑θ y θ y il logaritmo della funzione di verosimiglianza di un modello

correttamente specificato e per il quale sono valide le usuali ipotesi di regolarita`.

Sia inoltre e si assume che l’equazione 1 2( , )=θ θ θ

22

( , )( , ) lD l⎡ ⎤∂= =⎢ ⎥∂⎣ ⎦

θ yθ y 0θ

,

sia unicamente risolubile rispetto a per ogni . Posto allora 2θ 1θ 2 1( , )τ=θ θ y l’unica soluzione della

precedente equazione, sussiste l’identita`

1) 2 1 1( , ( , ), )D l τ =θ θ y y 0 (per ogni ). 1θ

16

8-Econometria, a.a. 2012-13

Definizione 1: La funzione

1 1 1( , ) ( , ( , ), )cl l τ=θ y θ θ y y

dicesi funzione di log-verosimiglianza concentrata (rispetto a ). 2θ

Proposizione 2: Se e` un punto stazionario di 1θ 1( , )cl θ y , posto , si ha 2 1( , )τ=θ θ y

1 2( , )θ θ e` (l’unico) punto stazionario di , ( , )l θ y

(e quindi e` lo stimatore di θ di massima verosimiglianza; in breve ). 1 2( , )θ θ 1 2ˆ ( , )=θ θ θ

Dimostrazione: Essendo

2) [ ] [ ]1 1 1 1 1 2 1 1 2 1( , ) ( , ( , ), ) ( , ( , ), ) ( , )cD l D l D l Dτ τ= + ⋅θ y θ θ y y θ θ y y θ yτ

[ ]1 1 1( , ( , ), )D l τ= θ θ y y

si ha [ ]1 1 1( , ( , ), )D l τ =θ θ y y 0 .

Pertanto ( )1 2 1 1 2 2 1 2( , ) ( , ), ( , )D l D l D l= =θ θ θ θ θ θ θ 0 .

Osservazione: Analogo risultato sussiste se si fa riferimento ai punti di massimo piuttosto che ai

punti stazionari.

A questo punto si pone il problema del calcolo della stima della varianza asintotica di 1̂θ .

Calcolo della Matrice Hessiana della funzione (in ): cl 1θ̂

Dalla 2) derivando rispetto a si ha 1θ

3) 11 1 11 1 1 12 1 1 1 1( , ) ( , ( , ), ) ( , ( , ), ) ( , )cD l D l D l Dτ τ= +θ τy θ θ y y θ θ y y θ y ,

mentre dalla 1) derivando rispetto a si ha 1θ

4) 21 1 1 22 1 1 1 1( , ( , ), ) ( , ( , ), ) ( , )D l D l Dτ τ τ+ =θ θ y y θ θ y y θ y 0 .

Dalle ultime due uguaglianza eliminando 1 1( , )Dτ θ y si ha (si omettono anche gli argomenti)

5) [ ] 111 1 11 12 22 21( , )cD l D l D l D l D l−= −θ y .

Calcolo della sima della varianza asintotica di (con lo stimatore Hessiana empirica): E`

noto che la stima della varianza asintotica di e`

1θ̂

θ̂1ˆ( )nH−

⎡ ⎤−⎣ ⎦θ essendo 1ˆ ˆ( ) ( , )nH D ln

= θθθ θ y e

. E allora la stima di e` (a parte il coefficiente 11 12

21 22

ˆ( , )D l D l

D lD l D l⎡ ⎤

= ⎢⎣ ⎦

θθ θ y ⎥ 1θ̂1n

− ) il primo blocco

della matrice inversa di che e` esattamente ˆ( , )D lθθ θ y1

11 1( , )cD l−

⎡ ⎤⎣ ⎦θ y (cfr. 9-1, lemma 1). Si e` cosi`

provato che la stima della varianza asintotica di puo` essere calcolata con la funzione di log-1θ̂

17

8-Econometria, a.a. 2012-13

verosimiglianza concentrata quando si utilizza

Osservazione: La funzione log-verosimiglianza concentrata non e` del tipo media empirica (come

quella originaria) in quanto il suo esimo addendo dipende dal vettore delle osservazioni -t y e non

soltanto da , pertanto non puo` essere utilizzata per costruire le altre stime della varianza

asintotica.

ty

top

18