Modelli di Regressione Non Lineare - dm.uniba.itbasile/pagina_web_2012/Econometria/Econometria... · In questo capitolo si considerano modelli econometrici non lineari del tipo

6-Econometria, a.a. 2011-12. Regressione non lineare

Lezione 6

Modelli di Regressione Non Lineare

In questo capitolo si considerano modelli econometrici non lineari del tipo

( , )t ty f u= +x β t con E( | ) 0t tu =x ;

quindi si sta assumendo che la variabile economica abbia una dipendenza causale dalla variabile

esogena (vettoriale) , una dipendenza non lineare dal parametro non noto e che lèrrore

sia additivo.

ty

tx k∈β R

Per alleggerire le notazioni si preferisce non evidenziare esplicitamente nel modello la

dipendenza da , e allora esso si scrive nella forma tx

( )t ty x u= +β t , con E( | ) 0t tu Ω = per 1,2,t = … e t t∈Ωx ,

dove denota il complesso di informazioni disponibili allìstante t che influenzano (non solo dal

punto di vista funzionale) . Si osservi infine che qui non sussiste come nei modelli lineari, dove si

ha , l’uguaglianza tra la dimensione del vettore (che come si puo` notare non e`

stata esplicitata) e la dimensione di .

tΩ

ty

( , )tf ′=x β x βt tx

k β ( )1

Alcuni esempi:

Modello non lineare riconducibile ad uno lineare: Si considera il modello economico 1 2

1 2y x xβ β

α=

(denominato modello di Cobb-Douglas, utilizzato per mettere in relazione la produzione con i

fattori produttivi capitale e lavoro). Osservato che le variabili assumono valori positivi, non è

restrittivo assumere che anche α e` positivo e allora il modello si può scrivere nella forma

1 1 2log( ) log( ) log( ) log( )y x 2xα β β= + + ,

che è evidentemente lineare nei parametri log( )α , 1β , 2β . Se sono disponibili osservazioni sulle

variabili, l’introduzione di un errore additivo u nell’ultimo modello, dà origine ad un modello

econometrico di regressione lineare. Si noti che la presenza dell’errore additivo u nell’ultimo

modello, equivale alla presenza di un errore moltiplicativo uv e= nel modello originario. Semplici

considerazioni di carattere economico rendono ragionevole la presenza di un tale tipo di errore.

Modello propriamente non lineare: Si considera un modello lineare

t ty ut′= +x β ,

1 Forme piu’ generali di modelli non lineari si presentano nella forma ( , , )t t tm y u=x β . Per una semplice introduzione al metodo di stima GMM (Metodo generalizzato dei momenti) utilizzabile per questi (e altri) modelli, vedi il paragrafo 6 del capitolo 5 del volume “A Guide to Modern Econometrics” di Verbeek, dove è presente anche una interessante applicazione.

1


con gli errori autocorrelati; più precisamente si assume che essi hanno la seguente semplice struttura

1t tu u tρ ε−= + con { } 2. . .(0, )t i i dε σ∼ e 1ρ < .( )2

Ora ricavando dalla prima equazione e sostituendo nella seconda si ha: tu

1 1t t t ty y tρ ρ− −′ ′= + − +x β x β ε , con { } 2. . .(0, )t i i dε σ∼ e 1ρ < ,

che è un modello non lineare. Si noti che quest’ultimo è un modello dinamico (per la presenza di

tra le variabili indipendenti) con gli errori che sono innovazioni (cioe` 1ty −2. . .(0, )i i d σ ).

Osservazione sul metodo di stima dei momenti: Si tralascia di descrivere il metodo per i modelli

non lineari qui considerati; si segnala soltanto che per avviare la procedura di stima sono necessarie

(almeno) variabili non correlate con . Per varie ragioni, qui non indicate, non è opportuno

utilizzare le variabili (e non per la possibile disparità tra il loro numero e quello dei parametri,

che in realtà` non costituisce un problema). Anche

k tu

tx

(1 )

( )( ) tt

k

x×

∂=

∂βββ

X , che non e` correlato con (in

quanto funzione di con E( ), non è direttamente utilizzabile per avviare la procedura di

stima, in quanto per esso, essendo β non noto, non sono disponibili le osservazioni; pero`

questùltimo ostacolo puo` essere rimosso con qualche semplice accorgimento. Si noti che nel caso

lineare si ha

tu

tx | ) 0t tu =x

[ ]( ) tt t

′∂′= =

∂x β

β xβ

X e allora l’inconveniente ora segnalato non si presenta.

Il metodo (di stima) dei Minimi Quadrati per i modelli non lineari

Si considera la funzione obiettivo 2

1

1( ) ( ( ))n

n tt

Q y xn =

= −∑β βt

.

Definizione: Il punto di minimo della funzione , se esiste, dicesi stimatore dei minimi

quadrati non lineare (NLS) di e si denota con il simbolo (o anche se non c’è possibilità

di equivoco).

( )nQ β

β ˆNLSβ β

2 Osservazione: i) Se le variabili sono strettamente esogene (nel senso che il loro valore all’istante t è determinato all’esterno del modello) allora il metodo dei minimi quadrati ordinari fornisce una buona stima (cioè consistente e si può provare anche asintoticamente normale) di

tx

β sebbene non efficiente; se invece tra le c’è qualche ritardo della variabile dipendente, allora evidentemente la stima OLS di

txβ non è consistente.

ii) L’ipotesi qui fatta sugli errori è abbastanza realistica. Per esempio nel caso in cui l’errore all’istante t ha due componenti: l’innovazione

tu

tε e 1tuρ − (l’effetto residuale dell’errore all’istante 1t − ) con 0 1ρ< < o equivalentemente quando gli effetti delle innovazioni si spengono geometricamente e quindi per l’errore si ha

21 2t t t tu ε ρε ρ ε− −= + + + ,

rappresentazione che si dimostra essere equivalente a 1t tu u tρ ε−= +

2


Osservazione:

• Lo stimatore (se esiste) è soluzione dell’equazione non lineare ˆNLSβ

( 1)1(1 )

( ) ( )( ( ))n

nt t tkt

k

Q y x×=

×

⎛ ⎞∂⎜ ⎟ ′= ⇔ − =⎜ ⎟∂⎜ ⎟

⎝ ⎠∑β 0 β β 0

βX ;

• Per generalmente non e` disponibile una rappresentazione analitica esplicita, ma per le

applicazioni servono soltanto le sue proprietà e il suo valore nel campione a disposizione;

ˆNLSβ

• Le condizioni che assicurano l’esistenza di (per sufficientemente grande) si dicono

condizioni di identificabilità (finite).

ˆNLSβ n

Proprietà dello stimatore : ˆNLSβ

Proposizione (Consistenza di ): Si denota con il valore vero (ma non noto) del parametro

e si assume che:

ˆNLSβ *β

β

i) esiste (per sufficientemente grande) (e dunque che il modello e` identificabile al

finito).

ˆNLSβ n

ii) Per (talune) funzioni di ( , vale la legge dei grandi numeri (per esempio se il processo )t ty x

{ },t ty x è stazionario ed ergodico oppure è costituito da v.a. indipendenti con opportune restrizioni

sui momenti);

iii) Il modello e` asintoticamente identificabile, cioe` posto 1

1( ) lim ( )( ( ))n

t t tn tp y

nα

→∞=

′= −∑β βX x β

(il limite esiste per la precedente ipotesi) è l’unica soluzione dellèquazione *β ( ) 0α =β . ( )3

Allora lo stimatore e` consistente (cioe` ). ˆNLSβ *ˆ

p

NLS →β β

Un cenno della dimostrazione (che puo` essere omessa): Si prova dapprima che

ˆp

NLS →β β

(la prova qui non e` riportata). Dàltra parte, essendo 1

1 ˆ ˆ( )( ( ))n

t NLS t t NLSt

y xn =

′ − =∑ β β 0X , passando al

limite per n , si ha →∞ ( ) 0α =β , donde per lìpotesi di asintotica identificabilita` del modello

segue che *=β β e quindi làsserto.

3 Nel caso di modelli lineari l’asintotica identificabilità implica l’identificabilità (finita), implicazione non vera nel caso di modelli non lineari.

3


Proposizione (Asintotica normalità e stima della varianza asintotica): In aggiunta alle

precedenti ipotesi i), ii), iii) si assume che

iv) quando necessario valga qualche versione del teorema del limite centrale (per esempio se il

processo { },t ty x oltre ad essere stazionario ed ergodico si ha oppure è

costituito da v.a. indipendenti con opportune restrizioni sui momenti);

1 1E( | , , , , ) 0t t t tu u− − =x x … …

v) la matrice ( ) *

1

1lim ( ) ( )n

t tn t

p X Xn→∞

=

′= ∑xΣ β *β

β

è invertibile (si noti che quando i processi sono

stazionari si ha ). * *E ( ) ( )t tX X′⎡ ⎤= ⎣ ⎦xΣ β

Dimostrazione: Dalla formula di Taylor di punto iniziale per la funzione *β ( )nQ∂∂ββ

, si ha (per un

appartenente al segmento congiungente e ) β *β β

( )* 2

*

( 1)

ˆ( ) ( ) ( ) ˆ( )n n n

k

Q Q Q

×

∂ ∂ ∂= = + −

′ ′ ′∂ ∂ ∂ ∂β β β0 β β

β β β β;

ora

• *

*

1

( ) 1( 1/ 2) ( ) ( , )n d

nt t u

t

Qn X un =

⎛ ⎞∂ ′− =⎜ ⎟′∂⎝ ⎠→∑ x

β β 0 Σβ

N con 2 *

1

1lim ( ) ( )n

u t tn tp u X X

n→∞=

′= ∑xΣ β *t β

)

;

(nel caso di processi stazionari è 2 * *E ( ) (u t t tu X X′⎡ ⎤= ⎣ ⎦xΣ β β );

• [ ]2

1

( ) 1(1/ 2) ( )( ( ))n

nt t t

t

Q X y xn = =

∂ ∂ ′= − − =′∂ ∂ ∂∑

β β

β β ββ β β

1 1

( )1 1( ( )) ( ) ( )n n p

tt t t t

t t

X y x X Xn n= =

′∂ ′= − − + +∂

→∑ ∑ xβ β β β 0 Σβ

e quindi si ha:

12 *

0

1 1

1 12

1 1 1

( ) ( )ˆ ˆ( ) ( ,Avar( ))

conˆ- Avar( ) ;

1 1 1ˆ ˆ ˆ ˆ ˆ ˆˆ- Avar( ) ( ) ( ) ( ) ( ) ( ) ( ) .

dn n

u

n n n

t t t t t t tt t t

Q Qn n N

X X u X X X Xn n n

−

− −

− −

= = =

⎛ ⎞⎡ ⎤ ⎡ ⎤∂ ∂⎜ ⎟− = −⎢ ⎥ ⎢ ⎥⎜ ⎟′ ′∂ ∂ ∂⎣ ⎦⎣ ⎦⎝ ⎠

=

ˆ⎡ ⎤ ⎡ ⎤ ⎡ ⎤′ ′ ′= ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦

→

∑ ∑ ∑

x x x

β ββ β 0 ββ β β

β Σ Σ Σ

β β β β β β β

Osservazione:

• Âvar( )β converge in probabilità verso e dicesi stimatore di White della varianza (in

presenza di eteroschedasticita`). Per la prova della convergenza si usano gli stessi argomenti

Âvar( )β

4


utilizzati per provare la consistenza dello stimatore di White per la varianza dello stimatore OLS.

• Stima di quando gli errori sono omoschedastici (Âvar( )β 2E( | )t tu 2σΩ = ): In questo caso si

ha , e allora 2u σ=xΣ xΣ

12Âvar( ) σ −= xβ Σ e 1

2

1

1ˆ Âvar( ) ( ) ( )n

t tt

s X Xn

−

=

ˆ⎡ ⎤′= ⎢ ⎥⎣ ⎦∑β β β

con 2

1

1 ˆn

tt

sn =

= ∑ 2u (o anche 2

1

1 ˆn

tt

sn k =

=− ∑ 2u che spesso è preferito).

• Ci sono casi in cui anche in presenza di autocorrelazione negli errori si puo` utilizzare il

teorema del limite centrale, in tal caso Newey e West hanno costruito lo stimatore consistente della

varianza asintotica dello stimatore (indicato in eviews con la sigla HAC). E` importante notare

che la presenza di autocorrelazione negli errori esclude la possibilita` che tra le variabili

indipendenti ci possa essere qualche ritardo di (infatti si perderebbe lìpotesi che

β

ty E( | ) 0t tu =x

essenziale per la prova della consistenza dello stimatore).

La Regressione di Gauss-Newton

Le procedure numeriche utilizzate per minimizzare la funzione obiettivo

( )2

1

1( ) ( )n

t tt

Q y xn =

= −∑β β

hanno, come si potra` constatare, interessanti conseguenze su questioni più propriamente statistiche.

Nell’appendice si descrive brevemente il ben noto Metodo di Newton (accompagnato da qualche

commento) al solo fine di introdurre le notazioni che sono utilizzate qui di seguito.

Si pone

(1 ) 1

( ) 2( ) ( )( ( ))n

t t tk t

Q y xn× =

⎛ ⎞∂= = − −⎜ ⎟∂⎝ ⎠

∑βg β ββ

X β ,

2

( ) 1

( )( ) 2( ) ( ( )) ( ) ( )n

tt t t t

k k t

Q y xn× =

⎛ ⎞ ⎛ ⎞∂∂ ′= = − − −⎜ ⎟ ⎜ ⎟′ ′∂ ∂ ∂⎝ ⎠⎝ ⎠∑ ββH β β

β β βX X Xβ β .

Importanti considerazioni (da i a vii):

i) Al fine di costruire la sequenza minimizzante di (e dunque una successione ˆNLSβ ( )ˆ

j jβ che

converge a ), si osserva che è possibile utilizzare il metodo Quasi-Newton utilizzando la

matrice

ˆNLSβ

1

2( ) ( ) ( )n

t ttn =

′= ∑D β βX X β (che è certamente definita positiva se è non singolare), in quanto

5


l’altro addendo di per converge in probabilità a 0 per . ( )H β ˆNLS=β β n →∞

ii) Costruzione della sequenza minimizzante: Fissato (se possibile non molto distante da

, che però non è noto) si ha (per ogni ):

0β

ˆNLSβ 0j ≥

11

11 1

1

1 1

2 2( ) ( ( ) ( ) ( )( ( ))

1 1( ) ( ) ( )( ( ))

ˆ

n n

j j j j j t j t j t j t t jt t

n n

j t j t j t j t t jt t

j j

y xn n

y xn n

−−

+= =

−

= =

⎡ ⎤ ⎡ ⎤⎛ ⎞′ ′ ′⎡ ⎤ ⎡ ⎤= − = − − −⎜ ⎟ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦⎝ ⎠ ⎣ ⎦ ⎣ ⎦

⎡ ⎤ ⎡ ⎤′ ′= + −⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

= +

∑ ∑

∑ ∑

β β D β g β β β β β β

β β β β β

β b

X X X

X X X

con 1

1 1

1 1ˆ ( ) ( ) ( )( ( ))n n

j t j t j t j tt t

y xn n

−

= =

⎡ ⎤ ⎡′ ′= −⎢ ⎥ ⎢⎣ ⎦ ⎣∑ ∑b β β β βX X X j

⎤⎥⎦

,

iii) Importante: Dall’esame della rappresentazione di (l’addendo che aggiorna la

procedura per ricorrenza) si vede immediatamente che esso non è altro che la stima OLS del

parametro b del modello di regressione lineare

ˆjb

(*) ( ( )) ( )t t j t jy x re− = +β β bX 1, ,sid , per t n= …

e dunque ˆ ˆj OLS=b b del precedente modello.

iv) Definizione: Il modello di regressione (*) dicesi Modello (ausiliario) di regressione di

Gauss-Newton. (In esso è la variabile dipendente e è il vettore riga delle

variabili indipendenti; per tali variabili sono disponibili osservazioni quando e` noto il valore di

( )t t jy x− β ( )t jβX k

n

jβ ).

v) La stima del modello di regressione lineare di Gauss-Newton per :

Essendo per definizione

ˆ ˆ( )NLS= =β β β

1

1 ˆ ˆ( )( ( ))n

t t tt

y xn =

′ − =∑ β β 0X ,

considerato il modello di regressione lineare di Gauss-Newton in , il

metodo OLS fornisce le stime

β ˆ ˆ( ( )) ( )t t ty x resid− = +β β bX

ˆ ...... 0= =b e . ˆÂvar( ) Avar( )= =b β……

Osservazione (puo` essere omessa): Se si stima il modello di Gauss-Newton utilizzando un altro

stimatore consistente β di allora, essendo β1

1lim ( )( ( ))n

t t tn tp y x

n→∞=

′ − =∑ β β 0X segue il precedente

6


risultato con la seguente poco significativa modifica:

ˆ 0p→b e . Âvar( ) Avar( )= =b β……

vi) Quando si interrompe la procedura iterativa (diciamo al passo j ), si ha

, allora se si effettua un altro passo, dal precedente punto v) segue che la

stima della varianza asintotica di

(1ˆ ˆ

NLS j j j+≈ = +β β β b )1

ˆj+b è la stima della varianza asintotica di . ˆ

NLSβ

vii) Se gli errori sono omoschedastici si prova che lo stimatore è asintoticamnete

efficiente (nel senso che ha la minore varianza asintotica) in una classe di stimatori costruiti con il

metodo dei momenti. Si prova inoltre che se si avvia la procedura iterativa con uno stimatore

NLS

n − consistente (non efficiente), al primo passo si ottiene uno stimatore asintoticamente efficiente

denominato stimatore efficiente ad un passo (non lo stimatore ). Quest’ultimo risultato ha

soltanto un interesse teorico; per individuare i valori numerici delle stime si utilizzano sempre piu`

iterazioni.

NLS

Test sulle ipotesi in modelli non lineari

E’ assegnato il modello non lineare

1 2( , )t ty x ut= +β β ,

con le usuali ipotesi sui processi { },t ty x e { }tu , che assicurino lèsistenza dello stimatore NLS e la

sua asintotica normalita`, e si consideri l’ipotesi 0 2:H =β 0 (non c’è alcuna difficoltà aggiuntiva

nel considerare ipotesi più generali) che potra` essere scritta nel modo seguente

0 1

1 1 2

: ( , ) (Modello ): ( , ) (Modello )

t t t

t t t

H y x uH y x u

= +⎧⎨ = +⎩

β 0 Rβ β U

.

Si descrivono tre test i quali pur non essendo identici per campioni finiti sono asintoticamente

equivalenti (in un senso che però andrebbe precisato e che comunque coinvolge la probabilità di

errore di secondo tipo).

Test di Wald (in questo caso intervengono soltanto le informazioni riguardanti il modello

non-ristretto U): Sia la stima di del modello U e la stima della sua varianza. La

statistica di Wald per l’ipotesi è

2β 2β 2ˆvar( )β

0H

( ) ( )1 1

2 2 2 2 2ˆ ˆ ˆ ˆ ˆ ˆvar( ) Avar( )W n

− −⎛ ⎞′ ′= =⎜ ⎟

⎝ ⎠β β β β β β2

e con gli usuali argomenti si prova che (sempre nell’ipotesi ) si ha 0H

7


2

2d

kW χ→ .

Questùltima proprietà consente di costruire un test con validità asintotica sull’ipotesi assegnata.

• Test LR (del rapporto della verosimiglianza)( )4 : In questo caso per evitare complicazioni si

assume che gli errori sono omoschedastici ( 2E( | )t tu 2σ=x ) o più semplicemente

{ } 2. . (0, )tu i i d σ∼ ). Si considera la statistica

2 22ˆ( ) ( ) /( ) /

/( ) /( )

R Un nn Q Q kRSSR USSR kF

USSR n k USSR n k

⎡ ⎤−− ⎣ ⎦= =− −

β β

e si prova che nell’ipotesi si ha 0H

2

22

d

kk F χ→ ,

risultato che consente di costruire un test (asintotico) sull’ipotesi.

• Test LM (utilizza il modello di regressione di Gauss-Newton e soltanto le informazioni

riguardanti il modello ridotto): Anche in questo caso si assume che gli errori sono

omoschedastici ( 2E( | )t tu 2σ=x ), Il modello di regressione di Gauss Newton per il modello U ha la

seguente rappresentazione

1 2 1 1 2 1 2 1 2 2( , ) ( , ) ( , )t t t ty x resid− = + +β β β β b β β bX X .

Per costruire la stima efficiente ad un passo è richiesta una stima n − consistente (in

quanto nell’ipotesi si ha ) e questa può essere costruita con il modello U oppure con il

modello R (questa seconda opzione spesso è più conveniente). Il modello di Gauss- Newton diventa

allora

1β

0H 1( , ) =β 0 β

1 1 1 1 2 1 2( , ) ( , ) ( , )t t t ty x resid− = + +β 0 β 0 b β 0 bX X

e inoltre e` evidente la seguente equivalenza:

0 2 0 2: 0 :H H ′= ⇔ =β b 0 .

Per quest’ultima ipotesi un test si costruisce immediatamente essendo il modello lineare.

4 La terminologia qui utilizzata deriva dal fatto che, nel caso in cui gli errori sono 2. . .(0, )n i d σ , il test costruito con la statistca rapporto delle funzioni di verosimiglianza e` equivalente all` F -test. Infatti si ha:

/ 22log log log(1 ( 1)) 1

2 2

nL kRSSR n RSSR n RSSR2

FL USSR USSR USSR

⎡ ⎤ ⎡ ⎤= = + − ≈ −⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦R

U

= .

E` per questa ragione che nellòutput di eviews appare il parametro “Log likelihood”.

8


Esercizio –

1) Stima di un modello lineare con errori autocorrelati: E’ assegnato il modello lineare

Modello 1: 1

t t t

t t

y uu u tρ ε−

′= +⎧⎨ = +⎩

x β con 2. . .(0, )t i i dε σ∼ , 0 1ρ< < e 1,2, ,t n= … .

con errori autocorrelati e con le usuali ipotesi sul processo { },t ty x (per esempio stazionario ed

ergodico) ( )5 .

Esso ha le seguenti rappresentazioni equivalenti:

Modello 2:

1 1t t t ty y tρ ρ− − ε′ ′= + − +x β x β con 2. . .(0, )t i i dε σ∼ , 0 1ρ< < e ; 1,2, ,t n= …

⇒1) 2) Si utilizza la prima equazione del modello 1 per rappresentare (e quindi tu 1tu − ) e si

sostituisce nella seconda equazione.

⇒2) 1) Si pone e allora ……………. . t t tu y ′= − x β

Modello 3 (ristretto): 1 1

t t t ty y tρ ε

ρ− −′ ′= + + +⎧

⎨ = −⎩

x β x γγ β

con 2. . .(0, )t i i dε σ∼ , 0 1ρ< < e . 1,2, ,t n= …

La sua equivalenza con il modello 2 è evidente.

Nota: Il modelli 3 non ristretto consente di costruire stimatori asintoticamente normali per i

parametri ρ e β , ma tale stimatori non sono corretti in quanto le variabili indipendenti non sono

strettamente esogene ( 1ty − come variabile indipendente è correlata con 1tε − ) e prevedibilmente non

sono neppure asintoticamente efficienti.

• Una procedura per la costruzione di una stima asintoticamente efficiente dei parametri:

Stima del modello 2 con il metodo NLS - Il modello 2 è un modello non lineare, che per

comodita` e` scritto nella forma:

1 1

( , ) ( , )

t t t

t t t

y xx y

ρ ερ ρ ρ− −

= +⎧⎨

t′ ′= + −⎩

ββ x β x β

.

Il corrispondente modello (ausiliario) di regressione di Gauss-Newton con parametri ( , è )r b

( , ) ( , )( , ) t tt t

x xy x r residρ ρρρ

∂ ∂− = + +

∂ ∂β ββ b

β ,

che, non appena si osserva che 1 1( , ) ( , ) e t t

t t t tx xy 1

ρ ρ ρρ − − −

∂ ∂′ ′ ′= − = −∂ ∂

β βx β x xβ

, diventa

( )5 Se tra le variabili indipendenti non ci sono variabili dipendenti ritardate, nelle usuali ipotesi su { },t ty x la stima OLS di β è evidentemente consistente ed asintoticamente normale ma prevedibilmente non efficiente.

9


1 1 1 1( ) ( )t t t t t t t ty y y r residρ ρ ρ− − − −′ ′ ′ ′ ′− − + = − + − +x β x β x β x x b .

La procedura ricorsiva per la costruzione di ˆNLSρ e : La sequenza minimizzante (della stima

NLS) è costruita fissando arbitrariamente

ˆNLSβ

0≡β β e 0ρ ρ≡ (ma come è ben noto, la procedura è tanto

più veloce quanto più i valori iniziali fissati sono vicini ai valori veri) e considerando la procedura

iterativa

1 ˆj j rjρ ρ+ = + e 1ˆ

j j j+ = +β β b .

Osservazione:

• Se nella precedente procedura si considera 0 ÔLSρ ρ= e , ottenute dal modello 3 non

ristretto allora

0ˆ

OLS=β β

1 0 r0ρ ρ= + e sono le stime efficienti ad un passo. Come

precedentemente segnalato queste stime hanno principalmente un interesse teorico.

1 0ˆ= +β β b0

t

• La stima della varianza asintotica si ottiene utilizzando ancora una volta la regressione di Gauss-

Newton (vedi il punto (v) della precedente proposizione).

2) Costruzione di un test per làssenza di autocorrelazione negli errori di un modello lineare

contro la presenza di autocorrelazione del primòrdine (nell’ipotesi di omoschedasticità

condizionata per gli errori).

Si puo` provare che non e` restrittivo assumere che per gli errori si ha 1t tu uρ ε−= + e

2. . .(0, )t i i dε σ∼ e testare lìpotesi 0 : 0H ρ = .

Si utilizza il test LM (per una piu` dettagliata descrizione vedi a pag.8 sopra). Intanto si osserva

che nell’ipotesi una stima consistente di ( ,0H )ρβ è , essendo la stima OLS del modello

lineare , allora il modello GNR in e`

ˆ( ,0)β β

t ty ′= +x β tu

)

0

sid

ˆ( ,0)β

1 1 1ˆ ˆ ˆ ˆ( ) ( ) (t t t t t t t ty y r resid u u r resid− − −′ ′ ′ ′− = + − + ⇔ = + +x β x b x β x b

e l’ipotesi data e` equivalente a per questùltimo modello lineare, per la cui verifica sono

utilizzabili le procedure standard (per esempio il test di Wald disponibile in qualunque software).

0 :H r =

Osservazione:

• Sulla costruzione del test. Intanto, essendo ortogonale ad , nella regressione del

modello ristretto si ha

u X

ˆt tu re′= +x b 0RESS = e quindi TSS RSSR= . Allora per la statistica

(che converge in distribuzione verso una

LR

21χ ) si ha:

( ) [ ] [ ]1/ 1 / 1

RSSR USSR TSSR USSRLR F

USSR n k USSR n k− −

= ⋅ = =− − − −

.

10


Dàltra parte nella precedente rappresentazione /USSR n k 1− − e` una stima consistente della

varianza costruita con i residui del modello non ristretto. La varianza e` stimata in modo consistente

anche da 2

1

1 ˆn

tt

TSSun n=

⎛ =⎜⎝ ⎠

∑ ⎞⎟ e allora anche la statistica [ ]2

/TSSR USSR

nRTSS n−

= converge in

distribuzione verso una 21χ (e` asintoticamente equivalente alla statistica ) e consente di

costruire un test sullìpotesi data.

LR

Per concludere e` utile notare che 2R e` il coefficiente di determinazione non centrato del

modello non ristretto, ma nel caso in cui tra le variabili indipendenti e` presente 1 allora

donde

x

1

ˆ 0n

tt

u=

=∑ 2c2R R≡ che e` presente nellòutput della regressione del modello non ristretto.

• Il test di Breusch-Godfrey: Le precedenti considerazioni si generalizzano facilmente per

costruire un test sullàssenza di autocorrelazione negli errori (di un modello lineare con errori

omoschedastici) contro lìpotesi che ci sia (almeno) un coefficiente di autocorrelazione iρ non

nullo per , con 1, ,i p= … p fissato.

Innanzitutto si segnala che (si puo’ dimostrare che) non e` restrittivo assumere che gli errori

abbiano una struttura del tipo 1 1t t p t pu u u tα α− −= + + +ε con 2. . .(0, )t i i dε σ∼ e allora lìpotesi

diventa

{ 0 1 1 1: 0, : ( , ,p pH Hα α α α= = = ≠ 0… )

tu

.

Costruzione del test:

Passo 1 – Si stima con il metodo OLS il modello t ty ′= +x β e si considera il processo dei residui

{ }ˆtu ;

Passo 2 – Si considera il modello ausiliario 1 1ˆ ˆ ˆt t p t pu u u residα α− −′= + + + +x β e si considera la

statistica (2nR 2R coincide con 2cR se il modello ha lìntercetta ed in tal caso e` presente

nellòutput della regressione del modello ausiliario);

Passo 3 – Si rifiuta lìpotesi a livello di significatività 0H α se 2 2,1pnR αχ −> .

Appendice

Il metodo di Newton

Sia una funzione a valori reali definita in un sottinsieme di e un punto (del tutto

arbitrario) nel suo dominio di definizione.

( )Q β kR 0β

1) Il polinomio di Taylor del second’ordine di di punto iniziale : ( )Q β 0β

11


*0 0 0 0 0 0

1( ) ( ) ( ) ( ) ( )2

Q Q ′= + − + − −β β g β β β β H β β

dove si è posto

00

( )Q∂=

∂βgβ

(vettore riga; denominato anche vettore gradiente di in ); ( )Q β 0β

20

0( )Q∂

=′∂ ∂

βHβ β

(matrice quadrata di ordine ; denominata anche matrice hessiana di in ). k ( )Q β 0β

2) Se la matrice è definita positiva, la funzione ha un unico punto di minimo che

soddisfa la condizione del prim’ordine

0H *( )Q β

0 0 0( )′= + −0 g H β β ,

la cui (unica) soluzione è evidentemente 1

1 0 0−

0′= −β β H g .

3) Costruzione per ricorrenza della successione “estremante” (punti di minimo di funzioni

ausiliarie e candidati a convergere verso l’eventuale punto di minimo) per la funzione : ( )Q β

{ 10 1 1 1, per 1n n n n n−

− − −′= − ≥β β β H g .

In queste lezioni sarà utilizzato il punto iv) della seguente proposizione, in cui sono segnalate

alcune proprietà, senza dimostrazione,della successione estremante ora costruita.

Proposizione:

i) Se la funzione è quadratica (e naturalmente ha un solo minimo) allora al primo passo si

ottiene il punto di minimo (e quindi è il punto di minimo);

( )Q β

1β

ii) Se la funzione è approssimativamente quadratica (per esempio somma di funzioni

quadratiche) allora la convergenza della procedura ricorsiva verso il punto di minimo (esistente) è

rapida.

( )Q β

iii) Se la funzione è (globalmente) convessa esiste un unico punto di minimo e la successione

estremante converge verso esso (e quindi è una successione minimizzante).

( )Q β

iv) Se la funzione non è globalmente convessa, pur avviando la procedura con vicino al

punto di minimo (supposto esistente), può accadere che qualcuna delle matrici Hessiane

( )Q β 0β

jH sia non

definita positiva e allora la procedura per ricorrenza si può bloccare oppure la successione può

allontanarsi dal punto di minimo. Per porre rimedio a tale inconveniente, si sostituisce, nella

costruzione della sequenza , la matrice con una sua buona approssimazione che però sia

definita positiva. Tale procedura è denominata metodo quasi-Newton.

jβ jH jD

12

6-Econometria, a.a. 2011-12 Complementi

La statistica di Box-Pierce e di Ljung-Box e il test di Durbin-Watson

Un problema di particolare interesse in econometria è quello di testare l’ipotesi di indipendenza

(o più in generale l’assenza di autocorrelazione) in un processo stazionario o anche quello di

rilevare la presenza di autocorrelazione negli errori di un modello di regressione che spesso e` un

segnale di non corretta specificazione( )1 . Una risposta a questo secondo problema e` stata già data al

termine del capitolo 6 con la costruzione del test di Breusch-Godfrey proposto separatamente dai

due autori nel 1978, il quale è valido in contesti sufficientemente generali.

Alcune serie economiche sulle quali spesso si fa l’ipotesi di assenza di autoccorrelazione:

1) Per molto tempo (e ancora oggi in varie questioni teoriche) si è assunto che i rendimenti (di un

titolo, di un mercato, …) sono indipendenti (ipotesi che per la verità si è rivelata per nulla

ragionevole).

2) Hall formulò l’ipotesi che il processo dei consumi aggregati { }tc è una martingala (cioè che la

migliore previsione sui consumi all’istante t siano i consumi all’istante ) e dunque che il

processo {1t −

}1t tc c −− sia una differenza martingala.

Qui si costruisce un test sull’ipotesi (nulla) che un processo stazionario (con qualche proprietà

che sara` precisata in seguito) sia non autocorrelato. A tal fine si premette la seguente:

Proposizione – Sia { } 1t tε

≥ una differenza martingala strettamente stazionaria, ergodica e tale che

21 2 1E( | , , , )t t t

2ε ε ε ε σ− − =… (ipotesi di omoschedasticità condizionata). Allora fissato 1p ≥ e

posto 1ˆ ˆ ˆ( , , )pγ γ ′=γ … e 1ˆ ˆ ˆ( , , )pρ ρ ′=ρ … , (con 1ˆn

s t t st sn

γ ε ε −=

= ∑ e 0

ˆˆˆ

ss

γργ

= per ) si ha: 0s ≥

4ˆ ( ; )d

pn N σ→γ 0 I e ˆ ( ; )d

pn N→ρ 0 I .

Dimostrazione: Per semplicità si esamina soltanto il caso 1p = ; non ci sono difficoltà aggiuntive

se e` 1p > . Posto 1t t tg ε ε −= , si ha:

• { }tg è un processo stazionario ed ergodico (è evidente);

• { }tg è una differenza martingala. Infatti

1 2 1 1 2 1 2 1E( | , , ) E( | , , ) E( | , , ) 0t t t t t t t t t t tg ε ε ε ε ε ε ε ε ε ε− − − − − − − −= =… … =…

4

• 2E( )tg σ= . Infatti si ha

1 Per esempio e` stata omessa dal modello qualche variabile indipendente oppure gli errori hanno una effettiva autocorrelazione che andrebbe modellata. Nel primo caso le stime OLS non sono consistenti nel secondo caso, nei modelli dinamici si perde la consistenza, mentre in quelli statici le stime OLS rimangono consistenti ma non sono efficienti

13


2 2 2 2 21 2 1 1 2 1 2 1E( | , , ) E( | , , ) E( | , , )t t t t t t t t t t tg 2 2

1tε ε ε ε ε ε ε ε ε ε σ− − − − − − − − −= =… … … ε=

e quindi l’asserto non appena si considera l’aspettazione del primo e dell’ultimo termine.

• 41 1

2

1ˆ ( ) (0;n d

t tt

n n Nn

)γ ε ε σ−=

⎡ ⎤=⎢ ⎥⎣ ⎦

→∑ . E’ conseguenza del teorema del limite centrale per

una differenza martingala stazionaria ed ergodica.

• 1ˆ (0;1)d

n Nρ → . Segue dalla precedente e dalla rappresentazione 11

0

ˆˆˆ

n n γργ

= , dopo aver

osservato che il denominatore converge in probabilità a 2σ .

Corollario: Nelle ipotesi della precedente proposizione, si ha

2 21

1 1

ˆ ˆ( )p p d

j jj j

Q n nρ ρ 2pχ

= =

⎛ ⎞= =⎜ ⎟⎝ ⎠

→∑ ∑

ed anche 2

2 22

1 1

ˆ 2 ˆ( 2) ( )p p d

jj p

j j

nQ n n nn j n jρ

ρ χ= =

⎛ ⎞+= + =⎜ ⎟⎜ ⎟− −⎝ ⎠

→∑ ∑ .

Le statistiche e sono denominate rispettivamente statistica di Box-Pierce e statistica di

Ljung-Box.

1Q 2Q

Osservazione:

• Su eviews e` disponibile la statistica di Ljung-Box (per differenti valori di ) e il

corrispondente -value nel campione quando si richiede il correlogramma di una time-series (cioe`

il plot dellàutocorrelazione empirica). Essa e` utilizzata per rilevare la presenza di autocorrelazione

nel processo che si ritiene stazionario o anche negli errori di un modello di regressione, utilizzando

in tal caso come osservazioni i residui. Non e` invece utilizzata per testare lìpotesi di assenza di

autocorrelazione in un processo, in quanto per tale uso e` richiesta non solo la validita` (o

quantomeno la ragionevolezza) delle ipotesi (abbastanza restrittive) della precedente proposizione

ma anche la scelta dellòrdine dellàutocorrelazione oltre il quale tutte le altre (autocorrelazioni)

sono certamente nulle. Non esiste alcuno strumento che consenta una buona scelta del valore di .

Q p

p

p

p

• I precedenti due test sono asintoticamente equivalenti al test sull’ipotesi

0 1: pH 0α α= = = nel modello di regressione lineare 0 1 1t t p t px x x errorα α α− −= + + + + .

• E’ stato mostrato con tecniche di simulazione che, per campioni finiti, è preferibile

utilizzzare la statistica di Ljung-Box piuttosto che la statistica di Box-Pierce.

14


Il test di Durbin-Watson

Uno dei primi test sulla presenza di autocorrelazione negli errori di un modello di regressione

lineare, che ora si passa a descrivere, fu proposto intorno al 1950 da Durbin e Watson; in realtà

esso è soltanto un test sulla presenza di autocorrelazione del prim’ordine, è valido in ipotesi molto

restrittive ed infine le sue risposte (consigli) non sono come solitamente accade per un test “si

accetta” o “si rifiuta” l’ipotesi nulla, ma contempla anche l’ulteriore risposta “non si è in grado di

fornire suggerimenti”. Attualmente esso (test) non e’ mai utilizzato, ma il valore della statistica di

Durbin-Watson è riportato nell’output dei software econometrici data la sua semplicità di calcolo e

fornisce un primo segnale di presenza di autocorrelazione negli errori quando (come si vedrà) il suo

valore è vicino a 0 oppure a 4.

E’ assegnato il modello tale che t ty ′= +x β tu E( | ) 0t tu =x e { },t ty x è un processo stazionario

ed ergodico.

Definizione: La statistica

21

2

2

1

ˆ ˆ( )

ˆ

n

t tt

n

tt

u uD

u

−=

=

−=∑

∑ , dove { }ˆtu e` il processo dei residui nella stima OLS,

dicesi statistica di Durbin-Watson.

Osservazione:

1) Si ha

2 21 1

2 22 2 21

2

1

22 21

1 2 1

2 2

1 1

ˆ ˆ ˆ ˆ2ˆ ˆ (al numeratore si somma e si sottrae )

ˆ

ˆ ˆ ˆ2 2 ˆ ˆ 2

ˆ ˆ

n n n

t t t tt t t

nn

tt

n n

t t t pt t n

n n

t tt t

u u u uD u

u

u u uu u

u u

− −= = =

=

−= =

= =

− += +

−+

= − →

∑ ∑ ∑

∑

∑ ∑

∑ ∑[ ]( )1(1 ) 0, 4ρ− ∈

u

(si noti che 2 2 2 21 1

2 2

1 1

ˆ ˆ ˆ ˆ( ) / 01ˆ ˆ

pn n

n n

t tt t

u u u u n

u un= =

+ += →

∑ ∑). E quindi l’assenza di autocorrelazione del prim’ordine

negli errori ( 1 0ρ = ) dovrebbe produrre un valore della statistica D non molto distante da 2, mentre

un valore di D vicino a 4 suggerirebbe la presenza di autocorrelazione negativa e un valore vicino

a 0 la presenza di autocorrelazione positiva.

2) Al fine di utilizzare la statistica D per costruire un test sulla presenza di autocorrelazione del

prim’ordine negli errori, è essenziale individuare la sua distribuzione (finita o asintotica).

15


Il risultato di Durbin e Watson – Considerato il modello t ty ut′= +x β con { },t ty x processo

stazionario ed ergodico, tale che

i) Le variabili sono strettamente esogene, tx

ii) 1 1t tu u tρ ε−= + con è 2. . .(0, )t n i dε σ∼ ,

gli autori individuarono (al variare del numero di variabili indipendenti, per gli standard livelli di

significatività e per differenti lunghezze del campione) una coppia di quantili (spesso

non presenti nei software econometrici, ma disponibili su internet) con ,

indipendenti dalla matrice delle osservazioni delle variabili indipendenti, tali che un test per

l’ipotesi

* *( , )l ud d

* *0 2l ud d< < <

X

0 1

1 1

: 0: 0

HH

ρρ

=⎧⎨ >⎩

è:

“Si accetta se , si rifiuta se 0H *uD d> 0H *

lD d< , mentre se *ld D d *

u< < non si può dire nulla”.

Un test per l’ipotesi è uguale al precedente con 0 1

1 1

: 0: 0

HH

ρρ

=⎧⎨ <⎩

4 D− al posto di D .

Osservazione: Se 2. . .(0, )t i i dε σ∼ allora il precedente test ha validità asintotica.

16

Documents

Modelli di Regressione Non Lineare - dm.uniba.itbasile/pagina_web_2012/Econometria/Econometria... · In questo capitolo si considerano modelli econometrici non lineari del tipo