Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
Id®sorok - jegyzet kiegészítés
Az AR(p) folyamatok paraméterbecslése
2016. május 1.
Id®sorok - jegyzet kiegészítés 2016. május 1. 1 / 29
Els® a paraméterbecslés és csak utána következik a rendszelekció. (Éppezért szelekció és nem becslés.)Az autoregressziós egyenlet:
X(t) = µ+ α1(X(t− 1)− µ) + . . .+ αp(X(t− p)− µ) + ε(t)
Így most a várható érték sem feltétlen 0, hanem ismeretlen konstans:
EX(t) = µ
Ezzel a modell paraméterek: (µ, α1, . . . , αp, σε).
Tegyük fel, hogy P (z) = 1 − (α1z + . . . + αpzp) gyökei az egységkörön
belül vannak, és így létezik az X(t) stacionárius megoldás.
Id®sorok - jegyzet kiegészítés 2016. május 1. 2 / 29
Az autoregresszió regresszióra hasonlít, de a függ® változója X(t)és a független változói ugyanazon X(t) eltoltjai, késleltetettjei, ígynem csak a változók, hanem a meg�gyelések "esetek", "sorok" iskorreláltak.
Ez a becslést nem, de a tulajdonságait, "jóságát", eloszlását be-folyásolja, a szokásos teszteket, kon�dencia intervallumokat, szórás-négyzetet érvényteleníti.
A közönséges legkisebb négyzetek (OLS) módszere a regressziónakmegfelel®en alkalmazható.
Id®sorok - jegyzet kiegészítés 2016. május 1. 3 / 29
A következ® Q kvadratikus funkcionált kell minimalizálni:
Q(µ, α1, . . . , αp) =
N∑t=p+1
ε2t = (1)
=
N∑t=p+1
[X(t)− µ− α1(X(t− 1)− µ)− . . .− αp(X(t− p)− µ)]2 −→ min
Az 1-beli szummából az ε2(1), . . . , ε2(p) tagokat ki kell hagyni, mertX(0), . . . , X(−p+ 1) nem meg�gyelhet®.
Id®sorok - jegyzet kiegészítés 2016. május 1. 4 / 29
Nézzük most a likelihoodot Gauss generáló zaj esetén.El®ször AR(1)-re:
(X(t)− µ)− α(X(t− 1)− µ) = ε(t)
és ε(t)-k függetlenek egymástól valamint t ≥ 2-re X(1)-t®l is, így
f(x1, . . . , xT ) = f(x1) · f(ε2) · . . . · f(εT )
és ez proporcionálisan:
f(x1, . . . , xT ) ∝ f(x1) ·1
σT−1ε
· exp{− 1
2σ2ε·T∑t=2
ε2t }
Ebb®l az adott kezd®érték melletti feltételes likelihood, arányosan:
f(X(2), . . . , X(T ) | X(1)) ∝
1
σT−1ε
· exp{− 1
2σ2ε·T∑t=2
[X(t)− µ− α(X(t− 1)− µ)]2}
AR(p)-re a szummában p+1-t®l megyünk, és a szumma mögötti szögleteszárójelben X(t− 1), . . . , X(t− p) megfelel® lineáris kombinációja áll.
Id®sorok - jegyzet kiegészítés 2016. május 1. 5 / 29
Ez ugyanannak a Q(µ, α1, . . . , αp) funkcionálnak a minimalizására vezet,mint az OLS.Ez ugyanaz a kapcsolat, mint a közönséges regresszió esetén a OLS és aGauss ML között.Ha a teljes (nem feltételes) likelihoodot nézzük, akkor mivel
X(1) ∼ N(µ, σ2ε
1−α2 )
f(x1, ..., xT ) ∝√
(1−α2)
σε· exp
{−1−α2
2σ2ε
(x1 − µ)2}f(x2, . . . , xT | X1 = x1)
ami már nemlineáris legkisebb négyzetes minimalizálásra vezet, viszontaz eltérés a lineáristól kicsi és nagyon gyorsan 0-hoz tart.
Id®sorok - jegyzet kiegészítés 2016. május 1. 6 / 29
Térjünk vissza Q-hoz:
∂
∂µQ(µ, α1, ...αp) = 0⇒
T∑t=p+1
[X(t)− µ− α1(X(t− 1)− µ)− ...− αp(X(t− p)− µ)] = 0 (∗)
∂
∂αjQ(µ, α1, ...αp) = 0⇒
T∑t=p+1
[X(t)− µ− α1(X(t− 1)− µ)− ...− αp(X(t− p)− µ)]·
·(X(t− j)− µ) = 0 (∗∗)
j = 1, . . . , p
Id®sorok - jegyzet kiegészítés 2016. május 1. 7 / 29
Az el®z® egyenletekb®l:
µ =X1 − (α1X2 + . . .+ αpXp)
1− (α1 + . . .+ αp),
ahol
Xj+1 =1
T − p
T−j∑t=p+1−j
X(t), j = 0, 1, . . . , p− 1
Ha itt p� T ⇒ Xj+1∼= X ∀j és így
µ = X
A ∗∗ egyenletekb®l kapjuk az együtthatók becslését, ezt azonban zártalakban nem adjuk itt meg.
Id®sorok - jegyzet kiegészítés 2016. május 1. 8 / 29
Vizsgáljuk most az AR(1) egyenletre vonatkozó maximum likelihoodbecslést. Tegyük fel, hogy µ ismert és µ = 0. Ebben az esetben a ∗∗egyenlet megoldása egyszer®en felírható
α =
T∑t=2
X(t) ·X(t− 1)
T∑t=2
X2(t− 1)
Ide X(t) el®állítását beírva:
α = α+
T∑t=2
ε(t) ·X(t− 1)
T∑t=2
X2(t− 1)
Id®sorok - jegyzet kiegészítés 2016. május 1. 9 / 29
Az AR(1) esetben a paraméterbecslés szórásának meghatározása kap-csán próbáljuk megérteni, hogy miért kell másként gondolkodni az au-toregresszió, mint egy szokásos regresszió esetén. Ha ez egy közönségesregresszió lenne, akkor az X(t−1) magyarázó változó meg�gyelt értékeitkonstansokként, és α-t is ismertként kezelve (azaz α feltételes eloszlásátvizsgálva) itt a regressziós hibatagok lineáris kombinációja állna, amimaga is normális lenne, és a szórást számítva:
α = N(α,σ2ε∑T
t=2X2(t− 1)
)
adódna. Azonban az AR(1) modellben, ha a magyarázó változó, és aparaméter adott, akkor a függ® változó is ⇒ ε(t) is számolható és így αegyáltalán nem véletlen!A fenti érvelés tehát nem használható.
Id®sorok - jegyzet kiegészítés 2016. május 1. 10 / 29
Nézzük hát másképp: α-ban a számlálóbeli szorzat tagjai függetlenek,ezért a számláló 0 várható érték¶.Bár az összeg tagjai nem függetlenek, de korrelálatlanok:
Eε(t) ·X(t− 1) · ε(t− 1) ·X(t− 2) =
Eε(t) · EX(t− 1) · ε(t− 1)X(t− 2) = 0
ezért az összeg szórásnégyzete a szórásnégyzetek összege, így
D2T∑t=2
ε(t) ·X(t− 1) = (T − 1) · σ2ε · σ2X
Id®sorok - jegyzet kiegészítés 2016. május 1. 11 / 29
A nevez® T − 1-gyel osztva a tapasztalati szórásnégyzet, "nagy" mintáratehát (T − 1) · σ2X -tel becsülhet®, így
D2α ∼= D2
∑Tt=2 ε(t) ·X(t− 1)
(T − 1)σ2X=
1
(T − 1)2 · σ4X·D2
T∑t=2
ε(t)X(t− 1) =
(T − 1)σ2εσ2X
(T − 1)2σ4X=
σ2ε(T − 1)σ2X
= (∗)
itt σ2X = σ2ε
1−α2 ⇒ (∗) = 1−α2
T−1
Ez alapján
α ∼ N(α,1− α2
T − 1)
Fontos kivétel, ha α = 1, illetve ha α u.n. közel nemstacinárius, azaz αközel van, vagy valamilyen értelemben tart 1-hez.
Id®sorok - jegyzet kiegészítés 2016. május 1. 12 / 29
Térjünk vissza az AR(p) modellhez és a Q funkcionálhoz.A µ szerinti deriváltból (*) kapott µ a "véghatás" elhanyagolásával az X-ra egyszer¶södött.Írjuk ezt be az αj szerinti deriváltból adódó (**) egyenletekbe. Így
T∑t=p+1
{X(t)−X − (α1(X(t− 1)−X) + · · ·+ αp(X(t− p)−X))
}×
×(X(t− j)−X) = 0
Megint elhanyagolva a kezdeti hatást felhasználjuk, hogy
T∑t=p+1
(X(t− k)−X) · (X(t− j)−X) ∼= N · R(j − k)
Ezt beírva, egyenletünk
R(j) = α1R(j − 1) + · · ·+ αpR(j − p)
j = 1, · · · , p
Id®sorok - jegyzet kiegészítés 2016. május 1. 13 / 29
Azaz a likelihood egyenletekb®l a véghatások elhanyagolásával a Yule-Walker egyenleteket kapjuk, a becsült autokovarianciákkal.Mátrix alakban:
Rp = Rpαahol
Rp = (R(1), · · · , R(p))T,
α = (α(1), · · · , α(p))T és
Rp =
R(0), R(1), · · · , R(p− 1)
R(1), R(0), · · · , R(p− 2)...
......
R(p− 1), R(p− 2), · · · , R(0)
Id®sorok - jegyzet kiegészítés 2016. május 1. 14 / 29
Ezek az egyenletek azonosak a Yule-Walker egyenletekkel, amelyekaz elméleti autokovariacia függvény összefüggését adják az elméletiparaméterekkel.
(∗) σε2 = R(0)− RTp R−1p Rp = R(0) + Rp · a
(Brockwell-Davis könyv 138. oldal)
σ2ε =1
T − 2p− 1Q(µ, α1, · · · , αp) =
=T − p
T − 2p− 1
{R(0) + α1R(1) + · · ·+ αpR(p)
}A nevez®: meg�gyelések száma - becsült paraméterek száma, mivel T-pmeg�gyelés(az els® p elvész) és p+ 1 becsült paraméter van.
Id®sorok - jegyzet kiegészítés 2016. május 1. 15 / 29
Ha σ2ε -et is ismeretlen paraméternek tekintjük, a variancia ML becslése
nem azonos a legkisebb négyzetessel:
σε2 =1
T − pQ(µ, α1, · · · , αp) = R(0) + α1R(1) + · · ·+ αpR(p)
Aszimptotikus eloszlás: Gyakran a momentum becslés sokkal jobbanszór, mint a ML. Itt nem így van, az OLS és a ML közelít®leg ugyanolyaneloszlású:
αp ≈ N(α,σ2εTR−1p )
Ez Mann és Wald (1943) eredménye.
Id®sorok - jegyzet kiegészítés 2016. május 1. 16 / 29
Tapasztalati autokorreláció
Hogyan ellen®rizhet® a fehér zaj tulajdonság?
A tapasztalati autokorreláció függvénynek "szigni�kánsan" 0-nakkell lennie
Mivel tudjuk,hogy ezek a becslések gyakorlatilag függetlenek (Nemcsak normális fehér zajra!) és eloszlásuk közel N(0, 1
T ), ha igaz anullhipotézis így a 95 %-uknak a ±1,96√
T-s határokon belül kell lennie
- az 1,96 a standard normális eloszlás 95 %-os kvantilise. Így például40 "lag"-re elkészítve, ha kett®�három kicsit, vagy ha egy nagyonkilóg, akkor elutasítjuk a fehér zaj hipotézist.
Id®sorok - jegyzet kiegészítés 2016. május 1. 17 / 29
Portmanteau próbák
Az alábbi három próbát gyakran összefoglaló néven Portmanteaupróbákként említik. Egy T elem¶ id®sor meg�gyelése mellett a null-hipotézis mindháromban az, hogy a meg�gyelt folyamat fehér zaj.Klasszikus Portmanteau próba, vagy Box-Pierce teszt:
Az els® h "lag"-re véve a becsült autokorrelációk négyzetösszegét,ennek T -szerese:
Q = T ·h∑τ=1
r2(τ)
úgy kell viselkedjen, mint h db független N(0,1)-es négyzetösszege,ezért ez a statisztika χ2
h eloszlású. Ezt teszteljük.
Ha Q > χ2h(1− α) ⇒ elutasítjuk a 0 hipotézist.
Ez egy elég gyenge próba.
Id®sorok - jegyzet kiegészítés 2016. május 1. 18 / 29
Ljung � Box próba
Ljung és Box �nomítja az el®z® eljárást.
A nagyobb �lag�-ekhez tartozó autokorrelációk súlyát kissémegnöveljük:
QLB = T · (T + 2)h∑τ=1
r2(τ)/(T − τ)
ez érzékenyebb és ezt jobban is közelíti a χ2h eloszlás.
h megválasztására Hyndman és Athanasopoulos h = 10-et javasolnem szezonális adatra, és 2m-et m-szezonalitású adatra. PatrickBurns h ≤ 0.05 · T -t javasol.Az eddigi két próba nem csak normális fehér zaj mellett jó.
Id®sorok - jegyzet kiegészítés 2016. május 1. 19 / 29
McLeod � Li próba
McLeod és Li tesztje (1983) csak Gauss folyamatra alkalmazható.
Ha igaz a nullhipotézis, akkor a folyamat Gauss fehér zaj, amifüggetlen érték¶ is, de akkor a négyzete is az, így az is korrelálatlanérték¶, azaz fehér zaj, és akkor erre a Ljung-Box teszt használható.
Az adatok négyzetét veszi: Y (t) = X(t)2 és ennek autokorreláció-függvény becslését, rY (τ)-t használja:
Q = T · (T + 2)h∑τ=1
r2Y (τ)/(T − τ)
Ez a tesztstatisztika is χ2h eloszlású, de érzékenyebb az el®z®eknél,
így a próba er®sebb.
Id®sorok - jegyzet kiegészítés 2016. május 1. 20 / 29
Függetlenséget ellen®rz® tesztek
Az alábbi három próba meg�gyelések függetlenségét teszteli,tetsz®leges (azaz nem csak id®sor) mintarealizáció esetén.
Így elvileg a zaj független érték¶ségét is tesztelhetjük.
Azonban nem szabad elfeledni, hogy a zajra nincs meg�gyelésünk,azt is csak becsültük, általában valamilyen illesztett modellreziduálisaként.
Önmagában egy elutasító teszt alapján még nem biztos, hogy elkell utasítani a nullhipotézist.
Id®sorok - jegyzet kiegészítés 2016. május 1. 21 / 29
Fordulópont próba
Fordulópont próba: Legyen y1, · · · , yn egy meg�gyelt mintarealizáció.De�níció.: i-ben fordulópont van, ha{
yi−1 < yi és yi > yi+1
yi−1 > yi és yi < yi+1, 2 < i < n− 1
Mivel a fordulás valószín¶sége i-ben 2/3 ezért a várható fordulatokszáma: (n− 2)23 = ET = µT
Megmutatható, hogy D2(T ) = (16n − 29)/90 = σ2T és hogy T közelít®-leg normális eloszlású, hiszen indikátorok összegeként írva a centrálishatáreloszlás tételre hivatkozhatunk. Tehát T ∼ N(µT , σ
2T ).
Megjegyzés: Nagy T − µT érték azt jelenti, hogy hevesebben �uktuála sorozat mint egy i.i.d.=> negatív korreláció van a szomszédos tagokközt.Nagy negatív T − µT érték kis �uktuációra utal => pozitív korrelációvan a szomszédos tagok közt.
Id®sorok - jegyzet kiegészítés 2016. május 1. 22 / 29
Di�erencia-el®jel próba
Di�erencia-el®jel próba:
Az el®z® felépítésben most számoljuk azon i-ket, amelyre yi > yi−1, i =2, ..., n.
Ez ugyanannyi, mint a di�erenciált sorozat pozitív tagjainak S száma.i.i.d sorozatra:µS = ES = 1
2 · (n− 1)
σ2S = D2S = n+112
és nagy n-re S ∼ N(µS , σ2S)
Ha S − µS nagy abszolút érték¶ pozitív vagy negatív szám, akkorvalószín¶leg növekv®, ill. csökken® trend van a sorozatban.
Id®sorok - jegyzet kiegészítés 2016. május 1. 23 / 29
Rang próba
Rang próba. Hasznos például, ha lineáris trend ellenében kell tesztelnia nullhipotézist.Legyen P azon (i,j) párok számra a fentebbi mintarealizációban, amelyre
yj > yi és j > i, i = 1, · · · , n− 1
Mivel
(n
2
)olyan pár van, amelyben j > i, és mindegyikre 1
2 a valószí-
n¶sége, hogy yj > yi, ezért
µp = EP =1
4· n · (n− 1)
valamint belátható, hogy:
σ2p = D2P = n · (n− 1)(2n+ 5) · 1
72
és akárcsak az el®z®ekben, nagy n-re P ∼ N(µp, σ2p). Ezt teszteljük.
Nagy abszolút érték¶ pozitív vagy negatív P − µp érték növekv®, ill.csökken® trendre utal.
Id®sorok - jegyzet kiegészítés 2016. május 1. 24 / 29
Nemparametrikus regresszió:
Running line (futó egyenes):Simítás, általában a trend torzított becslése.N(0,1)-es i.i.d mintát, ha simítjuk, akár periodikus görbét is kaphatunkbel®le.A simítás során 2 alapkérdés van:
1 Hogyan "átlagoljunk" egy bizonyos környezetben2 Hogyan válasszuk meg a környezetet
Legközelebbi szomszéd - a legközelebbi k pont
Szimmetrikus legközelebbi szomszéd - az egyik és másik oldalon isk2 ,
k2 pont. Egyfajta mozgó ablak.
Id®sorok - jegyzet kiegészítés 2016. május 1. 25 / 29
Legyen:Y = µ(X) + ε,
ahol µ sima függvény, és legyen mintánk Y -ra X-re.Running line: egy mozgó ablakot választunk, és az ablakon belül egyegyszer¶ lineáris regressziót alkalmazunk Y -ra X-szel.Yi-t az Xi alapján abból az ablakból becsüljük, amelynek ® van aközepén.Pl. k=11-re Y14-et az (X9, Y9),...(X19, Y19) ablakból,azaz ezen párokravégzünk regressziót, és ennek együtthatóival predikáljuk Y14-et X14-b®l.Ez az eljárás jó irregulárisan meg�gyelt id®sorra is. Ekkor Xi az id®, t,ami "véletlenszer¶", vagyis regresszorként is felfogható.
Id®sorok - jegyzet kiegészítés 2016. május 1. 26 / 29
Mag regresszió (Kernel regression):
Ekkor is környezeteket választunk, de ezen belül nem egyenl® súllyalvesszük �gyelembe a pontokat.Ha x0-ban vagyunk kíváncsiak a simított predikcióra, akkor a meg�-gyelési "helyeket" (a regresszor értékeit) súlyozzuk az x0-tól való távol-ságuk függvényében
w0,i =C0
λ·K ·
(∣∣∣∣x0 − xiλ
∣∣∣∣)ahol K egy magfüggvényλ a sávszélesség(Egy lehet®ség pl. xi-t a szórásával osztani.)Ezekkel a súlyokkal egy súlyozott regressziót csinálunk, vagyis a mini-malizálandó legkisebb négyzetes kifejezést súlyozva állítjuk el®.
µ(x0) =
∑K ·
(x0−xiλ
)· yi∑
K ·(x0−xiλ
)Id®sorok - jegyzet kiegészítés 2016. május 1. 27 / 29
Magfüggvények:
Gauss mag:
a Gauss eloszlás s¶r¶ségfüggvénye
Minimális variancia mag:
K(t) = 38(3− 5t2) |t| ≤ 1
Epanechnikov mag:
K(t) = 34(1− t2) |t| ≤ 1
Id®sorok - jegyzet kiegészítés 2016. május 1. 28 / 29
Lokális regresszió: LOESS
A Running line és a Kernel regresszió kombinációja.Minden környezetben súlyozott legkisebb négyzetes illesztés.A lokális regresszió célja: modell identi�kálás (lehet®leg polinomiálistagokkal)regresszorok száma Mallow féle Cp statisztika?????
W =
[x0 − xi
∆x0
]∆x0 az adott környezet legnagyobb távolsága x0-tól.
W (t) =
{(1− t3)3
0
0 ≤ t ≤ 1
Robusztus regressziót is lehet használni, ha szimmetrikusnak tételezzükfel a zajt normális helyett.
Id®sorok - jegyzet kiegészítés 2016. május 1. 29 / 29