Upload
beck-weiss
View
119
Download
0
Embed Size (px)
DESCRIPTION
Úvod do analýzy časových řad. Doc. Ing. Jana Hančlová, CSc. Katedra matematických metod v ekonomice Ing. Lubor Tvrdý Katedra regionální ekonomiky Ekonomická fakulta, VŠB-TU Ostrava. Obsah prezentace. Cíl analýza časových řad Teoretické základy základní pojmy úpravy časových řad - PowerPoint PPT Presentation
Citation preview
1
Úvod do analýzy časových řad
Doc. Ing. Jana Hančlová, CSc.Katedra matematických metod v ekonomiceIng. Lubor TvrdýKatedra regionální ekonomikyEkonomická fakulta, VŠB-TU Ostrava
2
Obsah prezentace
Cíl analýza časových řad
Teoretické základy
základní pojmy
úpravy časových řad
problémy časových řad
Metody analýza časových řad
Diskuse, dílčí závěr
3
Cíl analýzy časových řad
konstrukce vhodného modelu za účelem:
porozumění mechanismu generující hodnoty časové řady
pochopení podmínek a vazeb působících na vznik těchto hodnot
simulace pomocí modelu
předpověď budoucího chování (historie se opakuje)
4
Základní pojmy - časová řadaČasovou řadou se rozumí posloupnost
hodnot ukazatelů, měřených v určitých časových intervalech (zpravidla ekvidistantních)
nyyy ,,, 21
ty , kde t=1, 2, …, n
y = ukazatel t = časová proměnná
5
Základní pojmy - druhy časových řad
Dle charakteru ukazateleokamžikovéintervalové
Dle druhu ukazateleabsolutníodvozené
6
Základní pojmyZákladní soubor (populace)
Výběrový soubor
7
Základní pojmy - popisné charakteristiky
charakteristiky polohy
charakteristiky variability
míry dynamiky
korelace
8
Charakteristiky polohy
prostý aritmetický průměr
vážený aritmetický průměr
modus
medián
9
Základní soubor
Výběrový soubor
- populační průměrx - výběrový průměr
- populační směrodatná odchylkas - výběrová směrodatná odchylka
Nux
1
u1- - pravděpodobnostní kvantil (např. u0,95 = 1,96)
Interval spolehlivost pro průměr
10
Charakteristiky variability
Rozptyl
směrodatná odchylka
2
1
2 )(1
1
n
tt yy
ns y
2
1
2 )(1
1
n
ttyy yy
nss
11
Statistická deskripce
105808 105808
0 0
88,46 1668,78
,18 1,50
77,02 1824,00
40,00 1997,50
61,04 488,94
9,58 -1,41
230,36 1,92
12,67 4,00
2843,93 4176,00
Platná
Chybná
N
Průměr
Směr. chyba průměru
Medián
Modus
Směrodatná odchylka
Šikmost
Špičatost
Minimum
Maximum
Průměrnáhodinová mzda
Odpracovanéhodiny za rok
12
Průměrná hodinová mzdapočet
13
Odpracovaný počet hodin za rokpočet
14
Příklad 2 - vývoj míry nezaměstnanosti (u) – Karviná, Znojmo (měsíčně _1995 – 2002)
0,0
5,0
10,0
15,0
20,0
25,0
I.95
VII.
95
I.96
VII.
96
I.97
VII.
97
I.98
VII.
98
I.99
VII.
99
I.00
VII.
00
I.01
VII.
01
I.02
VII.
02
Datum
%
u_KI
u_ZN
15
Příklad 2: Popisné charakteristiky
EXCELNástroje – Analýza
dat – Popisná statistika
u_KI u_ZN
Stř. hodnota 13,4751 9,5633Chyba stř. hodnoty 0,4837 0,3206Medián 14,1942 10,4061Modus #N/A #N/ASměr. odchylka 4,7389 3,1417Rozptyl výběru 22,4572 9,8701Špičatost -1,7317 -1,2589Šikmost -0,1577 -0,0957Rozdíl max-min 12,7459 10,7261Minimum 6,8351 4,7890Maximum 19,5810 15,5151Součet 1293,6064 918,0751Počet 96 96
16
Karviná
20,019,0
18,017,0
16,015,0
14,013,0
12,011,0
10,09,0
8,07,0
Karviná
Fre
qu
en
cy
30
20
10
0
Std. Dev = 4,74
Mean = 13,5
N = 96,00
Znojmo
Znojmo
Fre
qu
en
cy
14
12
10
8
6
4
2
0
Std. Dev = 3,14
Mean = 9,56
N = 96,00
Příklad 2 – histogramy
17
Míry dynamiky = str. 4
• absolutní přírůstek (první diference)
• koeficient (tempo) růstu
• meziroční koeficient růstu
• průměrný koeficient růstu
• relativní přírůstek
1 ttt yyy
1 ttt yyk /
44 ttt yyk /)(
11
132
nn
nn yykkkk /
111 )/(/ ttttt yyyy
18
Příklad 2 – Znojmo – míry dynamiky
Datum t Rok Měsíc u_ZN 1df 2df 3df k(t) k(4)(t) delta(t)
I.95 1 1995 1 7,43
II.95 2 1995 2 7,23 -0,21 0,972 -0,028
III.95 3 1995 3 6,44 -0,79 -0,58 0,891 -0,109
IV.95 4 1995 4 5,60 -0,84 -0,05 0,53 0,870 -0,130
V.95 5 1995 5 5,04 -0,56 0,28 0,33 0,899 -0,101
VI.95 6 1995 6 4,96 -0,08 0,48 0,21 0,984 -0,016
VII.95 7 1995 7 4,91 -0,05 0,04 -0,45 0,991 -0,009
VIII.95 8 1995 8 5,07 0,15 0,20 0,16 1,031 0,031
IX.95 9 1995 9 5,14 0,07 -0,08 -0,28 1,014 0,014
X.95 10 1995 10 5,08 -0,06 -0,13 -0,04 0,989 -0,011
XI.95 11 1995 11 5,53 0,45 0,51 0,63 1,089 0,089
XII.95 12 1995 12 6,09 0,56 0,11 -0,40 1,101 0,101
I.96 13 1996 1 6,83 0,75 0,19 0,08 1,123 0,919 0,123
II.96 14 1996 2 6,87 0,04 -0,71 -0,90 1,006 0,951 0,006
III.96 15 1996 3 6,26 -0,61 -0,65 0,05 0,911 0,972 -0,089
19
Míry dynamiky – míra nezaměstnanosti - Znojmo
-0,4
-0,2
0
0,2
0,4
0,6
0,8
1
1,2
1,4
1,6
1,8
k(t)
k(4)(t)
delta(t)
20
Korelace
1;11
yx
n
ttt
xy ss
yyxxs
Vyjadřuje relativní míru závislosti ve vzájemném vývoji dvou časových řad
21
Příklad 2_ závislost u_KI a u_ZNKorelace (u_KI, u_ZN)=
0,908EXCEL:
• CORREL(u_KI;u_ZN)
• Nástroje
Analýza dat
Korelace
22
Stacionární a nestacionární časová řada
Stacionární časová řada :konstantní průměrkonstantní variabilitukorelace dvou časově posunutých pozorování závisí na délce posunu
23
Příklad bílého šumu
-1
-0,8
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0,8
1
1 3 5 7 9 11
13
15
17
19
21
23
25
27
29
31
33
35
37
39
41
43
45
47
49
51
53
55
57
59
61
63
65
67
69
71
73
75
77
79
81
24
Základní úpravy časových řad
doplnění chybějících hodnot
časový posun
sezónní diference
kumulativní součet
vyhlazování časových řad
25
Doplnění chybějících hodnotMožné přístupy nahrazení:
nulou (např. u bílého šumu)průměrem či mediánem
(okolí či celý soubor)
lineární interpolacíregresí vhodnou křivkouodhadem na základě známého modelu chování procesu
26
Časový posun
Časový posun znamená vytvoření časové řady opožděné resp. předbíhající časovou řadu, ale jinak s ní totožnou. Představuje to vlastně posunutí časové řady “dopředu” případně “dozadu” oproti původní časové řadě. Nově vytvořené proměnné mají ovšem na začátku, resp. na konci tolik chybějících hodnot, o kolik kroků se posun prováděl.
27
Příklad 2 – u_ZN – časový posunDatum t Rok Měsíc u_ZN u_ZN(-1) u_ZN(-2) u_ZN(-3) u_ZN(-12)
I.95 1 1995 1 7,43
II.95 2 1995 2 7,23 7,43
III.95 3 1995 3 6,44 7,23 7,43
IV.95 4 1995 4 5,60 6,44 7,23 7,43
V.95 5 1995 5 5,04 5,60 6,44 7,23
VI.95 6 1995 6 4,96 5,04 5,60 6,44
VII.95 7 1995 7 4,91 4,96 5,04 5,60
VIII.95 8 1995 8 5,07 4,91 4,96 5,04
IX.95 9 1995 9 5,14 5,07 4,91 4,96
X.95 10 1995 10 5,08 5,14 5,07 4,91
XI.95 11 1995 11 5,53 5,08 5,14 5,07
XII.95 12 1995 12 6,09 5,53 5,08 5,14
I.96 13 1996 1 6,83 6,09 5,53 5,08 7,43
II.96 14 1996 2 6,87 6,83 6,09 5,53 7,23
III.96 15 1996 3 6,26 6,87 6,83 6,09 6,44
IV.96 16 1996 4 5,56 6,26 6,87 6,83 5,60
28
Sezónní diference
Sezónní diference je diference mezi okamžiky, vzdálenými o celistvý násobek délky periody.
Diference vyjadřuje velikost změny, ke které došlo mezi dvěma časovými okamžiky měření. Je-li kladná, řada v daném čase roste, je-li záporná, řada klesá. Diferencí se data zbavují lineárního trendu, sezónní diferencí sezónních vlivů.
29
Vývoj míry nezaměstnanosti (u)
0,0
5,0
10,0
15,0
20,0
25,0
I.95
VII.
95
I.96
VII.
96
I.97
VII.
97
I.98
VII.
98
I.99
VII.
99
I.00
VII.
00
I.01
VII.
01
I.02
VII.
02
Datum
%
u_KI
u_ZN
30
Kontingenční tabulka
Součet z u_ZN RokMěsíc 1995 1996 1997 1998 1999 2000 2001 2002 Celkový součet
1 7,43 6,83 6,99 10,45 13,00 14,98 14,02 14,78 88,492 7,23 6,87 7,06 10,62 13,29 14,73 13,70 14,47 87,953 6,44 6,26 6,23 10,29 12,87 13,72 12,43 13,56 81,814 5,60 5,56 5,56 9,34 11,92 12,33 11,34 12,36 74,025 5,04 5,00 5,59 8,81 11,48 11,30 10,36 11,89 69,476 4,96 4,79 5,45 8,54 11,17 10,67 9,77 11,36 66,717 4,91 4,88 5,87 8,39 10,79 10,71 9,87 11,59 67,028 5,07 4,93 6,21 8,78 11,10 10,75 10,25 11,96 69,049 5,14 5,00 7,05 9,60 11,32 10,88 10,48 12,63 72,10
10 5,08 4,99 7,57 9,79 11,18 10,75 11,01 12,66 73,0311 5,53 5,53 8,22 10,52 12,17 11,45 11,77 13,87 79,0712 6,09 6,07 9,39 11,93 13,88 12,99 13,53 15,52 89,38
Celkový součet 68,52 66,71 81,19 117,06 144,17 145,25 138,53 156,65 918,08
EXCEL: Data – kontingenční tabulka a graf
31
Vývoj u - Znojmo - měsíčně
4,0
6,0
8,0
10,0
12,0
14,0
16,0
1 2 3 4 5 6 7 8 9 10 11 12
1995
1996
1997
1998
1999
2000
2001
2002
32
Vývoj u - Karviná - měsíčně
5,0
7,0
9,0
11,0
13,0
15,0
17,0
19,0
21,0
1 2 3 4 5 6 7 8 9 10 11 12
1995
1996
1997
1998
1999
2000
2001
2002
33
Diference 1. řádu
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
I.95
VII.
95
I.96
VII.
96
I.97
VII.
97
I.98
VII.
98
I.99
VII.
99
I.00
VII.
00
I.01
VII.
01
I.02
VII.
02
datumdi_u_KI di_u_ZN
34
Sezónní diference 1. řádu (= meziroční diference)
-2,0
-1,0
0,0
1,0
2,0
3,0
4,0
5,0
6,0
I.95
VII.
95
I.96
VII.
96
I.97
VII.
97
I.98
VII.
98
I.99
VII.
99
I.00
VII.
00
I.01
VII.
01
I.02
VII.
02
datumsdi_u_KI sdi_u_ZN
35
Základní pojmy = kumulativní součetOpačnou operací k diferenci je kumulativní součet
časové řady. = součet pozorování za určitý časový úsek.Kumulativním součtem bílého šumu = náhodná procházka, protože nikdy nelze předvídat, zda tato funkce se obrátí vzhůru nebo dolů (tzv. procházka “opilého námořníka”). Náhodná procházka je hladší nežli bílý šum, jelikož integrace potlačuje vyšší frekvenční složky a zvýrazní nižší frekvence.
36
Obr. 4: Náhodná procházka tj. nepredikovatelná časová řada
-1
-0.5
0
0.5
1
1.5
2
2.5
3
3.5
4
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79
37
Vyhlazování časových řad
Předpoklad: nahodilá chyba očekávanou hodnotu jednou zvětší a jindy zase zmenší ( tj. její střední hodnota je nulová) a jednotlivé chyby nejsou vzájemně závislé (tj. nekorelované), můžeme pak očekávat, že zprůměrováním několika po sobě následujících pozorování budou se chyby mít tendenci navzájem rušit, zatímco skutečná sledovaná hodnota procesu tím vynikne. Na tomto pozorování jsou založeny metody vyhlazování časových řad.
38
Problémy časových řads volbou časových bodů:
ookamžikové,o intervalové;
s kalendářem: o různá délka měsíců
(viz vyrovnání různého počtu dní v měsíci str. 9) o různý počet víkendů v měsíci ,o různý počet pracovních dnů v měsíci ,opohyblivé svátky; s délkou časových řad;
nesrovnatelností dat (výběrový vzorek a jeho reprezentativnost v čase)
,)(
t
tt
očištěnát p
pyy
kde yt – hodnota očišťovaného ukazatele,
pt – počet pracovních dní v měsíci t,
tp- průměrný počet pracovních dní v měsíci za rok (30,42) či jiný základ např. 30 dní.
39
Příklad 3:Postup analýzy ukazatelů na úrovni obce
Základní deskripce
Analýza vztahů
Závěr
40
Deskripce statistická (u, 1995-2002)Statistic
16,183 17,500 5,4588 8,1 22,7 14,6 11,050 -,209 -1,714
15,926 16,400 5,4929 8,2 22,8 14,6 11,675 -,129 -1,751
14,821 15,700 6,0195 6,2 22,3 16,1 12,475 -,204 -1,702
13,978 16,250 6,4371 4,4 22,8 18,4 12,775 -,295 -1,638
13,552 15,900 5,1840 5,6 19,6 14,0 10,775 -,400 -1,568
13,245 13,100 6,5792 4,4 22,1 17,7 14,075 -,046 -1,726
12,461 13,150 4,5613 5,9 19,0 13,1 9,375 -,181 -1,625
12,205 12,900 5,5899 4,8 18,7 13,9 12,025 -,119 -1,774
11,081 11,450 4,3507 4,8 16,8 12,0 9,275 -,127 -1,677
10,509 11,350 4,6365 3,4 17,5 14,1 9,275 -,126 -1,446
9,817 10,300 4,7666 3,3 16,5 13,2 10,400 -,100 -1,650
9,692 9,800 4,8699 2,9 16,4 13,5 10,450 -,067 -1,721
9,379 9,800 3,9304 3,7 14,8 11,1 7,850 -,091 -1,717
8,995 11,050 4,5367 2,8 15,0 12,2 9,700 -,231 -1,761
8,411 9,050 3,5868 2,7 15,8 13,1 5,950 ,141 -1,074
7,917 8,100 4,0624 2,1 13,8 11,7 8,200 -,190 -1,579
Název obceKarviná
Orlová
Petřvald
Doubrava
Český Těšín
Horní Suchá
Bohumín
Havířov
Rychvald
Stonava
Albrechtice
Dětmarovice
Petrovice u Karviné
Dolní Lutyně
Chotěbuz
Těrlicko
Prů
mě
r
Me
dia
n
Sm
ěro
da
tná
od
chyl
ka
Min
imu
m
Ma
xim
um
Ro
zpě
tí
Inte
rqu
art
ileR
an
ge
Šik
mo
st
Šp
iča
tost
41
Deskripcegrafická
(u, 1995-2002)
42
Analýza vztahů
43
Grafickévyjádření
t
200220012000
iu 24
22
20
18
16
14
12
10
okres KI
Těrlicko
Orlová
44
KorelaceR=0,880
okres KI
20,019,519,018,518,017,517,0
Orlo
vá
23,0
22,5
22,0
21,5
21,0
20,5
02_8
01_7
00_11
45
Korelace R=-0,518
okres KI
20,019,519,018,518,017,517,0
Těr
licko
14,0
13,5
13,0
12,5
12,0
11,5
11,0
10,5
02_12
02_1
01_7
00_6
46
Korelace R=0,141
okres KI
20,019,519,018,518,017,517,0
Sto
nava
18
17
16
15
14
13
12
47
Výběr metody analýzy časových řad
účel analýzy typ časové řady,
zkušenosti statistika,
dostupná databáze,
softwarové a hardwarové vybavení.
48
Metody analýzy časových řad
dekompozice časové řady,
Boxova-Jenkinsova metodologie,
lineární dynamické modely,spektrální analýza časových řad.
49
Dekompozice časové řady
a) trend (Trt),
b) sezónní složku (Szt).
c) cyklickou složku (Ct).
d) náhodnou složku (Et).
50
Lineární dynamické modely
příčinné (kauzální) modely,
ttt uvv 1
v - míra volných pracovních míst
u - míra nezaměstnanosti
51
Boxova-Jenkinsova metodologie
modeluje nesystematickou složku, která je tvořena korelovanými náhodnými veličinami.
ARIMA(p,d,q), v případě sezónních vlivů SARIMA modely
AR(p) - autoregresivní modely
MA(q) - modely klouzavých průměrů reziduální složky
d - řád diferencování
52
Ukázka modelů SARIMA(1,1,0)(1,0,0) PHA, ZLK, MSK
53
Spektrální analýza časových řad
časová řada se považuje za kombinaci sinusových a kosinusových křivek s různými amplitudami a frekvencemi.
54
Dekompozice časové řady
a) trend (Trt),
b) sezónní složku (Szt).
c) cyklickou složku (Ct).
d) náhodnou složku (Et).
55
Formy dekompoziceAditivní dekompozice :
Multiplikativní dekompozice:
ttttt ESzCTry
ttttt ESzCTry
56
Klouzavý centrovaný průměr
rozdělení časové řady na úseky (např. 5), výpočet průměru a dosazení do xt,
posunout se o pozorování dál (t+1)
52112
tttttt
yyyyyMA
57
Př. KI a ZN: Klouzavé centrované roční průměry
0,0
5,0
10,0
15,0
20,0
25,0
I.95
VII.
95
I.96
VII.
96
I.97
VII.
97
I.98
VII.
98
I.99
VII.
99
I.00
VII.
00
I.01
VII.
01
I.02
VII.
02
datumu_KI u_ZN MA_KI MA_ZN
58
Klouzavý centrovaný roční průměr
12
5,05,0 6
5
56
ti
itt
t
yyyMA
tj. 11 období
59
Př. KI a ZN: Sezónní faktor
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
3,0
1 2 3 4 5 6 7 8 9 10 11 12
MěsícSF_KI SF_ZN
60
Př. ZN: Očištěná časová řada
0,0
2,0
4,0
6,0
8,0
10,0
12,0
14,0
16,0
18,0
I.99
IV.9
9
VII
.99
X.9
9
I.00
IV.0
0
VII
.00
X.0
0
I.01
IV.0
1
VII
.01
X.0
1
I.02
IV.0
2
VII
.02
X.0
2
datum
%
u_ZN u_ZN_očištěná
61
Přístupy k analýze trendů
klasickýmatematické analytické přístupy
adaptivníautomaticky reagují na případné změny
v charakteru trendu (např. na změny ve směrnici lineárního trendu).
62
Matematické analytické přístupy
Základní trendové funkcekonstantní, lineární, kvadratická(modifikovaný) exponenciální trend,S-křivka logistický trendGompertzův trend.
63
Klasické adaptivní metody
Klasická analýza = konstantní parametry v čase.
Adaptivní techniky = parametry se v čase se vyvíjí.
64
Exponenciální vyrovnánízaložena na všech předcházejících pozorováních,váha pozorování (w) do minulosti klesá exponenciálně
intenzita zapomínání od 0 do 1 tntw 1
0,0
0,1
0,2
0,3
0,4
0 1 2 3 4 5 6 7 8 9 10 11 12 13t
w
65
Exponenciální vyrovnání 1. stupně
Předpoklad: konstantní trend 0tTr
1ˆ)1(ˆ ttt yyy
13
14
15
16
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51
t
y
66
Exponenciální vyrovnání 2. stupně
Předpoklad: lineární trendPostup:Postup:
1. Stanovíme velikost =0,72. Vypočteme S1 a S2
3. Vyrovnaná časová řada
tTrt !0
1
1
21)1(2
1)1(1
ttt
ttt
SSS
SyS
ttt SSy 2)/)1(1(1)/)1(2(
67
4. vypočet míry odlišnosti vyrovnané od skutečné hodnoty pozorování např. průměrná čtvercová chyba (Mean of Squared Error )
5. optimalizace koeficientu minimalizací MSE pomocí nástroje Řešitel
n
yyMSE
n
ttt
2
1
Exponenciální vyrovnání 2. stupně
68
6. odhad 0 a 1 pro poslední období tj. 48.
7. provedeme bodovou predikci
)21(*))/1()48(212)48( 10 SSSS tt
)48()48()48( 10 tyt
69
Př. ZN: Exponenciální vyrovnání 2st
6,0
8,0
10,0
12,0
14,0
16,0
18,0
I.99
V.9
9
IX.9
9
I.00
V.0
0
IX.0
0
I.01
V.0
1
IX.0
1
I.02
V.0
2
IX.0
2
I.03
V.0
3
datum
%
u_ZN_očištěná exp_vyr
70
Př. ZN:Výsledná predikce včetně sezónního faktoru
0,00
2,00
4,00
6,00
8,00
10,00
12,00
14,00
16,00
18,00
I.99
IV.9
9
VII
.99
X.9
9
I.00
IV.0
0
VII
.00
X.0
0
I.01
IV.0
1
VII
.01
X.0
1
I.02
IV.0
2
VII
.02
X.0
2
I.03
IV.0
3
VII
.03
datum
%
u_ZN PREDIKCE
71
Př. ZN: 95% intervaly spolehlivosti predikce
10,0
11,0
12,0
13,0
14,0
15,0
16,0
17,0
18,0
1 2 3 4 5 6 7 8t
%
předpověď spodni horní