Úvod do analýzy časových řad

Preview:

DESCRIPTION

Úvod do analýzy časových řad. Doc. Ing. Jana Hančlová, CSc. Katedra matematických metod v ekonomice Ing. Lubor Tvrdý Katedra regionální ekonomiky Ekonomická fakulta, VŠB-TU Ostrava. Obsah prezentace. Cíl analýza časových řad Teoretické základy základní pojmy úpravy časových řad - PowerPoint PPT Presentation

Citation preview

1

Úvod do analýzy časových řad

Doc. Ing. Jana Hančlová, CSc.Katedra matematických metod v ekonomiceIng. Lubor TvrdýKatedra regionální ekonomikyEkonomická fakulta, VŠB-TU Ostrava

2

Obsah prezentace

Cíl analýza časových řad

Teoretické základy

základní pojmy

úpravy časových řad

problémy časových řad

Metody analýza časových řad

Diskuse, dílčí závěr

3

Cíl analýzy časových řad

konstrukce vhodného modelu za účelem:

porozumění mechanismu generující hodnoty časové řady

pochopení podmínek a vazeb působících na vznik těchto hodnot

simulace pomocí modelu

předpověď budoucího chování (historie se opakuje)

4

Základní pojmy - časová řadaČasovou řadou se rozumí posloupnost

hodnot ukazatelů, měřených v určitých časových intervalech (zpravidla ekvidistantních)

nyyy ,,, 21

ty , kde t=1, 2, …, n

y = ukazatel t = časová proměnná

5

Základní pojmy - druhy časových řad

Dle charakteru ukazateleokamžikovéintervalové

Dle druhu ukazateleabsolutníodvozené

6

Základní pojmyZákladní soubor (populace)

Výběrový soubor

7

Základní pojmy - popisné charakteristiky

charakteristiky polohy

charakteristiky variability

míry dynamiky

korelace

8

Charakteristiky polohy

prostý aritmetický průměr

vážený aritmetický průměr

modus

medián

9

Základní soubor

Výběrový soubor

- populační průměrx - výběrový průměr

- populační směrodatná odchylkas - výběrová směrodatná odchylka

Nux

1

u1- - pravděpodobnostní kvantil (např. u0,95 = 1,96)

Interval spolehlivost pro průměr

10

Charakteristiky variability

Rozptyl

směrodatná odchylka

2

1

2 )(1

1

n

tt yy

ns y

2

1

2 )(1

1

n

ttyy yy

nss

11

Statistická deskripce

105808 105808

0 0

88,46 1668,78

,18 1,50

77,02 1824,00

40,00 1997,50

61,04 488,94

9,58 -1,41

230,36 1,92

12,67 4,00

2843,93 4176,00

Platná

Chybná

N

Průměr

Směr. chyba průměru

Medián

Modus

Směrodatná odchylka

Šikmost

Špičatost

Minimum

Maximum

Průměrnáhodinová mzda

Odpracovanéhodiny za rok

12

Průměrná hodinová mzdapočet

13

Odpracovaný počet hodin za rokpočet

14

Příklad 2 - vývoj míry nezaměstnanosti (u) – Karviná, Znojmo (měsíčně _1995 – 2002)

0,0

5,0

10,0

15,0

20,0

25,0

I.95

VII.

95

I.96

VII.

96

I.97

VII.

97

I.98

VII.

98

I.99

VII.

99

I.00

VII.

00

I.01

VII.

01

I.02

VII.

02

Datum

%

u_KI

u_ZN

15

Příklad 2: Popisné charakteristiky

EXCELNástroje – Analýza

dat – Popisná statistika

u_KI u_ZN

Stř. hodnota 13,4751 9,5633Chyba stř. hodnoty 0,4837 0,3206Medián 14,1942 10,4061Modus #N/A #N/ASměr. odchylka 4,7389 3,1417Rozptyl výběru 22,4572 9,8701Špičatost -1,7317 -1,2589Šikmost -0,1577 -0,0957Rozdíl max-min 12,7459 10,7261Minimum 6,8351 4,7890Maximum 19,5810 15,5151Součet 1293,6064 918,0751Počet 96 96

16

Karviná

20,019,0

18,017,0

16,015,0

14,013,0

12,011,0

10,09,0

8,07,0

Karviná

Fre

qu

en

cy

30

20

10

0

Std. Dev = 4,74

Mean = 13,5

N = 96,00

Znojmo

Znojmo

Fre

qu

en

cy

14

12

10

8

6

4

2

0

Std. Dev = 3,14

Mean = 9,56

N = 96,00

Příklad 2 – histogramy

17

Míry dynamiky = str. 4

• absolutní přírůstek (první diference)

• koeficient (tempo) růstu

• meziroční koeficient růstu

• průměrný koeficient růstu

• relativní přírůstek

1 ttt yyy

1 ttt yyk /

44 ttt yyk /)(

11

132

nn

nn yykkkk /

111 )/(/ ttttt yyyy

18

Příklad 2 – Znojmo – míry dynamiky

Datum t Rok Měsíc u_ZN 1df 2df 3df k(t) k(4)(t) delta(t)

I.95 1 1995 1 7,43

II.95 2 1995 2 7,23 -0,21 0,972 -0,028

III.95 3 1995 3 6,44 -0,79 -0,58 0,891 -0,109

IV.95 4 1995 4 5,60 -0,84 -0,05 0,53 0,870 -0,130

V.95 5 1995 5 5,04 -0,56 0,28 0,33 0,899 -0,101

VI.95 6 1995 6 4,96 -0,08 0,48 0,21 0,984 -0,016

VII.95 7 1995 7 4,91 -0,05 0,04 -0,45 0,991 -0,009

VIII.95 8 1995 8 5,07 0,15 0,20 0,16 1,031 0,031

IX.95 9 1995 9 5,14 0,07 -0,08 -0,28 1,014 0,014

X.95 10 1995 10 5,08 -0,06 -0,13 -0,04 0,989 -0,011

XI.95 11 1995 11 5,53 0,45 0,51 0,63 1,089 0,089

XII.95 12 1995 12 6,09 0,56 0,11 -0,40 1,101 0,101

I.96 13 1996 1 6,83 0,75 0,19 0,08 1,123 0,919 0,123

II.96 14 1996 2 6,87 0,04 -0,71 -0,90 1,006 0,951 0,006

III.96 15 1996 3 6,26 -0,61 -0,65 0,05 0,911 0,972 -0,089

19

Míry dynamiky – míra nezaměstnanosti - Znojmo

-0,4

-0,2

0

0,2

0,4

0,6

0,8

1

1,2

1,4

1,6

1,8

k(t)

k(4)(t)

delta(t)

20

Korelace

1;11

yx

n

ttt

xy ss

yyxxs

Vyjadřuje relativní míru závislosti ve vzájemném vývoji dvou časových řad

21

Příklad 2_ závislost u_KI a u_ZNKorelace (u_KI, u_ZN)=

0,908EXCEL:

• CORREL(u_KI;u_ZN)

• Nástroje

Analýza dat

Korelace

22

Stacionární a nestacionární časová řada

Stacionární časová řada :konstantní průměrkonstantní variabilitukorelace dvou časově posunutých pozorování závisí na délce posunu

23

Příklad bílého šumu

-1

-0,8

-0,6

-0,4

-0,2

0

0,2

0,4

0,6

0,8

1

1 3 5 7 9 11

13

15

17

19

21

23

25

27

29

31

33

35

37

39

41

43

45

47

49

51

53

55

57

59

61

63

65

67

69

71

73

75

77

79

81

24

Základní úpravy časových řad

doplnění chybějících hodnot

časový posun

sezónní diference

kumulativní součet

vyhlazování časových řad

25

Doplnění chybějících hodnotMožné přístupy nahrazení:

nulou (např. u bílého šumu)průměrem či mediánem

(okolí či celý soubor)

lineární interpolacíregresí vhodnou křivkouodhadem na základě známého modelu chování procesu

26

Časový posun

Časový posun znamená vytvoření časové řady opožděné resp. předbíhající časovou řadu, ale jinak s ní totožnou. Představuje to vlastně posunutí časové řady “dopředu” případně “dozadu” oproti původní časové řadě. Nově vytvořené proměnné mají ovšem na začátku, resp. na konci tolik chybějících hodnot, o kolik kroků se posun prováděl.

27

Příklad 2 – u_ZN – časový posunDatum t Rok Měsíc u_ZN u_ZN(-1) u_ZN(-2) u_ZN(-3) u_ZN(-12)

I.95 1 1995 1 7,43

II.95 2 1995 2 7,23 7,43

III.95 3 1995 3 6,44 7,23 7,43

IV.95 4 1995 4 5,60 6,44 7,23 7,43

V.95 5 1995 5 5,04 5,60 6,44 7,23

VI.95 6 1995 6 4,96 5,04 5,60 6,44

VII.95 7 1995 7 4,91 4,96 5,04 5,60

VIII.95 8 1995 8 5,07 4,91 4,96 5,04

IX.95 9 1995 9 5,14 5,07 4,91 4,96

X.95 10 1995 10 5,08 5,14 5,07 4,91

XI.95 11 1995 11 5,53 5,08 5,14 5,07

XII.95 12 1995 12 6,09 5,53 5,08 5,14

I.96 13 1996 1 6,83 6,09 5,53 5,08 7,43

II.96 14 1996 2 6,87 6,83 6,09 5,53 7,23

III.96 15 1996 3 6,26 6,87 6,83 6,09 6,44

IV.96 16 1996 4 5,56 6,26 6,87 6,83 5,60

28

Sezónní diference

Sezónní diference je diference mezi okamžiky, vzdálenými o celistvý násobek délky periody.

Diference vyjadřuje velikost změny, ke které došlo mezi dvěma časovými okamžiky měření. Je-li kladná, řada v daném čase roste, je-li záporná, řada klesá. Diferencí se data zbavují lineárního trendu, sezónní diferencí sezónních vlivů.

29

Vývoj míry nezaměstnanosti (u)

0,0

5,0

10,0

15,0

20,0

25,0

I.95

VII.

95

I.96

VII.

96

I.97

VII.

97

I.98

VII.

98

I.99

VII.

99

I.00

VII.

00

I.01

VII.

01

I.02

VII.

02

Datum

%

u_KI

u_ZN

30

Kontingenční tabulka

Součet z u_ZN RokMěsíc 1995 1996 1997 1998 1999 2000 2001 2002 Celkový součet

1 7,43 6,83 6,99 10,45 13,00 14,98 14,02 14,78 88,492 7,23 6,87 7,06 10,62 13,29 14,73 13,70 14,47 87,953 6,44 6,26 6,23 10,29 12,87 13,72 12,43 13,56 81,814 5,60 5,56 5,56 9,34 11,92 12,33 11,34 12,36 74,025 5,04 5,00 5,59 8,81 11,48 11,30 10,36 11,89 69,476 4,96 4,79 5,45 8,54 11,17 10,67 9,77 11,36 66,717 4,91 4,88 5,87 8,39 10,79 10,71 9,87 11,59 67,028 5,07 4,93 6,21 8,78 11,10 10,75 10,25 11,96 69,049 5,14 5,00 7,05 9,60 11,32 10,88 10,48 12,63 72,10

10 5,08 4,99 7,57 9,79 11,18 10,75 11,01 12,66 73,0311 5,53 5,53 8,22 10,52 12,17 11,45 11,77 13,87 79,0712 6,09 6,07 9,39 11,93 13,88 12,99 13,53 15,52 89,38

Celkový součet 68,52 66,71 81,19 117,06 144,17 145,25 138,53 156,65 918,08

EXCEL: Data – kontingenční tabulka a graf

31

Vývoj u - Znojmo - měsíčně

4,0

6,0

8,0

10,0

12,0

14,0

16,0

1 2 3 4 5 6 7 8 9 10 11 12

1995

1996

1997

1998

1999

2000

2001

2002

32

Vývoj u - Karviná - měsíčně

5,0

7,0

9,0

11,0

13,0

15,0

17,0

19,0

21,0

1 2 3 4 5 6 7 8 9 10 11 12

1995

1996

1997

1998

1999

2000

2001

2002

33

Diference 1. řádu

-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

I.95

VII.

95

I.96

VII.

96

I.97

VII.

97

I.98

VII.

98

I.99

VII.

99

I.00

VII.

00

I.01

VII.

01

I.02

VII.

02

datumdi_u_KI di_u_ZN

34

Sezónní diference 1. řádu (= meziroční diference)

-2,0

-1,0

0,0

1,0

2,0

3,0

4,0

5,0

6,0

I.95

VII.

95

I.96

VII.

96

I.97

VII.

97

I.98

VII.

98

I.99

VII.

99

I.00

VII.

00

I.01

VII.

01

I.02

VII.

02

datumsdi_u_KI sdi_u_ZN

35

Základní pojmy = kumulativní součetOpačnou operací k diferenci je kumulativní součet

časové řady. = součet pozorování za určitý časový úsek.Kumulativním součtem bílého šumu = náhodná procházka, protože nikdy nelze předvídat, zda tato funkce se obrátí vzhůru nebo dolů (tzv. procházka “opilého námořníka”). Náhodná procházka je hladší nežli bílý šum, jelikož integrace potlačuje vyšší frekvenční složky a zvýrazní nižší frekvence.

36

Obr. 4: Náhodná procházka tj. nepredikovatelná časová řada

-1

-0.5

0

0.5

1

1.5

2

2.5

3

3.5

4

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79

37

Vyhlazování časových řad

Předpoklad: nahodilá chyba očekávanou hodnotu jednou zvětší a jindy zase zmenší ( tj. její střední hodnota je nulová) a jednotlivé chyby nejsou vzájemně závislé (tj. nekorelované), můžeme pak očekávat, že zprůměrováním několika po sobě následujících pozorování budou se chyby mít tendenci navzájem rušit, zatímco skutečná sledovaná hodnota procesu tím vynikne. Na tomto pozorování jsou založeny metody vyhlazování časových řad.

38

Problémy časových řads volbou časových bodů:

ookamžikové,o intervalové;

s kalendářem: o různá délka měsíců

(viz vyrovnání různého počtu dní v měsíci str. 9) o různý počet víkendů v měsíci ,o různý počet pracovních dnů v měsíci ,opohyblivé svátky; s délkou časových řad;

nesrovnatelností dat (výběrový vzorek a jeho reprezentativnost v čase)

,)(

t

tt

očištěnát p

pyy

kde yt – hodnota očišťovaného ukazatele,

pt – počet pracovních dní v měsíci t,

tp- průměrný počet pracovních dní v měsíci za rok (30,42) či jiný základ např. 30 dní.

39

Příklad 3:Postup analýzy ukazatelů na úrovni obce

Základní deskripce

Analýza vztahů

Závěr

40

Deskripce statistická (u, 1995-2002)Statistic

16,183 17,500 5,4588 8,1 22,7 14,6 11,050 -,209 -1,714

15,926 16,400 5,4929 8,2 22,8 14,6 11,675 -,129 -1,751

14,821 15,700 6,0195 6,2 22,3 16,1 12,475 -,204 -1,702

13,978 16,250 6,4371 4,4 22,8 18,4 12,775 -,295 -1,638

13,552 15,900 5,1840 5,6 19,6 14,0 10,775 -,400 -1,568

13,245 13,100 6,5792 4,4 22,1 17,7 14,075 -,046 -1,726

12,461 13,150 4,5613 5,9 19,0 13,1 9,375 -,181 -1,625

12,205 12,900 5,5899 4,8 18,7 13,9 12,025 -,119 -1,774

11,081 11,450 4,3507 4,8 16,8 12,0 9,275 -,127 -1,677

10,509 11,350 4,6365 3,4 17,5 14,1 9,275 -,126 -1,446

9,817 10,300 4,7666 3,3 16,5 13,2 10,400 -,100 -1,650

9,692 9,800 4,8699 2,9 16,4 13,5 10,450 -,067 -1,721

9,379 9,800 3,9304 3,7 14,8 11,1 7,850 -,091 -1,717

8,995 11,050 4,5367 2,8 15,0 12,2 9,700 -,231 -1,761

8,411 9,050 3,5868 2,7 15,8 13,1 5,950 ,141 -1,074

7,917 8,100 4,0624 2,1 13,8 11,7 8,200 -,190 -1,579

Název obceKarviná

Orlová

Petřvald

Doubrava

Český Těšín

Horní Suchá

Bohumín

Havířov

Rychvald

Stonava

Albrechtice

Dětmarovice

Petrovice u Karviné

Dolní Lutyně

Chotěbuz

Těrlicko

Prů

r

Me

dia

n

Sm

ěro

da

tná

od

chyl

ka

Min

imu

m

Ma

xim

um

Ro

zpě

Inte

rqu

art

ileR

an

ge

Šik

mo

st

Šp

iča

tost

41

Deskripcegrafická

(u, 1995-2002)

42

Analýza vztahů

43

Grafickévyjádření

t

200220012000

iu 24

22

20

18

16

14

12

10

okres KI

Těrlicko

Orlová

44

KorelaceR=0,880

okres KI

20,019,519,018,518,017,517,0

Orlo

23,0

22,5

22,0

21,5

21,0

20,5

02_8

01_7

00_11

45

Korelace R=-0,518

okres KI

20,019,519,018,518,017,517,0

Těr

licko

14,0

13,5

13,0

12,5

12,0

11,5

11,0

10,5

02_12

02_1

01_7

00_6

46

Korelace R=0,141

okres KI

20,019,519,018,518,017,517,0

Sto

nava

18

17

16

15

14

13

12

47

Výběr metody analýzy časových řad

účel analýzy typ časové řady,

zkušenosti statistika,

dostupná databáze,

softwarové a hardwarové vybavení.

48

Metody analýzy časových řad

dekompozice časové řady,

Boxova-Jenkinsova metodologie,

lineární dynamické modely,spektrální analýza časových řad.

49

Dekompozice časové řady

a) trend (Trt),

b) sezónní složku (Szt).

c) cyklickou složku (Ct).

d) náhodnou složku (Et).

50

Lineární dynamické modely

příčinné (kauzální) modely,

ttt uvv 1

v - míra volných pracovních míst

u - míra nezaměstnanosti

51

Boxova-Jenkinsova metodologie

modeluje nesystematickou složku, která je tvořena korelovanými náhodnými veličinami.

ARIMA(p,d,q), v případě sezónních vlivů SARIMA modely

AR(p) - autoregresivní modely

MA(q) - modely klouzavých průměrů reziduální složky

d - řád diferencování

52

Ukázka modelů SARIMA(1,1,0)(1,0,0) PHA, ZLK, MSK

53

Spektrální analýza časových řad

časová řada se považuje za kombinaci sinusových a kosinusových křivek s různými amplitudami a frekvencemi.

54

Dekompozice časové řady

a) trend (Trt),

b) sezónní složku (Szt).

c) cyklickou složku (Ct).

d) náhodnou složku (Et).

55

Formy dekompoziceAditivní dekompozice :

Multiplikativní dekompozice:

ttttt ESzCTry

ttttt ESzCTry

56

Klouzavý centrovaný průměr

rozdělení časové řady na úseky (např. 5), výpočet průměru a dosazení do xt,

posunout se o pozorování dál (t+1)

52112

tttttt

yyyyyMA

57

Př. KI a ZN: Klouzavé centrované roční průměry

0,0

5,0

10,0

15,0

20,0

25,0

I.95

VII.

95

I.96

VII.

96

I.97

VII.

97

I.98

VII.

98

I.99

VII.

99

I.00

VII.

00

I.01

VII.

01

I.02

VII.

02

datumu_KI u_ZN MA_KI MA_ZN

58

Klouzavý centrovaný roční průměr

12

5,05,0 6

5

56

ti

itt

t

yyyMA

tj. 11 období

59

Př. KI a ZN: Sezónní faktor

-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

2,5

3,0

1 2 3 4 5 6 7 8 9 10 11 12

MěsícSF_KI SF_ZN

60

Př. ZN: Očištěná časová řada

0,0

2,0

4,0

6,0

8,0

10,0

12,0

14,0

16,0

18,0

I.99

IV.9

9

VII

.99

X.9

9

I.00

IV.0

0

VII

.00

X.0

0

I.01

IV.0

1

VII

.01

X.0

1

I.02

IV.0

2

VII

.02

X.0

2

datum

%

u_ZN u_ZN_očištěná

61

Přístupy k analýze trendů

klasickýmatematické analytické přístupy

adaptivníautomaticky reagují na případné změny

v charakteru trendu (např. na změny ve směrnici lineárního trendu).

62

Matematické analytické přístupy

Základní trendové funkcekonstantní, lineární, kvadratická(modifikovaný) exponenciální trend,S-křivka logistický trendGompertzův trend.

63

Klasické adaptivní metody

Klasická analýza = konstantní parametry v čase.

Adaptivní techniky = parametry se v čase se vyvíjí.

64

Exponenciální vyrovnánízaložena na všech předcházejících pozorováních,váha pozorování (w) do minulosti klesá exponenciálně

intenzita zapomínání od 0 do 1 tntw 1

0,0

0,1

0,2

0,3

0,4

0 1 2 3 4 5 6 7 8 9 10 11 12 13t

w

65

Exponenciální vyrovnání 1. stupně

Předpoklad: konstantní trend 0tTr

1ˆ)1(ˆ ttt yyy

13

14

15

16

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51

t

y

66

Exponenciální vyrovnání 2. stupně

Předpoklad: lineární trendPostup:Postup:

1. Stanovíme velikost =0,72. Vypočteme S1 a S2

3. Vyrovnaná časová řada

tTrt !0

1

1

21)1(2

1)1(1

ttt

ttt

SSS

SyS

ttt SSy 2)/)1(1(1)/)1(2(

67

4. vypočet míry odlišnosti vyrovnané od skutečné hodnoty pozorování např. průměrná čtvercová chyba (Mean of Squared Error )

5. optimalizace koeficientu minimalizací MSE pomocí nástroje Řešitel

n

yyMSE

n

ttt

2

1

Exponenciální vyrovnání 2. stupně

68

6. odhad 0 a 1 pro poslední období tj. 48.

7. provedeme bodovou predikci

)21(*))/1()48(212)48( 10 SSSS tt

)48()48()48( 10 tyt

69

Př. ZN: Exponenciální vyrovnání 2st

6,0

8,0

10,0

12,0

14,0

16,0

18,0

I.99

V.9

9

IX.9

9

I.00

V.0

0

IX.0

0

I.01

V.0

1

IX.0

1

I.02

V.0

2

IX.0

2

I.03

V.0

3

datum

%

u_ZN_očištěná exp_vyr

70

Př. ZN:Výsledná predikce včetně sezónního faktoru

0,00

2,00

4,00

6,00

8,00

10,00

12,00

14,00

16,00

18,00

I.99

IV.9

9

VII

.99

X.9

9

I.00

IV.0

0

VII

.00

X.0

0

I.01

IV.0

1

VII

.01

X.0

1

I.02

IV.0

2

VII

.02

X.0

2

I.03

IV.0

3

VII

.03

datum

%

u_ZN PREDIKCE

71

Př. ZN: 95% intervaly spolehlivosti predikce

10,0

11,0

12,0

13,0

14,0

15,0

16,0

17,0

18,0

1 2 3 4 5 6 7 8t

%

předpověď spodni horní

Recommended