112
UNIVERZA V LJUBLJANI FAKULTETA ZA RA ˇ CUNALNI ˇ STVO IN INFORMATIKO Marko Bratina MODELIRANJE NELINEARNIH DINAMI ˇ CNIH SISTEMOV Z METODAMI TEORIJE INFORMACIJ DOKTORSKA DISERTACIJA Mentor: doc. dr. Uroˇ s Lotriˇ c Ljubljana, 2009

MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

UNIVERZA V LJUBLJANIFAKULTETA ZA RACUNALNISTVO IN INFORMATIKO

Marko Bratina

MODELIRANJE NELINEARNIH

DINAMICNIH SISTEMOV Z METODAMI

TEORIJE INFORMACIJ

DOKTORSKA DISERTACIJA

Mentor: doc. dr. Uros Lotric

Ljubljana, 2009

Page 2: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009
Page 3: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

Za obilico nasvetov in strokovno pomoc pri pripravi doktorske disertacije se v prvivrsti zahvaljujem mentorju doc. dr. Urosu Lotricu.

Za stevilne ideje in tehtne pripombe se zahvaljujem prof. dr. Andreju Dobnikarjuin ostalim clanom Laboratorija za adaptivne sisteme in paralelno procesiranje na

Fakulteti za racunalnistvo in informatiko Univerze v Ljubljani.

Zahvaljujem se podjetju Savatech d.o.o., ki mi je doktorski studij financnoomogocilo ter sodelavcem za nesebicno strokovno pomoc.

Nenazadnje in iz srca gre moja zahvala tudi mojim bliznjim, predvsem pa zeniAlenki, ki so mi ves cas priprave tega dela stali ob strani.

Vsem najlepsa hvala.

Page 4: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009
Page 5: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

Povzetek

Splosni modeli dinamicnih sistemov poskusajo izlusciti pomembne lastnosti pro-cesov, ki potekajo v njih, neposredno iz obnasanja merljivih kolicin sistema inokolja skozi cas. Vecina splosno uveljavljenih metod za analizo in modeliranje sis-temov v veliki meri predpostavlja statistiko drugega reda. V zadnjem casu se zaresevanje vse zahtevnejsih problemov uveljavljajo resitve, ki presegajo njene ome-jitve. Zmogljivosti sodobnih racunalniskih sistemov so omogocile uporabo idej in-formacijske teorije tudi na tem podrocju. Definicije osnovnih mer teorije informacij,to je entropije, divergence in povprecne medsebojne informacije, izhajajo iz ver-jetnostne teorije in statistike. Vsaka mera v svojem kontekstu opredeljuje kolicinoinformacije in nedolocenost v slucajnih spremenljivkah, zato jih lahko ucinkovitouporabimo tudi pri modeliranju.

Pogosto imamo o opazovanem sistemu na voljo prevec povezanih podatkov,ki otezijo modeliranje. Z metodami za iskanje vplivnih spremenljivk ali znacilkzato poskusamo iz vhodnih podatkov izlusciti najpomembnejse znacilke ter s tempoenostaviti modeliranje in izboljsati odzivnost modelov ter njihovo sposobnost pos-plosevanja. Povprecna medsebojna informacija in divergenca merita medsebojnopovezanost podatkov, zato sta zelo primerni za dolocanje nabora najpomembnejsihznacilk. Z medsebojno informacijo lahko za vsak nabor spremenljivk na vhoduv model ugotovimo, koliko informacije o iskanem izhodu vsebuje. V povezavi zmetodami preiskovanja prostora lahko nato dolocimo najustreznejsi nabor znacilk.Podobno lahko divergenco uporabimo kot mero pri analizi neodvisnih komponent, skatero dobimo znacilke, sestavljene kot linearne kombinacije elementov v osnovnihvzorcih.

Analizo neodvisnih komponent lahko uporabimo tudi kot metodo za lokaliziranjeizjemnih dogodkov ali sokov, ki pomembno vplivajo na spremembe v sistemu in s temna njegovo bodoce obnasanje. V primeru ponavljajocih se procesov pa izsledke ana-lize lahko uporabimo tudi za napovedovanje. Predlagali in ovrednotili smo metodo,ki kot nabor znacilk uporabi vrednosti opazovanih kolicin v trenutkih, ko smo zanalizo neodvisnih komponent identificirali soke.

Omenjene metode izbiranja znacilk smo preizkusili pri modeliranju z nevronskimimrezami in jih primerjali z nekaterimi klasicnimi metodami. Nevronske mreze sosplosni modeli, sestavljeni iz enakih enostavnih gradnikov ali nevronov, ki utezenovsoto vhodov nelinearno preslikajo na izhod. Glede na to, kako so nevroni medse-bojno povezani, locimo mnogo razlicnih tipov nevronskih mrez. Omejili smo se navecplastni perceptron, v katerem so nevroni razporejeni v poljubno stevilo plasti.Nevroni v plasti so povezani samo z nevroni sosednjih plasti, ne pa med seboj. Takatopologija modela omogoca uporabo ucinkovitih gradientnih postopkov za nastav-

i

Page 6: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

ii

ljanje prostih parametrov modela ali ucenja. To klasicno poteka z minimizacijocenilne funkcije povprecne kvadratne napake. Slednjo pa lahko ucinkovito nadomes-timo tudi z minimizacijo entropije napake, ki meri nedolocenost napak na izhodu,saj se model tem bolje prilagaja podatkom, cim manjsa je nedolocenost.

Primernost mer, ki izhajajo iz teorije informacij, za izbiranje in dolocanje znacilkkot tudi za sam proces ucenja, smo ovrednotili na problemu napovedovanja casovnihvrst in na problemu gradnje prediktivnega modela vodenja mesalnika kavcukovihzmesi.

Analize napovedovanja casovnih vrst so pokazale, da se pri napovedovanju zveznihvrednosti zelo dobro obnasajo modeli, pri katerih so bile znacilke dolocene z metodoneodvisnih komponent. Pri uvrscanju napovedi v diskretne razrede se je dobroizkazala tudi metoda najznacilnejsih projekcij, ki kot mero uporablja pogojno en-tropijo. Slabse rezultate smo dobili v primerih, ko smo znacilke izbirali na podlagimedsebojne informacije, kar pa je posledica premajhnega stevila podatkov. Hkratise je pokazalo, da je ucenje z minimizacijo entropije napake zelo uspesno pri napove-dovanju zveznih vrednosti, medtem ko se pri uvrscanju v razrede obnasa bistvenoslabse.

Pri proizvodnji kavcukovih zmesi se je pokazala potreba po zaprtozancnem vo-denju procesa mesanja, saj kvaliteta zmesi zaradi razlicnih vplivov, na primer razlikev sestavi surovin, temperature okolice in temperature same mesalne komore, pre-cej niha. Nihanja v kvaliteti zmesi je mogoce zmanjsati z ustreznimi ukrepi medsamim mesanjem. Edina oprijemljiva povratna informacija o dogajanju v mesalnikuje potek viskoznosti oziroma navora, ki mu je sorazmerna. V ta namen smo zasno-vali prediktivne modele vodenja procesa mesanja kavcukovih zmesi, ki na podlagiobnasanja procesa kvalitativno ocenijo ali je potek krivulje navora dober oziromaali so potrebni manjsi oziroma vecji popravki. Pri gradnji modelov za ocenjevanjepopravkov so se odlicno izkazale predlagane metode izbiranja znacilk v povezavi z de-tekcijo sokov. Z vzpostavitvijo zaprtozancnega vodenja na industrijskem mesalnikusmo potrdili ustreznost uporabljenega sistema vodenja, saj smo uspeli zmanjsativariabilnost samega procesa.

Kljucne besede: nelinearni dinamicni sistemi,teorija informacij,dolocanje znacilk,modeliranje z nevronskimi mrezaminapovedovanje casovnih vrst,prediktivni model vodenja procesa mesanja kavcukovih zmesi.

Page 7: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

Modeling of Nonlinear DynamicalSystem using InformationTheoretic Methods

Abstract

General purpose models of dynamical systems are based on extracting importantinformation regarding the underlying processes directly from the measurable processdata. Commonly used methods for system analysis and modeling are based onsecond order statistics. Lately, however, solutions exceeding its limitations have beenproposed. Growing potential of contemporary computer systems has encouraged theuse of methods originating from information theory in this field. The definitions ofbasic measures in information theory, i.e., entropy, divergence and average mutualinformation, are based on probability theory and statistics. Each of these measuresin its own frame determines the quantity of information and uncertainty of randomvariables and can therefore be used also in the modeling.

In the set of measured process data, some of them may be mutually depen-dent and they do not provide any new information about the system. Moreover, ifthis dependency is not detected, it results in larger and more complicated models.Therefore, applying feature extraction methods to input data prior to modeling isexpected to result in simplifying the modeling procedure and improving the gener-alization properties of the obtained model. Average mutual information and diver-gence, which both measure mutual dependency among data, are most suitable ascriteria in the process of feature extraction. Using mutual information it can be de-termined how much information about a given output is contained in each input set.In combination with optimization methods the most appropriate set of features canthus be found. Similarly, divergence may be used as a measure in the independentcomponent analysis where features are obtained as linear combinations of inputs.

Independent component analysis may also be used as method for localizing excep-tional events, shocks, with a strong influence on the future behavior of the system.If we are dealing with a repeatable process, the results of such analysis are alsoapplicable for prediction. Therefore, a method which uses inputs in times of shocksas features in further modeling was proposed and tested.

Methods for feature extraction based on information theory were tested in combi-nation with neural network modeling and compared to several classical approaches.The neural networks are general purpose models, comprised from identical simple

iii

Page 8: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

iv

units, called neurons, which map the weighted sum of its own inputs to output.Regarding the topology of connections among neurons, a variety of neural networkswere proposed. In this work, only the multilayered perceptron is used. In thiscase, neurons are arranged in layers and each neuron is connected to all neuronsin neighboring layer, but not to neurons in its own layer. The great advantage ofthis topology lies in the fact that very effective gradient learning techniques areavailable for setting the free parameters of the model. The learning is based onminimizing a selected criterion function. Most commonly, the mean squared error isused as the criterion function. However, it may be replaced by entropy of the errorwhich measures the uncertainty of errors on the output of the model - the lower thisuncertainty is the better model fits the data.

The performance of measures originating from information theory in the featureextraction process and in learning process was tested on problems of time series pre-diction and on problem of building a model predictive control of rubber compoundmixer.

Time series prediction problem analyses have revealed that models includingindependent component analysis of feature extractions give the best prediction offuture value. If the problem is slightly modified so that only classification of fu-ture value in one of the predefined classes in predicted, the method of maximallydiscriminative projections with the conditional entropy as a measure, has also per-formed well. Feature extraction based on mutual information yielded poorer results,mainly due to low number of data. At the same time, it was shown the learningusing minimization of entropy of the error gives good results in case of future valueprediction, while it is not suitable in case of classification prediction.

In the rubber compound production the quality of the final product dependsstrongly on several parameters, such as quality of input materials, ambient temper-ature and chamber temperature. To reduce the deviations in the quality of the finalproduct in spite of changes in the input and process parameters, a need for closedloop control has emerged. The closed loop control is based on the information aboutthe viscosity of the compound, measured as the motor torque. A model predictivecontrol was designed which gives a prediction of classification of the torque curvebased on the time course of viscosity. According to this classification, the torque ofthe motor is changed by changing the rate of rotation. In this problem, the modelusing the proposed method of feature extraction based on shock detection performedwell. The closed loop controller of the rubber compound mixing process has in factreduced the variations of the quality of the final rubbed compound.

Keywords: nonlinear dynamical system,information theory,feature extraction,neural network modelingtime series forecasting,model predictive control of rubber mixing process.

Page 9: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

Kazalo

1. Uvod 1

2. Teorija informacij 52.1. Shannonove informacijske mere . . . . . . . . . . . . . . . . . . . . . 52.2. Renyijeva posplositev teorije informacij . . . . . . . . . . . . . . . . . 9

3. Izbiranje vplivnih podatkov za modeliranje 133.1. Dolocanje znacilk z izbiranjem podatkov . . . . . . . . . . . . . . . . 14

3.1.1. Korelacijska in spektralna analiza . . . . . . . . . . . . . . . . 143.1.2. Izbiranje vplivnih podatkov v povezavi z modelom . . . . . . . 163.1.3. Povprecna medsebojna informacija kot kriterij za izbiranje

vplivnih podatkov . . . . . . . . . . . . . . . . . . . . . . . . . 173.2. Dolocanje znacilk s preoblikovanjem podatkov . . . . . . . . . . . . . 19

3.2.1. Analiza glavnih osi . . . . . . . . . . . . . . . . . . . . . . . . 193.2.2. Analiza neodvisnih komponent . . . . . . . . . . . . . . . . . . 213.2.3. Metoda najznacilnejsih projekcij . . . . . . . . . . . . . . . . . 253.2.4. Ilustracija uporabe metode PCA in metod ICA . . . . . . . . 27

4. Nevronske mreze 314.1. Matematicni model . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.2. Nadzorovano ucenje . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.2.1. Minimizacija povprecne kvadratne napake . . . . . . . . . . . 364.2.2. Minimizacija entropije napake . . . . . . . . . . . . . . . . . . 374.2.3. Primerjava obeh postopkov ucenja . . . . . . . . . . . . . . . . 38

5. Napovedovanje casovnih vrst 415.1. Predstavitev casovnih vrst . . . . . . . . . . . . . . . . . . . . . . . . 415.2. Napovedovanje naslednje vrednosti . . . . . . . . . . . . . . . . . . . 45

5.2.1. Analiza rezultatov za posamezne casovne vrste . . . . . . . . . 485.2.2. Primerjava metod dolocanja znacilk in metod ucenja . . . . . 52

5.3. Uvrscanje napovedi v razrede . . . . . . . . . . . . . . . . . . . . . . 545.3.1. Analiza rezultatov za posamezne casovne vrste . . . . . . . . . 545.3.2. Primerjava metod dolocanja znacilk in metod ucenja . . . . . 59

6. Modeliranje procesa mesanja kavcukovih zmesi 616.1. Proizvodna linija za kavcukove zmesi . . . . . . . . . . . . . . . . . . 626.2. Proces mesanja kavcukove zmesi . . . . . . . . . . . . . . . . . . . . . 64

v

Page 10: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

vi Kazalo

6.3. Testne zmesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 666.4. Obvladovanje procesa mesanja . . . . . . . . . . . . . . . . . . . . . . 69

6.4.1. Vplivni parametri . . . . . . . . . . . . . . . . . . . . . . . . . 706.4.2. Prediktivni model procesa mesanja . . . . . . . . . . . . . . . 72

6.5. Napovedovanje zveznih vrednosti navora . . . . . . . . . . . . . . . . 736.6. Kvalitativno napovedovanje poteka navora . . . . . . . . . . . . . . . 75

6.6.1. Metoda izbiranja znacilk z detekcijo sokov . . . . . . . . . . . 766.6.2. Analiza modelov po zmeseh . . . . . . . . . . . . . . . . . . . 796.6.3. Primerjava metod dolocanja znacilk . . . . . . . . . . . . . . . 86

6.7. Vodenje industrijskega mesalnika . . . . . . . . . . . . . . . . . . . . 88

7. Zakljucek 91

Literatura 95

Page 11: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

1.

Uvod

V naravi neprestano poteka mnozica procesov. Med njimi so bioloski procesi, kiomogocajo razvoj zivih organizmov na Zemlji, kemijski in fizikalni procesi, ki spre-minjajo stanje snovi, pa tudi druzbeni in ekonomski procesi, ki vplivajo na odnosemed ljudmi. Ljudje poskusamo z opazovanjem in proucevanjem procesov razumetinjihovo obnasanje, da bi vedeli kaj lahko od njih pricakujemo. Se vec, z ustreznimukrepanjem zelimo vplivati na njihovo prihodnje obnasanje.

Pri tem se navadno omejimo na neko smiselno celoto, ki jo lahko matematicnoobravnavamo kot sistem. Zavedati se moramo, da taksni sistemi navadno nisoizolirani in nanje vpliva tudi okolica. Z opazovanjem in proucevanjem sistemovposkusamo sestaviti cim bolj natancne modele procesov, ki tecejo v njih. Razno-likost procesov je botrovala razvoju sirokega spektra razlicnih modelov. Glede namatematicno relacijo med vhodom in izhodom locimo enostavnejse linearne in kom-pleksnejse nelinearne modele sistemov. Medtem ko pri prvih izhod lahko podamokot linearno kombinacijo vhodov, pri slednjih to ni mogoce. Vecina sistemov v na-ravi je nelinearnih, se posebej zanimivi pa so dinamicni sistemi, ki se spreminjajoskozi cas.

Mnoge sisteme lahko opisemo z enacbami, ki izhajajo iz teoreticnih znanj. Vtaksnih primerih na podlagi opazovanj dolocimo proste parametre modela tako, dakar najbolj verno posnema obnasanje realnega sistema. Na zalost taksno parametri-cno modeliranje mnogokrat ni mogoce. Velikokrat namrec poznamo samo osnovnezakonitosti obnasanja sistemov, ne pa vseh potrebnih podrobnosti. Lahko se tudizgodi, da so enacbe prevec zapletene, da bi iz njih sestavili uporaben model. V takihprimerih si pomagamo s splosnimi neparametricnimi modeli. Ti poskusajo izluscitipomembne dejavnike o sistemu kar neposredno iz njihovega preteklega obnasanjain zunanjih vplivov. Zato so modeli dinamicnih sistemov obicajno zgrajeni tako,da na vhodu sprejemajo podatke o njihovem preteklem in trenutnem obnasanju, naizhodu pa vracajo napoved prihodnjega obnasanja. Ce so procesi stacionarni, karpomeni da se njihove osnovne statisticne znacilnosti skozi cas ohranjajo, potem lahkomodel zgradimo samo na osnovi preteklega obnasanja. Za nestacionarne procese jepotrebno model nenehno prilagajati.

Linearne dinamicne sisteme lahko dobro modeliramo z enostavnimi neparame-tricnimi modeli kot sta avtoregresijski model, ki ga je leta 1927 razvil Yule [1],in model ARMA, ki sta ga leta 1971 predstavila Box in Jenkins [2] ter njunimi

1

Page 12: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

2 1. Uvod

kasnejsimi izpeljankami [3]. Danes se za modeliranje nelinearnih dinamicnih pro-cesov zelo uspesno uporabljajo nevronske mreze, ki spadajo v skupino splosnihneparametricnih nelinearnih modelov [4, 5, 6]. Nevronske mreze so zgrajene napodlagi podobnosti s clovekovim zivcnim sistemom. Osnovne enote, zivcne celiceali nevroni, so na najrazlicnejse nacine povezane v vecje strukture, ki jih imenu-jemo nevronske mreze. Do velike razsiritve uporabe modelov nevronskih mrez jeprislo po predstavitvi vecplastne usmerjene nevronske mreze z vzvratnim ucnimpostopkom [7]. Ta nevronska mreza je zaradi svoje enostavne zgradbe in dobrihrezultatov pri vecini problemov postala standardno orodje. Prosti parametri napovezavah med nevroni dajejo nevronskim mrezam veliko sposobnost prilagajanja napoljubne vhodno-izhodne preslikave. Med modeliranjem poteka prilagajanje prostihparametrov ali ucenje po dolocenem, obicajno nadzorovanem, ucnem postopku, prikaterem se optimizira izbrana cenilna funkcija.

Velikokrat imamo o opazovanem sistemu na voljo ogromne kolicine podatkov, kimocno otezijo in upocasnijo modeliranje, saj za njihovo obvladovanje potrebujemozelo obsezne modele. Zaradi prilagajanja na vse, tudi nepomembne, podrobnosti,se kaj rado zgodi, da obsezni modeli slabo posplosujejo pridobljeno znanje. Zatoje ena od pomembnih faz pri modeliranju kompleksnih procesov izbiranje najboljvplivnih podatkov. Med standardne tehnike za izbiranje relevantnih podatkov sodijona primer korelacijska analiza, spektralna analiza in metoda glavnih osi - metodaPCA (ang. Principle Component Analysis). Druga pomembna faza modeliranja jeiskanje prostih parametrov modela, ki se kar najbolje prilagajajo samemu sistemu.Pri modeliranju sistemov s splosnimi neparametricnimi modeli se za cenilno funkcijo,ki meri uspesnost prileganja modela in sistema, obicajno uporablja srednji kvadratnapake med pravimi vrednostmi in vrednostmi na izhodu iz modela. Razlogi zaveliko razsirjenost te cenilne funkcije so dosedanja uspesna uporaba, dobra podprtostz matematicnimi formalizmi in velika izbira ucnih postopkov [8].

Vecina splosno uveljavljenih metod za analizo in modeliranje sistemov v velikimeri predpostavlja Gaussovo porazdelitev napak in na njej zasnovano statistikodrugega reda z merami, kot so povprecje, varianca in povprecna kvadratna napaka.Velika priljubljenost navedenih mer gre predvsem na racun enostavnega analiticnegazapisa. Po drugi strani pri mnogih realnih problemih statistika drugega reda pred-stavlja omejitev tako pri analizi kot pri modeliranju sistemov. V zadnjem casu seza resevanje vse zahtevnejsih problemov uveljavljajo resitve, ki presegajo te ome-jitve [9, 10, 11]. Nekatere resitve, katerih razcvet je omogocila vse vecja zmogljivostsodobnih racunalniskih sistemov, izhajajo iz teorije informacij. Njene osnove izha-jajo iz konca prve polovice 20. stoletja, ko je Shannon postavil matematicno teorijoza obravnavanje temeljnih vidikov komunikacijskih sistemov [12, 13]. Definiciji os-novnih mer, to je entropije in divergence, izhajata iz verjetnostne teorije in statis-tike. Entropija na podlagi porazdelitve podatkov meri njihovo nedolocenost in pred-stavlja posplositev variance na ne Gaussove porazdelitve. Divergenca na drugi stranimeri statisticno podobnost med porazdelitvama dveh vrst podatkov. Posebno za-nimiva oblika divergence je medsebojna informacija, ki meri koliko informacije oeni spremenljivki lahko dobimo iz drugih spremenljivk. Vsaka mera v svojem kon-tekstu opredeljuje kolicino informacije v nakljucnih spremenljivkah, zato jo lahkoucinkovito uporabimo tudi na drugih podrocjih.

Page 13: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

3

Divergenco in povprecno medsebojno informacijo, na primer, lahko uporabimopri izbiranju relevantnih podatkov kot meri za njihovo medsebojno povezanost [14].Po eni strani lahko z mero medsebojne informacije kar neposredno iz njene defini-cije dolocimo cim manjse nabore vhodov v sistem, ki vsebujejo vecino informacije onjegovem izhodu [15]. Med vsemi kombinacijami je za modeliranje najbolj primernatista, pri kateri je povprecna medsebojna informacija najvecja. Po drugi strani lahkoneodvisne prispevke med podatki iscemo tudi z bolj kompleksnimi postopki, kot jena primer analiza neodvisnih komponent - metoda ICA (ang. Independent Com-ponent Analysis) [16], ki je v nekem smislu posplositev metode PCA. Za dolocanjeneodvisnih prispevkov se poleg klasicnih pristopov z uporabo statistike visjih redovlahko uporablja tudi mero, ki izhaja iz divergence [17]. Tipicno aplikacijo metodeICA predstavlja slepo locevanje izvorov (ang. Blind Source Separation, BSS) [18],ki iz mesanice podatkov poskusa izlusciti osnovne komponente tako, da izkazujejocim vecjo medsebojno neodvisnost.

Pri samem modeliranju se kot alternativi za cenilno funkcijo povprecne kvadratnenapake ponujata meri entropija in divergenca [19, 20]. Obe odpravljata eno odvelikih slabosti cenilne funkcije, osnovane na srednjem kvadratu napake, ki je zeloobcutljiva na osamele vzorce. Osameli vzorci namrec povecujejo vrednost cenilnefunkcije, zato se jim model skusa cim bolje prilagoditi, kar po drugi strani vodi kslabsim modelom za vecino vzorcev [9].

Omenjene koncepte, ki izhajajo iz informacijske teorije, smo preizkusili in ovred-notili na problemu modeliranja umetnih in realnih sistemov, med njimi tudi naproblemu industrijskega mesanja kavcukovih zmesi. Mesanje kavcukovih zmesi [21]je kompleksen nelinearen proces, s katerim zelimo doseci cim bolj enakomerno dis-perzijo vnesenih surovin ter s tem cim bolj enakomerno kvaliteto kavcukovih zmesi.Ta je predpogoj za kvaliteto koncnih gumenih izdelkov. Danes se za mesanje vindustrijskih okoljih uporabljajo napredni avtomatsko vodeni mesalniki. Naprednizasnovi navkljub pa mesanje se zdalec ni enostavno. Zaradi razlicnih zunanjih de-javnikov kot so razlike v sestavi surovin, temperatura surovin in anomalije v samemprocesu mesanja, se lahko lastnosti zmesi med zaporednimi mesanji precej razliku-jejo. Obicajen proces mesanja, v katerem si koraki sledijo v vnaprej podanemzaporedju, motecih dejavnikov ne more izniciti. Na primer, zaradi spreminjanjatemperature zmesi in okolice sta pri najbolj pogostem mesanju za predpisani castudi temperatura zmesi ob izpustu in vnesena energija med mesanjem spremenljivi.Na sreco je mogoce s sistemom, ki je sposoben sprotno popravljati nastavitve pro-cesnih parametrov, na primer hitrosti vrtenja rotorjev, in s tem preusmeriti potekprocesa mesanja v pravo smer, v veliki meri odpraviti tudi ta nihanja v kvaliteti.Ker je odziv procesa mesanja na spremembe procesnih parametrov zelo pocasen, jeza ucinkovito odpravljanje motecih dejavnikov potrebno zgraditi ucinkovit predik-tivni model, ki zna na podlagi trenutnega stanja sistema in njegovega preteklegaobnasanja pravilno predvideti stanje procesa v prihodnosti [22]. Tak model je natopotrebno povezati z racunalniskim sistemom vodenja mesalnika, ki takoj po zazna-nju potencialne anomalije v procesu ustrezno odreagira.

Delo je namenjeno raziskavam moznosti uporabe metod teorije informacij, nji-hove smotrnosti in prakticne uporabnosti pri modeliranju nelinearnih dinamicnihprocesov. Zato bodo v nadaljevanju najprej predstavljeni osnovni koncepti same

Page 14: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

4 1. Uvod

teorije informacije ter njihove razsiritve, ki jo bolj priblizajo danasnjim nalogam vzvezi z obvladovanjem kompleksnih problemov.

Uspesnost modeliranja je mocno odvisna od kvalitetne priprave podatkov. Vtretjem poglavju bodo poleg standardnih tehnik za analizo podatkov, kot so spek-tralna ter korelacijska analiza in analiza glavnih osi, predstavljene tudi modernejsetehnike, predvsem metoda neodvisnih komponent in metoda najznacilnejsih projek-cij. V obeh primerih je poudarek na uporabi mer, ki izhajajo iz teorije informacij.

V cetrtem poglavju bodo predstavljeni splosni neparametricni modeli nevronskemreze, predvsem eden najbolj priljubljenih modelov – vecplastna usmerjena nevron-ska mreza. Predstavitev bo osredotocena na zamenjavo klasicne cenilne funkcije,zasnovane na srednji kvadratni napaki, z entropijo ter s tem povezane spremembepostopka ucenja.

Peto poglavje je namenjeno tako analizi metod izbiranja primernih podatkovkot primerjalni analizi samega postopka ucenja nevronske mreze. Predstavljeni sotesti na vec standardnih realnih in umetnih sistemih, katerih obnasanje je podanov obliki casovnih vrst, ki podajajo vrednosti merjenih kolicin v odvisnosti od casa.Pri analizi so uporabljene casovne vrste povprecnega letnega stevila Soncevih peg,logisticna preslikava, casovna vrsta Mackey-Glass, tecaj delnice Sava, d.d., in vred-nost slovenskega borznega indeksa SBI20. Glavni rezultati analize so nato s pridomuporabljeni tudi pri modeliranju procesa mesanja kavcukovih zmesi.

V sestem poglavju je podrobno predstavljena problematika procesa mesanjakavcukovih zmesi. Za izbrane zmesi je zgrajena mnozica prediktivnih modelov pro-cesov, ki jim sledi natancno vrednotenje. Prikazana je tudi spremenjena arhitekturaracunalniskega sistema za vodenje procesa mesanja, ki je predpogoj za vzpostavitevvecje kontrole nad procesom. Nazadnje je z vecjim nadzorom nad kvaliteto procesapotrjena tudi prakticna uporabnost spremenjenega sistema.

V zakljucku so na kratko podane najpomembnejse ugotovite z orisanimi pred-nostmi in slabostmi omenjenih pristopov s smernicami za nadaljnje raziskovanje.

Page 15: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

2.

Teorija informacij

Teorija informacij je veda, ki se ukvarja z informacijo, njeno meritvijo in uporabo [23].V splosnem je informacija lahko sintakticna, povezana s simboli in sestavljanjemsporocil iz njih, semanticna, povezana s pomenom sporocil, ali pragmaticna, povezanaz uporabo in ucinkom sporocil. Medtem ko sta zadnji dve obliki bolj v domeni filo-zofije, psihologije in biologije, je prva v domeni tehnike. Sintakticno obravnavanjeinformacije je osredotoceno na njeno meritev, prenos, stiskanje in gradnjo sistemov,ki omogocajo te funkcije.

S sintakticno informacijo se je prvi znanstveno ukvarjal Nyquist, ki je leta 1927poskusal ugotoviti, kako podatke prenesti preko kanala cim hitreje in brez popacenja.Leta 1928 je Hartley poskusal definirati mero za kolicino informacije v sporocilu.Temelje danasnje teorije informacij pa je postavil Shannon leta 1948 [12, 13], ko jepristopa Nyquista in Hartleya nadgradil s konceptoma nedolocenosti in verjetnosti.

2.1. Shannonove informacijske mere

Naj bo X slucajna ali stohasticna skalarna spremenljivka, ki lahko zavzame vred-nosti X = {x1, . . . , xn} z verjetnostmi pX = {p1, . . . pn}. Za diskretno verjetnostnoporazdelitev pX pri tem velja, da je pi ≥ 0, i = 1, . . . , n, in da je

∑ni=1 pi = 1.

Nedolocenost ali entropija spremenljivke X je v tem primeru definirana kot [13, 23]

H(X) = −n∑

i=1

pi log pi . (2.1)

Entropijo spremenljivke X merimo v bitih, ce je osnova logaritma 2, v tritih, ceje osnova logaritma 3, in v nitih, kadar uporabljamo naravni logaritem. Entropijaspremenljivke X je najmanjsa, H(X) = 0, ko je vrednost spremenljivke natancnodolocena, oziroma je verjetnostna porazdelitev enaka pX = {1, 0, . . . , 0}. Nasprotnoje entropija spremenljivke X najvecja, H(X) = log n, kadar so verjetnosti za vsemozne vrednosti enake, pX =

{. . . , 1

n, . . .

}. Entropijo spremenljivke X lahko razu-

memo tudi kot kolicino informacije, ki jo moramo v povprecju dobiti o spremenljivki,da o njeni vrednosti ni nobene negotovosti vec.

V bolj splosni obliki lahko namesto slucajne skalarne spremenljivke obravnavamovektorsko slucajno spremenljivko, sestavljeno iz mnozice skalarnih spremenljivk,

5

Page 16: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

6 2. Teorija informacij

X = (X1, . . . , XD)T. Ta lahko zavzame vrednosti X = {x1, . . . ,xn}, z verjet-nostmi pX = {p1, . . . , pn}. Pri tem je vektor xi sestavljen iz D elementov, xi =(x1

i , . . . , xDi )T. Entropija slucajne spremenljivke X je potem kar

H(X) = −n∑

i=1

pi log pi . (2.2)

Vzemimo, da v sistemu nastopa se slucajna skalarna spremenljivka Y , ki lahkozavzame vrednosti Y = {y1, . . . , ym} z verjetnostmi qY = {q1, . . . , qm}, njena nedolo-cenost pa je enaka H(Y ) = −∑

j qj log qj. Kadar spremenljivki X in Y obravnavamov paru (X, Y ), verjetnost, da bo prva spremenljivka zavzela vrednost xi, drugaspremenljivka pa vrednost yj, oznacimo z ri,j. Za porazdelitev para spremenljivkrX,Y = {. . . , ri,j, . . .} seveda velja

∑i,j ri,j = 1, pi =

∑j ri,j in qj =

∑i ri,j. Za par

spremenljivk (X, Y ) lahko zapisemo vezano entropijo

H(X, Y ) = −∑i,j

ri,j log ri,j , (2.3)

ki meri hkratno nedolocenost obeh spremenljivk. V primeru, da sta spremenljivkineodvisni, velja ri,j = piqj, vezana entropija pa je kar enaka vsoti posamicnih en-tropij, H(X, Y ) = H(X) + H(Y ).

Po analogiji z definicijo entropije vektorske spremenljivke X lahko definiramotudi pogojno entropijo vektorske spremenljivke X v primeru, ko je vrednost spre-menljivke Y enaka yj,

H(X|Y = yj) = −∑

i

ri|j log ri|j , (2.4)

pri cemer je ri|j = ri,j/qj. V povprecju je entropija slucajne vektorske spremenljivkeX, ce poznamo vrednost slucajne spremenljivke Y , enaka

H(X|Y ) =∑

j

qjH(X|Y = yj) . (2.5)

Pomembna mera v teoriji informacije je tudi Kullback-Leiblerjeva divergenca [13,23, 24], mera za statisticno podobnost, ki je nekaksna posplositev algebraicnih merza razdaljo, na primer Evklidske norme, na porazdelitve. Definirana je kot

D(pX; p′X) =∑

i

pi logpi

p′i, (2.6)

kjer je porazdelitev p′X = {. . . , p′i, . . .} ocena prave porazdelitve pX vektorja X. To jenesimetricna mera razlike med verjetnostnima porazdelitvama pX in p′X. Divergencaje enaka nic samo takrat, ko sta porazdelitvi enaki, v nasprotnem primeru pa jevedno pozitivna.

Analogno lahko divergenco zapisemo tudi za par spremenljivk (X, Y ) kot

D(rX,Y ; r′X,Y ) =∑i,j

ri,j logri,j

r′i,j, (2.7)

Page 17: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

2.1. Shannonove informacijske mere 7

kjer je porazdelitev r′X,Y ={. . . , r′i,j, . . .

}ocena prave porazdelitve rX,Y . Ce v oceni

porazdelitve predpostavimo, da sta spremenljivki neodvisni, r′i,j = piqj, govorimo opovprecni medsebojni informaciji para spremenljivk (X, Y ),

I(X; Y ) = D(rX,Y ; r′X,Y ) =∑i,j

ri,j logri,j

piqj

(2.8)

= H(X) + H(Y )−H(X, Y ) (2.9)

= H(X)−H(X|Y ) . (2.10)

Medsebojno informacijo lahko razumemo kot posplositev korelacij na verjetnostneporazdelitve. Podaja nam kolicino informacije, ki jo v povprecju o slucajni spre-menljivki X vsebuje slucajna spremenljivka Y in obratno. Kadar sta spremenljivkiX in Y neodvisni, je povprecna medsebojna informacija najmanjsa, I(X; Y ) = 0.V primeru, da je spremenljivka X popolnoma odvisna od spremenljivke Y pa veljaH(X|Y ) = 0, zaradi cesar je povprecna medsebojna informacija najvecja, I(X; Y ) =H(X). Zveze med omenjenimi merami so najlepse ponazorjene z Vennovim dia-gramom na sliki 2.1.

Slika 2.1: Ponazoritev zvez med informacijskimi merami v Vennovem diagramu.

Eno od moznih posplositev mere medsebojne informacije na vec spremenljivkpredstavlja mera popolne informacije (ang. total information) [25, 26]. Z njo lahkoocenimo medsebojno povezanost skalarnih spremenljivk Xd, ki sestavljajo vektorskospremenljivko X kot

J(X) = D

(pX;

D∏

d=1

pXd

)(2.11)

=D∑

d=1

H(Xd)−H(X) , (2.12)

pri cemer so s pXd oznacene porazdelitve posameznih skalarnih spremenljivk. Popolnainformacija podaja razliko med dejansko porazdelitvijo skalarnih spremenljivk v vek-torju X in porazdelitvijo, ki predpostavlja, da so skalarne spremenljivke medseboj-no neodvisne. Kadar je vektorska spremenljivka sestavljena samo iz dveh skalarnihspremenljivk, X = (X1, X2), je popolna informacija J(X) enaka povprecni med-sebojni informaciji spremenljivk, I(X1; X2) = D(pX, pX1pX2). Popolna informacijatreh spremenljivk je predstavljena na sliki 2.2.

Page 18: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

8 2. Teorija informacij

Slika 2.2: Graficna ponazoritev mere popolne informacije za tri spremenljivke z Vennovimdiagramom. Popolna informacija je predstavljena s sivinami. Presek vseh treh mnozic,oznacen s temnejsim odtenkom, je upostevan trikrat.

Pri modeliranju se veckrat uporablja tudi mera negentropije, ki meri odstopanjeizbrane porazdelitve od normalne Gaussove porazdelitve [27]. Definirana je kot

HNEG(X) = H(XG)−H(X) , (2.13)

pri cemer je z XG oznacena slucajna vektorska spremenljivka, ki sledi Gaussovi po-razdelitvi, in ima enako povprecno vrednost in enako varianco kot slucajna vektorskaspremenljivka X.

V vecini realnih sistemov pa ne srecujemo doslej obravnavanih diskretnih, temveczvezne slucajne spremenljivke. Zvezna slucajna spremenljivka X lahko zavzamepoljubno mnogo razlicnih vrednosti. Verjetnost, da bo zavzela tocno doloceno vred-nost, je zato enaka nic, vsota vseh verjetnosti pa je se vedno enaka ena. Zato namestoporazdelitve pri zveznih spremenljivkah podajamo gostoto verjetnostne porazdelitvepX(x), za katero velja

∫pX(x)dx = 1. Analogijo z diskretnimi slucajnimi spre-

menljivkami tako predstavlja verjetnost pX(x)∆x, da zvezna slucajna spremenljivkazavzame vrednost na izbranem intervalu sirine ∆x v okolici tocke x.

Entropijo zvezne slucajne spremenljivke lahko enostavno izpeljemo iz defini-cije 2.1, v kateri verjetnosti pi nadomestimo s pX(xi)∆x. Z zmanjsevanjem sirineintervala se povecuje stevilo spremenljivk xi, v limiti ∆x → 0 pa dobimo zvezo zaentropijo zvezne slucajne spremenljivke X [23],

H(X) = −∫

pX(x) log pX(x)dx . (2.14)

Na enak nacin lahko iz zveze 2.2 izpeljemo entropijo slucajne vektorske spremenljivkeX z gostoto verjetnostne porazdelitve pX(x),

H(X) = −∫

pX(x) log pX(x)dx , (2.15)

iz zveze 2.6 pa zvezno razlicico Kullback-Leiblerjeve divergence

D(pX; p′X) =

∫pX(x) log

pX(x)

p′X(x)dx , (2.16)

Page 19: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

2.2. Renyijeva posplositev teorije informacij 9

v kateri je gostota verjetnostne porazdelitve p′X ocena prave gostote verjetnostneporazdelitve pX slucajne vektorske spremenljivke X. Seveda zveze opisane v enacbah2.11 ter 2.12 in zveze podane v enacbah 2.8, 2.9 in 2.10 veljajo tudi pri zvezniobravnavi.

2.2. Renyijeva posplositev teorije informacij

Pri mnogih realnih problemih gostota verjetnostne porazdelitve ni poznana, zatojo je potrebno oceniti neposredno iz podatkov [9]. Dobra ocena verjetnostne po-razdelitve je temelj za uspesno uporabo opisanih metod. Zazeleno je, da je ocena ver-jetnostne porazdelitve cim bolj gladka, saj bodo mere teorije informacij uporabljenepri vrsti optimizacijskih postopkov, in seveda definirana za realne podatke.

Za oceno verjetnostne gostote se pogosto uporablja nastavek Parzenovega okna[28], ki z razpenjanjem jedrnih funkcij v okolici obstojecih podatkov ekstrapolira po-razdelitev preko celotnega definicijskega obmocja. Ce predpostavimo, da imamo navoljo vec neodvisnih meritev slucajne vektorske spremenljivke X, X = {x1, . . . ,xK},potem lahko njeno gostoto porazdelitve ocenimo kot

pX(X) =1

K

K∑

k=1

κh(x− xk) , (2.17)

kjer funkcija κh(x − xk) predstavlja okno v okolici tocke xk. V osnovi je oknohiperkocka s sirinami stranic h = (h1, . . . , hD)T, zaradi lazjega racunanja pa sepogosteje uporabljajo zvezne jedrne funkcije. Ena najbolj uporabljenih vecdimenzi-onalnih jedrnih funkcij je produkt eno-dimenzionalnih Gaussovih funkcij,

κh(x− xk) =D∏

d=1

Ghd(xd − xd

k) , Ghd(xd − xd

k) =1√

2πhd

e−(xd−xdk)2/2h2

d (2.18)

z x = (x1, . . . , xD)T, kjer so s hd oznacene njihove sirine. Obstaja vec ucinkovitihmetod za dolocitev sirine jedrne funkcije [29, 30, 31]. Med njimi je pogosto uporab-ljana Silvermanova ocena [30]

hd = 1,06σdK−0,2 , (2.19)

v kateri σd predstavlja standardno odstopanje meritev skalarne spremenljivke Xd odpovprecja.

Racunanje Shannonovih informacijskih mer za zvezne spremenljivke po enacbah2.15 in 2.16, v katerih bi gostoto verjetnostne porazdelitve nadomestili z opisanoParzenovo oceno, lahko izvedemo le numericno. Zaradi racunske zahtevnosti nu-mericnih integracij so take mere v praksi v vecini primerov neuporabne.

To je eden od razlogov za razvoj mnozice posplosenih mer teorije informacij [32],med katerimi je ena najbolj uporabljenih Renyijeva [33]. Renyi je pri posplosevanjuizhajal iz postulatov, ki definirajo Shannonovo entropijo, pri cemer je postulat oaditivnosti iz linearne razsiril v eksponentno obliko. Razsirjenim postulatom us-treza Renyijeva entropija stopnje α, α ≥ 0. Ta je za diskretno slucajno vektorsko

Page 20: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

10 2. Teorija informacij

spremenljivko X definirana kot

HRα(X) =1

1− αlog

(n∑

i=1

pαi

), (2.20)

v primeru, da je X zvezna spremenljivka, pa kot

HRα(X) =1

1− αlog

∫pαX(x)dx . (2.21)

Renyijeva entropija je enaka Shannonovi v posebnem primeru, ko je eksponent α = 1.Po definiciji ima Renyijeva entropija pri α = 1 pol, z uporabo L’Hospitalovegapravila pa se da pokazati, da v limiti α → 1 preide v Shannonovo. Integral vargumentu logaritma v definiciji entropije pogosto oznacujemo kot informacijskipotencial, VRα(X) =

∫pαX(x)dx.

Na enak nacin v limiti α → 1 Renyijeva divergenca stopnje α [33],

DRα(pX; p′X) =1

α− 1log

∫pX(x)

(pX(x)

p′X(x)

)α−1

dx , (2.22)

preide v Kullback-Leiblerjevo divergenco. Iz Renyijeve divergence stopnje α lahkozapisemo Renyijevo povprecno medsebojno informacijo slucajnih zveznih spremen-ljivk X in Y

IRα(X; Y ) =1

α− 1log

∫∫rX,Y (x, y)

(rX,Y (x, y)

pX(x)qY (y)

)α−1

dx dy , (2.23)

kjer je rX,Y gostota verjetnostne porazdelitve para spremenljivk (X, Y ). Ta je pravtako kot entropija in divergenca posplosena oblika Shannonove povprecne medse-bojne informacije [9].

Po analogiji z zgornjimi izpeljavami lahko tudi iz enacbe 2.11, v kateri Kullback-Leiblerjevo divergenco zamenjamo z Renyijevo, dobimo Renyijevo oceno medsebojnepovezanosti mnozice skalarnih spremenljivk,

JRα(X) =1

α− 1log

∫pαX(x)∏D

d=1 pα−1Xd (xd)

dx . (2.24)

Ta ocena se zaradi posplositev pri uvedbi Renyijevih mer razlikuje od relacije, ki jodobimo iz enacbe 2.12,

J∗Rα(X) =

1

α− 1log

∫pαX(x)dx∫ ∏D

d=1 pαXd(xd)dx

, (2.25)

zato smo jo oznacili z zvezdico. Ravno tako tudi pri Renyijevi povprecni medsebojniinformaciji relaciji 2.9 in 2.10 ne veljata vec [14].

Zaradi lepih racunskih lastnosti so za uporabo se posebej primerne Renyijevekvadratne mere z α = 2. Namrec, ko v definicijo Renyijeve entropije 2.21 oziroma

Page 21: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

2.2. Renyijeva posplositev teorije informacij 11

Renyijevega potenciala vstavimo Parzenovo oceno verjetnostne porazdelitve 2.17,dobimo presenetljiv rezultat,

VR2(X) =

∫p2X(x)dx =

∫ (1

K

K∑

k=1

Gh(x− xk)

)2

dx

=1

K2

K∑

k′=1

K∑

k=1

Gh√

2(xk′ − xk) , (2.26)

v katerem nastopa samo se dvojna vsota, ki je racunsko bistveno manj zahtevnaod numericne integracije. V zgornjem izracunu smo upostevali, da je integral pro-dukta dveh Gaussovih funkcij tudi Gaussova funkcija s srednjo vrednostjo enakorazliki srednjih vrednosti in varianco enako vsoti varianc obeh Gaussovih funkcijpod integralom [34]. Enacbo 2.26 lahko zapisemo tudi kot

VR2(X) =1

K

K∑

k=1

VR2(xk) , (2.27)

kjer je

VR2(xk) =1

K

K∑

k′=1

Gh√

2(xk′ − xk) (2.28)

informacijski potencial v tocki xk. Iz zveze

HR2(X) = − log VR2(X) (2.29)

sledi, da se z vecanjem kvadratnega informacijskega potenciala spremenljivke Xzmanjsuje njena kvadratna entropija oziroma nedolocenost.

Page 22: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

12 2. Teorija informacij

Page 23: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

3.

Izbiranje vplivnih podatkov zamodeliranje

Problem modeliranja realnih sistemov ni samo v tem, da ne poznamo sistema innjegovih enacb, ampak tudi, da so izmerjeni podatki podvrzeni sumu in drugimmotnjam. Pogosto se zgodi, da imamo preprosto prevec podatkov, ki so medse-bojno povezani in za samo modeliranje ne prinasajo nove informacije. Za gradnjomodela zelimo uporabiti cim manj cim bolj informativnih podatkov, saj tako lahkodobimo enostavnejse modele in s tem dosezemo boljse posplosevanje [8]. Za iskanjerelevantnih podatkov lahko uporabimo razlicne metode predprocesiranja.

Med osnovne tehnike predprocesiranja podatkov sodijo najrazlicnejse transfor-macije in filtriranja [35, 36, 37]. S transformacijami surove podatke poenotimo, ce sopredstavljeni v razlicnih merskih enotah, in jih z odstranitvijo povprecne vrednostiin deljenjem s korenom iz variance podatkov standardiziramo. Z njimi poskrbimotudi za anomalije v podatkih, kot so na primer manjkajoce vrednosti in ekstremnidogodki. S filtriranjem iz podatkov izluscimo razlicne periodicne komponente. Naprimer, s filtrom, ki prepusca samo nizke frekvence, lahko podatke zgladimo tako, daiz njih odstranimo sum, s filtrom, ki prepusca samo visoke frekvence, pa iz podatkovodstranimo znacilni trend ali pa kaksne sezonske vplive.

V mnogih primerih je na voljo mnozica najrazlicnejsih podatkov o opazovanihkolicinah oziroma spremenljivk, ki opisujejo obnasanje sistema. Kadar je spre-menljivk prevec, modeli postanejo zelo obsezni z veliko prostimi parametri in kottaki iz spremenljivk zelo tezko izluscijo bistvene informacije. Obstaja mnogo ra-zlicnih pristopov k izbiranju spremenljivk in njihovemu preoblikovanju, vsem pa jeskupno, da iz velike mnozice spremenljivk izluscijo manjso mnozico bolj ali manj pre-oblikovanih vplivnih spremenljivk ali znacilk, ki vsebujejo vecino informacije skritev veliki mnozici spremenljivk. V primeru, da med spremenljivkami v veliki mnozicini popolne odvisnosti, pri tem procesu nekaj informacije izgubimo. Vsak pristopposkusa zavreci le tisto informacijo, ki jo oceni kot najmanj pomembno.

V nadaljevanju se bomo osredotocili predvsem na razlicne pristope k izbiranjuznacilk iz spremenljivk, pri tem pa privzeli, da so le-te v smislu osnovnih transfor-macij in filtriranj ze ustrezno obdelane. Na kratko si bomo ogledali korelacijsko inspektralno analizo, razlicne hevristicne pristope k izbiranju znacilk ter metode zapreoblikovanje spremenljivk kot sta analiza glavnih osi in analiza neodvisnih kompo-

13

Page 24: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

14 3. Izbiranje vplivnih podatkov za modeliranje

nent. V vseh primerih bomo poseben poudarek dajali meram, ki izhajajo iz teorijeinformacij.

3.1. Dolocanje znacilk z izbiranjem podatkov

Metodam, predstavljenim v tem razdelku, je skupno to, da med spremenljivkami,ki so na voljo, izberejo najbolj informativne in jih pri tem na noben nacin ne pre-oblikujejo. Osredotocili se bomo na nekaj metod, ki pridejo v upostev pri delu zdinamicnimi sistemi.

3.1.1. Korelacijska in spektralna analiza

V teoriji verjetnosti in statistiki korelacija oznacuje jakost linearne zveze med dvemaslucajnima spremenljivkama. Korelacijski koeficient ρF,G med dvema slucajnimaspremenljivkama F in G je definiran kot [23, 38, 39]

ρF,G =E [(F − E[F ])(G− E[G])]√

E [(F − E[F ])2] E [(G− E[G])2], (3.1)

kjer je z E[·] oznacen operator pricakovane vrednosti. Korelacijski koeficient jedefiniran za slucajne spremenljivke s standardnim odstopanjem razlicnim od nic inzavzame vrednosti med -1 in 1. V primeru, da sta spremenljivki neodvisni, je ko-relacijski koeficient enak 0, z vecanjem linearne odvisnosti med spremenljivkama pase njegova vrednost priblizuje +1 oziroma -1. Iz meritev spremenljivke F , f1, . . . , fK ,in spremenljivke G, g1, . . . , gK , ga ocenimo kot [39]

ρF,G =

∑Kk=1(fk − f)(gk − g)√∑K

k=1(fk − f)2∑K

k=1(gk − g)2

, (3.2)

kjer je f = 1K

∑Kk=1 fk in g = 1

K

∑Kk=1 gk.

Pri dinamicnih sistemih se pogosto zgodi, da je vse, kar vemo o njih, predstav-ljeno z meritvami opazovane kolicine skozi cas, predstavljene v obliki casovne vrste.Casovna vrsta je mnozica vrednosti, ki jih opazovana kolicina zavzame v dolocenihtrenutkih [40]. Locimo zvezne in diskretne casovne vrste. Prve dobimo z nepre-kinjenim opazovanjem izbrane kolicine v nekem obdobju, druge pa z opazovanjemob izbranih trenutkih. Zaradi zajemanja meritev in kasnejse analize se obicajnoomejimo na diskretne casovne vrste, vzorcene v enakomernih casovnih presledkih speriodo vzorcenja ∆t. Vrednost casovne vrste ob k-tem vzorcenju v casu tk oznacimoz gk. Torej

gk = g(tk) = g(t0 + k∆t) za k = 1, . . . , K , (3.3)

kjer je t0 cas zacetka opazovanja, K pa stevilo vrednosti v casovni vrsti.Ce v korelacijskem koeficientu spremenljivko F nadomestimo s casovno zamak-

njeno spremenljivko G, dobimo avtokorelacijski koeficient [38]

ρG =

1K−|T |

∑K−|T |k=1 (gk+|T | − g)(gk − g)

1K

∑Kk=1(gk − g)2

, (3.4)

Page 25: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

3.1. Dolocanje znacilk z izbiranjem podatkov 15

s katerim merimo povezanost med dogodkoma, ki sta razmaknjena za cas T ≥ 0.Avtokorelacijski koeficient realnih casovnih vrst je soda funkcija parametra T z mak-simumom pri T = 0. Iz oblike avtokorelacijskega koeficienta je moc sklepati o naraviprocesa, ki ga casovna vrsta opisuje. Avtokorelacijski koeficient periodicnih pro-cesov oziroma pripadajocih casovnih vrst je prav tako periodicna funkcija. Posebenprimer predstavlja beli sum. To je slucajni proces, v katerem so zastopane vsefrekvence. Avtokorelacijski koeficient belega suma je enak 1 za T = 0, potem pahitro izzveni [41].

Korelacijska ali avtokorelacijska analiza podatkov sta nam v veliko pomoc priizbiranju relevantnih podatkov. Pri modeliranju je iz mnozice podatkov smiselnoizbrati tiste vhodne podatke, pri katerih je avtokorelacija ali korelacija z izhodnimipodatki cim vecja.

Pri modeliranju casovnih vrst dobimo pomembne informacije tudi iz analize vfrekvencnem prostoru. Zvezno casovno vrsto g(t) s koncno energijo lahko zapisemokot linearno kombinacijo sinusnih in kosinusnih funkcij razlicnih frekvenc [13, 42].Zapis se z uporabo Eulerjevega eksponenta poenostavi v

g(t) =1

∫ ∞

−∞eiωtχ(iω)dω , (3.5)

kjer je ω = 2πν, ν pa ustrezna frekvenca. Fourierov transform χ(iω) casovne vrsteg(t) je definiran kot

χ(iω) =

∫ ∞

−∞e−iωtg(t)dt ,−∞ < ω < ∞ . (3.6)

Fourierov transform popolnoma opise casovno vrsto v frekvencnem prostoru, takokot jo vrednosti v razlicnih casih opisejo v casovnem prostoru. Kadar imamo opravkas koncno casovno vrsto, vzorceno s koncnim vzorcnim casom, v enacbi 3.5 integralzamenjamo z vsoto, cas in frekvenco pa diskretiziramo. Dobimo diskretni Fourierovtransform

χj =K−1∑

k=0

gk+1e−2πijk/K , (3.7)

definiran za ωj = 2πj/K∆t, j = −K2− 1, ..., K

2. Zastopanost frekvenc v casovni

vrsti se pogosto prikaze v obliki spektra energijske gostote ali periodograma [39]

ζ0 =1

K2|χ0|2 ,

ζj =1

K2(|χj|2 + |χ−j|2) , j = 1, ..,

K

2− 1 ,

ζK/2 =1

K2|χK/2|2 . (3.8)

Ta ima vrednost nic, ce dolocene frekvence ni v casovni vrsti, in tem vecjo vred-nost, cim bolj izrazita je frekvenca v casovni vrsti. Mocnostni spekter nam s prika-zom ocitnih periodicnih komponent v podatkih velikokrat pomaga razjasniti nara-vo podatkov. Na primer, velika koncentracija spektralne energije pri zelo nizkih

Page 26: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

16 3. Izbiranje vplivnih podatkov za modeliranje

frekvencah kaze na visoko pozitivno korelacijo med zadnjimi nekaj vrednostmi vcasovni vrsti, velika koncentracija energije pri zelo visokih frekvencah pa na nega-tivno korelacijo med zadnjimi vrednostmi.

3.1.2. Izbiranje vplivnih podatkov v povezavi z modelom

Pristope za izbiranje vplivnih spremenljivk lahko razvrstimo glede na to, kako sopovezani z modelom. Obicajno poteka izbiranje in modeliranje loceno v dveh za-porednih korakih, lahko pa se oba koraka izvaja socasno [43]. Medtem ko pri za-porednem pristopu izbiranje znacilk poteka neodvisno od modeliranja in na pod-lagi drugacnega kriterija, je pri socasnem pristopu uporabljen en sam kriterij, toje uspesnost modela. Seveda je pri socasnem izbiranju znacilk potrebno za vsakmozen nabor tudi zgraditi in oceniti model, zaradi cesar so ti pristopi racunskoizredno zahtevni. Poleg tega moramo ob zamenjavi modela postopek izbiranjaznacilk ponoviti. Po drugi strani je izbor znacilk popolnoma prilagojen modelu,zato se taki modeli obicajno obnasajo bolje od modelov dobljenih z zaporednimpristopom [43].

Vzemimo, da imamo za modeliranje na voljo D0 razlicnih spremenljivk. Vprimeru, da bi zeleli preizkusiti vse mozne nabore spremenljivk, bi morali zgra-diti D0 modelov s po eno spremenljivko, D0(D0 − 1)/2 modelov s po dvema spre-menljivkama, vse do enega modela z D0 spremenljivkami. Zaradi ogromnega stevilarazlicnih modelov, skupaj

D0∑D=1

(D0

D

)=

D0∑D=1

D0!

(D0 −D)!D!, (3.9)

je tak pristop zelo redko izvedljiv v razumnem casu. Namesto popolnega preizkusanjavseh naborov se zato ponavadi omeji na smiselno podmnozico, ki je lahko dolocenaz razlicnimi hevristicnimi metodami ali pa racunsko bolj intenzivnimi iskalnimipostopki, kot so na primer genetski algoritmi [44]. V nadaljevanju dela se bomoomejili na dva hevristicna postopka.

Prvi hevristicni postopek je primeren za modeliranje dinamicnih sistemov, ka-terih obnasanje je opisano s casovnimi vrstami. Zasnovan je na predpostavki, da sokorelacije med bliznjimi vrednostmi v casovni vrsti vecje kot med bolj oddaljenimivrednostmi. Zato za modeliranje izberemo samo zadnjih D vrednosti v casovni vrsti.Ce je za modeliranje na voljo najvec zadnjih D0 vrednosti v casovni vrsti, moramopo tem pristopu zgraditi vsega D0 razlicnih modelov, od najbolj enostavnega, ki vmodelu uporablja samo zadnjo vrednost, pa do takega, ki uporablja vseh D0 vre-dnosti.

Preiskovanje razlicnih naborov je pri drugem hevristicnem postopku, v kateremje uporabljen pohlepni iskalni algoritem (ang. Greedy Search Algorithm) mnogo boljintenzivno [45]. Pri pohlepnem iskalnem algoritmu se k ze izbranim spremenljivkamiterativno dodajajo nove. Najprej zgradimo D0 razlicnih modelov s po eno spre-menljivko in med njimi na podlagi kriterijske funkcije izberemo najboljsega. Natozgradimo D0 − 1 novih modelov tako, da spremenljivki, izbrani v prvem koraku,dodamo se eno od preostalih spremenljivk. Postopek, ki je graficno prikazan na

Page 27: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

3.1. Dolocanje znacilk z izbiranjem podatkov 17

Slika 3.1: Postopek izbiranja znacilk s pohlepnim iskalnim algoritmom. Kvadrati pred-stavljajo modele, stevilke v njih pa indekse vhodnih podatkov, ki so uporabljeni za njihovogradnjo.

sliki 3.1, nato ponavljamo z dodajanjem novih in novih spremenljivk. Iskanje lahkoustavimo, ko se z dodajanjem novih spremenljivk zacne model oddaljevati od opti-muma kriterijske funkcije, ali pa sele potem, ko zgradimo vseh D0(D0+1)/2 modelov.Z gradnjo vseh mogocih modelov namrec preprecimo, da bi iskanje znacilk zakljuciliv lokalnem optimumu. Kljub temu, da izbiranje znacilk pri pohlepnem iskalnem al-goritmu ni optimalno, se razmeroma pogosto uporablja, saj kljub enostavni zasnovidaje razmeroma dobre rezultate.

3.1.3. Povprecna medsebojna informacija kot kriterij za izbi-ranje vplivnih podatkov

Z razdelitvijo izbiranja znacilk in modeliranja v dva koraka se znebimo racunskozahtevnih postopkov ocenjevanja naborov spremenljivk preko uspesnosti modelovin hkrati naredimo postopke bolj univerzalne, saj lahko izbrane znacilke uporabimoz razlicnimi modeli. Za izbiranje vplivnih vhodnih podatkov je zelo primerna merapovprecne medsebojne informacije, ki meri, kako dobro so izbrani vhodni podatki vpovprecju povezani z izhodom iz modela.

V primerih, ko so podatki ze v osnovi diskretizirani, je samoumevna uporabadiskretne oblike povprecne medsebojne informacije. Vzemimo, da imamo na voljoD0 razlicnih spremenljivk, in da je med njimi za vhode v model izbrana podmnozicaspremenljivk X1, . . . , XD, D ≤ D0, za katere predpostavljamo, da so slucajne. Cevsaka od slucajnih spremenljivk lahko zavzame n1 razlicnih diskretnih stanj, potemvektorska spremenljivka sestavljena iz omenjene podmnozice, X = (X1, . . . , XD)T,lahko zavzame n = n1

D razlicnih stanj. Obicajno porazdelitve vektorske spre-menljivke pX = {p1, . . . , pn} ne poznamo, lahko pa jo ocenimo iz meritev na podlagipogostosti pojavljanja razlicnih kombinacij vrednosti spremenljivk. Na enak nacinlahko dolocimo tudi verjetnostno porazdelitev qY = {q1, . . . , qm} spremenljivke Y ,ki predstavlja izhod iz modela in lahko zavzame m razlicnih diskretnih stanj, ter

Page 28: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

18 3. Izbiranje vplivnih podatkov za modeliranje

vezano verjetnostno porazdelitev rX,Y = {. . . , ri,j, . . .} para spremenljivk (X, Y ) zn×m moznimi stanji. Za dobro oceno pravih porazdelitev spremenljivk iz meritevpogostosti pojavljanja razlicnih stanj, bi z vecanjem stevila moznih stanj n moraloustrezno narascati tudi stevilo meritev K. V primeru, da se to ne zgodi, je povprecnamedsebojna informacija precenjena [15]. Zato se namesto prave medsebojne infor-macije, podane v enacbi 2.8, veckrat uporablja mera [46]

I ′(X; Y ) = I(X; Y )− m(n− 2)

K=

∑i,j

ri,j logri,j

piqj

− m(n1D − 2)

K. (3.10)

Zaradi velike racunske zahtevnosti izracunavanja zvezne medsebojne informacijese njen diskretni ekvivalent pogosto uporablja tudi na zveznih podatkih. Sevedaje potrebno v takih primerih zvezne podatke ustrezno diskretizirati. Zaradi ome-njene napake v oceni je potrebno paziti, da pri diskretizaciji ne pretiravamo sstevilom moznih stanj, ki jih spremenljivka lahko zavzame. Kot primer je na sliki 3.2prikazana gostota verjetnosti porazdelitev zvezne spremenljivke in diskretna verjet-nostna porazdelitev po diskretizaciji v devet razredov.

0 1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

x

p(x)

1 2 3 4 5 6 7 8 90

0.05

0.1

0.15

0.2

i

p i

Slika 3.2: Primerjava gostote verjetnostne porazdelitve zvezne spremenljivke (zgoraj) indiskretna verjetnostna porazdelitev po diskretizaciji v devet razredov (spodaj).

Tako kot pri izbiranju znacilk na podlagi modela bi tudi pri tej metodi lahkoizracunali povprecno medsebojno informacijo za vse mogoce nabore spremenljivk.Kljub temu da je ocenjevanje posameznega nabora v tem primeru racunsko bistvenomanj zahtevno, je stevilo naborov pri nekaj 10 spremenljivkah preveliko, da bi bil takpostopek smiselen. Zato smo se tudi v tem primeru odlocili za ocenjevanje naborov spohlepnim iskalnim algoritmom, ki je razumno hiter, seveda pa se moramo zavedati,da tako dobljeni nabori niso vedno tudi optimalni.

Page 29: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

3.2. Dolocanje znacilk s preoblikovanjem podatkov 19

3.2. Dolocanje znacilk s preoblikovanjem podatkov

Metode, ki dolocajo znacilke s preoblikovanjem podatkov, temeljijo na predpostavki,da so v surovih podatkih bistvene informacije velikokrat prevec zakrite, da bi jihmodeli lahko s pridom uporabili. Metode, opisane v nadaljevanju, poskusajo vsakana svoj nacin podatke razkriti in s tem v koncni fazi izboljsati uspesnost samihmodelov. Vsem metodam, predstavljenim v nadaljevanju, je skupno, da podatkepreoblikujejo neodvisno od samega postopka modeliranja.

3.2.1. Analiza glavnih osi

Analiza glavnih osi ali metoda PCA (ang. Principle Component Analysis) je posto-pek, ki se veliko uporablja za zmanjsanje dimenzionalnosti podatkov, podatkovnokompresijo, vizualizacijo podatkov in za dolocanje znacilk [47]. Metoda PCA je or-togonalna linearna transformacija, ki transformira podatke v nov koordinatni sistemtako, da maksimizira njihovo varianco. S tem v bistvu razkrije interno strukturopodatkov na nacin, ki najbolje razlozi njihovo varianco.

Vzemimo, da imamo mnozico meritev slucajne vektorske spremenljivke Z ={z1, . . . , zK}, pri cemer imajo meritve zk po D0 elementov. Z metodo PCA zelimozmanjsati dimenzijo podatkov na D ≤ D0 in hkrati maksimizirati njihovo varianco.V prvem koraku podatke projeciramo v eno samo dimenzijo D = 1, natancnejena enotski vektor u1 v osnovnem prostoru. Ker je velikost projekcije meritve zk navektor u1 enaka njunemu skalarnemu produktu uT

1 zk, je povprecna dolzina projekcijeenaka

γ = uT1 z , (3.11)

varianca projeciranih podatkov pa

σ =1

K

K∑

k=1

(uT1 zk − uT

1 z)2 = uT1 Su1 , (3.12)

pri cemer je povprecna vrednost meritev enaka z = 1K

∑Kk=1 zk, kovariancna matrika

pa S = 1K

∑Kk=1(zk − z)(zk − z)T. Iscemo tak vektor u1, pri katerem je varianca

σ maksimalna. Omejitev, da je vektor u1 enotski, u1uT1 = 1, vsilimo preko La-

grangeovega multiplikatorja [48]. Z maksimizacijo izraza

uT1 Su1 − λ1(u

T1 u1 − 1) (3.13)

po vektorju u1 dobimo stacionarno tocko, ko velja

Su1 = λ1u1 . (3.14)

Iz zgornje relacije je ocitno, da je u1 lastni vektor kovariancne matrike S in pred-stavlja prvo glavno os z najvecjo varianco, ki je enaka lastni vrednosti σ = uT

1 Su1 =uT

1 λ1u1 = λ1.Na enak nacin lahko nadaljujemo z dolocanjem druge glavne osi u2 in vseh

ostalih glavnih osi. Poleg omejitve, da so lastni vektorji enotski, uTd ud = 1, morajo

Page 30: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

20 3. Izbiranje vplivnih podatkov za modeliranje

biti tudi ortogonalni na vse obstojece lastne vektorje, uTd ud′ = 0, d′ < d. V splosnem

moramo poiskati D lastnih vektorjev matrike S, ki jim pripada D najvecjih lastnihvrednosti, saj osi z najvecjimi lastnimi vrednostmi in s tem najvecjimi variancamiobicajno opisujejo pomembni del podatkov, osi z manjsimi varianco pa vecinoma lesum.

Pogosto se stevilo glavnih osi D, ki se bodo uporabljale pri modeliranju, dolocina podlagi deleza, ki ga prispevajo k celotni varianci podatkov. Za nadaljnjo analizose ohrani samo tistih D osi, d = 1, . . . , D, za katere velja

λd

λ1

≥ pPCA , (3.15)

kjer je pPCA izbrani delez, na primer pPCA = 0,01 ali pPCA = 0,005.Enacbo 3.14 lahko zapisemo v matricni obliki,

SU = ΛU , (3.16)

z matriko lastnih vektorjev U = (u1, . . . ,uD0) in diagonalno matriko lastnih vred-nosti

Λ =

λ1 0. . .

0 λD0

. (3.17)

V tem primeru lahko za meritev zk definiramo transformacijo [47]

z′k = Λ−1/2UT(zk − z) . (3.18)

Transformirane meritve z′k imajo povprecje nic, njihova kovariancna matrika pa jeenaka identiteti, saj velja

1

K

K∑

k=1

(z′k − 0)(z′k − 0)T =1

K

K∑

k=1

Λ−1/2UT(zk − z)(zk − z)TUΛ−1/2

= Λ−1/2UTSUΛ−1/2 = Λ−1/2UTΛUΛ−1/2

= Λ−1/2ΛΛ−1/2 = I . (3.19)

Ker je λ1 > λ2 > . . . > λD0 , prvih D elementov v vektorjih z′k = (z′1k, . . . , z′D0k )T

predstavlja projekcije na izbrane glavne osi. Pri nadaljnji analizi lahko tako upo-stevamo samo prvih D elementov vektorja, xk = (z′1k, . . . , z

′Dk )T. Mnogokrat pa cilj

uporabe metode PCA ni v zmanjsanju stevila spremenljivk ampak v primerni nor-malizaciji podatkov za potrebe drugih metod. Mnogo algoritmov namrec zahteva, daso podatki standardizirani tako, da je njihovo povprecje enako nic, kovariancna ma-trika pa je enaka identiteti [47]. V takem primeru v nadaljnjo modeliranje vkljucimocelotne vektorje transformiranih meritev.

Metoda PCA je v smislu Gaussove statistike drugega reda optimalna metoda zadolocitev najboljsih znacilk. Za podatke, ki ne ustrezajo Gaussovi porazdelitvi aliza podatke z vec modalno Gaussovo porazdelitvijo, pa se lahko zgodi, da metodaPCA z dekorelacijo osi zveze med podatki se bolj zakrije [47].

Page 31: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

3.2. Dolocanje znacilk s preoblikovanjem podatkov 21

3.2.2. Analiza neodvisnih komponent

Analiza neodvisnih komponent (ang. Independent Component Analysis, ICA) jeposplositev koncepta glavnih osi na statistiko visjih redov. Medtem ko metoda PCAzagotavlja, da so spremenljivke medsebojno nekorelirane z upostevanjem statistikedrugega reda, pa metoda ICA poskusa med njimi vzpostaviti cim vecjo statisticnoneodvisnost z upostevanjem statistike visjih redov. Metode ICA so razcvet dozivelepri aplikacijah slepega locevanja virov [27], danes pa se uporabljajo tudi na mnogihdrugih podrocjih, med drugim tudi za dolocanje znacilk [49].

Za mero statisticne neodvisnosti spremenljivk je bilo predlaganih mnogo razlicnihkriterijev, med njimi kriteriji, ki izhajajo iz statistike visjih redov kot so kumulanti inkontrasti [18], ter razne oblike vezane entropije in povprecne medsebojne informacije.Izkazalo se je, da vecino metod ICA lahko razumemo kot minimizacijo povprecnemedsebojne informacije [18], saj le-to vecina ostalih metod v vecji ali manjsi meriaproksimira [27].

Predpostavimo, da lahko meritve zk, k = 1, . . . , K, zapisemo kot linearno kom-binacijo nepoznanih neodvisnih signalov, sk, zk = Ask. Z metodo ICA zelimopoiskati tako matriko B, da bodo znacilke xk = Bzk = BAsk kar najboljsi priblizekstatisticno neodvisnih signalov sk. Ideja je shematicno predstavljena na sliki 3.3.

Slika 3.3: Shematicni prikaz ideje metode ICA.

Metoda ICA vkljucuje dva pomembna koraka. V prvem koraku z metodo PCA,natancneje s transformacijo podano v enacbi 3.18, poskrbimo, da imajo transformi-rane meritve z′k povprecje nic in da je njihova kovariancna matrika enaka identiteti.V drugem koraku poiscemo rotacijsko matriko R, ki nam da tak vektor xk = Rz′k,pri katerem je izbrana kriterijska funkcija optimalna. Kadar zelimo, da imajo vek-torji xk manj komponent kot vektorji zk, pri konstruiranju vektorja transformiranihmeritev z′k z metodo PCA ohranimo samo D < D0 elementov.

Metoda ICA je graficno predstavljena na sliki 3.4. Na podlagi meritev zk vektor

Slika 3.4: Shematicni prikaz delovanja metode ICA.

neodvisnih komponent izracunamo iz zveze xk = RΛ−1/2UT(zk − z). Ob pred-postavki, da je povprecje meritev z = 0, lahko zapisemo tudi B = RΛ−1/2UT. V

Page 32: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

22 3. Izbiranje vplivnih podatkov za modeliranje

primeru, ko je B = A−1, pravilno rekonstruiramo neodvisne signale, saj je xk = sk, vsplosnem pa je najvec kar lahko dosezemo, da so elementi vektorja xk do permutacijein skaliranja enaki elementom vektorja sk.

Naloga metode ICA je dolocitev rotacijske matrike R, ki minimizira izbranocenilno funkcijo. Rotacijska matrika R je produkt Givensovih rotacijskih matrikRij,

R =D−1∏i=1

D∏j=i+1

Rij . (3.20)

Givensova rotacijska matrika Rij pri tem oznacuje vrtenje podatkov v ravnini (i, j)za kot θij. Definirana je kot identiteta, Rij = I, v kateri so elementi Rij

ii = cos(θij),Rij

ij = − sin(θij), Rijji = sin(θij) in Rij

jj = cos(θij) ustrezno spremenjeni. Rotacijska

matrika R je torej popolnoma dolocena z(

D2

)= D(D−1)

2koti θij.

V nadaljevanju bo podrobno predstavljena metoda ICA, ki temelji na meripovprecne medsebojne informacije, na kratko pa bosta predstavljeni tudi splosnouporabljani metodi FastICA [50, 51] in JADE [11, 18], zasnovani na statisticnihkriterijih. V nadaljevanju bo delovanje vseh treh metod ilustrirano na problemuanalize vrednosti delnic.

Minimizacija Renyijeve povprecne medsebojne informacije

Za ocenjevanje medsebojne povezanosti skalarnih spremenljivk Xd v vektorski spre-menljivki X (ang. Mutual Information, MI) je primerna mera J(X) podana venacbah 2.11 in 2.12. Kot smo pokazali, v primeru Renyijevih razsiritev enakost medenacbama ne velja vec. Ker pa je racunanje mere JR(X) po enacbi 2.24 bistveno boljracunsko zahtevno od racunanja mere J∗(X) po enacbi 2.25, se kot mera medsebojnepovezanosti spremenljivk uporablja slednja [14],

J∗Rα(X) =

1

α− 1log

∫pαX(x)dx∫ ∏D

d=1 pαXd(xd)dx

(3.21)

=D∑

d=1

HR(Xd)−HR(X) . (3.22)

Se vec, nedolocenost vektorske spremenljivke X oziroma vezana verjetnost skalarnihspremenljivk Xd je invariantna na rotacijo [52], zato se kot cenilna funkcija lahkouporablja kar vsota nedolocenosti posameznih skalarnih spremenljivk,

J∗∗Rα(X) =

D∑

d=1

HR(Xd) . (3.23)

Do enakega zakljucka lahko pridemo tudi na podlagi maksimizacije vezane entropijevpletenih spremenljivk [53]. Entropije skalarnih spremenljivk lahko v tem primeruizracunamo brez zamudnih numericnih integracij iz enacbe 2.29 preko informacij-skega potenciala 2.26, v katerem uporabimo Parzenovo oceno. Cenilna funkcija za

Page 33: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

3.2. Dolocanje znacilk s preoblikovanjem podatkov 23

α = 2 je potem enaka kar

J∗∗R2(X) = −

D∑

d=1

log VR2(Xd) , (3.24)

pri cemer je informacijski potencial skalarne spremenljivke enak

VR2(Xd) =

1

K2

K∑

k′=1

K∑

k=1

Ghd

√2(x

dk′ − xd

k) . (3.25)

V zgornji enacbi je z xdk oznacen d−ti element vektorske meritve xk = (x1

k, . . . , xDk )T.

Eden od nacinov za minimizacijo cenilne funkcije je postopek najhitrejsega ses-topa [39], po katerem kote θij na zacetku nastavimo nakljucno, nato pa jih iterativnopopravljamo v nasprotni smeri gradienta kriterijske funkcije,

θij ← θij − ηP

∂J∗∗R2(X)

∂θij

, (3.26)

kjer je ηP izbran konstanten ucilni parameter. Gradient ∂J∗∗R2(X)/∂θij lahko izracu-

namo analiticno. Z uporabo veriznega pravila namrec lahko zapisemo [17]

∂J∗∗R2(X)

∂θij

=D∑

d=1

∂HR2(Xd)

∂θij

= −D∑

d=1

K∑

k=1

K∑

k′=1

1

VR2(Xd)

∂VR2(Xd)

∂(xdk′ − xd

k)

∂(xdk′ − xd

k)

∂θij

= −D∑

d=1

1

VR2(Xd)

2

K

K∑

k=1

FR2(xdk)

∂xdk

∂θij

. (3.27)

V zgornji enacbi funkcijo

FR2(xdk) = − 1

2h2dK

2

K∑

k′=1

(xdk′ − xd

k)Ghd

√2(x

dk′ − xd

k) (3.28)

lahko po analogiji iz fizike interpretiramo kot informacijsko silo, s katero infor-macijski potencial VR2(x

d), definiran v enacbi 2.28, deluje na informacijski delcekxd

k [10, 17]. Nadalje, iz relacije xk = Rz′k sledi xdk =

∑Dd′=1 Rdd′z

d′k in

∂xdk

∂θij

=D∑

d′=1

∂Rdd′

∂θij

zd′k , (3.29)

kjer so Rdd′ elementi rotacijske matrike R. Iz enacbe 3.20 je mogoce izracunati tudiodvod rotacijske matrike R po kotu θij,

∂R

∂θij

=

(i−1∏u=1

D∏v=u+1

Ruv

)(j−1∏

v=i+1

Riv

)Rij ′

(D∏

v=j+1

Riv

)(D−1∏

u=i+1

D∏v=u+1

Ruv

).(3.30)

Page 34: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

24 3. Izbiranje vplivnih podatkov za modeliranje

V enacbi 3.30 je z Rij ′ oznacen odvod rotacijske matrike ∂Rij/∂θij po elementih; od

nic razlicni so tako samo elementi Rijii

′= − sin(θij), Rij

ij

′= − cos(θij), Rij

ji

′= cos(θij)

in Rijjj

′= − sin(θij). Opisani postopek se da razsiriti tudi za α 6= 2.

Iz enacb 3.27 in 3.28 sledi, da je racunska kompleksnost enaka O(K2), zaradicesar je algoritem zelo pocasen. Racunanje odvodov kvadratnega potenciala se dapohitriti z aproksimacijo imenovano stohasticni informacijski gradient (SIG) [54, 55],ki jo dobimo tako, da v osnovni definiciji kvadratnega informacijskega potenciala3.25 odstranimo eno od vsot,

V SIGR2

(Xd) =1

K

K∑

k=2

Ghd

√2(x

dk − xd

k−1) . (3.31)

Iz podobne izpeljave kot je bila prikazana za pravi gradient informacijskega po-tenciala, vidimo, da ima statisticni informacijski gradient racunsko kompleksnostenako O(K). Se vec, zaradi slabse ocene gradienta so oscilacije kotov med samimpostopkom optimizacije vecje, zato je verjetnost, da se metoda ujame v lokalnemminimumu, manjsa. Stohasticni informacijski gradient predstavlja dobro aproksi-macijo pravega gradienta informacijskega potenciala samo v primeru, ko vec za-porednih ocen potenciala povprecimo, pri cemer podatke v vsakem koraku nakljucnopremesamo, ali pa v primeru, da je stevilo podatkov K dovolj veliko [55].

Metoda FastICA

Kot mera za odstopanje porazdelitve slucajne spremenljivke od normalne poraz-delitve se velikokrat uporablja negentropija definirana z enacbo 2.13. Za slucajnoskalarno spremenljivko Xd jo lahko zapisemo kot HNEG(Xd) = H(Xd

G) − H(Xd),kjer je Xd

G normalno porazdeljena nakljucna spremenljivka z enakim povprecjem invarianco kot Xd. V primeru, da je spremenljivka Xd normalna, je HNEG(Xd) = 0, zvecanjem razlike med porazdelitvama pa narasca.

Ker je negentropija tezko izracunljiva, se v praksi uporabljajo razlicne aproksi-macije. Ena od njih je [50, 51]

H∗NEG(Xd) =

(E

[ξ(Xd)

]− E[ξ(Xd

G)])2

, (3.32)

kjer je E[.] operator matematicnega upanja. V metodi FastICA lahko uporabimo

razlicne funkcije ξ, najbolj obicajna pa je uporaba funkcije ξ(Xd) = 14

(Xd

)4. V tem

primeru se enacba 3.32 spremeni v [50, 51]

H∗NEG(Xd) =

1

12E

[(Xd

)3]2

+1

48

(E

[(Xd

)4]− 3

)2

. (3.33)

Spremenljivke v vektorju XG = (X1G, . . . , XD

G ) so neodvisne, zato lahko popolno in-formacijo, podano z enacbo 2.11, izrazimo tudi kot funkcijo negentropije, definirane

Page 35: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

3.2. Dolocanje znacilk s preoblikovanjem podatkov 25

v enacbi 2.13, na naslednji nacin

J(X) =D∑

d=1

H(Xd)−H(X)

=D∑

d=1

(H(XdG)−HNEG(Xd))− (H(XG)−HNEG(X))

= HNEG(X)−D∑

d=1

HNEG(Xd) . (3.34)

Ker sta vezana entropija H(X) in negentropija HNEG(X) neodvisni od rotacije,minimizacija mere J(X) ustreza maksimizaciji vsote

∑Dd=1 HNEG(Xd). Pri metodi

FastICA zato iscemo tako rotacijsko matriko xk = Rz′k, ki maksimizira navedenovsoto. Z upostevanjem vseh lastnosti mere se izkaze, da je konvergenca algoritmabistveno boljsa kot pri obicajnih gradientnih postopkih [51]. Od tod izhaja tudinjeno ime.

Metoda JADE

Metoda JADE (ang. Joint Approximate Diagonalization of Eigenmatrices) definiramero za medsebojno povezanost skalarnih spremenljivk Xd v vektorski spremenljivkiX na osnovi statistike visjih redov. Statistiko visjih redov se najlazje izrazi v ob-liki kumulantov. Ob predpostavki, da imajo spremenljivke Xd povprecje nic, sokumulanti drugega reda definirani kot [18]

Cij(X) = E[X iXj] (3.35)

kumulanti cetrtega reda pa kot

Cijkl(X) = E[X iXjXkX l]− Cij(X)Ckl(X)− Cik(X)Cjl(X)− Cil(X)Cjk(X) .(3.36)

Za testiranje neodvisnosti med skalarnimi spremenljivkami Xd je primerna tudimera, sestavljena iz podmnozice vseh kumulantov [18]

JJADE(X) =∑

ijkl,i6=j

C2ijkl(X) . (3.37)

Tako sestavljena mera med drugim dovoljuje, da se v postopku maksimizacije kotirotacijske matrike R izracunavajo iterativno po Jakobijevi metodi [11], s cimer seizognemo zamudnemu racunanju gradientov.

3.2.3. Metoda najznacilnejsih projekcij

Tako kot pri analizi neodvisnih komponent z uporabo mere, ki izhaja iz povprecnemedsebojne informacije, tudi pri metodi najznacilnejsih projekcij (ang. MaximallyDiscriminative Projections, MDP) iscemo znacilke xk, ki so linearne kombinacijeosnovnih meritev zk z dvofaznim postopkom [43]. Bistvena razlika med obemametodama je v zasnovi cenilne funkcije. Medtem ko je pri analizi neodvisnih kom-ponent ta odvisna samo od vhodnih spremenljivk X, jo pri metodi najznacilnejsih

Page 36: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

26 3. Izbiranje vplivnih podatkov za modeliranje

projekcij dolocajo odvisnosti med vhodnimi spremenljivkami in izhodom modelaY . Opisanemu konceptu ustreza maksimizacija mere medsebojne informacije medvhodnimi in izhodnimi spremenljivkami.

Racunanje prave Renyijeve medsebojne informacije 2.23 je racunsko prevec za-htevno, zato se uporablja izraz, ki izhaja iz enacbe 2.10, v kateri Shannonove en-tropije zamenjamo z Renyijevimi. Ta mera se se dodatno poenostavi v primeru, kozelimo z modelom vhodne podatke uvrscati v C vnaprej podanih razredov. Takratlahko zapisemo

I∗Rα(X; Y ) = HRα(X)−HRα(X|Y )

= HRα(X)−C∑

c=1

Kc

KHRα(X|Y = c) , (3.38)

kjer je Kc stevilo podatkov, ki spadajo v razred c, HR2(X|Y = c) pa nedolocenostvektorja X, v primeru ko je meritev spremenljivke Y uvrscena v razred c. Priracunanju entropije HR(X) uporabimo vse vzorce, pri racunanju entropijeHR2(X|Y = c) pa le vzorce, ki spadajo v razred c. Za α = 2 sledi

I∗R2(X; Y ) = − log VR2(X) +

C∑c=1

Kc

Klog VR2(X|Y = c) . (3.39)

Odvajanje zgornjega priblizka medsebojne informacije po kotih θij poteka na enaknacin kot pri postopku izbiranja vplivnih podatkov opisanih v razdelku 3.2.2. Kergre za minimizacijo informacijskih potencialov, tudi v tem primeru analiticni izracungradienta vkljucuje dvojne vsote. Analogno kot prej se ga zato pogosto zamenja sstohasticnim informacijskim gradientom, ki ga dobimo z odvajanjem mere

I∗SIGR2

(X; Y ) = − log1

K

K∑

k=1

Gh√

2(xk − xk−1)

+C∑

c=1

(Kc

Klog

1

Kc

Kc∑

kc=1

Gh√

2(xkc − xkc−1)

). (3.40)

Pri tem smo z indeksom kc oznacili sestevanje samo po tistih meritvah xk, ki imajopripadajoci izhod yk uvrscen v razred c. Za razliko od minimizacije medsebojneinformacije pri analizi neodvisnih komponent v tem primeru iterativno,

θij ← θij + η∂I∗SIG

R2(X; Y )

∂θij

, (3.41)

iscemo take kote θij rotacijske matrike R, pri katerih je mera I∗R2(X; Y ) maksi-

malna. V primeru, da je stevilo znacilk D veliko, se metoda ne obnasa najbolje [43].Kljub temu ima precej dobrih lastnosti - med drugim je neodvisna od modela,neparametricna, ne potrebuje diskretiziranih vhodnih spremenljivk in je robustnapri obravnavanju neustreznih meritev [43].

Page 37: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

3.2. Dolocanje znacilk s preoblikovanjem podatkov 27

3.2.4. Ilustracija uporabe metode PCA in metod ICA

Metode PCA in ICA naj bi vsaka na svoj nacin iz obravnavanega sistema izluscilipomembne informacije. Zato se jih s pridom uporablja na mnogih podrocjih, naprimer pri problemih slepega locevanja virov [27, 56], pri analizi signalov EKG [57]in analizi vrednostnih papirjev [58].

Metodo PCA, metodo ICA MI, ki minimizira Renyijevo povprecno medseboj-no informacijo, metodo FastICA in metodo ICA JADE smo uporabili pri analizidogajanja na borzi vrednostnih papirjev. V analizo smo zajeli delnice slovenskihpodjetij, ki so vkljucene v slovenski borzni indeks SBI20, njihovi tecaji pa so uradnoobjavljeni vsaj od zacetka leta 2006 dalje. Gre za delnice podjetij Krka, Petrol, Mer-cator, Sava, Pivovarna Lasko, Gorenje, Luka Koper, Helios, Intereuropa, Istrabenzin Aerodrom Ljubljana. Standardizirane vrednosti delnic so za obdobje od 1.1.2006do 31.12.2008, ki vkljucuje K = 743 trgovalnih dni, prikazane na sliki 3.5. Da bi seizognili trendom v casovnih vrstah smo se omejili na opazovanje spremembe vred-nosti delnic, ki so prikazane na sliki 3.6. Spremembe vrednosti delnic so izracunanekot razlike v vrednosti med dvema zaporednima trgovalnima dnevoma, zaradi lazjevizualne primerjave pa so tudi te standardizirane tako, da je njihovo povprecje nic,standardno odstopanje pa ena. Vektor meritev zk = (z1

k, . . . , zDk ) je sestavljen iz

D = 11 elementov zdk, pri cemer vsak od njih ustreza spremembi vrednosti ene od

delnic na k-ti trgovalni dan.Na sliki 3.7 se lepo vidi rezultat metode PCA. Prva glavna os, ki je na sliki

narisana najnizje, ima najvecjo varianco podatkov. Varianca podatkov nato padaproti zadnji glavni osi, ki je na sliki predstavljena najvisje. Varianca vrednostina posamezni casovni osi se, gledano casovno, najbolj spreminja tam, kjer so sevrednosti delnic najbolj spreminjale (slika 3.6). Ta nihanja so najbolj izrazita prinekaj prvih glavnih oseh, medtem ko nihanja pri manj pomembnih glavnih osehlahko v vecji ali manjsi meri pripisemo sumu.

V nadaljevanju je na sliki 3.8 predstavljena analiza neodvisnih komponent z mini-mizacijo povprecne medsebojne informacije (ICA MI), na sliki 3.9 analiza z metodoFastICA, na sliki 3.10 pa analiza neodvisnih osi z metodo ICA JADE. Neodvisneosi pri vseh treh metodah ICA se precej razlikujejo od glavnih osi metode PCA.Za razliko od metode PCA, kjer je varianca naslednje glavne osi vedno manjsaod variance predhodne glavne osi, so pri metodah ICA variance med posameznimineodvisnimi osmi precej podobne. Poleg tega so za metode ICA znacilne nenadnespremembe vrednosti ali soki na posamezni neodvisni osi. Ti so se posebej izraziti natretji neodvisni osi, steto od spodaj navzgor, pri metodi ICA MI, na drugi neodvisniosi pri metodi FastICA in na drugi ter sedmi neodvisni osi pri metodi ICA JADE.Se vec, nastete neodvisne osi so si pri vseh treh metodah ICA na las podobne. Takopodobnost lahko opazimo tudi pri nekaterih drugih neodvisnih oseh.

Soke, ki izstopajo pri posameznih neodvisnih oseh, si lahko predstavljamo kotvelike spremembe v vrednosti tecajev delnic z dolgotrajnim vplivom. Na drugi stranimajhne spremembe vrednosti na neodvisnih oseh predstavljajo majhna nihanja vtecajih delnic, ki malo prispevajo k dolgorocni vrednosti delnic. Zaradi tega so sokineke vrste pokazatelji pomembnih premikov na trgu [58].

Page 38: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

28 3. Izbiranje vplivnih podatkov za modeliranje

0 100 200 300 400 500 600 700trgovalni dan

vred

nost

i del

nic

Slika 3.5: Gibanje tecajev delnic izbranih slovenskih podjetij.

0 100 200 300 400 500 600 700trgovalni dan

spre

mem

be v

redn

osti

Slika 3.6: Spremembe tecajev delnic izbranih slovenskih podjetij.

0 100 200 300 400 500 600 700trgovalni dan

glav

ne o

si −

PC

A

Slika 3.7: Analiza z metodo PCA.

Page 39: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

3.2. Dolocanje znacilk s preoblikovanjem podatkov 29

0 100 200 300 400 500 600 700trgovalni dan

neod

visn

e os

i − IC

A M

I

Slika 3.8: Analiza z metodo ICA MI z medsebojno informacijo kot cenilno funkcijo.

0 100 200 300 400 500 600 700trgovalni dan

neod

visn

e os

i − F

astIC

A

Slika 3.9: Analiza z metodo FastICA.

0 100 200 300 400 500 600 700trgovalni dan

neod

visn

e os

i − IC

A J

AD

E

Slika 3.10: Analiza z metodo ICA JADE.

Page 40: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

30 3. Izbiranje vplivnih podatkov za modeliranje

0 100 200 300 400 500 600 700

ICA JADE

FastICA

ICA MI

PCA

spremembe tecajev delnic

trgovalni dan

Slika 3.11: Analiza najvecjih sprememb v casovnih vrstah.

Primerjava priblizno desetih najvecjih sokov, ki jih detektirajo uporabljene meto-de, je predstavljena na sliki 3.11 skupaj s spremembami tecajev vseh enajstih delnic.Vse stiri metode imajo po en izrazit sok okrog stiristotega, seststotega in sedem-stotega trgovalnega dne. Opazimo, da sta metodi ICA MI in FastICA popolnoma naenak nacin zaznali soke. Metoda ICA JADE odstopa predvsem z dodatnim sokomv okolici tristotega trgovalnega dne, namesto dveh sokov po stiristotem trgovalnemdnevu pa je zaznala dva nekoliko prej. Rezultati metode PCA se po pricakovanju senajbolj razlikujejo od ostalih treh. Pri metodi PCA so poudarjeni soki okrog sedem-stotega trgovalnega dne, za razliko od metod ICA pa je zaznala tudi precej sokovmed petstotim in seststotim trgovalnim dnem. Obenem ima metoda PCA najmanjsokov v okolici stiristotega trgovalnega dneva. Glede na to, da so se v tem casu,ki ustreza zadnjemu cetrtletju leta 2007, tecaji vseh delnic obrnili navzdol, lahkozakljucimo, da metode ICA malce bolj korektno razkrijejo pomembne dogodke vcasovnih vrstah.

Page 41: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

4.

Nevronske mreze

Nevronske mreze, kot jih danes poznamo v racunalnistvu, so bile zasnovane napodlagi raziskav delovanja bioloskih zivcnih sistemov [8, 59]. Tako kot pri bioloskihzivcnih sistemih so osnovni elementi ali nevroni na najrazlicnejse nacine povezani vvecje strukture imenovane nevronske mreze, ki so se z ucenjem sposobne prilagajatiokolju.

V nadaljevanju bo v primerjavi z bioloskim nevronom predstavljen matematicnimodel nevrona ter nacini povezovanja nevronov v sistem ali nevronsko mrezo. Po-drobneje bo razlozena nevronska mreza vecnivojski perceptron s poudarkom naucnih postopkih. Ogledali si bomo dva nadzorovana postopka ucenja: prvi, klasicni,temelji na minimizaciji povprecne kvadratne napake na izhodu iz modela, medtemko drugi za optimizacijo modela uporablja mero, ki izhaja iz teorije informacij. Obapostopka ucenja bomo na primeru ovrednotili v smislu casovne zahtevnosti.

4.1. Matematicni model

Idejo o nevronih kot osnovnih elementih zivcnih sistemov je prvi predstavil Cajal [8]v zacetku 20. stoletja. Bioloski nevron, prikazan na sliki 4.1, sestavljajo jedro, den-driti, akson in sinapticne povezave. Mnozica dendritov preko sinapticnih povezav

Slika 4.1: Bioloski nevron.

31

Page 42: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

32 4. Nevronske mreze

sprejema informacije iz drugih nevronov in okolice. Glede na stanje sinapticnihpovezav in na elektricne in kemijske procese, ki potekajo v njih, se informacija us-trezno ojaci ali pa zadusi. Zgradba in lastnosti celicne membrane dolocajo delovanjenevrona in s tem njegov odziv na sprejete informacije. Odziv nevrona se nazadnjepreko aksona prenasa naprej do drugih nevronov.

Strokovnjaki ocenjujejo, da je v mozganski skorji cloveskih mozganov okrog 109

nevronov, ki so med seboj povezani s preko 60·1012 sinapticnimi povezavami, za izva-janje operacije pa porabijo 10−10 J energije na sekundo [8]. Medtem ko se v bioloskihsistemih dogodki obravnavajo na milisekundni casovni skali, se v racunalniskih sis-temih enostavne operacije izvajajo na nivoju nanosekund. Kljub temu da je pro-cesiranje z racunalniskimi sistemi tudi milijonkrat hitrejse kot s pravimi nevroniin seveda tudi za faktor 1010 energetsko bolj potratno, so bioloski zivcni sistemizaradi nacina delovanja, stevila nevronov in pestrosti povezav med njimi se vednoveliko bolj prepricljivi pri izvajanju zapletenih operacij, kot so na primer zazna-vanje, razpoznavanje vizualnih vzorcev in govora, vodenje. Nevronske mreze so zeloprimerne za iskanje relacij v velikih mnozicah numericnih podatkov, na primer prinapovedovanju, vodenju procesov v industriji, podatkovnem rudarjenju.

Matematicni modeli nevronov bolj ali manj uspesno posnemajo delovanje bio-loskih nevronov. Eden prvih in najbolj uveljavljenih je McCulloch-Pittsov modelnevrona, ki je predstavljen na sliki 4.2 [60]. Funkcijo sinapticnih povezav v tem

Slika 4.2: Matematicni model nevrona.

matematicnem modelu nevrona opravljajo sinapticne utezi ωlji, ki vhode v nevron u1,

. . . , uU ustrezno utezijo. Zaradi splosnosti smo nevron oznacili z dvema parametromal in j, ki dolocata njegov polozaj v nevronski mrezi. Pozitivna vrednost utezi ustrezavzbujeni sinapsi, negativno vrednost pa si lahko predstavljamo kot dusenje signala.Tako kot po dendritih se signali prenesejo do jedra celice, kjer se utezene vsotenajprej sestejejo,

al,j =U∑

i=1

ωljiu

i . (4.1)

Indeks i tece cez vseh U vhodov v nevron. Izhod nevrona vl,j je odvisen od velikostiaktivacijskega potenciala al,j in oblike aktivacijske funkcije ϕl(·),

vl,j = ϕl(al,j − βlj) . (4.2)

Page 43: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

4.1. Matematicni model 33

Prag βlj doloca aktivno obmocje nevrona, saj se nevron vzbudi samo v primerih, ko

aktivacijski potencial preseze vrednost praga. Za aktivacijsko funkcijo se najveckratuporabljajo sigmoidne funkcije. To so gladke monotono narascajoce funkcije v oblikicrke S, ki imajo natanko en prevoj. V nadaljevanju bomo za aktivacijsko funkcijov vecini primerov izbrali sigmoidno funkcijo

ϕl(a) = tanh(a) =ea − e−a

ea + e−a, (4.3)

ki izhod iz nevrona omeji na interval (−1, +1), v dolocenih primerih pa tudi linearnoaktivacijsko funkcijo

ϕl(a) = a . (4.4)

Funkciji sta predstavljeni na sliki 4.3.

Slika 4.3: Sigmoidna aktivacijska funkcija ϕl(a) = tanh(a) in linearna aktivacijska funkcijaϕl(a) = a.

Nevroni so lahko med seboj na najrazlicnejse nacine povezani v nevronske mreze.Najbolj splosna in zato tudi zelo kompleksna je Hopfieldova nevronska mreza [8],v kateri je vsak nevron povezan z vsemi nevroni. Nevronske mreze so vedno za-snovane tako, da so vsi nevroni v osnovi enaki in na enak nacin vpeti v nevronskomrezo, s cimer se poenostavijo matematicni formalizmi. Zaradi svoje univerzal-nosti so primerne za najraznovrstnejse aplikacije. Nevronske mreze so dozivele velikrazcvet potem, ko so leta 1986 Rumelhart, Hinton in Williams predstavili vecplastniperceptron z vzvratnim postopkom prilagajanja parametrov modela [7].

Vecplastni perceptron je enostaven in univerzalen splosni model. Uporablja setako pri modeliranju casovnih vrst kot pri resevanju problemov uvrscanja vzorcev vrazrede [8, 36]. V vecplastnem perceptronu so nevroni organizirani v eno ali vec skri-tih plasti ter v izhodno plast. Vsak nevron v izbrani plasti je preko vhodov povezanz vhodi v model ali z vsemi nevroni prejsnje plasti, preko izhoda pa je povezan zvsemi nevroni naslednje plasti. Nevroni v plasti niso medsebojno povezani.

V nadaljevanju se bomo omejili na vecplastni perceptron z eno samo skrito plastjos topologijo, prikazano na sliki 4.4. Nevroni v skriti plasti imajo sigmoidno akti-vacijsko funkcijo, aktivacijska funkcija nevronov v izhodni plasti pa je kar linearna.Vhodi v vecnivojski perceptron so neposredno povezani z nevroni skrite plasti, izhodinevronov v izhodni plasti pa so hkrati tudi izhodi iz modela. Vecplastni perceptron

Page 44: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

34 4. Nevronske mreze

Slika 4.4: Vecplastni perceptron z eno skrito plastjo.

s topologijo NI − NH − NO ima NI vhodov v model, NH nevronov v skriti plastiin NO nevronov v izhodni plasti. Model z omenjeno topologijo ima NINH + NHNO

sinapticnih utezi in NH +NO pragov, skupaj torej (NI +1)NH +(NH +1)NO prostihparametrov, ki dolocajo njegovo kapaciteto.

Izhod vecplastnega perceptrona racunamo plast za plastjo od vhoda proti izhodu.Vzemimo, da imamo na voljo mnozico K parov vhodno-izhodnih vzorcev (xk,yk).Vektorji xk so sestavljeni iz D elementov, xk = (x1

k, . . . , xDK)T, vektorji yk pa iz NO

elementov, yk = (y1k, . . . , y

NOK )T. Ko je na vhod vecplastnega perceptrona postavljen

vzorec xk, so izhodi nevronov skritega nivoja enaki

vH,jk = ϕH

(aH,j

k

), aH,j

k =

NI∑i=1

ωHji x

ik − βH

j , j = 1, . . . , NH , (4.5)

pri cemer je stevilo vhodov enako stevilu elementov vektorja xk, NI = D. Na enaknacin lahko za izhode nevronov izhodne plasti zapisemo

vO,jk = ϕO

(aO,j

k

), aO,j

k =

NH∑i=1

ωOjiv

H,ik − βO

j , j = 1, . . . , NO . (4.6)

Za izhode iz modela, ki jih v obliki vektorja zapisemo kot vOk = (vO,1

k , . . . , vO,NO

k )T,si zelimo, da bi bili kar najbolj podobni izhodnim vzorcem yk.

Vecplastni perceptron z vsaj eno skrito plastjo nevronov z nelinearnimi aktiva-cijskimi funkcijami je univerzalni aproksimator, saj z njim lahko poljubno natancnoaproksimiramo katerokoli funkcijo [8]. Zaradi nelinearnosti, vpetih v sam model,je vecplastni perceptron zelo primeren tudi za modeliranje nelinearnih dinamicnihsistemov.

Topologija vecplastnega perceptrona omogoca, da se informacija med procesiran-jem porazdeli na vse nevrone, ki so vkljuceni v model. Ker tako prav vsak nevronv vsakem trenutku nosi del informacije, napaka na enem izmed nevronov oziromana kaksni povezavi ne povzroci hude napake na izhodu iz modela. Neobcutljivost

Page 45: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

4.2. Nadzorovano ucenje 35

modela na manjse napake je ena od pomembnih lastnosti nevronskih mrez pri mode-liranju realnih sistemov. Druga pomembna lastnost nevronskih mrez je sposobnostposplosevanja znanja, ki ga pridobijo med prilagajanjem prostih parametrov oziromaucenjem iz primerov.

4.2. Nadzorovano ucenje

Ucenje je proces prilagajanja prostih parametrov nevronske mreze glede na vpliveokolja. V nadaljnji obravnavi se bomo omejili na nadzorovano ucenje, pri kateremposkusamo model zgraditi tako, da bo kar najbolj pravilno odgovarjal na predstav-ljene vzorce. Natancneje, s postopkom ucenja zelimo model nauciti tako, da bo naznani vhodni vzorec xk odgovoril z izhodom iz modela vO

k , ki se bo kar najmanjrazlikoval od zelenega izhoda yk, oziroma, da bo napaka ek = yk − vO

k cim manjsa.Ucenje modela obicajno poteka iterativno, z izboljsevanjem prostih parametrov

modela v smislu minimizacije izbrane cenilne funkcije EC . Zaradi relativno preprostetopologije vecnivojskega perceptrona se v fazi ucenja lahko uporablja razlicne gra-dientne postopke. Eden najbolj preprostih gradientnih postopkov je postopek naj-hitrejsega sestopa [8], pri katerem proste parametre modela iterativno popravljamov nasprotni smeri gradienta cenilne funkcije,

ωlji ← ωl

ji − ηL∂EC

∂ωlji

, (4.7)

βlj ← βl

j − ηL∂EC

∂βlj

. (4.8)

Prosti parametri modela so na zacetku obicajno postavljeni na nakljucne vrednosti.Ucilni parameter ηL je lahko konstanta, bolje pa je, ce se prilagaja razmeram medminimizacijo. Uporabili smo enostaven hevristicni postopek [61], po katerem seucilni parameter, ki je na zacetku nastavljen na ηL = 0,01, od iteracije do iteracijespreminja glede na spreminjanje vrednosti cenilne funkcije. Ce se vrednost cenilnefunkcije v novi iteraciji zmanjsa, se ucilni parameter ustrezno poveca, ηL ← 1,1×ηL,modeliranje pa se nadaljuje s popravljenim naborom prostih parametrov modela. Cepa se vrednost cenilne funkcija v novi iteraciji poveca, se ucilni parameter ustreznozmanjsa, ηL ← 0,7× ηL, spremembe prostih parametrov modela pa se zavrzejo.

Obstaja se veliko razlicnih gradientnih postopkov ucenja [39, 61], na primerLevenberg-Marquardtov postopek ali pa postopek konjugiranih gradientov, ki soobicajno mnogo hitrejsi od opisanega, vendar je vecina med njimi prilagojena naminimizacijo cenilne funkcije v obliki kvadratne norme.

Pri predolgotrajnem ucenju se kaj rado zgodi, da se model prevec nauci na pred-stavljeno mnozico vhodno-izhodnih vzorcev. To lahko preprecimo z uvedbo dodatne,obicajno manjse, mnozice za vrednotenje modela, s katero ocenjujemo sposobnostposplosevanja. Na sliki 4.5 je prikazan tipicen potek cenilne funkcije na ucni mnoziciin na mnozici za vrednotenje modela. Obicajno se na zacetku ucenja cenilna funkcijana obeh mnozicah zmanjsuje. Hkratno padanje cenilne funkcije na ucni mnozici innjeno narascanje na mnozici za vrednotenje nakazuje na to, da se je model prevec pri-lagodil vzorcem v ucni mnozici, saj so sposobnosti posplosevanja modela na mnozici

Page 46: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

36 4. Nevronske mreze

Slika 4.5: Tipicen potek cenilne funkcije na ucni mnozici in na mnozici za vrednotenjemodela v postopku ucenja.

vzorcev, ki niso bili uporabljeni za nastavljanje prostih parametrov modela, vednoslabse. Na koncu izberemo tiste proste parametre modela, pri katerih je bila cenilnafunkcija na mnozici za vrednotenje modela najmanjsa.

4.2.1. Minimizacija povprecne kvadratne napake

Najpogosteje se uspesnost modela meri s cenilno funkcijo kvadratne napake povpre-cene cez vse vzorce uporabljene v fazi ucenja (ang. Mean Squared Error, MSE),

EMSE =1

K

K∑

k=1

EMSEk , EMSE

k =1

NO

NO∑j=1

1

2

(ejk

)2, (4.9)

kjer so ejk = yj

k − vO,jk elementi vektorja napak ek.

Gradiente v enacbah 4.7 in 4.8 je za vecplastni perceptron mogoce izracunatianaliticno po vzvratnem postopku ucenja [59]. Za utezi nevronov in za pragove vizhodni plasti lahko z uporabo veriznega pravila zapisemo

∂EMSE

∂ωOji

=1

KNO

K∑

k=1

∂EMSEk

∂aO,jk

∂aO,jk

∂ωOji

=1

KNO

K∑

k=1

δO,jk vH,i

k in (4.10)

∂EMSE

∂βOj

=1

KNO

K∑

k=1

∂EMSEk

∂aO,jk

∂aO,jk

∂βOj

= − 1

KNO

K∑

k=1

δO,jk , (4.11)

kjer je

δO,jk =

EMSEk

∂aO,jk

=∂EMSE

k

∂ejk

∂ejk

∂vO,jk

vO,jk

aO,jk

= −ejkϕ

O ′(aO,jk ) . (4.12)

Na enak nacin nadaljujemo tudi na skriti plasti,

∂EMSE

∂ωHji

=1

KNO

K∑

k=1

∂EMSEk

∂aH,jk

∂aH,jk

∂ωHji

=1

KNO

K∑

k=1

δH,jk xi

k in (4.13)

∂EMSE

∂βHj

=1

KNO

K∑

k=1

∂EMSEk

∂aH,jk

∂aH,jk

∂βHj

= − 1

KNO

K∑

k=1

δH,jk , (4.14)

Page 47: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

4.2. Nadzorovano ucenje 37

pri cemer velja se

δH,jk =

∂EMSEk

∂aH,jk

=

NO∑o=1

∂EMSEk

∂aO,ok

∂aO,ok

∂vH,jk

∂vH,jk

∂aH,jk

=

(NO∑o=1

δO,jk ωH

oj

)ϕH ′(aH,j

k ) . (4.15)

V primeru, da za aktivacijsko funkcijo nevronov v skriti plasti vzamemo ϕH(a) =tanh(a), za aktivacijsko funkcijo nevronov v izhodni plasti pa ϕO(a) = a, se izracunise dodatno poenostavijo. Za odvode namrec velja ϕH ′(a) = 1−(ϕH(a))2 in ϕO ′(a) =1.

Z opisanim postopkom ne moremo optimizirati topologije modela. To obicajnonaredimo z razlicnimi hevristicnimi postopki ali pa z diskretnimi iskalnimi postopki,na primer evolucijskimi [37, 59].

4.2.2. Minimizacija entropije napake

Povprecna kvadratna napaka je priljubljena mera za ucenje vseh vrst adaptivnihsistemov, med njimi tudi nevronskih mrez. Glavna razloga za to sta, da je merozelo lahko analiticno izraziti in predpostavka, da je za opis vecine nakljucnih dogod-kov v naravi dovolj statistika drugega reda. V zadnjem casu se je pri modeliranjukompleksnih dinamicnih sistemov pokazalo, da je ta predpostavka prej omejitev kotprednost [62]. Ena od moznih resitev za preseganje statistike drugega reda pred-stavlja teorija informacije.

Entropija, predstavljena v poglavju 2, predstavlja mero za nedolocenost nakljuc-ne spremenljivke. Ce kot spremenljivko razumemo napako modela in poskrbimo,da je njeno povprecje enako nic, nam po eni strani velika entropija napake kaze naveliko razprsenost in s tem na zelo siroko gostoto verjetnostne porazdelitve, po drugistrani pa majhna entropija kaze na majhno nedolocenost in s tem zelo ozko gostotoverjetnostne porazdelitve ter s tem na vecjo skladnost modela s podatki.

Tako kot pri metodah izbiranja znacilk je Renyijeva entropija, definirana venacbi 2.21, zaradi svojih lepih lastnosti tudi pri ucenju nevronskih mrez bolj pri-merna izbira kot Shannonova entropija [9]. Vzemimo, da odstopanja modela odpravih vrednosti, ek = yk − vO

k , k = 1, . . . , K, predstavljajo meritve slucajne vek-torske spremenljivke E. Potem lahko iz enacb 2.26 in 2.29 ocenimo nedolocenostslucajne spremenljivke ali entropijo napake kot

HR2(E) = − log VR2(E) , VR2(E) =1

K2

K∑

k′=1

K∑

k=1

Gh√

2(ek′ − ek) . (4.16)

Tako kot pri minimizaciji povprecne kvadratne napake je tudi pri minimizacijientropije napake (ang. Entropy of Error, EE)

EEE = HR2(E) (4.17)

gradiente cenilne funkcije po prostih parametrih modela mogoce izracunati analiti-cno [19, 20, 62, 63]. Ce z ω oznacimo katerikoli prosti parameter v modelu, lahko

Page 48: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

38 4. Nevronske mreze

zapisemo

∂EEE

∂ω=

∂HR2(E)

∂ω= − 1

VR2(E)

VR2(E)

∂ω. (4.18)

Iz enacbe 4.16 potem sledi

∂VR2(E)

∂ω=

NO∑o=1

K∑

k′=1

K∑

k=1

∂VR2(E)

∂(eok′ − eo

k)

(eok′ − eo

k)

∂ω

=

NO∑o=1

2

K

K∑

k=1

FR2(eok)

∂vO,ok

∂ω, (4.19)

z informacijsko silo

FR2(eok) = − 1

2h2oK

K∑

k′=1

(eok′ − eo

k)Gh√

2(ek′ − ek) , (4.20)

ki izhaja iz enacbe 3.28. Parcialni odvod ∂vO,ok /∂ω v zgornji enacbi lahko izracunamo

za vsak prosti parameter modela posebej. Za nevrone v izhodni plasti velja

∂vO,ok

∂ωOji

=

{ϕO ′(aO,j

k )vH,ik ; j = o

0 ; j 6= oin

∂vO,ok

∂βOj

=

{ −ϕO ′(aO,jk ) ; j = o

0 ; j 6= o. (4.21)

Z veriznim pravilom lahko nadaljujemo se z izracuni parcialnih odvodov izhoda poprostih parametrih nevronov v skriti plasti,

∂vO,ok

∂ωHji

=∂vO,o

k

∂vH,jk

∂vH,jk

∂aH,jk

∂aH,jk

∂ωHji

= ϕO ′(aO,ok )ωO

ojϕH ′(aH,j

k )xik in (4.22)

∂vO,ok

∂βHj

=∂vO,o

k

∂vH,jk

∂vH,jk

∂aH,jk

∂aH,jk

∂βHj

= −ϕO ′(aO,ok )ωO

ojϕH ′(aH,j

k ) . (4.23)

Informacijski potencial VR2(E) ni odvisen od povprecja porazdelitve napak, zato selahko zgodi, da po koncani optimizaciji povprecje napak E[E] ni enako nic. Ker smoprivzeli, da imajo nevroni na izhodni plasti linearno aktivacijsko funkcijo, lahko toanomalijo odpravimo tako, da namesto po enacbi 4.21 pragove nevronov v izhodniplasti nastavimo na vrednost enako povprecni napaki, βO

j = 1K

∑Kk=1 ej

k.

4.2.3. Primerjava obeh postopkov ucenja

Na sliki 4.6 sta predstavljena tipicna poteka ucenja s prej opisanima metodama.Gre za modeliranje naslednje vrednosti v casovni vrsti povprecnega stevila Soncevihpeg, ki bo podrobneje opisano v naslednjem poglavju, z vecnivojskim perceptronom.Uporabljen je model s petimi nevroni v skriti plasti, ki na vhodu sprejema zadnjih

Page 49: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

4.2. Nadzorovano ucenje 39

Slika 4.6: Prvih stiristo korakov ucenja. Grafi v levem stolpcu so dobljeni z minimizacijocenilne funkcije EMSE, grafi v desnem stolpcu pa z minimizacijo cenilne funkcije EEE.V prvi vrsti je prikazan potek mere uporabljene pri minimizaciji, v drugi vrsti pa sopredstavljene porazdelitve napak po koncanem ucenju. Za lazjo primerjavo metod je vtretji vrsti prikazan se potek mere, ki ni uporabljena pri minimizaciji. Na grafih, ki kazejospreminjanje mer v odvisnosti od iteracij, je z modro oznacen potek mere na ucni mnozici,s crno pa na mnozici za vrednotenje modela.

deset vrednosti v casovni vrsti, nato pa iz njih poskusa napovedati naslednjo vred-nost. Ucenje z minimizacijo povprecne kvadratne napake je predstavljeno na levi,ucenje z minimizacijo Renyijeve entropije pa na desni.

Pri minimizaciji povprecne kvadratne napake je zmanjsevanje mer zelo izrazi-to na zacetku, na sliki tja do 80 iteracije, potem pa se zelo upocasni. Po drugistrani se pri minimizaciji entropije napake zmanjsevanje upocasni mnogo prej, ven-dar ne tako mocno kot pri minimizaciji povprecne kvadratne napake. Model, dobljenz minimizacijo entropije napake, je v vecini primerov boljsi tako glede povprecnekvadratne napake kot tudi glede entropije napake. K temu verjetno najvec prispevato, da na mero EEE vzorci, ki jih model ne zna dobro opisati, vplivajo manj kotna mero EMSE. To se lepo vidi na obeh histogramih. Pri minimizaciji povprecnekvadratne napake dobimo sirok vrh, vzorcev, pri katerih je napaka modela velika,pa je manj. Nasprotno je pri minimizaciji entropije napake vrh ozji, v histogramupa je vec osamelih vzorcev.

Zgornje ugotovitve govorijo v prid ucenju z minimizacijo entropije napake. Nazalost pa je ucenje z minimizacijo entropije napake precej pocasnejse od ucenja

Page 50: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

40 4. Nevronske mreze

z minimizacijo povprecne kvadratne napake, kar predstavlja velik problem pred-vsem pri aplikacijah, ki zahtevajo sprotno (ang. on-line) ucenje. Na sliki 4.7 jepredstavljena casovna zahtevnost obeh metod za razlicno stevilo vzorcev K. Polegtega, da cas, potreben za izracun ene iteracije, pri minimizaciji entropije napakenarasca s kvadratom stevila vzorcev, je zaradi kompleksnega izracunavanja mere, kivkljucuje racunanje velikega stevila Gaussovih funkcij, tudi mnogo pocasnejse. Naprimer, za relativno majhno ucno mnozico z 200 vzorci je racunanje ene iteracijez minimizacijo entropije napake kar stokrat pocasnejse, kot v primeru minimizacijepovprecne kvadratne napake.

Slika 4.7: Cas potreben za izracun ene iteracije v odvisnosti od stevila vzorcev K. Meritveso bile narejene na racunalniku Intel Pentium Core 2 Duo 6700.

Page 51: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

5.

Napovedovanje casovnih vrst

Metode za dolocanje znacilk iz podatkov in metode za modeliranje s splosnimi modelismo najprej ovrednotili na relativno majhnih standardnih problemih modeliranjadinamicnih sistemov, ki so opisani z eno samo casovno vrsto [64]. Kadar z modelompovezemo izbrano vrednost z nekaj predhodnimi vrednostmi, ga lahko s pridomuporabimo tudi za napovedovanje naslednje vrednosti v casovni vrsti. Doslej opisanemetode, ki izhajajo iz informacijske teorije, bomo primerjalno ovrednotili glede nastandardne metode pri uspesnosti napovedovanja naslednje vrednosti casovne vrste.

Dolocanje znacilk in modeliranje sta pogojena z osnovnimi lastnostmi casovnevrste. Zato si bomo v nadaljevanju najprej ogledali casovne vrste in njihove znacil-nosti. Za cim bolj objektivno primerjavo smo izbrali vec casovnih vrst, ki izhajajo izrazlicnih okolij: povprecno letno stevilo Soncevih peg, umetni casovni vrsti opisani zlogisticno preslikavo in Mackey-Glassovo diferencialno enacbo ter dve casovni vrsti,ki prihajata iz ekonomije: tecaj delnice Sava, d.d., in vrednost borznega indeksaSBI20. Za vseh pet casovnih vrst bomo med seboj primerjali metode izbiranjaznacilk in modeliranja v smislu uspesnosti napovedovanja naslednje vrednosti vcasovni vrsti. Ogledali si bomo tudi, kako se metode obnasajo pri poenostavljenemmodeliranju, pri katerem mora model uvrstiti naslednjo vrednost v enega v naprejdolocenih razredov.

5.1. Predstavitev casovnih vrst

Diskretna casovna vrsta je mnozica vrednosti, ki jih opazovana kolicina zavzame vizbranih trenutkih [40]. Obicajno se omejimo na diskretne casovne vrste, vzorcenev enakomernih casovnih presledkih s periodo vzorcenja ∆t. Vrednost casovne vrsteg ob k-tem vzorcenju v casu tk oznacimo z gk. Torej

gk = g(tk) = g(t0 + k∆t) za k = 1, . . . , K , (5.1)

kjer je t0 cas zacetka opazovanja, K pa stevilo vrednosti v casovni vrsti.

Povprecno letno stevilo Soncevih peg

Sonceve pege so temne lise na povrsju Sonca, ki jih povzrocajo mocna magnetnapolja. Mocna magnetna polja preprecujejo konvekcijo, zaradi cesar so obmocja v nji-

41

Page 52: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

42 5. Napovedovanje casovnih vrst

hovi okolici hladnejsa in zaradi manjsega sevanja tudi temnejsa od ostale povrsine.Sonceve pege rastejo prvih nekaj dni po nastanku in izginejo po nekaj dneh ali mese-cih. Stevilo Soncevih peg je pogojeno z aktivnostjo Sonca in zato jih astronomskilaboratoriji neprestano spremljajo. Podatki o gibanju povprecnega letnega stevilasoncevih peg se zbirajo ze od leta 1700 dalje [65]. Casovna vrsta, prikazana nasliki 5.1, predstavlja standardno testno casovno vrsto. Povprecno letno stevilo

0 50 100 150 200 250 3000

100

200

g k

k

0 0.1 0.2 0.3 0.4 0.50

2

4x 10

7

ζ ν

ν

0 10 20 30 40 50−1

0

1

ρ G(T

)

T

Slika 5.1: Povprecno letno stevilo Soncevih peg: casovna odvisnost (zgoraj), periodogram(sredina) in avtokorelacijski koeficient (spodaj).

Soncevih peg se ciklicno spreminja. Perioda najbolj opaznega solarnega cikla jemed 7 in 16 let. V periodogramu je najbolj ociten vrh s frekvenco ν = 0,09 leto−1,ki ustreza priblizno 11 letnemu solarnemu ciklu. Casovna vrsta je ciklicna, zato jeciklicno tudi spreminjanje avtokorelacijskega koeficienta.

Logisticna preslikava

Logisticna preslikava ali Feigenbaumovo zaporedje je umetna casovna vrsta. Vred-nosti v casovni vrsti povezuje rekurzivna enacba [66]

gk = rgk−1(1− gk−1) . (5.2)

Uporabili smo r = 4, pri katerem je ta casovna vrsta kaoticna [67] in kot taksna mno-gokrat uporabljana kot testna casovna vrsta. Za kaoticne casovne vrste je znacilno,da majhne spremembe vrednosti g1 privedejo do velikih razlik ze po nekaj clenih [66].V nasem primeru smo uporabili 309 clenov zaporedja. Prvi clen je imel vrednost

Page 53: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

5.1. Predstavitev casovnih vrst 43

g1 = 0,01, vsi ostali cleni pa so bili izracunani na 15 decimalnih mest natancno. Za-poredje je prikazano na sliki 5.2. Iz periodograma je razvidno, da casovna vrsta ni

0 50 100 150 200 250 3000

0.5

1

g k

k

0 0.1 0.2 0.3 0.4 0.50

100

200

ζ ν

ν

0 10 20 30 40 50−0.5

0

0.5

1

ρ G(T

)

T

Slika 5.2: Logisticna preslikava: casovna odvisnost (zgoraj), periodogram (sredina) inavtokorelacijski koeficient (spodaj).

periodicna. Se vec, enakomerno poudarjene frekvence na celotnem intervalu nakazu-jejo, da gre za popolnoma nakljucno casovno vrsto z naravo suma. Enake zakljuckelahko potegnemo tudi iz avtokorelacijske analize, saj ima avtokorelacijski koeficientveliko vrednost samo za T = 0. Nobena od omenjenih metod namrec ne more locitideterministicne kaoticne casovne vrste od belega suma.

Casovna vrsta Mackey-Glass

Mackey in Glass sta z diferencialno enacbo

dg(t)

dt= 0,2

g(t− τ)

1 + g10(t− τ)− 0,1g(t) , (5.3)

poskusala ilustrirati pojav kompleksne dinamike pri analizi fizioloskih motenj [68].S to enacbo generirana casovna vrsta, prikazana na sliki 5.3, je kaoticna [69]. Zadolocitev vrednosti v diskretnih casih tk = k∆t, ∆t = 1 s, je bila uporabljena metodaRunge-Kutta cetrtega reda. Za nase potrebe smo uporabili prvih 309 vrednosti vcasovni vrsti, ki smo jih dobili z zacetno vrednostjo g(0) = 1,2 in parametromτ = 17. Kljub temu, da v periodogramu opazimo vrh pri frekvenci 0,02175 Hz, kiustreza periodi 46 s, slednja ni popolnoma jasno definirana.

Page 54: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

44 5. Napovedovanje casovnih vrst

0 50 100 150 200 250 3000

0.5

1

1.5

g k

k

0 0.1 0.2 0.3 0.4 0.50

1000

2000

ζ ν

ν

0 10 20 30 40 50−1

0

1

ρ G(T

)

T

Slika 5.3: Casovna vrsta Mackey Glass: casovna odvisnost (zgoraj), periodogram (sredina)in avtokorelacijski koeficient (spodaj).

Tecaj delnice Sava, d.d.

Delnice druzbe Sava, d.d., kotirajo na Ljubljanski borzi od januarja leta 2000 inves ta cas spadajo med 20 najmocnejsih delnic v Sloveniji. V analizo smo zajelitecaje delnice ob zakljucku trgovalnega dneva od 1.4.2007 do 30.6.2008. Na sliki 5.4je ociten trend izrazitega narascanja tecaja z najvisjo vrednostjo 681,08 EUR 7.novembra 2007, na 149 trgovalni dan, ki mu sledi trend drsenja tecaja navzdol. Vperiodogramu ni ocitne periode, visoke vrednosti pri nizkih frekvencah nakazujejoizraziti trend. Analiza razlik zakljucnih tecajev med dvema zaporednima trgoval-nima dnevoma, ki je predstavljena na desni strani slike 5.4, kaze na burnejse trgo-vanje v casu padanja tecajev. V periodogramu so ocitni trije vrhovi, ki pribliznoustrezajo 5, 10 in 15 dnevni periodi. Avtokorelacijski koeficient kaze na to, da medspremembami tecaja ni znacilne odvisnosti.

Borzni indeks SBI20

Borzni indeks SBI20 sestavlja 20 delnic slovenskih podjetij, ki kotirajo na Ljubljanskiborzi. Borzni indeks je pokazatelj dogajanja na borzi, njegova sestava pa se zaradicim bolj verne slike dogajanja na borzi obcasno tudi spreminja. Trenutno so vindeks SBI20 vkljucene delnice naslednjih podjetij v navedenih delezih: Krka 17,08%, Petrol 12,94 %, Telekom Slovenije 12,63 %, Sava 10,42 %, Mercator 10,24 %,

Page 55: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

5.2. Napovedovanje naslednje vrednosti 45

0 100 200 3000

500

1000

g k

k

0 0.1 0.2 0.3 0.4 0.50

2

4x 10

8

ζ ν

ν

0 10 20 30 40 500

0.5

1

ρ G(T

)

T

0 100 200 300−100

0

100

g k−g k−

1

k

0 0.1 0.2 0.3 0.4 0.50

2

4x 10

5

ζ ν

ν

0 10 20 30 40 50−1

0

1

ρ G(T

)

T

Slika 5.4: Tecaj delnice Sava, d.d.: vrednost delnice na trgovalni dan od 1.4.2007 dalje(zgoraj levo) in razlika v tecajih med dvema trgovalnima dnevoma (zgoraj desno). Podvsako casovno vrsto je prikazan njen periodogram (sredina) in avtokorelacijski koeficient(spodaj).

Zavarovalnica Triglav 6,34 %, Nova kreditna banka Maribor 5,53%, Pivovarna Lasko4,55 %, Luka Koper 4,23 %, ABanka 4,13 %, Gorenje 3,68 %, Pozavarovalnica Sava3,60 %, Helios Domzale 1,91 %, Aerodrom Ljubljana 1,46 % in Intereuropa 1,27 %.

Tako kot pri tecaju delnice Sava, d.d., smo tudi pri indeksu SBI20 analizirali nje-gove vrednosti v zanimivem obdobju od 1.4.2007 do 30.6.2008, ki vkljucuje obdobjekonstante rasti, ki mu sledi obdobje konstantnega padanja vrednosti. Vrednost in-deksa je prikazana na levi strani slike 5.5. Nihanje trenda z zelo nizko frekvencopotrjujeta tako periodogram kot tudi avtokorelacijski koeficient. Podobno kot pritecaju delnice Sava, d.d., lahko tudi v tem primeru pri analizi sprememb vred-nosti indeksa opazimo neizrazite periode za priblizno 5, 10 in 15 trgovalnih dni ternepovezanost sprememb indeksa med zaporednimi trgovalnimi dnevi.

5.2. Napovedovanje naslednje vrednosti

Casovne vrste smo pred modeliranjem standardizirali tako, da smo jim odstranilipovprecje in poskrbeli, da je varianca vrednosti v casovni vrsti enaka 1. Tedaj jezaradi oblike aktivacijskih funkcij prilagajanje prostih parametrov modela najboljucinkovito [36].

Analize v prejsnjem razdelku so pokazale, da je izbrana vrednost v casovni vrsti

Page 56: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

46 5. Napovedovanje casovnih vrst

0 100 200 3000.5

1

1.5x 10

4g k

k

0 0.1 0.2 0.3 0.4 0.50

5

10x 10

10

ζ ν

ν

0 10 20 30 40 500

0.5

1

ρ G(T

)

T

0 100 200 300−1000

0

1000

g k−g k−

1

k

0 0.1 0.2 0.3 0.4 0.50

5x 10

7

ζ νν

0 10 20 30 40 50−1

0

1

ρ G(T

)

T

Slika 5.5: Indeks SBI20: vrednost indeksa na trgovalni dan od 1.4.2007 dalje (zgoraj levo)in razlika v tecajih med dvema trgovalnima dnevoma (zgoraj desno). Pod vsako casovnovrsto je prikazan njen periodogram (sredina) in avtokorelacijski koeficient (spodaj).

v vecini primerov najbolj odvisna od nekaj predhodnih vrednosti. Da bi bilo modeli-ranje casovno sprejemljivo, so modeli pri napovedovanju vrednosti naslednje meritvelahko uporabili do D0 = 12 predhodnih meritev. Iz standardiziranih casovnih vrst,ki imajo vse po K0 = 309 meritev, g1, . . . , gK0

, smo pripravili 297 parov vhodno -izhodnih vzorcev (zk, yk) z

zk = (gk, gk+1 . . . , gk+D0−1)T in yk = gk+D0

, k = 1, . . . , K0 −D0 . (5.4)

Prvih 80 %, oziroma 239 vzorcev, smo uporabili za ucenje modela, zadnjih 20 %,oziroma 60 vzorcev, pa za testiranje in primerjavo razlicnih modelov med seboj.Med vzorci, ki smo jih uporabili za ucenje, smo prvih 80 % (K = 190) porabili zanastavljanje prostih parametrov modelov, zadnjih 20 % pa za vrednotenje procesaucenja in v smislu razdelka 4.2 kot kriterij za zakljucek modeliranja.

Znacilke xk = (x1, . . . , xD)T so dolocene iz vhodnih vzorcev zk s

• hevristicno metodo, v kateri znacilke predstavlja zadnjih D meritev, kriterijza izbiro znacilk pa je uspesnost modela (H1m),

• hevristicno metodo, ki vkljucuje pohlepni iskalni algoritem v povezavi z uspes-nostjo modeliranja (H2m),

Page 57: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

5.2. Napovedovanje naslednje vrednosti 47

• hevristicno metodo, ki vkljucuje pohlepni iskalni algoritem, kriterij za izbiranjeznacilk pa je Shannonova medsebojna informacija (H2i),

• metodo PCA (PCA),

• metodo ICA z mero, ki izhaja iz teorije informacije (ICAi),

• metodo FastICA (ICAf) in

• metodo ICA JADE (ICAj).

Pri izbiranju znacilk z metodo H2i, ki temelji na diskretni obliki Shannonove medse-bojne informacije, smo morali vhodne in izhodne vzorce diskretizirati. Vzorce smodiskretizirali v 3 razrede tako, da so bili vsi razredi enakovredno zastopani. Poskusiso pokazali, da zaradi korekcijskega clena v enacbi 3.10, ki narasca eksponentno sstevilom znacilk D, diskretizacija v vec razredov ni smiselna. Pri dolocanju znacilkz metodo PCA smo za znacilke uporabili samo tiste glavne osi, katerih variancapredstavlja vsaj pPCA = 0,01 variance prve glavne osi. Pri vseh treh metodah ICAsmo stevilo znacilk, ki smo jih uporabili pri modeliranju, spreminjali od D = 1 doD = 12.

Vsak nabor znacilk smo preverili z vec modeli, pri katerih smo spreminjali stevilonevronov v skriti plasti. Modeli so imeli lahko v skriti plasti do stirikrat tolikonevronov, kot je vhodov v model. Ker modeli z velikim stevilom prostih parametrovpogosto slabo posplosujejo pridobljeno znanje, smo njihovo stevilo omejili na naj-vec 40 % stevila meritev v casovni vrsti. Pri ucenju gre za minimizacijo cenilnefunkcije v vecdimenzionalnem prostoru. Ker se minimizacija v vecdimenzionalnemprostoru lahko ustavi v lokalnem minimumu, smo ucenje za vsako topologijo ponovilidesetkrat. Med vsemi preizkusenimi topologijami smo za nadaljnjo analizo izbralitisto, pri kateri smo dobili najboljsi rezultat na testni mnozici.

Za cenilno funkcijo v fazi ucenja smo uporabili kriterijsko funkcijo povprecnekvadratne napake, EMSE in kriterijsko funkcijo entropije napake EEE, ki sta podaniv enacbah 4.9 in 4.17.

Dobljene rezultate smo ovrednotili s

• korenjeno povprecno kvadratno napako, normalizirano na standardno odsto-panje meritev v casovni vrsti σ (ang. Normalized Root Mean Squared Error,NRMSE),

NRMSE = σ−1

√√√√ 1

KNO

K∑

k=1

NO∑o=1

eok2 , (5.5)

kjer je eok napaka na izhodu o pri k-tem vzorcu,

• normaliziranim informacijskim potencialom (ang. Normalized Information Po-tential, NIP)

NIP =VR2(E)

maxE

VR2(E), (5.6)

Page 58: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

48 5. Napovedovanje casovnih vrst

pri cemer je informacijski potencial VR2(E) izracunan po enacbi 2.26,

• stevilom prostih parametrov modela, NP, pri cemer za dvoplastni perceptronz NI vhodi, NH nevroni v skriti plasti in z NO nevroni v izhodni plasti velja

NP = (NI + 1)NH + (NH + 1)NO in (5.7)

• stevilom znacilk oziroma vhodov v model NI .

Model je tem boljsi, cim manjse so napake med pravimi in izracunanimi vrednostmi,oziroma cim manjsa je mera NRMSE. Mera NIP lahko zavzame vrednosti med 0 in1, za razliko od mere NRMSE pa visja vrednost kaze na boljse prileganje modela.Ker zelimo dinamicni sistem opisati s cim manjsim in cim bolj enostavnim modelom,seveda zelimo, da bi bili meri NP in NI cim manjsi.

5.2.1. Analiza rezultatov za posamezne casovne vrste

Povprecno letno stevilo Soncevih peg

Rezultati modeliranja povprecnega letnega stevila Soncevih peg s sedmimi razlicnimimetodami dolocanja znacilk ter z ucenjem z dvema razlicnima cenilnima funkcijamaso prikazani na sliki 5.6. Pri vseh kombinacijah metod dolocanja znacilk in metoducenja je mera NRMSE na ucni mnozici nizja kot na testni mnozici, mera NIP pavisja na ucni kot na testni mnozici. To je razumljivo, saj se je model v fazi ucenjaprilagajal na vzorce iz ucne mnozice. V vecini primerov dobimo pri ucenju s ce-nilno funkcijo EEE v smislu mere NIP boljse ali vsaj primerljivo dobre modele kot

H1m H2m H2i PCA ICAi ICAf ICAj

0.4

0.6

NR

MS

E

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj

0.4

0.6

NR

MS

E

testna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj0.75

0.80.85

0.90.95

NIP

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj0.75

0.80.85

0.90.95

NIP

testna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj0

50

NP

H1m H2m H2i PCA ICAi ICAf ICAj0

5

10

NI

εMSE εEE

Slika 5.6: Modeliranje povprecnega letnega stevila Soncevih peg z razlicnimi metodamidolocanja znacilk in z razlicnimi cenilnimi funkcijami.

Page 59: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

5.2. Napovedovanje naslednje vrednosti 49

pri ucenju s cenilno funkcijo EMSE. Zanimivo pa je, da je pri mnogih modelih, prikaterih je bila za ucenje uporabljena cenilna funkcija EEE, modeliranje boljse tudiglede na mero NRMSE. Se posebej to velja za rezultate na testni mnozici. Najboljserezultate glede na mero NRMSE smo dobili s kombinacijo H2i+EEE, ki vkljucujedolocanje znacilk z metodo H2i in ucenje s cenilno funkcijo EEE, najboljse rezultateglede na mero NIP pa smo dobili s kombinacijo H1m+EEE. Zelo dobre rezultatepri obeh merah smo dobili s kombinacijo ICAi+EEE. Pri ucenju z minimizacijocenilne funkcije EMSE daje najboljse rezultate predprocesiranje s casovno zelo inten-zivnim dolocanjem znacilk po metodi H2m. Na sreco izbiranje znacilk z racunskomnogo manj zahtevnimi metodami ICA ne daje bistveno slabsih rezultatov. Medmetodami ICA je glede na mero NRMSE v prednosti metoda ICAi, pri meri NIPpa to velja samo v kombinaciji ICAi+EEE. Velika prednost metod ICA pred os-talimi je tudi v majhnih modelih, ki zelo dobro posplosujejo pridobljeno znanje osistemu. Stevilo prostih parametrov NP je pri vseh treh hevristicnih metodah izbi-ranja znacilk obcutno vecje kot pri ostalih. Z vsemi metodami ICA dobimo majhnostevilo znacilk NI , dobri rezultati modelov glede na meri NRMSE in NIP pa kazejona to, da so predlagane znacilke zelo informativne.

Logisticna preslikava

Pri modeliranju logisticne preslikave, katerega rezultati so predstavljeni na sliki 5.7,takoj opazimo, da kombinacije H1m+EEE, H2i+EEE in PCA+EMSE z visokimi vred-nostmi mere NRMSE in zato nizkimi vrednostmi pri meri NIP mocno odstopajood ostalih metod. Kaoticna logisticna preslikava je podana z diferencno enacbo, ki

H1m H2m H2i PCA ICAi ICAf ICAj0

0.5

1

NR

MS

E

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj0

0.5

1

NR

MS

E

testna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj

0.5

1

NIP

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj

0.5

1

NIP

testna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj0

50

NP

H1m H2m H2i PCA ICAi ICAf ICAj0

5

10

NI

εMSE εEE

Slika 5.7: Modeliranje logisticne preslikave z razlicnimi metodami dolocanja znacilk in zrazlicnimi cenilnimi funkcijami.

Page 60: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

50 5. Napovedovanje casovnih vrst

jo mora model rekonstruirati iz casovne vrste. To, da je bilo modeliranje z meroEMSE neuspesno enkrat, modeliranje z mero EEE pa dvakrat, kaze na slabse kon-vergencne lastnosti pri ucenju z mero EEE. Ce izvzamemo omenjene kombinacije,so modeli uspesno rekonstruirali enacbe, saj so rezultati izredno dobri. V primerihuspesne konvergence dobimo z minimizacijo mere EEE boljse modele tako glede namero NRMSE kot glede na mero NIP. Podobno kot v primeru povprecnega let-nega stevila Soncevih peg pa so najmanjsi modeli dobljeni pri dolocanju znacilk zmetodami ICA. Metode ICA ponovno dolocijo majhno stevilo informativnih znacilkNI .

Casovna vrsta Mackey-Glass

Kot lahko vidimo na sliki 5.8 so v primeru casovne vrste Mackey-Glass modeliprecej enakovredni, v vecini primerov pa modeliranje s cenilno funkcijo EEE dajemalenkost boljse modele kot modeliranje s cenilno funkcijo EMSE. Slabse se izkaze

H1m H2m H2i PCA ICAi ICAf ICAj

0.1

0.2

0.3

NR

MS

E

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj

0.1

0.2

0.3

NR

MS

E

testna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj0.9

1

NIP

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj0.9

1

NIP

testna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj0

50

NP

H1m H2m H2i PCA ICAi ICAf ICAj0

5

10

NI

εMSE εEE

Slika 5.8: Modeliranje casovne vrste Mackey-Glass z razlicnimi metodami dolocanja znacilkin z razlicnimi cenilnimi funkcijami.

le dolocanje znacilk z metodo PCA, za katero je v tem primeru prag pPCA = 0,01ocitno previsok. Najboljse rezultate na ucni mnozici dajejo modeli v kombinaciji shevristicnima metodama dolocanja znacilk H1m in H2m, se posebej v kombinaciji scenilno funkcijo EEE. Kot kaze pa so se ti modeli prevec prilagodili na vzorce v ucnimnozici, saj je razkorak med ucno in testno mnozico precej velik. Po drugi stranirazlika med ucno in testno mnozico ni tako ocitna pri vecini modelov, kjer se znacilkedoloca z metodami ICA. Metoda dolocanja znacilk H2i, ki je bila zelo prepricljivapri prejsnjih casovnih vrstah, se tu ne obnese najbolje. Najmanjse stevilo znacilk NI

dobimo z metodo PCA. Ocitno je znacilk premalo, saj so modeli pri napovedovanju

Page 61: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

5.2. Napovedovanje naslednje vrednosti 51

neuspesni. V tem primeru je stevilo znacilk, ki jih dolocijo metode ICA, vecinomavecje od stevila znacilk, dobljenih s hevristicnimi metodami.

Tecaj delnice Sava, d.d.

Na sliki 5.9 so predstavljeni rezultati modeliranja tecaja delnice Sava, d.d., Ponovnoso modeli, pri katerih je bila za ucenje uporabljena cenilna funkcija EEE, boljsipri merah NRMSE in NIP, med metodami izbiranja znacilk pa ni bistvenih razlik.Malenkost odstopa le metoda PCA na testni mnozici. Kot ze nekajkrat prej se tuditu pokaze, da metoda PCA in metode ICA veckrat dajo manjse modele. MetodiPCA in ICAi dolocita najmanjse stevilo znacilk NI . Kljub temu, da jih je pri obehmetodah priblizno enako stevilo, so te pri metodi ICAi veliko bolj informativne, karse kaze v mnogo boljsih rezultatih napovedovanja.

H1m H2m H2i PCA ICAi ICAf ICAj0

0.5

NR

MS

E

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj0

0.5

NR

MS

Etestna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj

0.9

1

NIP

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj

0.9

1

NIP

testna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj0

50

NP

H1m H2m H2i PCA ICAi ICAf ICAj0

5

10

NI

εMSE εEE

Slika 5.9: Modeliranje tecaja delnice Sava, d.d., z razlicnimi metodami dolocanja znacilkin z razlicnimi cenilnimi funkcijami.

Borzni indeks SBI20

Vrednotenje modelov pri napovedovanju borznega indeksa SBI20 je prikazano nasliki 5.10. Zaradi podobne narave casovnih vrst so rezultati podobni kot pri tecajudelnice Sava, d.d. V vseh primerih so modeli, ki za ucenje uporabljajo cenilnofunkcijo EEE, boljsi od modelov, ki za ucenje uporabljajo cenilno funkcije EMSE.Mogoce presenecajo slabi rezultati modeliranja z izbiranjem znacilk po metodi H2ina ucni mnozici, ki pa se ne ponovi na testni mnozici. V tem primeru dobimomajhno stevilo znacilk pri metodah ICA v kombinaciji s cenilno funkcijo EMSE.Stevilo znacilk dolocenih z metodami ICA pri ucenju s cenilno funkcijo EEE je sicer

Page 62: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

52 5. Napovedovanje casovnih vrst

H1m H2m H2i PCA ICAi ICAf ICAj0

0.5

NR

MS

E

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj0

0.5

NR

MS

E

testna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj

0.9

0.95

1

NIP

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj

0.9

0.95

1

NIP

testna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj0

50

100

NP

H1m H2m H2i PCA ICAi ICAf ICAj0

5

10N

I

εMSE εEE

Slika 5.10: Modeliranje borznega indeksa SBI20 z razlicnimi metodami dolocanja znacilkin z razlicnimi cenilnimi funkcijami.

vecje, vendar se odraza tudi v boljsih modelih. Kot kaze ucenje s cenilno funkcijoEMSE ne zna izkoristiti informacij, ki jih vsebujejo dodatne znacilke.

5.2.2. Primerjava metod dolocanja znacilk in metod ucenja

Za splosno oceno ucinkovitosti metod dolocanja znacilk in metod ucenja smo po-gledali, kako se uporabljene metode obnasajo v povprecju na vseh petih casovnihvrstah. Mere NRMSE, NIP, NP in NI na testni mnozici, povprecene po vseh petihcasovnih vrstah, so predstavljene v tabeli 5.1. Najbolj ocitno je, da pri ucenju scenilno funkcijo EEE dobimo boljse rezultate kot v primeru ucenja s cenilno funkcijoEMSE. Vecinoma se modeli z visokimi vrednostmi mere NIP izkazujejo tudi z nizkimivrednostmi mere NRMSE. Zavajajoce so le visoke vrednosti pri metodah H1m inH2i, ki odrazajo neuspesno modeliranje logisticne preslikave. Izbiranje znacilk zmetodo PCA daje najslabse rezultate. Razlog verjetno tici v tem, da glavne osiz majhnimi variancami, ki se pri modeliranju ne uporabljajo, skrivajo pomembnepodrobnosti o casovnih vrstah. Pri ucenju s cenilno funkcijo EMSE tudi metode ICAniso prepricljive, nasprotno pa je pri ucenju s cenilno funkcijo EEE dolocanje znacilkz metodami ICA celo bolj uspesno od racunsko izredno zahtevne metode H2m.Z metodami ICA dobimo v povprecju tudi manjse modele kot pri modeliranju zostalimi metodami. Z izjemo kombinacije H2m+EMSE imajo modeli, pri katerihznacilke dolocamo z metodami ICA, v povprecju tudi najmanjse stevilo znacilk.Med njimi je v rahli prednosti metoda ICAi.

Da bi iznicili vpliv slabega modeliranja logisticne preslikave na povprecje, smometode za vsako mero posebej razvrstili po uspesnosti. Za vsako casovno vrsto pose-

Page 63: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

5.2. Napovedovanje naslednje vrednosti 53

Tabela 5.1: Vrednosti mer za vse uporabljene metode dolocanja znacilk in metode ucenjana testnih mnozicah. Mere so povprecene po vseh petih casovnih vrstah.

Cenilna Dolocanje Merafunkcija znacilk NRMSE NIP NP NI

H1m 0,18 0,96 29,0 5,4H2m 0,16 0,97 38,0 3,0H2i 0,19 0,95 42,0 4,6

EMSE PCA 0,52 0,80 21,4 4,8ICAi 0,18 0,95 19,4 3,8ICAf 0,19 0,96 26,4 3,8ICAj 0,18 0,96 21,8 4,0H1m 0,33 0,86 38,4 5,4H2m 0,15 0,96 61,2 6,6H2i 0,29 0,87 40,2 4,2

EEE PCA 0,21 0,97 25,0 4,8ICAi 0,14 0,97 25,0 3,8ICAf 0,14 0,96 23,4 4,2ICAj 0,14 0,96 25,0 4,2

bej smo metodam dodelili ocene od 1 do 14, pri cemer visja ocena pomeni boljsouvrstitev. V tabeli 5.2 so zbrane ocene na testnih mnozicah, povprecene po vsehpetih casovnih vrstah. Ocene so oznacene s crko O, ki ima v indeksu oznako mere.Tudi v tem primeru se pokaze, da ucenje s cenilno funkcijo EEE daje boljse modelekot ucenje s cenilno funkcijo EMSE. Ne glede na cenilno funkcijo, najboljse rezul-

Tabela 5.2: Ocene metod dolocanja znacilk in metod ucenja na testnih mnozicah prinapovedovanju casovnih vrst. Ocene so povprecene po vseh petih casovnih vrstah.

Cenilna Dolocanje Ocenafunkcija znacilk ONRMSE ONIP ONP ONI

H1m 5,8 6,2 7,2 3,6H2m 7,6 8,2 6,8 10,0H2i 3,6 3,2 3,8 4,2

EMSE PCA 1,0 1,2 8,8 7,6ICAi 6,6 3,6 9,6 8,2ICAf 5,2 5,4 8,4 7,8ICAj 6,2 5,6 9,4 6,8H1m 8,8 9,4 6,6 4,4H2m 9,4 8,8 3,0 3,6H2i 8,6 7,2 5,4 4,8

EEE PCA 4,4 9,2 7,0 7,6ICAi 10,8 11,8 7,6 7,2ICAf 11,2 9,4 8,6 5,0ICAj 12,2 9,6 6,4 5,0

Page 64: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

54 5. Napovedovanje casovnih vrst

tate dobimo z dolocanjem znacilk z metodo H2m in metodami ICA. Med slednjimiima mogoce rahlo prednost metoda ICAi. Za neprepricljive so se izkazale metodeH1m, H2i in PCA. V primeru, da je modeliranje racunsko prevec zahtevno in si nemoremo privosciti dolocanja znacilk s pomocjo modela s hevristicnima metodamaH1m in H2m, predstavlja hevristicna metoda H2i, pri kateri se znacilke dolocajona podlagi medsebojne informacije, obetajoco alternativo. V nasem primeru smose zaradi relativno majhne mnozice podatkov morali omejiti na diskretizacijo spre-menljivk v samo tri razrede. Z diskretizacijo v vec razredov bi medsebojno odvisnostspremenljivk opisali bolje, s cimer bi bile tudi izbrane znacilke bolj ustrezne.

5.3. Uvrscanje napovedi v razrede

Velikokrat je dovolj, da namesto tocne napovedi prihodnje vrednosti opazovane spre-menljivke samo kvalitativno ocenimo, kaj se bo z njo dogajalo v prihodnosti. Naprimer, ali bo njena vrednost ostala enaka ali se bo spremenila navzgor oziromanavzdol. Naloga modela v takem primeru ni vec natancno racunanje pricakovanihvrednosti, ampak uvrscanje pricakovanega dogodka v vnaprej podane razrede.

Pri vsaki casovni vrsti smo namesto absolutne vrednosti poskusali napovedatisamo spremembo vrednosti, pri cemer je moral model spremembe vrednosti uvrstiliv enega od petih razredov: ’veliko zmanjsanje’, ’majhno zmanjsanje’, ’neznatnasprememba’, ’majhno povecanje’ in ’veliko povecanje’. Meje med razredi smo dolocilitako, da so bili vhodno-izhodni vzorci kar najbolj enakomerno porazdeljeni med vserazrede.

Omejitve pri gradnji modela so bile enake kot pri napovedovanju vrednosti. Navhodu v model je bilo lahko uporabljenih najvec dvanajst zadnjih vrednosti, stevilonevronov v skriti plasti pa je bilo doloceno tako, da stevilo prostih parametrovmodela ni preseglo 40 % meritev v casovni vrsti. Model je bil zgrajen tako, da je naizhodu vrnil realno stevilo, ki smo ga nato zaokrozili na eno od naravnih stevil od 1do 5 in s tem vhodni vzorec uvrstili v ustrezni razred.

Za dolocanje znacilk iz osnovnih spremenljivk smo poleg metod uporabljenihpri napovedovanju vrednosti uporabili se metodo najznacilnejsih projekcij (MDPi).Poleg tega smo k meram NRMSE, NIP, NP in NI dodali se mero POK, ki predstavljadelez uvrstitev napovedi v pravilni razred.

5.3.1. Analiza rezultatov za posamezne casovne vrste

Povprecno letno stevilo Soncevih peg

Rezultati uvrscanja v razrede pri modeliranju povprecnega letnega stevila Soncevihpeg z osmimi metodami dolocanja znacilk ter z dvema metodama ucenja so prikazanina sliki 5.11. Vrednosti mere NRMSE so pri uvrscanju v razrede pri vseh metodahobcutno visje kot pri napovedovanju naslednje vrednosti, vrednosti mere NIP paso obcutno nizje, kar kaze na vecjo kompleksnost problema uvrscanja sprememb vrazrede. Predvsem na testni mnozici je ocitno, da je bilo ucenje s cenilno funkcijoEEE pri tem problemu bistveno manj uspesno od ucenja s cenilno funkcijo EMSE.To, da je najboljsi rezultat glede na meri NRMSE in NIP vseeno dala kombinacija

Page 65: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

5.3. Uvrscanje napovedi v razrede 55

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0.5

0.6

NR

MSE

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0.5

0.6

NR

MSE

testna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi

0.6

0.65

0.7

NIP

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi

0.6

0.65

0.7

NIP

testna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0

50

100

NP

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0

5

10

NI

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0.4

0.6

P OK

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0.4

0.6P O

K

testna mnozica

εMSE εEE

Slika 5.11: Napovedovanje spremembe povprecnega letnega stevila Soncevih peg zuvrscanjem v razrede. Prikazane so razlicne kombinacije metod dolocanja znacilk in metoducenja.

ICAi+EEE, kaze na to, da ima pri uvrscanju v diskretne razrede ucenje s cenilnofunkcijo EEE bistveno slabso konvergenco kot ucenje s cenilno funkcijo EMSE. Ce seomejimo na ucenje s cenilno funkcijo EMSE, vidimo, da se glede na mero NRMSEnajbolje obnese dolocanje znacilk z metodo MDPi, ki je posebej prilagojena za pro-bleme uvrscanja v razrede. Po drugi strani metoda H2i, ki temelji na Shannonovimedsebojni informaciji, le malo zaostaja za racunsko intenzivno metodo H2m. Za-nimivo je, da je ucenje s cenilno funkcijo EEE dalo vecinoma boljse modele glede namero POK. Dalec najbolj pravilne uvrstitve so bile dobljene z majhnimi modeli, ki soimeli znacilke dolocene z metodo PCA. Ce izvzamemo racunsko izredno intenzivnometodo H2m, je dalo malenkost slabse rezultate dolocanje znacilk z metodo ICAi,ki pa ji sledita metodi H2i in MDPi. V vecini primerov imajo modeli, ki smo jihucili s cenilno funkcijo EEE, manjse stevilo prostih parametrov NP in manjse stevilovhodov NI .

Logisticna preslikava

Analiza rezultatov uvrscanja v razrede, ki je v obliki histogramov prikazana nasliki 5.12, kaze na precejsnjo enakovrednost uporabljenih metod dolocanja znacilk inucenja. V negativnem smislu izstopajo le metode dolocanja znacilk H1m, H2i, PCAin ICAi v povezavi z ucenjem s cenilno funkcijo EEE. Ti slabi rezultati nakazujejona konvergencne probleme pri ucenju s cenilno funkcijo EEE. Najboljse rezultatesmo dobili z racunsko zahtevno metodo H2m. Pri ucenju s cenilno funkcijo EMSE so

Page 66: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

56 5. Napovedovanje casovnih vrst

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0

0.5

1

NR

MSE

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0

0.5

1

NR

MSE

testna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0.5

1

NIP

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0.5

1

NIP

testna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0

50

100

NP

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0

5

10

NI

H1m H2m H2i PCA ICAi ICAf ICAj MDPi

0.5

1

P OK

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi

0.5

1

P OK

testna mnozica

εMSE εEE

Slika 5.12: Napovedovanje spremembe vrednosti logisticne preslikave z uvrscanjem vrazrede. Prikazane so razlicne kombinacije metod dolocanja znacilk in metod ucenja.

se z malenkost nizjo vrednostjo mere POK in z majhnimi modeli zelo dobro izkazalemetode dolocanja znacilk ICA, metoda H2i pa tudi ne zaostaja veliko za njimi.Metoda MDPi pri tej casovni vrsti ni prepricljiva. Ravno obratno kot prej imajo vtem primeru modeli, uceni s cenilno funkcijo EEE, vec prostih parametrov NP in vecvhodov NI . To se enkrat kaze na tezave s konvergenco pri ucenju s cenilno funkcijoEEE.

Casovna vrsta Mackey-Glass

Pri modeliranju casovne vrste Mackey-Glass, katerega rezultati so prikazani nasliki 5.13, s slabimi rezultati ponovno izstopa metoda PCA. Ocitno v tem primerutudi glavne osi z majhnimi variancami, ki niso uporabljene v fazi modeliranja, vse-bujejo informacije, ki so nujne za uspesno rekonstrukcijo enacb. Vse tri metodedolocanja znacilk, ki temeljijo na teoriji informacij, H2i, ICAi in MDPi, delujejozelo dobro, ne glede na cenilno funkcijo uporabljeno pri ucenju. Kljub temu, da sopri omenjenih metodah rezultati modeliranja s cenilno funkcijo EEE glede na meriNRMSE in NIP boljsi kot s cenilno funkcijo EMSE, pa je ravno nasprotno pri merahNP in POK, kjer se bolje obnese modeliranje s cenilno funkcijo EMSE. Primerjavastevila znacilk NI spet pokaze, da jih modeli, ki jih ucimo s cenilno funkcijo EMSE,praviloma uporabljajo manj, vendar so zato tudi rezultati modeliranja glede na os-tale mere malenkost slabsi kot pri modelih, ki uporabljajo cenilno funkcijo EEE.

Page 67: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

5.3. Uvrscanje napovedi v razrede 57

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0.2

0.4

0.6N

RM

SEucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0.2

0.4

0.6

NR

MSE

testna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi

0.8

1

NIP

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi

0.8

1

NIP

testna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0

50

100

NP

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0

5

10

NI

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0.5

1

P OK

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0.5

1

P OK

testna mnozica

εMSE εEE

Slika 5.13: Napovedovanje spremembe vrednosti casovne vrste Mackey-Glass z uvrscanjemv razrede. Prikazane so razlicne kombinacije metod dolocanja znacilk in metod ucenja.

Tecaj delnice Sava, d.d.

Uvrscanje napovedanih sprememb tecaja delnice Sava, d.d., ki je prikazano nasliki 5.14, je bistveno bolj tezavno kot napovedovanje naslednje vrednosti v casovnivrsti. Razlog za to je, da osnovna casovna vrsta izkazuje znacilen trend, ki gaje relativno enostavno napovedovati, z opazovanjem razlik pa je iz casovne vrsteodstranjen. Kot kaze, sta izredno kompleksnemu problemu kos samo metodi zadolocanje znacilk ICAi in MDPi. Obe dajeta nadpovprecne rezultate predvsem pridelezu pravilnih uvrstitev POK. V obeh primerih presenecajo modeli s precejsnjimstevilom prostih parametrov NP, ki pa imajo vseeno dokaj malo vhodov NI .

Borzni indeks SBI20

Kot je razvidno iz slike 5.15, je modeliranje sprememb vrednosti borznega indeksaSBI20 podobno kompleksno kot modeliranje sprememb tecaja delnice Sava, d.d.Tako kot pri tecaju delnice Sava, d.d., da tudi v tem primeru dolocanje znacilk zmetodama ICAi in MDPi zelo dobre rezultate na testni mnozici. Za omenjenimametodama kaj dosti ne zaostaja metoda PCA, s katero smo hkrati ponovno dobilinajmanjse modele. Za razliko od tecaja delnice Sava, d.d., kjer so boljsi modeli,dobljeni z ucenjem s cenilno funkcijo EEE, pa so pri borznem indeksu veckrat boljsimodeli, dobljeni z ucenjem s cenilno funkcijo EMSE. Pri obeh modelih, pri katerihsmo znacilke dolocili z metodo ICAi, opazimo veliko stevilo prostih parametrovNP in hkrati majhno stevilo uporabljenih znacilk NI , ki kazejo na kompleksnost tecasovne vrste.

Page 68: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

58 5. Napovedovanje casovnih vrst

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0

0.5

1

NR

MSE

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0

0.5

1

NR

MSE

testna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi

0.4

0.5

0.6

NIP

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi

0.4

0.5

0.6

NIP

testna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0

50

100

NP

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0

5

10

NI

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0.2

0.3

P OK

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0.2

0.3

P OK

testna mnozica

εMSE εEE

Slika 5.14: Napovedovanje spremembe tecaja delnice Sava, d.d., z uvrscanjem v razrede.Prikazane so razlicne kombinacije metod dolocanja znacilk in metod ucenja.

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0

0.5

1

NR

MSE

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0

0.5

1

NR

MSE

testna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi

0.4

0.5

NIP

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi

0.4

0.5

NIP

testna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0

50NP

H1m H2m H2i PCA ICAi ICAf ICAj MDPi0

5

10

NI

H1m H2m H2i PCA ICAi ICAf ICAj MDPi

0.2

0.3

0.4

P OK

ucna mnozica

H1m H2m H2i PCA ICAi ICAf ICAj MDPi

0.2

0.3

0.4

P OK

testna mnozica

εMSE εEE

Slika 5.15: Napovedovanje sprememb vrednosti borznega indeksa SBI20 z uvrscanjem vrazrede. Prikazane so razlicne kombinacije metod dolocanja znacilk in metod ucenja.

Page 69: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

5.3. Uvrscanje napovedi v razrede 59

5.3.2. Primerjava metod dolocanja znacilk in metod ucenja

Primerjava vseh kombinacij metod dolocanja znacilk in metod ucenja pri napove-dovanju z uvrscanjem v razrede je za testne mnozice zbrana v tabelah 5.3 in 5.4. Vtabeli 5.3 so predstavljene vrednosti mer NRMSE, NIP, NP, NI in POK, povprecenepo vseh petih casovnih vrstah. Primerjava mer NRMSE in NIP z vrednostmi v

Tabela 5.3: Vrednosti mer za vse kombinacije metod dolocanja znacilk in metod ucenja prinapovedovanju z uvrscanjem v pet razredov na testnih mnozicah. Ocene so povprecenepo vseh petih casovnih vrstah.

Cenilna Dolocanje Merefunkcija znacilk NRMSE NIP NP NI POK

H1m 0,55 0,67 54,6 5,2 0,56H2m 0,55 0,67 42,0 3,6 0,57H2i 0,56 0,67 41,6 4,8 0,60

EMSE PCA 0,61 0,63 28,6 6,0 0,52ICAi 0,52 0,69 50,6 4,8 0,64ICAf 0,53 0,68 43,0 5,0 0,60ICAj 0,53 0,68 30,0 4,4 0,57MDPi 0,53 0,67 45,2 5,4 0,58H1m 0,66 0,63 36,6 6,6 0,53H2m 0,56 0,69 25,8 5,0 0,61H2i 0,70 0,61 54,4 4,8 0,52

EEE PCA 0,73 0,58 25,4 4,8 0,48ICAi 0,68 0,60 78,0 6,6 0,49ICAf 0,63 0,67 33,4 5,6 0,58ICAj 0,60 0,69 49,2 5,0 0,54MDPi 0,57 0,68 87,4 6,8 0,59

tabeli 5.3 in tabeli 5.1 pokaze, da je tako spremenjen problem bistveno tezje modeli-rati. Na to kaze tudi bistveno vecje stevilo prostih parametrov modelov pri uvrscanjuv razrede. Za razliko od napovedovanja zveznih vrednosti ucenje s cenilno funkcijoEEE pri uvrscanju v razrede ni prepricljivo, saj so rezultati pri mnogih metodahslabsi kot pri ucenju s cenilno funkcijo EMSE. Zaradi svoje logaritemske zasnovese cenilna funkcija EEE izkaze z dobro konvergenco v okolici globalnega minimu-ma, na zalost pa se minimizacija lahko zelo hitro ujame tudi v kaksnem lokalnemminimumu, ki so pri diskretiziranem problemu bolj izraziti. Predvsem pri ucenjus cenilno funkcijo EMSE smo dobre modele dobili z dolocanjem znacilk po metodahH2i, ICAi in MDPi, ki vkljucujejo informacijske mere. Pri ucenju z minimizacijocenilne funkcije EEE je hevristicni metodi dolocanja znacilk H2m enakovredna lemetoda MDPi. Slaba stran modelov, pri katerih uporabljamo znacilke dolocene zmetodama ICAi in MDPi, je, da imajo v povprecju veliko prostih parametrov. To jese posebej ocitno pri ucenju s cenilno funkcijo EEE. Stevilo znacilk NI , uporabljenihna vhodih v modele, je pri ucenju s cenilno funkcijo EEE obicajno malce vecje kotpri ucenju s cenilno funkcijo EMSE.

Page 70: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

60 5. Napovedovanje casovnih vrst

Tabela 5.4: Ocene metod dolocanja znacilk in metod ucenja pri napovedovanju zuvrscanjem v pet razredov na testnih mnozicah. Ocene so povprecene po vseh petihcasovnih vrstah.

Cenilna Dolocanje Ocenefunkcija znacilk ONRMSE ONIP ONP ONI

OPOK

H1m 9,8 6,4 6,0 7,8 6,6H2m 11,2 10,0 8,2 10,6 6,8H2i 8,6 6,6 8,0 7,6 8,6

EMSE PCA 6,4 6,8 11,6 6,2 6,4ICAi 10,8 11,6 7,2 8,0 13,4ICAf 10,0 8,0 8,4 7,4 8,6ICAj 10,2 9,2 11,6 9,6 7,0MDPi 10,2 8,8 8,2 7,6 9,0H1m 3,6 5,4 9,8 4,6 8,0H2m 9,8 10,8 12,6 8,0 10,8H2i 5,4 5,6 6,8 7,4 6,2

EEE PCA 3,0 4,2 12,2 11,2 5,4ICAi 10,6 10,8 3,6 5,8 9,0ICAf 5,8 7,6 10,6 7,2 7,6ICAj 5,6 11,6 7,0 7,0 4,8MDPi 7,0 11,4 2,0 4,4 10,0

Vrednosti v tabeli 5.4 predstavljajo ocene posameznih metod na testnih mnozicahpovprecenih po vseh petih casovnih vrstah. Ocene za metode smo dolocili za vsakocasovno vrsto posebej tako, da smo metodi z najugodnejso vrednostjo izbrane meredodelili najvisjo oceno (16), metodi z najslabso vrednostjo mere pa najnizjo oceno(1). Tudi iz te tabele lahko razberemo, da se pri uvrscanju v razrede dobro obnesedolocanje znacilk z metodami MDPi in ICA. Tako kot pri napovedovanju naslednjevrednosti so tudi v tem primeru boljsi modeli, ki za dolocanje znacilk uporabljajometode kot sta na primer ICA in MDPi, kjer so znacilke dolocene kot linearne kom-binacije vhodnih spremenljivk. Kadar moramo znacilke izbrati med nespremenjeni-mi vhodnimi spremenljivkami, se pri uvrscanju v razrede metoda H2i obnasa boljekot pri napovedovanju naslednje vrednosti. V primerih, ko si ne moremo privoscitiracunsko intenzivnih metod H1m in H2m, predstavlja metoda H2i uporabno alterna-tivo. Rezultat z metodo H2i bi bili veliko boljsi, ce bi imeli dovolj vhodnih podatkov,da bi vhodne spremenljivke diskretizirali v vec kot tri razrede.

Page 71: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

6.

Modeliranje procesa mesanjakavcukovih zmesi

Priprava kavcukove zmesi predstavlja pomemben korak v procesu izdelave gumenegaizdelka. Za pripravo zmesi danes uporabljamo racunalnisko vodene mesalnike. Kljubtemu se srecujemo z nihanjem v kvaliteti zmesi, ki se odraza v kvaliteti gumenegaizdelka. Na proces mesanja vplivajo razlicni dejavniki. Njihov vpliv je mnogokratpovsem slucajne narave in ga ni mogoce vnaprej predvideti. Tako surovinam, kivstopajo v proces mesanja, zaradi njihove organske narave ne moremo vedno zago-toviti povsem enakih lastnosti. Strojni opremi se zaradi staranja spreminjajo njenelastnosti, ki tako ali drugace vplivajo na proces mesanja. Kemijski procesi, kipotekajo med samim mesanjem, so kompleksni in z razlicnimi stranskimi kemicnimireakcijami vselej na drugacen nacin zaznamujejo mesanje. Ker tehnoloski procesvkljucuje tudi cloveski dejavnik, ni vedno popolnoma zanesljiv. Lastnosti polnil, kise v procesu mesanja dodajajo kavcuku, so mocno odvisne od vlage in temperature.Obicajen proces mesanja, v katerem si koraki sledijo v vnaprej podanem zaporedju,motecih dejavnikov ne more izniciti. Z ustreznimi ukrepi bi se jih dalo zmanjsati [70],vendar je to povezano z ogromnimi stroski, ki jih tovrstna proizvodnja ekonomsko naprenese. K vecji stabilnosti procesa bi z relativno majhnim vlozkom veliko pripo-mogli s sprotnim opazovanjem procesnih parametrov in ukrepanjem ob zaznanihanomalijah s preusmeritvijo poteka procesa mesanja v pravo smer.

Ker je odziv procesa mesanja na spremembe procesnih parametrov zelo pocasen,je za odpravljanje motecih dejavnikov potrebno zgraditi ucinkovit prediktivni model,ki zna na podlagi trenutnega stanja sistema in njegovega preteklega obnasanjapravilno predvideti stanje procesa v prihodnosti [71]. Tak model je nato potrebnopovezati z racunalniskim sistemom vodenja mesalnika, ki takoj po zaznanju poten-cialne anomalije v procesu ustrezno ukrepa [72]. To vsekakor ni enostavna naloga,saj so mnogi vplivi nakljucni in jih ne moremo modelirati analiticno, poleg tega pa soza kavcuke znacilne nelinearne odvisnosti [73, 74, 75]. Take probleme seveda lahkomodeliramo s splosnimi modeli, kot so nevronske mreze. Nevronske mreze so bile vgumarstvu ze uspesno uporabljene, na primer pri povezovanje viskoznosti in moleku-larne mase kavcukovih polimernih molekul [76], pri kontroli kvalitete zmesi [77, 78,79] in pri vrednotenju procesa mesanja [80, 81].

V nadaljevanju poglavja bo najprej predstavljen sistem racunalniskega vodenja

61

Page 72: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

62 6. Modeliranje procesa mesanja kavcukovih zmesi

industrijskega mesalnika v druzbi Sava, d.d. Sledil mu bo natancnejsi opis samegaprocesa mesanja, v katerem bodo nakazani najbolj pereci problemi. Nato bodopredstavljene tri pogosto uporabljane in problematicne zmesi. Pred gradnjo modelaprediktivnega vodenja je potrebno poznati odziv sistema na spreminjanje vplivnihparametrov. Predstavljeni bodo poskusi, ki so pomembno vplivali na zasnovo mo-delov procesov mesanja. V nadaljevanju bo predstavljana poglobljena analiza mod-elov procesa mesanja, ki temeljijo na nevronskih mrezah in teoriji informacij. Zadolocanje znacilk bo poleg metod, uporabljenih v poglavju 5, predstavljena in preiz-kusena tudi nova metoda, zasnovana posebej za probleme ponavljajocih se procesov,med katere sodi tudi mesanje. Poglavje bo zakljuceno s predstavitvijo rezultatovprediktivnega vodenja procesa mesanja na industrijskem mesalniku.

6.1. Proizvodna linija za kavcukove zmesi

Proizvodna linija za izdelavo kavcukovih zmesi je prikazana na sliki 6.1. Tehtalnisistemi na zacetku linije poskrbijo za pripravo pravilnih kolicin surovin. Kavcuk inprimesi v prasnati ali granulirani obliki se nato v mesalnik dozirajo preko dozirnega

Slika 6.1: Proizvodna linija za izdelavo kavcukovih zmesi.

transporterja, tekoca polnila pa z dozirno crpalko. Mesalnik, ki je podrobnejeprikazan na sliki 6.2, je najpomembnejsi element proizvodne linije. Mesanje se pricnez zapiranjem sedla na dnu mesalnika. Sledi mu odpiranje lopute, vnos surovin terzapiranje lopute. Vnesene surovine basalo potisne v mesalno komoro, v kateri seze vrtita oba rotorja. Obicajno je basalo v casu mesanja v spodnjem polozaju. Pokoncanem mesanju sledi dvig basala ter odpiranja sedla, po katerem neoblikovanagumena zmes pade na transporter, ki vodi do dvovaljcnikov. Na obeh zaporednihdvovaljcnikih se zmes oblikuje v neskoncne trakove, ki se v hladilni liniji ohladijo,nato pa nalozijo na paleto.

Na proizvodni liniji za pripravo crnih zmesi, pri katerih se kot polnila preteznouporabljajo saje, je namescen mesalnik VIC 215 z nastavljivim razmikom ali regomed rotorjema (ang. Variable Intermeshing Clearance) proizvajalca Farell-Pomini s

Page 73: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

6.1. Proizvodna linija za kavcukove zmesi 63

Slika 6.2: Prerez mesalnika (levo) in oblika rotorjev v mesalniku tipa ’intermesh’ (desno).

prostornino 236 litrov. Rotorja s skupno mocjo 1,2 MW se vrtita z enako hitrostjodo najvec 60 vrtljajev na minuto. Rotorja tipa ’intermesh’ sta prikazana na sliki 6.2.

Nacrtovanje in postavitev krmilja ter programska oprema za vodenje proizvodnelinije je delo slovenskega podjetja SMM, d.o.o., v tesnem sodelovanju z inzenirji intehnologi podjetja Savatech, d.o.o. Krmilje proizvodne linije sledi sami tehnologijiprocesa in je na najnizjem nivoju sestavljeno iz vec samostojnih enot, porazdeljenihpo razlicnih podrocjih v objektu, ki so na visjih nivojih zdruzene v nelocljivo celoto.Zgradba krmilja je prikazana na sliki 6.3. Za vodenje posameznih sklopov proizvodnelinije so uporabljeni programirljivi logicni krmilniki [82, 83, 84] Siemens S7 300 inS7 400 [85]. Ti so, tako kot je prikazano na sliki, povezani s specializiranimi enotamiza tehtanje, krmiljenje enosmernih pogonov mesalnika (ang. Direct Current, DC) inza zagotavljanje ustrezne temperature. Za prenos podatkov med krmilniki in spe-cializiranimi enotami je uporabljeno podrocno vodilo Profibus [85, 86]. Krmilnikinavedenih sklopov med seboj in z nadzornim sistemom komunicirajo po protokoluSiemens Ethernet H1 [85, 87]. Nadzorni sistem ali sistem SCADA (ang. SupervisoryControl And Data Acquisition) je namenjen za nadzor vodenja celotne proizvodnelinije [82] in vkljucuje prikaz trenutnega stanja proizvodne linije, omogoca sprem-ljanje trendov in alarmiranje. Na istem strezniku kot nadzorni sistem so namescenese aplikacije za tehtanje, ki jih operaterji zaganjajo preko terminalov. Terminali sstreznikom komunicirajo po lokalnem omrezju (ang. Local Area Network, LAN) sprotokolom TCP/IP (ang. Transmission Control Protocol/Internet Protocol ) [88].Na kljucnih tockah v procesu, pri vnosu surovin v mesalnik in na obeh dvovaljcnikih,so namesceni odjemalci nadzornega sistema, ki podrobno prikazujejo dogajanje inomogocajo pregled receptur za posamezno enoto. Z nadzornim sistemom je polokalnem omrezju povezan se streznik preko katerega poteka vsa komunikacija sposlovnim informacijskim sistemom (ang. Enterprise Resource Planning, ERP)SAP/R3 [89] predvsem v zvezi z narocili, pripravo receptov, planiranjem proizvod-nje, realizacijo in kontrolo kakovosti. Na tem strezniku so v podatkovni bazi SQL(ang. Structured Query Language) shranjene tudi vse recepture za kavcukove zmesi

Page 74: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

64 6. Modeliranje procesa mesanja kavcukovih zmesi

Slika 6.3: Zgradba krmilja za vodenje mesalne linije.

in nastavitve tehnoloskih parametrov celotne proizvodne linije.Opisana programska oprema se ponasa z odprto arhitekturo, ki omogoca pri-

kljucevanje dodatnih racunalniskih sistemov, med drugim tudi v nadaljevanju pred-laganega sistema za zaprtozancno vodenje procesa mesanja. Ta komunicira z nad-zornim sistemom po protokolu OPC (ang. Object Linking and Embedding for Pro-cess Control) [90]. Sistem za zaprtozancno vodenje sprotno bere vrednosti pomemb-nih procesnih kolicin in v primeru anomalije v procesu mesanja ukrepa s spreminja-njem vrednosti vplivnih parametrov.

6.2. Proces mesanja kavcukove zmesi

Proces mesanja kavcukove zmesi je postopek vgrajevanja primesi v naravni aliumetni kavcuk [91, 92]. Dodane primesi vplivajo na lastnosti vulkanizantov inkoncnih izdelkov, zato je njihova sestava poleg temperature in casa eden od treh

Page 75: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

6.2. Proces mesanja kavcukove zmesi 65

osnovnih parametrov vulkanizacije. Za disperzijo primesi v zmes in njeno homoge-niziranje so potrebne dovolj visoke strizne sile, deformacije in napetosti, saj le teomogocajo razbijanje aglomeratov primesi. Strizne napetosti morajo biti pri temvisje od privlacnih sil, ki povezujejo delce primesi v aglomerate.

Dovolj velike strizne sile ustvarjata dva vzporedna rotorja namescena v sredinimesalne komore. Poleg hitrosti vrtenja rotorjev na velikost striznih sil vplivajo sepritisk basala, faktor polnitve mesalne komore, temperatura hladilne vode in regamed rotorjema. Pritisk basala omogoca doziranje primesi v komoro mesalnika v prvifazi mesanja. Za to so potrebne velike sile, saj so primesi obicajno v prasnati ali gra-nulirani obliki z velikimi nasipnimi prostorninami. Ucinkovito mesanje poteka le prizapolnitvi med 65 % in 85 % razpolozljive prostornine mesalne komore. Z manjsimfaktorjem polnitve ni mogoce doseci dovolj visokega tlaka na zmes, s katerim bizagotavljali zadostne strizne sile, pri prevelikem faktorju pa nimajo vse primesimoznosti, da bi med mesanjem prisle v rego med rotorjema in bile s tem podvrzenedovolj visokim striznim napetostim. Nizje temperature mesalnika omogocajo visjoviskoznost zmesi ter s tem boljse pogoje za disperzijo. Zaradi striznih sil, ki nastopijopri mesanju, narasca temperatura zmesi in posredno tudi mesalne komore. Kerpovisana temperatura znizuje viskoznost zmesi in upocasnjuje mesanje, je mesalnakomora dodatno vodno hlajena. Pri mesalnikih tipa ’intermesh’ se najvisje striznesile ustvarjajo v regi med rotorjema, zato je za ucinkovito mesanje pomembna njenapravilna nastavitev.

Ucinkovitost procesa mesanja je moc najboljse ponazoriti z viskoznostjo, tem-peraturo in vlozeno energijo. Viskoznost, ki jo med samim mesanjem tezko merimoneposredno, je na sreco proporcionalna z navorom. Tega med samim mesanjem nitezko spremljati, saj predstavlja kolicnik med trenutno mocjo in hitrostjo vrtenjarotorjev. Medtem ko temperaturo zmesi merimo direktno, vlozeno energijo izra-cunamo iz moci rotorjev v casovni enoti. Tipicne krivulje navora, temperaturein energije enega mesalnega cikla so predstavljene na sliki 6.4. Samo mesanje je

Slika 6.4: Tipicni casovni poteki navora, temperature in vlozene energije v procesu mesanjakavcukovih zmesi.

Page 76: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

66 6. Modeliranje procesa mesanja kavcukovih zmesi

razdeljeno na stiri faze, ki jih definira potek krivulje navora. Prva faza predstavljapolnjenje mesalnika s kavcukom in polnili in se odraza v dokaj linearnem in strmemnarascanju vrednosti navora do prvega maksimuma. Sledi faza drobljenja, omocenjain vgrajevanja, kjer temperatura narasca, vrednost navora pa pada vse do prvegaminimuma. Sledi faza dispergiranja aglomeratov z dvigom navora do drugega ma-ksimuma. Molekule saj ali drugih polnil v tej fazi tvorijo van der Waalsove vezi spolimernimi molekulami kavcuka, s cimer se upirajo deformacijam. Za tvorjenje vander Waalsovih vezi se porabi tudi vecina vlozene energije. Zadnja faza je faza eno-stavnega mesanja, v kateri se izvede povezovanje preostalih molekul saj in kavcuka.V tej fazi nadaljnje dispergiranje zmesi prevlada nad ucinki povezovanja molekul,zato vrednost navora s casom pada. Mesanje se zakljuci, ko je izpolnjen izbran zaus-tavitveni kriterij. Danes se standardno uporabljajo trije zaustavitveni kriteriji: casmesanja, dosezena temperatura zmesi ali vlozena energija. Ceprav je s popolnomaavtomatiziranim sistemom enostavno doseci ponovljivost zaustavitvenih kriterijev,pa to ni zadosten pogoj za ponovljivost kvalitete zmesi. Na primer, s predpisanimcasom mesanja se med zaporednimi cikli mesanja ne da zagotoviti konstantne porabeenergije in temperature ter viskoznosti ob izpustu. Podobno z zakljuckom mesanjaob dosezeni temperaturi zmesi med zaporednimi cikli varirajo tako casi mesanja kottudi porabljena energija in viskoznost.

Casovni potek viskoznosti oziroma navora je mocno odvisen od lastnosti primesi,se posebno to velja v podrocju med prvim minimumom in drugim maksimumom.Pogosto se zgodi, da zaradi razlicnih anomalij v postopku mesanja razlika medprvim minimumom in drugim maksimumom ni izrazita, kar pomeni revno disperzijoprimesi in s tem nehomogeno zmes [72, 91].

6.3. Testne zmesi

Glede na postopek mesanja locimo eno, dvo in vecstopenjske zmesi. Razlikujejose v tem, koliko mesalnih ciklov ali stopenj je potrebnih za pripravo koncne zmesi.Vecstopenjsko mesanje je potrebno zaradi razlicnih temperaturnih obstojnosti pri-mesi, ki jih vmesamo v zmes. Najbolj pogosto se izvaja dvostopenjsko mesanje, prikaterem se v prvem ciklu vmesajo temperaturno bolj obstojne primesi, v drugemciklu pa manj obstojne primesi. Za pravilno vgradnjo temperaturno manj obstojnihprimesi je potrebno zmes pred drugim ciklom ohladiti.

Laboratorijski testi na drugostopenjskih ali koncnih zmeseh so pokazali, da donajvecjih nihanj v kvaliteti prihaja pri prvostopenjskih zmeseh. Na zalost se zaradicasovne zamudnosti in cenovne nesprejemljivosti laboratorijska kontrola kvaliteteprvostopenjskih zmesi ne izvaja. Zato smo se osredotocili na odpravljanje nihanjakvalitete treh pogosto uporabljenih prvostopenjskih zmeseh, ki jih bomo v nadalje-vanju oznacevali z A, B in C. Za vrednotenje ustreznosti mesalnih ciklov so tehnologiiz mnozice mesalnih ciklov izkustveno izbrali tiste, ki imajo najbolj pravilen potek.

Zmes A

Zmes A se uporablja za izdelavo tesnilnih profilov v gradbenistvu. Sestavljena jeiz etilen-protilen-dienskega kavcuka, saj, mehcal in anorganskih dodatkov, ustrezna

Page 77: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

6.3. Testne zmesi 67

0

20

40

60

80

100

Nav

or [

Nm

]

0

50

100

150

Tem

pera

tura

[0 C]

5 10 15 20 25 30 35 40 45 50 550

5

10

15

20

Cas [s]

Ene

rgija

[M

J]

Slika 6.5: Potek navora, temperature in energije za zmes A. Poteki ustreznih mesalnihciklov so oznaceni s svetlo modrimi crtami, poteki neustreznih pa s sivimi crtami. Z debelotemno modro crto je oznacen povprecen potek ustreznih mesalnih ciklov, z debelo crnocrto pa povprecen potek vseh mesalnih ciklov. Tanjsi temno modri in crni crti oznacujetastandardno odstopanje od povprecja ustreznih oziroma vseh mesalnih ciklov.

vulkanizacijska sredstva pa se dodajo sele pri mesanju koncne zmesi.Na sliki 6.5 je predstavljen potek navora, temperature in vlozene energije v 684

mesalnih ciklih. Z modro debelo crto je oznacen povprecen potek krivulj mesanja,ki so jih tehnologi spoznali za ustrezne, tanjsi tanki crti predstavljata standardniodklon ustreznih krivulj od povprecja in definirata idealno tubo, po kateri naj bipotekala mesanja. Za primerjavo so s crnimi crtami oznaceni povprecni poteki vsehmesanj in standardna odstopanja, ki kazejo na nestabilnost procesa.

Pri tej zmesi krivulja navora med prvim minimumom in drugim maksimumomizrazito narasca. Do prvega minimuma se povprecni potek ustreznih krivulj na-vora ne razlikuje kaj dosti od povprecnega potekov vseh ciklov. V tretji, najboljkriticni, fazi vmesavanja primesi razlike v potekih obeh povprecnih krivulj zacenjajonarascati. Na velike razlike med poteki mesanj v tej fazi kaze tudi povecano stan-dardno odstopanje. Ocitne so tudi tezave z zagotavljanjem konstante zacetne tem-perature, ki je eden od pomembnih vzrokov za veliko raznolikost krivulj navora.

Page 78: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

68 6. Modeliranje procesa mesanja kavcukovih zmesi

Zmes B

Zmes B se uporablja za izdelovanje oblog gumenih transportnih trakov odpornihna olja. Sestavljena je iz stiren-butadienskega kavcuka, butadienskega kavcuka inakrilonitril-butadienskega kavcuka. Kavcukom so dodane se saje in mehcala, vulka-nizacijska sredstva pa se dodajajo pri mesanju koncne zmesi. Zmes B je mehkejsaod zmesi A, poteki 334 mesalnih ciklov pa so prikazani na sliki 6.6. Pri tej zmesi je

0

20

40

60

80

Nav

or [

Nm

]

80

100

120

Tem

pera

tura

[0 C]

5 10 15 20 25 30 35 40 45 50 550

5

10

15

Cas [s]

Ene

rgija

[M

J]

Slika 6.6: Potek navora, temperature in energije za zmes B. Poteki ustreznih mesalnihciklov so oznaceni s svetlo modrimi crtami, poteki neustreznih pa s sivimi crtami. Z debelotemno modro crto je oznacen povprecen potek ustreznih mesalnih ciklov, z debelo crnocrto pa povprecen potek vseh mesalnih ciklov. Tanjsi temno modri in crni crti oznacujetastandardno odstopanje od povprecja ustreznih oziroma vseh mesalnih ciklov.

narascanje navora v tretji fazi mesanja popolnoma neizrazito. Kljub temu se razlikemed zelenimi in dejanskimi povprecnimi poteki ponovno pojavijo ravno na zacetkutretje faze mesanja.

Zmes C

Zmes C se uporablja predvsem za izdelavo notranje plosce pogonskih jermenov.Sestavljena je iz butadienskega in naravnega kavcuka, saj, mehcal, ohranjevala in

Page 79: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

6.4. Obvladovanje procesa mesanja 69

vulkanizacijska sredstva pa se dodajajo pri mesanju koncne zmesi. Poteki navora,temperature in energije za najmehkejso med vsemi tremi zmesmi so za 398 mesalnihciklov prikazani na sliki 6.7. Pri zmesi C se navor v tretji fazi mesanja poveca pocasi

0

10

20

30

40

50

60

70

80

Nav

or [

Nm

]

80

100

120

140

Tem

pera

tura

[0 C]

5 10 15 20 25 30 35 40 450

5

10

Cas [s]

Ene

rgija

[M

J]

Slika 6.7: Potek navora, temperature in energije za zmes C. Poteki ustreznih mesalnihciklov so oznaceni s svetlo modrimi crtami, poteki neustreznih pa s sivimi crtami. Z debelotemno modro crto je oznacen povprecen potek ustreznih mesalnih ciklov, z debelo crnocrto pa povprecen potek vseh mesalnih ciklov. Tanjsi temno modri in crni crti oznacujetastandardno odstopanje od povprecja ustreznih oziroma vseh mesalnih ciklov.

vendar mocno. Pri tej zmesi so zelo kriticna velika odstopanja v zacetni temperaturimesalne komore, ki mocno vplivajo na velika nihanja vseh treh kolicin v nadaljevanjuprocesa.

6.4. Obvladovanje procesa mesanja

Za zagotovitev vecje stabilnosti procesa in s tem konstantne kvalitete koncnih izdel-kov, je potrebno ob zaznanju neustreznega poteka proces mesanja ustrezno pri-lagoditi. To lahko storimo s spremembo enega od vplivnih parametrov, kot sotemperatura mesalne komore, polozaj basala, sirina rege med rotorjema in hitrost

Page 80: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

70 6. Modeliranje procesa mesanja kavcukovih zmesi

vrtenja rotorjev. V nadaljevanju si bomo natancneje analizirali vse parametre, s ka-terimi lahko ucinkovito vplivamo na proces mesanja, in predstavili primeren sistemza zaprtozancno vodenje.

6.4.1. Vplivni parametri

Temperatura mesalne komore ima velik vpliv na viskoznost, vendar je odziv na spre-membo temperature tako pocasen, da ucinki niso vidni v casu enega cikla. Odzivisistema na spreminjanje polozaja basala in sirine rege so sicer vidni v casu enegacikla, vendar so se vedno prepocasni za ucinkovito vplivanje na potek mesanja.Najhitrejse spremembe v procesu mesanja tako dosezemo s spreminjanjem hitrostivrtenja obeh rotorjev.

Odziv zmesi na spremembe hitrosti vrtenja rotorjev smo opazovali na podlagivrste poskusov, pri katerih smo v razlicnih casovnih obdobjih mesanja spreminjalihitrost vrtenja rotorjev. Za zagotovitev vecje verodostojnosti smo vsak poskus vzaporednih mesalnih ciklih petkrat ponovili. Na sliki 6.8 so predstavljeni rezultatiposkusa na zmesi A, v katerem smo nazivno hitrost vrtenja rotorjev 45 min−1 v22 s, 27 s, 32 s in v 37 s mesanja zvisali ali znizali za 15 min−1. Vidimo, da se

30

40

50

60

Vrt

ljaji

[min

−1 ]

−10

0

10

20

∆ N

avor

[Nm

]

−10

0

10

∆ T

empe

ratu

ra [0 C

]

5 10 15 20 25 30 35 40 45 50

−5

0

5

∆ E

nerg

ija [M

J]

Cas [s]

referenca 22 27 32 37

Slika 6.8: Spremembe navora, temperature in vlozene energije po hitrosti vrtenja rotorjevv razlicnih casovnih trenutkih.

zaradi komunikacije med sistemi vodenja spremembe v hitrosti odrazajo sele kaksne

Page 81: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

6.4. Obvladovanje procesa mesanja 71

tri sekunde po zahtevani spremembi. Poleg tega hitrost vrtenja rotorjev narascalinearno, pri cemer se za 15 min−1 zvisa po 5 s, zniza pa po 10 s. Zato z zvisanjemhitrosti vrtenja rotorjev bolj vplivamo na navor oziroma viskoznost kot z znizanjem.Ne glede na to, kdaj je bila izvedena sprememba hitrosti vrtenja rotorjev, je spre-memba navora najbolj izrazita v tretji fazi mesanja v okolici 40 s. Z zvisevanjemhitrosti vrtenja rotorjev torej poskrbimo za hitrejse dispergiranje primesi. S spremi-njanjem hitrosti vrtenja rotorjev se spreminjata tudi temperatura zmesi ob izpustuin vlozena energija. Vrednost obeh kolicin ob izpustu je tem vecja, cim prej je bilaizvedena sprememba.

Ucinek spremembe hitrosti vrtenja rotorjev na potek navora je najvecji v okolici40 s, zato smo v drugem poskusu pogledali, kako na navor, temperaturo in energijovpliva velikost spremembe. Na sliki 6.9 so za zmes A predstavljeni poteki krivuljob zvisanju hitrosti vrtenja rotorjev v 32 s za 5 min−1, 10 min−1 in 15 min−1.Ponovno smo vsak poskus ponovili v petih zaporednih mesalnih ciklih in jih primer-jali s petimi referencnimi cikli, v katerih hitrosti vrtenja rotorjev nismo spreminjali.Sprememba navora raste proporcionalno s spremembo hitrosti vrtenja rotorjev, pri

40

50

60

Vrt

ljaji

[min

−1 ]

0

10

20

∆ N

avor

[Nm

]

−2

0

2

4

6

8

∆ T

empe

ratu

ra [0 C

]

15 20 25 30 35 40 45 50

0

2

4

∆ E

nerg

ija [M

J]

Cas [s]

referenca +5 +10 +15

Slika 6.9: Povprecna sprememba navora, temperature in vlozene energije po razlicnihzvisanjih hitrosti vrtenja rotorjev v 32 s mesanja.

cemer doseze vrh tem kasneje, cim vecja je sprememba. Tako kot sprememba na-vora sta tudi spremembi temperature in energije proporcionalni spremembi hitrostivrtenja rotorjev.

Page 82: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

72 6. Modeliranje procesa mesanja kavcukovih zmesi

6.4.2. Prediktivni model procesa mesanja

Analiza procesa mesanja je pokazala, da potek viskoznosti, oziroma posredno na-vor, najlepse odraza potek procesa mesanja kavcukove zmesi. Viskoznost je namrecmocno dovzetna za vse primesi, kot so saje, olja, razni ojacevalniki, mehcala invulkanizacijska sredstva, kot tudi na spremembe pogojev mesanja, predvsem nahitrost vrtenja rotorjev ter temperaturo in tlak v mesalni komori. Zato smo seodlocili, da zgradimo prediktivni model procesa mesanja, ki bo na podlagi potekanavora M(t), temperature T (t) in energije E(t) poskusal v neki obliki napovedatiprihodnje vrednosti navora,

Mk+tA = f( Mk,Mk−1, . . . , Mk−tL+1,

Tk, Tk−1, . . . , Tk−tL+1,

Ek, Ek−1, . . . , Ek−tL+1 ) , (6.1)

kjer so Mk = M(tk), Tk = T (tk) in Ek = E(tk) vrednosti navora, temperature inenergije v casu tk = k∆t, Funkcija f(·) predstavlja odziv modela. S stresico nanapovedi navora Mk+tA smo zeleli poudariti, da model lahko napove potek navorav razlicnih oblikah in ne nujno v obliki stevilcne vrednosti. Proces se dovolj pocasispreminja, da lahko meritve zajemamo s periodo vzorcenja ∆t = 1 s. Poskusi vprejsnjem razdelku so pokazali, da je odziv sistema na zahtevano spremembo zelopocasen, zato smo se odlocili napovedovati vsaj tA = 10 s vnaprej. Proces mesanjagre skozi stiri zelo razlicne faze, v katerih se spreminjajo fizikalne in kemijske lastnostizmesi. Zato modeliranje na podlagi vec kot tL = 15 prejsnjih meritev ni smiselno.Zaradi nelinearnosti, ki jih izkazuje proces mesanja kavcukovih zmesi, smo za modelv nadaljevanju uporabili vecplastni perceptron.

Prediktivni model mesanja je pomemben sestavni del sistema za zaprtozancnovodenje [71, 82] procesa mesanja, ki je shematicno predstavljeno na sliki 6.10. Naloga

Slika 6.10: Shema sistema za zaprtozancno vodenje procesa mesanja.

prediktivnega modela je, da na podlagi dogajanja v mesalniku z merjenjem vrednostinavora, temperature in energije napove, kaj se bo s procesom mesanja dogajalo v

Page 83: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

6.5. Napovedovanje zveznih vrednosti navora 73

prihodnosti. Na podlagi razlike med zelenim potekom navora in napovedjo natokrmilnik glede na predpisane omejitve ustrezno nastavi hitrost vrtenja rotorjev.

Ucenje modela vkljucenega v sistem zaprtozancnega vodenja se lahko izvaja vcasu, ko sistem ni aktiven, ali pa sprotno v realnem casu. Pri prvem nacinu naletimona problem, kako zagotoviti pravilnost modela ob morebitnih spremembah v sistemu,na primer, pri popravljanju receptur ali pri spremembi tehnologije. Pri sprotnemucenju ta problem ni tako izrazit, bolj pomembno je kako zagotoviti verodostojnostmodela ob stalnem spreminjanju prostih parametrov.

6.5. Napovedovanje zveznih vrednosti navora

Za napovedovanje vrednosti navora smo zgradili dva tipa modelov - enotne modele,ki v znajo v vsakem trenutku mesanja napovedati prihodnjo vrednost, in specializi-rane modele, ki napovedujejo vrednost navora samo v izbranem trenutku. V okviruseznanjanja s procesom mesanja smo za vsako zmes posebej in za oba tipa modelovznacilke dolocali na tri enostavne nacine. Pri prvem (H0) smo uporabili vseh 45meritev, pri drugem (H1m) samo zadnjih tL < 15 meritev vseh treh kolicin, pritretjem (PCA) pa smo znacilke dolocili z metodo glavnih osi. V zadnjem primerusmo preizkusili vec razlicnih delezev pPCA, nazadnje pa izbrali pPCA = 0,005, skaterim smo v v vecini primerov dobili najboljse rezultate. Uspesnost modelov smoocenjevali s korenjeno povprecno kvadratno napako

RMSE =

√√√√ 1

K

K∑

k=1

e1k2

, (6.2)

kjer je e1k razlika med zeleno in napovedano vrednostjo na vzorcu k, K pa stevilo vseh

vzorcev. Stevilo prostih parametrov smo pri vseh modelih omejili na 350. Za vsaknabor znacilk smo zgenerirali 10 modelov in med njimi izbrali tistega z najmanjsovrednostjo mere RMSE na testni mnozici. Za ucenje modelov s cenilno funkcijoEMSE je bilo uporabljenih prvih 85 % vzorcev, ostalih 15 % pa je bilo uporabljenihza primerjavo med modeli. Od vzorcev, uporabljenih za ucenje, je bilo prvih 85 %uporabljenih za nastavljanje prostih parametrov modelov, zadnjih 15 % pa za njihovovrednotenje in s tem povezanim pravocasnim zakljuckom ucenja.

Primerjava enotnega modela in specializiranih modelov je glede na stevilo prostihparametrov NP in mero RMSE predstavljena v tabeli 6.1. Za zmes A so vrednostipodane v 42 s, za zmes B v 45 s in za zmes C v 33 s po zacetku mesanja. Razlogiza izbiro navedenih casov bodo podani v naslednjem razdelku. Uspesnost najboljsihmodelov iz tabele 6.1 je za testno mnozico prikazana na slikah 6.11, 6.12 in 6.13.

Specializirani modeli so po pricakovanju v vecini primerov bolj natancni od enot-nih modelov, se vedno pa ne dosegajo zadostne natancnosti, saj 90 % interval za-upanja v vecini tock presega standardni odklon uspesnih mesanj od povprecja, kidefinira idealno tubo, po kateri naj bi potekalo mesanje. Poteki mesanj, iz katerihje razvidna sirina idealne tube, so za zmesi A, B in C v tem vrstnem redu graficnopredstavljeni na slikah 6.5, 6.6 in 6.7.

Page 84: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

74 6. Modeliranje procesa mesanja kavcukovih zmesi

35 40 45 50 55−15

−10

−5

0

5

10

15

Nav

or [N

m]

Cas [s]

Slika 6.11: Napovedovanje zveznih vrednosti navora za zmes A. Z znakom × so oznacenesrednje vrednosti napak, s piko vrednosti mere RMSE, s > in ⊥ pa 90 % interval zaupanja.Z modro barvo je prikazana uspesnost modela, ki napoveduje navor samo v 42 s.

35 40 45 50 55

−10

0

10

Nav

or [N

m]

Cas [s]

Slika 6.12: Napovedovanje zveznih vrednosti navora za zmes B. Z znakom × so oznacenesrednje vrednosti napak, s piko vrednosti mere RMSE, s > in ⊥ pa 90 % interval zaupanja.Z modro barvo je prikazana uspesnost modela, ki napoveduje navor samo v 45 s.

25 30 35 40 45 50−10

−5

0

5

10

Nav

or [N

m]

Cas [s]

Slika 6.13: Napovedovanje zveznih vrednosti navora za zmes C. Z znakom × so oznacenesrednje vrednosti napak, s piko vrednosti mere RMSE, s > in ⊥ pa 90 % interval zaupanja.Z modro barvo je prikazana uspesnost modela, ki napoveduje navor samo v 33 s.

Page 85: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

6.6. Kvalitativno napovedovanje poteka navora 75

Tabela 6.1: Primerjava enotnih in specializiranih modelov v 42 s za zmes A, v 45 s zazmes B in v 33 s za zmes C.

Model NP RMSEucna mnozica testna mnozica

enotni, H0 95 7,56 5,40enotni, H1m 273 6,75 5,35

zmes A, enotni, PCA 181 6,78 4,9342 s spec., H0 330 8,91 7,22

spec., H1m 156 7,65 5,70spec., PCA 11 6,76 4,50enotni, H0 142 4,02 5,35enotni, H1m 142 3,79 4,94

zmes B, enotni, PCA 77 3,98 6,2845 s spec., H0 142 4,98 4,61

spec., H1m 141 4,69 4,06spec., PCA 22 4,86 4,12enotni, H0 142 6,60 5,09enotni, H1m 52 6,27 3,70

zmes C, enotni, PCA 77 6,31 3,7433 s spec., H0 142 5,27 3,77

spec., H1m 49 5,58 3,77spec., PCA 89 5,23 3,61

6.6. Kvalitativno napovedovanje poteka navora

Kot smo videli v razdelku 6.4, lahko na krivuljo navora s spreminjanjem hitrostivrtenja rotorjev vplivamo samo v tretji in cetrti fazi mesanja. Ker poleg tega od za-hteve po spremembi hitrosti vrtenja rotorjev do dejanske spremembe navora pretecekar precej casa, pogosto spreminjanje hitrosti vrtenja rotorjev ni ne smiselno in nepotrebno. Zato smo se odlocili, da poskusamo potek navora oceniti kvalitativno vnajbolj kriticnem obdobju mesanja pred zacetkom tretje faze mesanja.

Krivulje poteka navora smo zaradi pocasne odzivnosti sistema vrednotili 3 sekundepred tocko, v kateri se povprecni potek ustreznih krivulj navora loci od povprecnegapoteka vseh krivulj. Iz slik 6.5, 6.6 in 6.7 lahko razberemo, da je za zmes A primernovrednotenje poteka krivulje v 32 s, za zmes B v 35 s in za zmes C v 23 s po zacetkumesanja. V izbranih casih smo poskusali napovedati obnasanje krivulje cez 10 s,nekje na sredini tretje faze mesanja, ko je umesavanje primesi v polnem razmahu.V tej fazi mesanja je zazeleno, da navor cim bolj naraste, saj je to znak za dobrodispergiranje zmesi. Korekcije navora so tako potrebne samo v primerih, ko modelpredvidi, da bo krivulja navora potekala prenizko. V ta namen smo za vsako zmesdefinirali tri razrede, ki dolocajo, ali je navor ustrezen, nizek in zelo nizek. Potek na-vora je uvrscen v razred ’ustrezen’, ce se vrednost navora razlikuje od povprecnegapoteka ustreznih mesanj za manj kot polovico standardnega odstopanja, oziroma

Page 86: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

76 6. Modeliranje procesa mesanja kavcukovih zmesi

polmera idealne tube, in v razred ’zelo nizek’, ce je njegova vrednost za poldrugostandardno odstopanje nizja od povprecnega poteka ustreznih mesanj. Ce je vred-nost navora med obema skrajnostima, je potek uvrscen v razred ’nizek’. Omenjenicasi in meje med razredi so za vse tri zmesi zbrani v tabeli 6.2. Za vsak razred smo

Tabela 6.2: Casi opazovanja in meje med razredi za vse tri zmesi.

Zmes Napovedovanje [s] Ustrezen potek Meje med razredi [Nm]v casu za cas navora [Nm] ’zelo nizek’ ’nizek’ ’ustrezen’

A 32 42 86± 6 < 77 [77, 83) ≥ 83B 35 45 65,5± 3,6 < 60,1 [60,1, 63,7) ≥ 63,7C 23 33 68± 3,4 < 62,9 [62,9, 66,3) ≥ 66,3

zgradili svoj model, ki za vsak potek mesanja doloci, ali spada v izbrani razred aline. Tako kot zvezne modele lahko tudi kvantitativne modele opisemo z enacbo 6.1,le da v tem primeru izhod Mk+tA predstavlja pripadnost izbranemu razredu. Vred-nosti konstant tA = 10 in tL = 15 smo nastavili enako kot pri napovedovanju zveznihvrednosti.

Za razliko od problemov napovedovanja casovnih vrst, kjer smo znacilke dolocaliiz 12 spremenljivk, imamo v primeru kvalitativnega ocenjevanja procesa mesanja navoljo D0 = 3× 15 spremenljivk. Za gradnjo dobrih modelov je zato ucinkovito izbi-ranje in dolocanje znacilk se toliko bolj pomembno. Za proces mesanja je znacilno,da se priblizno v enaki obliki neprestano ponavlja. Zato smo v tem primeru znacilkelahko dolocili tudi z detekcijo sokov. Predlagana metoda je predstavljena v nadal-jevanju.

6.6.1. Metoda izbiranja znacilk z detekcijo sokov

V razdelku 3.2.4 smo pokazali uporabnost analize neodvisnih komponent za zazna-vanje sprememb v tecajih vrednostnih papirjev. V prikazanem primeru smo tecajevrednostnih papirjev obravnavali kot linearne mesanice osnovnih signalov, iz katerihsmo z idejo slepega locevanja virov poskusali dolociti osnovne neodvisne vire, analizakaterih je pokazala na pomembne dogodke na trgu. Pri neodvisnih virih, izracunanihiz casovnih vrst razlik med dvema zaporednima vrednostma, smo opazili kratkotraj-ne visoke vrednosti ali soke, ki kazejo na pomembne in dolgotrajne spremembe vosnovnih casovnih vrstah.

Za razliko od tecajev vrednostnih papirjev, ki se spreminjajo istocasno, lahko naenem mesalniku poteka samo en proces naenkrat. V primeru, da bi imeli poljubnomnogo mesalnikov, bi lahko naenkrat opazovali vec procesov in na enak nacin kot privrednostnih papirjih dolocali neodvisne vire. Temu idealu se lahko priblizamo tako,da pri analizi neodvisnih komponent uporabimo casovne poteke stevilnih mesanj naenem mesalniku. V analizo vkljucimo vsa, dobra in slaba, mesanja. V tem primerubodo soki kazali na pomembne in dolgotrajne spremembe v procesu mesanja. Ker pase proces mesanja neprestano ponavlja, lahko vrednosti kolicin v trenutkih sokov ko-

Page 87: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

6.6. Kvalitativno napovedovanje poteka navora 77

ristno uporabimo za napovedovanje bodocega obnasanja. Postopek izbiranja znacilks pomocjo detekcije sokov je opisan v nadaljevanju.

Namesto absolutnih meritev obicajno raje analiziramo spremembe med zapored-nimi meritvami, saj se s tem elegantno odpravimo trende v casovnih vrstah. Vprimerih, ko je pricakovano stevilo neodvisnih virov manjse od stevila opazovanj, zanalizo glavnih osi iz njih izluscimo potrebno stevilo glavnih osi z najvecjimi vari-ancami.

V primeru mesanja se poteki navora, temperature in energije precej razlikujejo,zato smo analizo neodvisnih komponent izvedli za vsako kolicino posebej. Rezultatianalize neodvisnih komponent za zmesi A, B in C so v tem vrstnem redu predstav-ljeni na slikah 6.14, 6.15 in 6.16.

0 10 20 30 40 50

Nav

or

Cas [s]

0 10 20 30 40 50

Tem

pera

tura

Cas [s]

0 10 20 30 40 50

Ene

rgija

Cas [s]

18 20 22 24 26 28 30 32−10

−5

0

5

10

Cas [s]

18 20 22 24 26 28 30 32−10

−5

0

5

10

Cas [s]

18 20 22 24 26 28 30 32−10

−5

0

5

10

Cas [s]

Slika 6.14: Analiza neodvisnih virov za proces mesanja zmesi A. Predstavljeni so neodvisniviri za celoten cas mesanja (levo) in histogrami neodvisnih virov za obmocje, na kateremiscemo znacilke (desno).

V vseh primerih smo stevilo neodvisnih virov nastavili na osem, doloceni pa soz analizo neodvisnih komponent, ki uporablja mero iz teorije informacij. Leve slikepredstavljajo poteke vseh osmih neodvisnih virov v obliki casovne vrste za celotenproces mesanja, na desni pa so viri iz crtkanega obmocja podrobneje predstavljeniv obliki histogramov. Na desnih grafih je v vsaki sekundi narisanih osem stolpcev,za vsak neodvisni vir eden.

Vrednosti neodvisnih virov so medsebojno primerljive, saj je pred analizo neod-visnih komponent iz vseh podatkov odstranjeno povprecje, njihova kovariancna ma-trika pa je enaka indentiteti (enacba 3.19). Na dogajanje v casovni vrsti najbolj

Page 88: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

78 6. Modeliranje procesa mesanja kavcukovih zmesi

0 10 20 30 40 50

Nav

or

Cas [s]

0 10 20 30 40 50

Tem

pera

tura

Cas [s]

0 10 20 30 40 50

Ene

rgija

Cas [s]

21 23 25 27 29 31 33 35

−10

0

10

Cas [s]

21 23 25 27 29 31 33 35

−10

0

10

Cas [s]

21 23 25 27 29 31 33 35

−10

0

10

Cas [s]

Slika 6.15: Analiza neodvisnih virov za proces mesanja zmesi B. Predstavljeni so neodvisniviri za celoten cas mesanja (levo) in histogrami neodvisnih virov za obmocje, na kateremiscemo znacilke (desno).

0 10 20 30 40

Nav

or

Cas [s]

0 10 20 30 40

Tem

pera

tura

Cas [s]

0 10 20 30 40

Ene

rgija

Cas [s]

9 11 13 15 17 19 21 23

−10

−5

0

5

10

Cas [s]

9 11 13 15 17 19 21 23

−10

−5

0

5

10

Cas [s]

9 11 13 15 17 19 21 23

−10

−5

0

5

10

Cas [s]

Slika 6.16: Analiza neodvisnih virov za proces mesanja zmesi C. Predstavljeni so neodvisniviri za celoten cas mesanja (levo) in histogrami neodvisnih virov za obmocje, na kateremiscemo znacilke (desno).

Page 89: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

6.6. Kvalitativno napovedovanje poteka navora 79

vplivajo najvecji soki. Izbrali smo tiste soke, katerih absolutna vrednost presegaprag, ki smo ga v vseh primerih nastavili na sestkratnik povprecja absolutnih vred-nosti neodvisnih virov vseh kolicin na izbranem intervalu. Na slikah 6.14, 6.15 in6.16 so soki, ki presegajo omenjeni prag, pobarvani temno modro.

Iz polozajev sokov pri vseh opazovanih kolicinah lahko dolocimo znacilke, kipomembno vplivajo na prihodnje obnasanje sistema. Znacilke za vse tri zmesi so zaprikazane primere zbrane v tabeli 6.3.

Tabela 6.3: Znacilke, dobljene z detekcijo sokov za vse tri zmesi glede na cas opazovanja,ki je t0 = 32 s, za zmes A, t0 = 35 s za zmes B in t0 = 23 s za zmes C.

Zmes Znacilke

A Mt0 , Mt0−1, Mt0−2, Mt0−3, Mt0−5, Mt0−10,Tt0 , Tt0−5

B Mt0−6, Mt0−7, Mt0−8, Mt0−9, Mt0−10, Mt0−11,Tt0 , Tt0−3, Tt0−4, Tt0−5, Tt0−14

C Mt0 , Mt0−1, Mt0−4, Mt0−5, Mt0−7, Mt0−8, Mt0−10, Mt0−11, Mt0−12, Mt0−14,Tt0−12

Proces mesanja se v priblizno enaki obliki neprestano ponavlja, zato lahko prigradnji poenostavljenega modela, ki samo v izbranem casu po zacetku mesanjanapoveduje dogajanje v prihodnosti, s pridom uporabimo predlagano metodo izbi-ranja znacilk z detekcijo sokov.

6.6.2. Analiza modelov po zmeseh

V nadaljevanju smo za vse tri zmesi primerjali metode izbiranja in dolocanja znacilk

• H0, pri kateri uporabimo vse spremenljivke, ki jih imamo na voljo,

• H1m, ki uposteva zadnjih nekaj meritev vseh treh kolicin, najprimernejsi naborpa ocenimo glede na kvaliteto modela,

• H2m, iskanje znacilk s pohlepnim algoritmom, kjer najprimernejsi nabor po-novno ocenimo glede na kvaliteto modela,

• H2i, iskanje znacilk s pohlepnim algoritmom, kjer najprimernejsi nabor dolo-cimo glede na vrednost mere medsebojne informacije,

• Si, izbiranje znacilk z dolocanjem sokov v kombinaciji z metodo ICA, ki upo-rablja informacijsko teoreticne mere,

• Sf, izbiranje znacilk z dolocanjem sokov v kombinaciji z metodo FastICA,

• Sj, izbiranje znacilk z dolocanjem sokov v kombinaciji z metodo Jade,

• PCA, analizo glavnih osi,

Page 90: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

80 6. Modeliranje procesa mesanja kavcukovih zmesi

• ICAi, analizo neodvisnih komponent z mero, ki izhaja iz teorije informacij,

• ICAf, analizo neodvisnih komponent FastICA,

• ICAj, analizo neodvisnih komponent JADE in

• MDPi, metodo najznacilnejsih projekcij.

Medtem, ko je vecina od navedenih metod popolnoma univerzalnih, so vse tri metodeS primerne predvsem za modeliranje ponavljajocih se procesov.

Pri izbiranju znacilk z metodo H2i, ki temelji na diskretni obliki Shannonovemedsebojne informacije, smo vhodne vzorce diskretizirali v tri razrede tako, da sobili vsi razredi enakovredno zastopani. Pri dolocanju znacilk z metodo PCA smoza parameter pPCA uporabljali vrednosti 0,01, 0,005 in 0,001. Glede na stevilo de-javnikov, ki vplivajo na kvaliteto kavcukove zmesi, na primer hitrost vrtenja rotor-jev, polozaj basala, rega, temperatura mesalne komore, temperatura okolice, sestavazmesi, cloveski faktor, smo ocenili, da v procesu mesanja lahko pricakujemo od 5 do15 neodvisnih virov. Zato smo pri metodah ICA in pri metodi MDP v tem obmocjuspreminjali stevilo znacilk, ki smo jih uporabili pri modeliranju, pri metodah S pastevilo neodvisnih virov.

Vsak nabor znacilk smo preverili z vec modeli, pri katerih smo spreminjali stevilonevronov v skriti plasti. Modeli so imeli lahko v skriti plasti do stirikrat tolikonevronov, kot je vhodov v model. Da bi se izognili prevelikim modelom, ki slabseposplosujejo pridobljeno znanje, smo stevilo vseh prostih parametrov modela omejilina najvec 40 % stevila vzorcev. Ucenje smo za vsako topologijo ponovili desetkrat.Med vsemi preizkusenimi topologijami smo za nadaljnjo analizo izbrali tisto, prikateri smo dobili najboljsi rezultat na testni mnozici.

Pri gradnji modelov za napovedovanje casovnih vrst se je ucenje z minimizacijocenilne funkcije entropije napake EEE izkazalo kot zelo ucinkovito predvsem prinapovedovanju zveznih vrednosti, medtem ko pri uvrscanju v razrede ni bilo prepri-cljivo. Ker imamo pri gradnji prediktivnih modelov mesanja na voljo vec vzorcevkot pri napovedovanju casovnih vrst, ze tako dolgotrajen cas ucenja z minimizacijocenilne funkcije entropije napake EEE pa narasca s kvadratom stevila vzorcev, smo sev nadaljevanju omejili na klasicno ucenje z minimizacijo cenilne funkcije povprecnekvadratne napake EMSE.

Dobljene rezultate smo ovrednotili z merami

• korenjeno povprecno kvadratno napako, RMSE,

• normaliziranim informacijskim potencialom, NIP,

• stevilom prostih parametrov modela, NP,

• stevilom vhodov v model, NI , in

• delezem uvrstitev napovedi v pravilni razred, POK.

Pri predstavitvi rezultatov modeliranja vsake zmesi posebej bomo osvetlili obnasanjemetod, ki izhajajo iz teorije informacij. Pri obravnavi se bomo osredotocili nadosezke metod na testni mnozici, rezultati na ucni mnozici pa so dodani bolj infor-mativno.

Page 91: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

6.6. Kvalitativno napovedovanje poteka navora 81

Zmes A

Uspesnost modelov pri napovedovanju obnasanja navora v 42 s mesanja zmesi A jeza vsak razred posebej predstavljena v obliki histogramov. Na sliki 6.17 vidimo, daje uvrscanje v razred ’zelo nizek’ s priblizno 90 % uspesnostjo zelo zanesljivo. Naj-boljsi rezultat tako glede na mero POK kot glede na mero RMSE dobimo z racunskointenzivno hevristicno metodo H2m. Mocno se ji pribliza metoda MDPi, ki se lahkopohvali tudi z majhnim modelom. Nekoliko slabse se obnasa metoda PCA. Vsetri nastete metode so precej neprepricljive glede na mero NIP, kjer so veliko boljsemetode H2i, Si, Sf in vse metode ICA, ki pa imajo precej visoke vrednosti mereRMSE. Ne glede na to je pri vseh teh metodah delez pravilnih napovedi zelo velik.Delez pravilno uvrscenih vzorcev POK pri najboljsi metodi H2m doseze 0,96. Naj-manjse stevilo znacilk uporablja model, ki je bil dobljen v povezavi z detekcijo sokovSi. Nekaj vec znacilk smo dobili z modeli H2m, H2i in MDPi.

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0.2

0.25

0.3

RM

SE

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0.2

0.25

0.3

RM

SE

testna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.6

0.8

1

NIP

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.6

0.8

1

NIP

testna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0

100

200

300

NP

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0

20

40

NI

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.8

0.9

1

PO

K

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.8

0.9

1

PO

K

testna mnozica

Slika 6.17: Uspesnost uvrscanja v razred ’zelo nizek’ za zmes A.

Malce slabse deleze pravilnih napovedi dobimo pri uvrscanju v razred ’nizek’.Histogrami so predstavljeni na sliki 6.18. Ponovno se odlicno obnasata racunskointenzivna metoda H2m in metoda MDPi, vse ostale metode pa so predvsem pridelezu pravilnih razvrstitev zelo enakovredne. Glede stevila prostih parametrovmetodi H2m sledijo vse metode ICA, metode sokov, predvsem Si in Sj, pa tudine zaostajajo veliko. Najmanjse stevilo znacilk uporablja model, dobljen z metodoH2m, nekaj vec znacilk pa uporabljajo modeli, dobljeni z metodami ICA. Najvecjidelez pravilno uvrscenih vzorcev, 0,91, dobimo z metodo H2m.

Najboljse modele glede na mero POK smo dobili pri uvrscanju v razred ’ustrezen’.Rezultati so predstavljeni na sliki 6.19. Najboljsa je spet hevristicna metoda H2m,ki ji z zelo velikim delezem pravilnih napovedi sledi metoda MDPi. Obe metodi brez

Page 92: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

82 6. Modeliranje procesa mesanja kavcukovih zmesi

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0.260.28

0.30.320.340.360.38

RM

SE

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0.260.28

0.30.320.340.360.38

RM

SE

testna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.50.60.70.80.9

NIP

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.50.60.70.80.9

NIP

testna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0

100

200

300

NP

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0

20

40

NI

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.750.8

0.850.9

0.95

PO

K

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.750.8

0.850.9

0.95

PO

K

testna mnozica

Slika 6.18: Uspesnost uvrscanja v razred ’nizek’ za zmes A.

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0.2

0.25

0.3

RM

SE

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0.2

0.25

0.3

RM

SE

testna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0.6

0.8

1

NIP

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0.6

0.8

1

NIP

testna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0

100

200

300

NP

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0

20

40

NI

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.850.9

0.951

1.05

PO

K

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.850.9

0.951

1.05

PO

K

testna mnozica

Slika 6.19: Uspesnost uvrscanja v razred ’ustrezen’ za zmes A.

napake uvrscata v razred ’ustrezen’. Kljub temu da sta metodi Si in Sf zelo dobriglede na mero RMSE, pa sta precej slabsi pri uvrscanju vzorcev v razred ’ustrezen’.Model, pri katerem smo znacilke dolocili z metodo MDPi je predvsem zaradi velikovecjega stevila uporabljenih znacilk precej vecji od modela, pri katerem smo znacilkedolocili z metodo H2m.

Page 93: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

6.6. Kvalitativno napovedovanje poteka navora 83

Zmes B

Uspesnost napovedovanja navora v procesu mesanja zmesi B je predstavljena naslikah 6.20, 6.21 in 6.22.

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.25

0.3

0.35

RM

SE

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.25

0.3

0.35

RM

SE

testna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.4

0.6

0.8

1

NIP

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.4

0.6

0.8

1

NIP

testna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0

50

100

NP

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0

20

40

NI

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.9

0.95

1

PO

K

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.9

0.95

1

PO

K

testna mnozica

Slika 6.20: Uspesnost uvrscanja v razred ’zelo nizek’ za zmes B.

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0.44

0.46

0.48

0.5

0.52

RM

SE

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0.44

0.46

0.48

0.5

0.52

RM

SE

testna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0.4

0.45

0.5

0.55

NIP

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0.4

0.45

0.5

0.55

NIP

testna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0

50

100

NP

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0

20

40

NI

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0.65

0.7

0.75

PO

K

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0.65

0.7

0.75

PO

K

testna mnozica

Slika 6.21: Uspesnost uvrscanja v razred ’nizek’ za zmes B.

Page 94: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

84 6. Modeliranje procesa mesanja kavcukovih zmesi

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.46

0.48

0.5

0.52

RM

SE

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.46

0.48

0.5

0.52

RM

SE

testna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.4

0.45

0.5

NIP

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.4

0.45

0.5

NIP

testna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0

50

100

150

NP

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0

20

40

NI

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.6

0.7

0.8

PO

K

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.6

0.7

0.8

PO

K

testna mnozica

Slika 6.22: Uspesnost uvrscanja v razred ’ustrezen’ za zmes B.

Z najvecjim delezem 0,97 pravilnih uvrstitev v razred ’zelo nizek’ se ponovnolahko pohvali racunsko zahtevna metoda H2m, za katero pa zelo malo zaostajatadve metodi zasnovani na teoriji informacije H2i in Si ter metoda Sf. Med njimi jev prednosti metoda H2i z majhnim stevilom prostih parametrov. Najmanj znacilkuporabljajo modeli, dobljeni z metodami S in metodami ICA.

Uvrscanje v razred ’nizek’ je precej slabse, saj delez pravilnih uvrstitev pri naj-boljsi metodi H2m doseze komaj 0,75. Obe hevristicni metodi, ki znacilke dolocatana podlagi uspesnosti modela, sta v precejsnji prednosti. Sledita jima dve metodizasnovani na teoriji informacije, Si in MDPi ter metoda ICAf. Z metodo MDPismo dobili tudi dokaj majhen model, ki uporablja malo znacilk. Med metodamidetekcije sokov se z izjemo mere NP najbolje obnasa metoda Si, ki uporablja analizoneodvisnih komponent z mero iz teorije informacij.

Boljse je uvrscanje v razred ’ustrezen’, kjer metodi H2m z delezem pravilnihuvrstitev 0,78 sledita metodi H2i in Si. S slednjo dobimo tudi dokaj majhen model,ki se zelo dobro obnasa tudi glede na mero RMSE. Zelo dobro se glede na mero NIPobnasajo metode ICA, ki pa na zalost odpovejo pri pravilnem uvrscanju.

Zmes C

Na slikah 6.23, 6.24 in 6.25 je graficno prikazana uspesnost uvrscanja v vse tri razredeza proces mesanja zmesi C. Pri uvrscanju v razred ’zelo nizek’ je najvecji delez 0,89pravilnih uvrstitev dosegel model, pri katerem so bile znacilke dolocene z metodoH2m. Manjsi in nekoliko slabsi glede na mero POK je model ICAi. Kljub se nekolikoslabsemu obnasanju glede na mero POK sta zaradi zelo majhnih modelov zanimivatudi modela H2i in Si. Z majhnim stevilom vhodov se lahko pohvalita modela, pri

Page 95: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

6.6. Kvalitativno napovedovanje poteka navora 85

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.4

0.45

0.5

0.55R

MS

E

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.4

0.45

0.5

0.55

RM

SE

testna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0.30.40.50.60.7

NIP

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0.30.40.50.60.7

NIP

testna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0

50

100

NP

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0

20

40

NI

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.6

0.7

0.8

0.9

PO

K

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.6

0.7

0.8

0.9

PO

K

testna mnozica

Slika 6.23: Uspesnost uvrscanja v razred ’zelo nizek’ za zmes C.

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.45

0.5

0.55

RM

SE

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.45

0.5

0.55

RM

SE

testna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.3

0.4

0.5

0.6

NIP

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.3

0.4

0.5

0.6

NIP

testna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0

50

100

150

NP

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0

20

40

NI

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.6

0.7

0.8

PO

K

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.6

0.7

0.8

PO

K

testna mnozica

Slika 6.24: Uspesnost uvrscanja v razred ’nizek’ za zmes C.

katerih so bile uporabljene metode ICAi in Si.

Najvecji delez pravilnih uvrstitev v razred ’nizek’, 0,76, je bil ponovno dobljenz metodo H2m, vendar ima model zelo veliko prostih parametrov. Priblizno polmanj prostih parametrov imajo modeli dobljeni z metodami Si, Sj, ICAi in ICAf.

Page 96: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

86 6. Modeliranje procesa mesanja kavcukovih zmesi

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.45

0.5

0.55

RM

SE

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi

0.45

0.5

0.55

RM

SE

testna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0.3

0.35

0.4

0.45

NIP

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0.3

0.35

0.4

0.45

NIP

testna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0

50

100

150

NP

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0

20

40

NI

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0.5

0.6

0.7

0.8

0.9

PO

K

ucna mnozica

H0 H1mH2m H2i Si Sf Sj PCA ICAi ICAf ICAjMDPi0.5

0.6

0.7

0.8

0.9P

OK

testna mnozica

Slika 6.25: Uspesnost uvrscanja v razred ’ustrezen’ za zmes C.

Najmanjsi model je zgrajen z metodo H2i, ki pa kljub svoji majhnosti ne zaostajamnogo za najboljsimi. Vsi modeli, pri katerih so znacilke dolocne z metodami, kiizhajajo iz teorije informacij, uporabljajo dokaj malo znacilk.

Tudi pri uvrscanju v razred ’ustrezen’ dobimo najvecji delez pravilnih uvrstitev,0,82, z metodo H2m. Sledijo ji metode S s pol manjsimi modeli in metoda H2i,katere model je se bistveno manjsi.

Najbolj natancne modele smo dobili za proces mesanja zmesi A, sledijo ji modeli zazmes B, najmanj zanesljivo pa je napovedovanje obnasanja procesa mesanja za zmesC. V vseh primerih je najbolj natancno napovedovanje razreda ’ustrezen’, najmanjnatancno pa napovedovanje razreda ’nizek’.

6.6.3. Primerjava metod dolocanja znacilk

Na podoben nacin kot pri napovedovanju casovnih vrst lahko metode dolocanjaznacilk ovrednotimo tudi pri kvalitativnem modeliranju procesa mesanja. Primerjalismo povprecne vrednosti mer, ki so jih dosegle uporabljene metode pri modeli-ranju na vseh zmeseh in za vse razrede. Vrednosti mer na testnih mnozicah sopredstavljene v tabeli 6.4.

Po pricakovanju ima najboljse povprecne vrednosti glede na mero NRMSE hev-risticna metoda H2m, sledijo ji metode dolocanja znacilk z detekcijo sokov S termetodi H2i in MDPi. Vecinoma z metodami dolocanja znacilk z detekcijo sokov Sin z metodami ICA dobimo majhne modele. Ti so malo vecji pri metodah H2i inMDPi. Podobno velja za stevilo uporabljenih znacilk, kjer metodam ICA sledi vecinametod S ter metodi H2i in MDPi. Pri delezu pravilnih uvrstitev v pravi razred sonajboljsi modeli, ki za dolocanje znacilk uporabljajo racunsko zahtevno hevristicno

Page 97: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

6.6. Kvalitativno napovedovanje poteka navora 87

Tabela 6.4: Vrednosti mer za vse metode dolocanja znacilk pri kvalitativnem ocenjevanjupotekov mesanja na testnih mnozicah. Ocene so povprecene cez vseh devet problemovpredstavljenih v prejsnjem razdelku.

Metoda MeraNRMSE NIP NP NI POK

H0 0,378 0,650 178,9 45,0 0,811H1m 0,379 0,559 120,7 16,3 0,822H2m 0,361 0,526 86,4 11,2 0,872H2i 0,374 0,617 49,3 8,1 0,824Si 0,369 0,603 44,7 6,3 0,836Sf 0,368 0,581 73,8 10,7 0,834Sj 0,365 0,601 43,7 7,8 0,831PCA 0,378 0,603 60,4 15,0 0,815ICAi 0,387 0,614 37,0 6,0 0,801ICAf 0,385 0,676 39,0 5,9 0,803ICAj 0,378 0,604 78,2 6,1 0,792MDPi 0,375 0,589 59,3 8,8 0,833

metodo H2m. Ti sledijo modeli, pri katerih se znacilke dolocajo z metodami zadetekcijo sokov Si, Sf in Sj, z metodo najznacilnejsih projekcij MDPi in z metodo,ki uporablja Shannonovo medsebojno informacijo H2i.

Povprecne vrednosti so zavajajoce v primerih, ko se metoda slabo obnasa samona kaksnem problemu. Zato smo tudi tu uspesnost metod ocenili z ocenami od1 do 12. Oceno 12 smo podelili najboljsi metodi, oceno 1 pa najslabsi. Ocenesmo podelili za vsak problem in vsako mero posebej. Za lazjo primerjavo so vtabeli 6.5 zbrane povprecne vrednosti ocen dosezenih na vseh devetih predstavljenihproblemih. Ocene so oznacene s crko O, ki ima v indeksu oznako mere.

Kot je bilo ocitno ze iz analize posameznih problemov in iz tabele povprecnihvrednosti, je metoda H2m glede na delez pravilnih uvrstitev POK najbolj uspesna.Metoda je racunsko zelo zahtevna, saj kot kriterij za izbiranje znacilk uporabljauspesnost napovedovanja, ki je podkrepljeno s pocasnim pohlepnim iskalnim algo-ritmom. Racunsko manj intenzivno hevristicno metodo H1m, pri kateri se naborznacilk doloci glede na uspesnost modeliranja, pa ze prekasajo mnoge metode, kiznacilke dolocajo pred samim modeliranjem. Med temi se najbolj izkazeta metodiSi in MDPi, ki uporabljata mere iz teorije informacij, in metoda ICAf. Metoda izbi-ranja znacilk H2i, ki temelji na Shannonovi medsebojni informaciji, je primerljiva zmetodo H1m. Med metodami S, ki znacilke dolocajo v povezavi z detekcijo sokov, senajbolje obnasa metoda Si, sledi pa ji metoda Sf. Pri modeliranju procesa mesanjadolocanje znacilk z metodami ICA ni prepricljivo. Med njimi je metoda FastICA(ICAf) v rahli prednosti pred metodo ICAi z informacijsko teoreticno zasnovo.

Razlike med metodami so mnogo manjse glede na mero RMSE. Najbolje seobnasata metodi H2m in MDPi, sledijo pa jima metode S, zasnovane na detekcijisokov, ki so vse zelo enakovredne. Nobena od omenjenih metod pa ni prepricljivaglede na mero NIP.

Page 98: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

88 6. Modeliranje procesa mesanja kavcukovih zmesi

Tabela 6.5: Ocene metod dolocanja znacilk in metod ucenja na testnih mnozicah pridevetih problemih uvrscanja v razrede. Ocene so povprecene po vseh devetih problemih.

Metoda OcenaORMSE ONIP ONP ONI

OPOK

H0 6,6 8,0 1,7 1,0 4,3H1m 6,2 4,6 3,1 3,3 8,3H2m 8,6 5,1 4,7 6,7 12,0H2i 6,3 6,9 9,2 7,2 8,5Si 7,2 5,6 8,2 8,7 9,2Sf 7,1 5,1 5,8 6,6 9,0Sj 7,3 6,9 8,9 9,0 7,6PCA 5,7 7,1 6,7 3,6 6,3ICAi 4,1 7,7 9,1 10,1 5,6ICAf 5,7 9,1 9,2 9,0 6,2ICAj 5,4 6,1 5,1 9,2 3,1MDPi 7,8 5,9 7,1 8,0 8,8

Med metodami, s katerimi dobimo majhne modele, prevladujejo tiste, ki upo-rabljajo mere iz teorije informacij: H2i, ICAi in Si. Z vsemi omenjenimi metodamizasnovanimi na teoriji informacij, vkljucno z metodo MDPi, dobimo majhno steviloznacilk.

6.7. Vodenje industrijskega mesalnika

Odprta arhitektura sistema za avtomatsko vodenje mesalnika nam je omogocila,da smo vanj vkljucili sistem za zaprtozancno vodenje, ki je bil predstavljen nasliki 6.10. Aplikacija za zaprtozancno vodenje tece na posebnem racunalniku, kije preko lokalnega omrezja povezan v racunalniski sistem za krmiljenje mesalnika,tako kot je prikazano na sliki 6.3. Aplikacija je napisana v programskem jeziku C#in tece v okolju Microsoft Windows XP. Sestavljena je iz treh modulov.

Prvi modul je namenjen komunikaciji s programirljivim logicnim krmilnikommesalnika (PLK Siemens S7 400), ki poteka posredno preko nadzornega sistemapo standardiziranem protokolu OPC. Modul neprestano zajema vrednosti procesnihkolicin, ki jih shranjuje v podatkovno bazo, in po potrebi spreminja hitrost vrtenjarotorjev.

Drugi modul predstavlja prediktivni model, ki proces mesanja na podlagi nje-govega obnasanja do izbrane tocke uvrsti v pravi razred. Hkrati so aktivni trijemodeli, ki obnasanje procesa mesanja poskusajo uvrstiti v razrede ’ustrezen’, ’nizek’in ’zelo nizek’. Ker so modeli neodvisni, se lahko zgodi, da proces ni uvrscen vnoben razred ali pa, da je uvrscen v vec razredov naenkrat. V prvem primeru smoizbrali srednjo pot in proces uvrstili v razred ’nizek’, v drugem primeru pa smoizbrali najslabsega od razredov, v katere je bil potek mesanja uvrscen. Modul vtrenutni obliki vkljucuje samo procesiranje z vecplastnim perceptronom. Modele

Page 99: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

6.7. Vodenje industrijskega mesalnika 89

smo pripravljali v programskem okolju Matlab, modul pa vse nastavitve, vkljucnos topologijo modela, vrednostmi prostih parametrov in naborom znacilk, pridobi izkonfiguracijske datoteke za ustrezno zmes.

Tretji modul je namenjen dolocanju primerne nastavitve hitrosti vrtenja rotorjev.Na podlagi ocene prediktivnega modela smo v izbranem trenutku mesanja prilagodilihitrost vrtenja rotorjev. To smo ob uvrstitvi procesa v razred ’zelo nizek’ mocnopovecali, ob uvrstitvi v razred ’nizek’ pa je bilo povecanje zmernejse. V primeru, daje bil proces mesanja uvrscen v razred ’ustrezen’, nismo naredili nobene spremembe.Proces mesanja se je s spremenjeno hitrostjo vrtenja rotorjev nadaljeval vse doizpusta zmesi iz mesalne komore.

Za zaprtozancno vodenje procesa mesanja zmesi A smo uporabili modele, prikaterih smo znacilke dolocali z metodo H2i, ki vkljucuje pohlepni algoritem v kom-binaciji z Shannonovo mero medsebojne informacije [72]. Modeli, pri katerih znacilkedolocamo z metodo H2i, sicer niso bili najboljsi, so pa enostavni za implementacijo,saj znacilke izbirajo med ponujenimi spremenljivkami, s cimer se izognemo trans-formacijam spremenljivk pred vhodom v model.

V tabeli 6.6 so za zmes A prikazane topologije vseh treh modelov, dobljenih vpovezavi z metodo izbiranja znacilk H2i, vkljucno z izbranimi znacilkami. Mode-li oceno o poteku krivulje navora dolocajo v casu t0 = 32 s. Pri analizi znacilkopazimo, da so za nadaljnji potek krivulje navora pomembne vrednosti navora intemperature tik pred prvim minimumom ter na sredini med prvim maksimumomin prvim minimumom. Potek navora je odvisen tudi od temperature in energije vokolici prvega minimuma, preko katerih model posredno dobi informacijo o stanjumesalnika ob vnosu zmesi.

Tabela 6.6: Topologija modelov pri izbiranju znacilk z metodo H2i pri ocenjevanju procesamesanja zmesi A. Potek krivulj se ocenjuje v casu t0 = 32 s.

Razred Topologija NP Znacilke

’zelo nizek’ 6-2-1 17 Mt0−2, Mt0−8, Tt0−1, Tt0−9, Tt0−15, Et0−13

’nizek’ 6-3-1 25 Mt0 , Mt0−4, Mt0−10, Tt0−1, Tt0−7, Et0−15

’primeren’ 6-2-1 17 Mt0−4, Mt0−8, Tt0−1, Tt0−7, Et0−15

V tabeli 6.7 je predstavljena uspesnost modelov pri uvrscanju v razrede. Vzrok zaslabse rezultate pri uvrscanju v razred ’zelo nizek’ in se posebej v razred ’nizek’ lahkoiscemo v procesih mesanja, ki potekajo v podrocju, kjer je postavljena meja medrazredoma. Vzrok za boljse rezultate na testni mnozici je verjetno vecja raznolikostpotekov mesanja, ki so bili vkljuceni v ucno mnozico.

Krmilnik smo za zmes A nastavili tako, da je v primeru uvrstitve poteka navorav razred ’nizek’ hitrost vrtenja rotorjev povecal za 8 min−1, ob uvrstitvi v razred’zelo nizek’ pa za 15 min−1, kolikor konstrukcija mesalnika se dovoljuje.

Ucinke zaprtozancnega vodenja smo opazovali v poskusu sestavljenem iz 34 za-porednih mesanj zmesi A. Poskus je bil izveden po daljsi prekinitvi proizvodnegaprocesa, zato je bila temperatura mesalnika pri prvih mesanjih prenizka. Predla-

Page 100: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

90 6. Modeliranje procesa mesanja kavcukovih zmesi

Tabela 6.7: Uspesnost modelov pri izbiranju znacilk z metodo H2i pri ocenjevanju procesamesanja zmesi A.

Razred POK

Ucna mnozica Testna mnozica

’zelo nizek’ 0,82 0,93’nizek’ 0,79 0,88’primeren’ 0,97 0,98

gani sistem zaprtozancnega vodenja je zato sest mesanj med prvimi osmimi uvrstilv razred ’nizek’ ter s povecanjem hitrosti vrtenja rotorjev za 8 min−1 popravil potekprocesa. Omenjeni poskus je bil statisticno ovrednoten v primerjavi z poskusi, prikaterih ni bilo uporabljeno zaprtozancno vodenje. Na sliki 6.26 vidimo, da mesalni

Slika 6.26: Vpliv zaprtozancnega vodenja na krivuljo navora v procesu mesanja zmesi A.

cikli, pri katerih je vkljuceno zaprtozancno vodenje, v povprecju bolj pravilno sledijoidealnemu poteku. Ozji intervali zaupanja v tretji in cetrti fazi mesanja kazejo nato, da se z zaprtozancnim vodenjem variabilnost procesa zmanjsa.

Prikazani rezultati potrjujejo primernost izbranega sistema vodenja industrijske-ga mesalnika kavcukovih zmesi. Eno od prednosti uporabljenega pristopa predstavljagradnja modelov procesa mesanja na podlagi meritev, brez poglobljenih teoreticnihanaliz. Seveda pri tem za izdelavo dobrih modelov potrebujemo cim vecjo bazomeritev za vsako zmes, kar pa predstavlja oviro, na primer ob spremembi recepturezmesi ali pa zamenjavi rotorjev in predelavi mesalne komore. Kljub nekaterim sla-bostim opisanega pristopa je s poskusi v industrijskem okolju potrjena prakticnauporabnost predlaganih metod, ki doprinesejo k stabilnosti in ponovljivosti procesamesanja kavcukovih zmesi.

Page 101: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

7.

Zakljucek

V delu smo analizirali moznosti uporabe teorije informacij pri modeliranju nelinear-nih dinamicnih sistemov. Osredotocili smo se na dve vprasanji, in sicer, kako v duhuteorije informacije pri modeliranju nelinearnih dinamicnih sistemov izbrati in preob-likovati vhodne podatke, da bo modeliranje kar najbolj uspesno, in kako izboljsatisam postopek modeliranja. Delo je bilo dodatno motivirano z resevanjem proble-ma zaprtozancnega vodenja industrijskega mesanja kavcukovih zmesi, s katerim smozeleli kljub variacijam v kvaliteti vhodnih surovin in spremembam v okolju zagotovitikonstantno kvaliteto zmesi. Se prej smo metode ovrednotili na nekaterih klasicnihproblemih napovedovanja casovnih vrst.

Modele realnih dinamicnih sistemov lahko zgradimo na podlagi meritev razlicnihkolicin, ki pa so velikokrat podvrzene sumu in drugim motnjam. V procesih lahkoopazujemo le dolocene kolicine in pogosto se zgodi, da ne znamo vnaprej dolociti,katere med njimi nam dajejo koristne informacije za izgradnjo modela. Uporaba vsehlahko vodi do velikih in nepreglednih modelov, ki poleg tega se slabo posplosujejoznanje, pridobljeno z ucenjem. Z izborom in preoblikovanjem izmerjenih kolicinv primeren nabor znacilk poskusamo med vsemi kolicinami izbrati cim manj karnajbolj informativnih, ostale, ki ne vsebujejo bistvenih informacij, pa zavreci. Stem imamo veliko vecje moznosti, da v postopku modeliranja zgradimo manjse inucinkovitejse modele, ki se na nepoznane dogodke odzivajo bolje od vecjih modelov.

Mere, ki izhajajo iz teorije informacij, predvsem Kullback-Leiblerjeva diver-genca in medsebojna informacija, so ze v svojem bistvu namenjene merjenju stopnjepovezanosti med podatki, zato so odlicne kandidatke za dolocanje najbolj relevantnihznacilk. Te mere lahko v povezavi s preprostimi hevristicnimi postopki uporabimo zaizbiranje najbolj relevantnih znacilk. V povezavi z bolj kompleksnimi metodami, naprimer analizo neodvisnih komponent ali metodo najznacilnejsih projekcij, pa tudiza preoblikovanje znacilk v obliko, primernejso za modeliranje. Uspesnost metod,ki uporabljajo mere iz teorije informacij, smo primerjali z nekaterimi standardnimihevristicnimi metodami za izbiranje znacilk, na primer s pohlepnim iskalnim al-goritmom, s katerim znacilke izbiramo tako, da je modeliranje cim boljse, ter zmetodami za dolocanje znacilk s preoblikovanjem osnovnih podatkov, na primer zanalizo glavnih osi.

Pri analizi neodvisnih komponent so znacilke linearne kombinacije elementov,ki sestavljajo vhodne vzorce. V primerih, ko imamo na voljo vec meritev podo-

91

Page 102: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

92 7. Zakljucek

bnega procesa, lahko z analizo neodvisnih komponent dolocimo casovna obdobja, vkaterih obicajno prihaja do vecjih sprememb v sistemu oziroma sokov. Ker vecjespremembe v stanju sistema pomembno vplivajo na njegovo prihodnje obnasanje,smo za probleme napovedovanja casovnih vrst predlagali metodo, ki za znacilkepredlaga vrednosti vhodnih kolicin v trenutkih, ko so zaznani soki.

Pri napovedovanju naslednje vrednosti v casovni vrsti so se modeli, pri katerihsmo znacilke dolocili s pomocjo analize neodvisnih komponent, zelo priblizali mode-lom dobljenim s casovno zahtevnimi hevristicnimi metodami iskanja znacilk, ki kotkriterijsko funkcijo za izbiro znacilk uporabljajo kar uspesnost modeliranja. Mednjimi se je metoda, ki uporablja informacijsko teoreticno mero, izkazala kot dobraizbira. Predvsem zaradi premajhnega stevila vzorcev se je za veliko slabso izkazalodolocanje znacilk s hevristicnim postopkom, ki kot kriterijsko funkcijo uporabljaShannonovo medsebojno informacijo. Pri kvantitativnem ocenjevanju dogajanja vsistemu z uvrscanjem napovedi v pet razredov se je kot dobra metoda za dolocanjeznacilk izkazala tudi metoda najznacilnejsih projekcij.

Osnovno mero teorije informacije, to je entropijo, lahko s pridom uporabimo vpostopku gradnje modela. Z minimizacijo entropije napak modela namrec poskr-bimo, da se model poskusa kar najbolje prilagoditi podatkom, s cimer se sevedazmanjsa nedolocenost napak. Ucenje z minimizacijo cenilne funkcije entropije na-pake smo primerjalno ovrednotili z obicajnim ucenjem, ki vkljucuje minimizacijopovprecne kvadratne napake. Analiza je pokazala, da se v vecini primerov ucenje scenilno funkcijo entropije napake obnasa zelo dobro pri napovedovanju zveznih vred-nosti, ni pa prepricljivo v primerih, ko model napovedi uvrsca v diskretne razrede.Kaze, da je zaradi svoje logaritemske zasnove cenilna funkcije entropije napake zeloprimerna za izboljsanje konvergence v okolici globalnega minimuma, zal pa se zelorada ujame v lokalne minimume, ki so pri diskretiziranih problemih obicajno boljizraziti. Poleg tega je ucenje s cenilno funkcijo entropije napake dolgotrajnejse, sajje racunanje entropije napake, zaradi dvojnih vsot v sami definiciji, racunsko precejbolj zahtevno kot v primeru cenilne funkcije povprecne kvadratne napake.

Omenjene metode smo uporabili tudi za gradnjo prediktivnih modelov za zaprtozan-cno vodenje industrijskega mesalnika kavcukovih zmesi. Analiza procesa mesanja jepokazala, da se potek procesa najlepse odraza na viskoznosti. Viskoznost je namrecmocno dovzetna za vse dodatke, kot so saje, olja, razni ojacevalniki in mehcala, kottudi na spremembe pogojev mesanja, predvsem na hitrost rotorjev, temperaturoin tlak v mesalni komori. Viskoznost je sorazmerna navoru rotorjev, ki ga lahkoposredno merimo preko elektricnega toka skozi motorje. Varianca navora v procesumesanja je najbolj ocitna potem, ko se krivulja navora po dosezenem minimumuzacne dvigati. Takrat so surovine toliko umesane, da se zacenja kemijski procespovezovanja saj s kavcukovimi polimernimi molekulami. V tej fazi je zazeleno izra-zito narascanje navora, ki kaze na popolno razgraditev saj in njihovo enakomernovgradnjo v zmes.

S kar najbolj podobnimi poteki krivulj navora med zaporednimi mesanji poskr-bimo za enak potek viskoznosti in s tem v veliki meri zagotovimo precej konstantnelastnosti koncnih zmesi. Najhitrejso spremembo navora dosezemo s spremembohitrosti vrtenja rotorjev, vendar je tudi v tem primeru odzivni cas precej dolg.

Page 103: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

93

Za uspesno vodenje zato potrebujemo zanesljiv model, ki anomalije v procesu za-zna dovolj zgodaj. Poskusi so pokazali, da so modeli, ki proces spremljajo ves casmesanja, precej nezanesljivi. To je posledica sprememb kemijskih in fizikalnih last-nosti snovi med samim mesanjem. Zato smo se omejili na korekcijo navora samo vnajbolj kriticni fazi vgrajevanja saj. Zgradili smo modele, ki iz poteka krivulje na-vora do izbranega casa poskusajo napovedati, kako mocno se bo med vgrajevanjemsaj dvignila krivulja navora, oziroma kako uspesna bo disperzija saj. V primerih,ko modeli napovejo, da disperzija saj ne bo dobra, se proces umesavanja pohitri zdvigom obratov rotorjev in s tem v precejsnji meri odpravi anomalije, do katerihprihaja zaradi nepredvidljivih zunanjih vzrokov. Na ta nacin smo dobili ucinkovitprediktivni model vodenja procesa mesanja kavcukovih zmesi.

Pri gradnji prediktivnega modela vodenja procesa mesanja kavcukovih zmesi jebilo dolocanje znacilk z metodo najznacilnejsih projekcij precej uspesno. Zaradivecjega stevila podatkov in manjsega stevila razredov na izhodu se je zelo dobroizkazala metoda izbiranja znacilk s Shannonovo medsebojno informacijo. Slabimodeli, zgrajeni s pomocjo analize neodvisnih komponent, kazejo na to, da jepri uvrscanju v razrede pomembno, da v meri nastopa povezava med vhodom inizhodom, ki je analiza neodvisnih komponent ne izkorisca.

Proces mesanja se v priblizno enaki obliki neprestano ponavlja, zato lahko prigradnji poenostavljenega modela, ki samo v izbranem casu po zacetku mesanjanapoveduje dogajanje v prihodnosti, s pridom uporabimo predlagano metodo izbi-ranja znacilk z detekcijo sokov. Rezultati predlagane metode le malce zaostajajoza racunsko zahtevnimi hevristicnimi metodami, ki kot mero za dolocanje znacilkuporabljajo uspesnost modeliranja. Med metodami izbiranja znacilk z detekcijosokov se je metoda, ki uporablja informacijsko teoreticno zasnovano mero, izkazalakot dobra izbira.

Koncepti teorije informacije so se izkazali za zelo ucinkovite pri obvladovanjukompleksnih problemov. Najvecji problem se vedno predstavlja racunska zahtevnostmetod, ki so zasnovane na teh konceptih. Kljub hitremu razvoju tehnologije, kipovecuje njihovo uporabno vrednost, pa je v nadaljevanju potrebno poskrbeti tudiza pohitritve algoritmov, na primer s paralelizacijo, in zagotovitev njihove vecjerobustnosti.

Izvirni prispevki k znanosti

Izvirne prispevke k znanosti, podane v doktorski disertaciji, lahko strnemo v nasled-njih tockah:

• uporaba in ovrednotenje metod, ki izhajajo iz teorije informacij, za izbiranjein dolocanje vplivnih spremenljivk pred samim modeliranjem,

• predlog nove metode izbiranja znacilk z detekcijo sokov,

• ovrednotenje nastavljanja prostih parametrov modelov v procesu ucenja s ce-nilnimi funkcijami, ki izhajajo iz informacijske teorije,

Page 104: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

94 7. Zakljucek

• prakticna uporaba metod informacijske teorije na primerih napovedovanjacasovnih vrst ter modeliranja procesa mesanja kavcukovih zmesi in

• izboljsanje procesa mesanja kavcukovih zmesi z zaprtozancnim vodenjem in-dustrijskega mesalnika.

Page 105: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

Literatura

[1] G. U. Yule, On a Method of Investigating Periodicities in Disturbed Series, withSpecial Reference to Wolfers Sunspot Numbers, Phill. Trans., 226-267, 1927.

[2] G. E. P. Box in G. M. Jenkins, Time Series Analysis Forecasting and Control,Holden, San Francisco, druga izdaja, 1971.

[3] A. S. Weigend in N. A. Gershenfeld (ur.), Time Series Prediction: Forecastingthe Future and Understanding the Past, Addison-Wesley, Reading, 1994.

[4] I. Gabrijel in A. Dobnikar, On-line Identification and Reconstruction of FiniteAutomata with Generalized Recurrent Neural Networks, Neural netw., 16, 101-120, 2003.

[5] U. Lotric in A. Dobnikar, Predicting Time Series Using Neural Networks withWavelet-Based Denoising Layers, Neural comput. appl., 14, 11-17, 2005.

[6] B. Ster in A. Dobnikar, Modelling the Environment of a Mobile Robot with theEmbedded Flow State Machine, J. intell. robot. syst., 46, 182-199, 2006.

[7] D. E. Rumelhart, G. E. Hinton in R. J. Williams, Learning Internal Represen-tations by Error Propagation. V: D. E. Rumelhart in J. L. McClelland (ur.),Parallel Distributed Processing: Explorations in the Microstructure of Cogni-tion, Foundations, zvezek 1, strani 318-362, MIT/Bradford Books, Cambridge,1986.

[8] S. Haykin, Neural networks: A Comprehensive Foundation, Prentice-Hall, NewJersey, druga izdaja, 1999.

[9] D. Erdogmus in J. C. Principe, From Adaptive Filtering to Nonlinear Informa-tion Processing, IEEE Signal Processing Magazine, 14-33, 2006.

[10] A. Dobnikar, Modeliranje nelinearnih dinamicnih sistemov na osnovi teorije in-formacij, Znanje za trajnostni razvoj: zbornik povzetkov referatov 27. mednar-odne konference o razvoju organizacijskih znanosti, Slovenija, Portoroz, 32-45,2008.

[11] J.-F. Cardoso, High-Order Contrasts for Independent Component Analysis,Neural Computation, 11, 157-192, 1999.

[12] C. E. Shannon, A Mathematical Theory of Communications, Bell Syst. Tech.J., 27, 379-423, 1948.

95

Page 106: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

96 Literatura

[13] A. Dobnikar, Teorija informacij in sistemov, Zalozba FE in FRI, Ljubljana,2009.

[14] K. E. Hild II, D. Erdogmus in J. C. Principe, Blind Source Separation UsingRenyi’s Mutual Information, IEEE Signal Processing Letters, 8, 2001.

[15] F. C. Richards, T. P. Meyer in N. H. Packard, Extracting Cellular AutomationRules Directly from Experimental Data, Physica D, 45, 189-202, 1990.

[16] P. Comon, Independent Component Analysis, a New Concept?, Signal Process-ing, 36, 287-314, 1994.

[17] D. Erdogmus, K. E. Hild II in J. C. Principe, Blind Source Separation UsingRenyi’s α-marginal entropies, Neurocomputing, 49, 25-38, 2002.

[18] J.-F. Cardoso, Blind Signal Separation: Statistical Principles, Proceedings ofthe IEEE, 9, 2009-2025, 1998.

[19] D. Erdogmus in J. C. Principe, Generalized Information Potential Criterion forAdaptive System Training, Neural Networks, 13, 1035-1044, 2002.

[20] D. Erdogmus in J. C. Principe, An Error-Entropy Minimization Algorithm forSupervised Training of Nonlinear Adaptive Systems, IEEE trasactions on signalprocessing, 50, 1780-1786, 2002.

[21] H. D. Giffin in A. C. Mech, Controlling Mixers - the Key to a More CompetitiveRubber Industry, Dutch Rubber Institute Conference, 1986.

[22] D. T. Pham in L. Xing, Neural Networks for Identification, Prediction andControl, Springer, New York, 1995.

[23] J. C. A. van der Lubbe, Information Theory, Cambridge University Press, Cam-bridge, 1997.

[24] T. M. Cover in J. A. Thomas, Elements of Information Theory, JohnWiley &Sons, New York, 1991.

[25] S. Watanabe, Information Theoretical Analysis of Multivariate Correlation,IBM Journal of Research and Development 4, 66-82, 1960.

[26] S. Srinivasa, A Review on Multivariate Mutual Information, In-formation Theory Tutorials, University of Notre Dame, Indiana,http://www.nd.edu/∼jnl/ee80653/ tutorials/sunil.pdf, 2009.

[27] A. Hyvarinen, J. Karhunen in E. Oja, Independent Component Analysis, Wiley,New York, 2001.

[28] J. Beirlant, E. J. Dudewicz, L. Gyofri in E. C. van der Meulen, NonparametricEntropy Estimation: an Overview, Int. J. Math. Statist. Sci, 6(1), 17-39, 1997.

Page 107: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

Literatura 97

[29] R. P. W. Duin, On the Choice of the Smoothing Parameters for Parzen Estima-tors of Probability Density Functions, IEEE Trans. Comput., 25(11)1175-1179,1976.

[30] B. W. Silverman, Density Estimation for Statistics and Data Analysis, Chap-man & Hall, London, 1986.

[31] J. M. Santos, J. M. de Sa in L. A. Alexandre, LEGClust-A Clustering AlgorithmBased on Layered Entropic Subgraphs, IEEE Transactions on Pattern Analysisand Machine Intelligence, 30, 1-14, 2008.

[32] A. Dukkipati, On Generalized Measures Of Information With Maximum AndMinimum Entropy Prescriptions, Repository of Theses and Dissertations ofIndian Institute of Science, Bangalore, India, 1996.

[33] A. Renyi, Probability theory, Nort Holland, Amsterdam, 1970.

[34] R. Bracewell, Convolution and Two-dimensional Convolution, McGraw-Hill,1965.

[35] G. Janacek in L. Swift, Time Series Forecasting, Simulation, Aplications, EllisHorwood, London, 1993.

[36] T. Masters, Neural, Novel & Hybrid Algorithms for Time Series Prediction,John Wiley & Sons, New York, 1995.

[37] P. Giudici, Applied Data Mining: Statistical Methods for Business and Indus-try, Wiley, Hoboken, 2003.

[38] M. B. Priestley, Spectral Analysis and Time Series, Academic, London, 8 izdaja,1994.

[39] W. H. Press, S. A. Teukolsky, W. T. Vetterling in B. P. Flannery, NumericalRecipes in C, Cambridge University, Cambridge, druga izdaja, 1992.

[40] P. J. Brockwell in R. A. Davis, Time Series: Theory and Methods, Springer,New York, druga izdaja, 1996.

[41] U. Lotric, Uporaba valcne analize in nevronskih mrez pri napovedovanjucasovnih vrst, doktorsko delo, 2000.

[42] J. Mlakar, Linearna vezja in signali, Zalozba FER, Ljubljana, 1991.

[43] K. E. Hild II, D. Erdogmus, K. Torkkola in J. C. Principe, Feature Extrac-tion Using Information-Theoretic Learning, IEEE Trans. Pattern Anal. Mach.Intell., 28, 1385-1392, 2006.

[44] A. A. Freitas, Data Mining and Knowledge Discovery with Evolutionary Algo-rithms, Springer, Berlin Heidelberg, 2002.

[45] D. Hand, H. Mannila in P. Smyth, Data Mining, MIT, Massachusetts, 2001.

Page 108: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

98 Literatura

[46] W. Li, Mutual Information Functions Versus Correlation Functions, Journal ofStatistical Physics, 60, 823-837, 1990.

[47] C. M. Bishop, Pattern Recognition and Machine Learning, Springer, New York,2006.

[48] F. Krizanic, Temelji realne matematicne analize, DZS, Ljubljana, 1990.

[49] K. Torkkola, Feature Extraction by Non-parametric Mutual Information Max-imization, J. Machine Learning Res., 3, 1415-1438, 2003.

[50] A. Hyvarinen. Fast and Robust Fixed-Point Algorithms for Independent Com-ponent Analysis, IEEE Transactions on Neural Networks, 10, 626-634, 1999.

[51] A. Hyvarinen in E. Oja, Independent Component Analysis: Algorithms andApplications, Neural Networks, 13, 411-430, 2000.

[52] J.-M. Wu, M.-H. Chen in Z.H. Lin, Independent Component Analysis Basedon Marginal Density Estimation Using Weighted Parzen Windows, Neural ne-towrks, 21, 914-924, 2008.

[53] A. J. Bell in T. J. Sejnowski, An Information-Maximization Approach to BlindSeparation and Blind Deconvolution, Neural Computation, 7, 1129-1159, 1995.

[54] D. Erdogmus, K. E. Hild II, J. C. Principe, M. Lazaro in I. Santamaria, Adap-tive Blind Deconvolution of Linear Channels Using Renyi’s Entropy with ParzenWindow Estimation, IEEE Transactions on Signal Processing, 52, 6, 2004.

[55] K. E. Hild II, D. Erdogmus in J. C. Principe, An Analysis of Entropy Estimatorsfor Blind Source Separation, Signal processing, 86, 182-194, 2006.

[56] D. Xu, J. C. Principe, J. Fisher in H.-C. Wu, A Novel Measure for IndependentComponent Analysis (ICA), Proceedings of the IEEE International Conferenceon Acoustics, Speech and Signal Processing, 2, 1161-1164, Seatle, 1998.

[57] N. Mammone in F. C. Morabito, Enhanced Automatic Artifact Detection Basedon Independent Component Analysis and Renyi’s Entropy, Neural Networks,21, 1029-1040, 2008.

[58] A. D. Back in A. S. Weigend, A First Application of Independent ComponentAnalysis to Extracting Structure form Stock Returns, Internationa Journal ofNeural Systems, Vol. 8, 1997.

[59] A. Dobnikar in B. Ster, Mehko racunanje za modeliranje, razpoznavanje inregresijo, Zalozba FE in FRI, Ljubljana, 2008.

[60] W. S. McCulloch in W. Pitts, A Logical Calculus of the Ideas Immanent inNervous Activity, V: J. A. Anderson in E. Rosenfeld (ur.), Neurocomputing,Foundations of Research, 1827, MIT, Cambridge, druga izdaja, 1988.

Page 109: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

Literatura 99

[61] H. Demuth, M. Beale in M. Hagan, Neural Network Toolbox User’s Guide,MathWorks, Natic, sesta izdaja, 2009.

[62] J. C. Principe in J. Fiscer, Information Theoretic Learning, V: S. Haykin, Un-supervised Adaptive Filtering, 1, 265.319, Wiley, New York, 2000.

[63] D. Erdogmus in J. C. Principe, Comparison Of Entropy And Mean Square ErrorCriteria In Adaptive System Training Using Higher Order Statistics, Proceed-ings of the Second International Workshop on Independent Component Analysisand Blind Signal Separation, 75-80, 2000.

[64] M. Bratina, A. Dobnikar in U. Lotric, Modeliranje casovnih vrst z metodamiteorije informacij, Elektrotehniski vestnik, poslano v objavo, 2009.

[65] Sunspot Index Data Center, Royal Observatory of Belgium. Yearly DefinitiveSunspot Number, http://www.oma.be/KSB-ORB/SIDC/, 2009.

[66] J.-P. Eckmann in D. Ruelle, Ergodic Theory of Chaos and Strange Attractors,Rev. Mod. Phys., 57, 617656, 1985.

[67] H. G. Schuster, Deterministic Chaos. An Introduction, Physik, Weinheim, 1984.

[68] L. Glass in M. C. Mackey, Pathological Physiological Conditions Resulting fromInstabilities in Physiological Control Systems, Ann. NY. Acad. Sci, 316, 214-235, 1979.

[69] Mathworks, Fuzzy Logic Toolbox User’s guide, Mathworks, Natic, druga izdaja,2009.

[70] P. R. Wood, Mixing Quality - Achieving the Best, Rubber Technology Interna-tional, 114, 1999.

[71] E. F. Camacho in C. Bordons, Model Predictive Control, druga izdaja, Springer,London, 2004.

[72] M. Bratina, Z. Susteric, B. Ster, U. Lotric in A. Dobnikar, Predictive Controlof Rubber Mixing Process Based on Neural Network Models, Kautsch. Gummi,Kunstst., 62, v tisku, 2009.

[73] J. D. Ferry, Viscoelastic Properties of Polymers, Wiley, New York, 1980.

[74] R. B. Bird in O. Hassager, Dynamics of Polymeric Liquids, Wiley, New York,1987.

[75] P. C. Painter in M. M. Coleman, Fundamentals of Polymer Science, Technomic,Lancaster, 1997.

[76] U. Lotric in Z. Susteric, Relating Rubber Melt’s Viscosity and Molecular WeightDistribution by Neural Networks, Kautsch. Gummi Kunstst., 54, 599-603, 2001.

[77] M. Trebar, Z. Susteric in U. Lotric, Predicting Mechanical Properties of Elas-tomers with Neural Networks, Polymer, 48, 5340-5347, 2007.

Page 110: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

100 Literatura

[78] B. Ster, Z. Susteric in U. Lotric, Combined Application of Theoretical Modelingand Neural Networks in Vulcametry, Kautsch. Gummi, Kunstst., 62, 313-318,2009.

[79] V. Vijayabaskar, R. Gupta, P. P. Chakrabarti in A. K. Bhowmick, Prediction ofProperties of Rubber by Using Artificial Neural Networks, Journal of AppliedPolymer Science 100, 2227, 2006.

[80] P. Ryzko in E. Haberstroh, Modelling of the Mixing Process and on Line Predic-tion of Rubber Compound and Molded Part Properties with Process AnalysesTechnologies, Proceedings of the meeting of Rubber Division, American Chem-ical Society, Dallas, Illinois, 2002.

[81] S. Merikoski, M. Laurikkala in H. Koivisto: Modelling Viscosity in RubberMixing Process Using an Adaptive Neuro-Fuzzy Inference System (ANFIS),Automation Days ’01, Helsinki, Finland, 2001.

[82] S. Strmcnik (ur.), Celostni pristop k racunalniskemu vodenju procesov, ZalozbaFE in FRI, Ljubljana, 1998.

[83] J. E. Rijnsdorp, Integrated Process Control and Automation, Elsevier, Ams-terdam, 1991.

[84] R. C. Dorf, Modern Control Systems, Adisson-Wesley, Reading, 2000.

[85] H. Berger, Automating with SIMATIC, Controllers, Software, Programming,Data Communication, Operator Control and Process monitoring, tretja izdaja,Publicis, Erlangen, 2006.

[86] J. Weigmann in G. Kilian, Decentralization with Profibus-DP, Publicis MCD,Erlangen, 2000.

[87] Siemens Flow Instruments A/S, Communication Modules Foundation FieldbusH1, Operating Instructions, Siemens, Nordborg, 2008.

[88] T. Vidmar, Informacijsko-komunikacijski sistem, Pasadena, Ljubljana, 2002.

[89] M. Doane, P. Reynolds in M. Connor, The New SAP Blue Book, A ConciseBusiness Guide to the World of SAP, peta izdaja, Performance Monitor, USA,2006.

[90] W. Mahnke, S. H. Leitner, M. Damm, OPC Unified Architecture, Springer,2009.

[91] S. Bedenk, J. Fabijan, G. Jerman, I. Kadivec. Torkar, T. Kos, M. Kranj. Novak,L. Kraljevic. Trobec, P. Kurent, B. Novak, B. Rupar, B. Rus, M. Sajovic,T. Sajovic, M. Sustar, Z. Susteric, A. Trojar, D. Ucakar in D. Zagorsek, Procesipredelave, Izobrazevalno gradivo s podrocja gumarstva, Savatech d.o.o., Kranj,2008.

[92] Z. Tadmor in C. G. Gogos, Principles of Polymer Processing, Wiley, Hoboken,2006.

Page 111: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009

S svojim podpisom zagotavljam,

da sem doktorsko disertacijo izdelal samostojno pod mentorstvomdoc. dr. Urosa Lotrica, univ. dipl. fiz.,

da je elektronska oblika dela identicna s tiskano obliko ter

soglasam z javno objavo elektronske oblikedoktorske disertacije v zbirki ”Dela FRI”.

mag. Marko Bratina, univ. dipl. inz. el.

Page 112: MODELIRANJE NELINEARNIH DINAMICNIH SISTEMOV Z ...eprints.fri.uni-lj.si/907/1/Marko__Bratina.disertacija.pdfDOKTORSKA DISERTACIJA Mentor: doc. dr. Uro•s Lotri•c Ljubljana, 2009