Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
Despre autoriIncepand cu anul universitar Razvan Andonie a predat un curs
de Retele neurale la Universitatea Transilvania specializarile Electronica sicalculatoare Electrotehnica Informatica Acelasi curs la predat la UniversitateaTexas din San Antonio SUA n anul universitar
Angel Cataron a facut parte din prima generatie de absolventi care au frecventat acest curs In perioada el a predat cursul de Retele neurale laUniversitatea Transilvania specializarea Electronica si calculatoare Pe langaaceasta el este coordonatorul orelor de laborator pentru acest curs si este doctorand n domeniul retelelor neurale
Prefata
Chiar daca acest material este suportul cursului de Retele neurale dea lungultimpului acest curs a nceput sa contina capitole noi la interferenta retelelorneurale cu sistemele fuzzy si algoritmii genetici Aceasta este n concordanta cutendintele actuale n lume
De aceea am preferat denumirea de inteligenta computationala Inteligentacomputationala asa cum a fost denita de Bezdek are ca obiectiv modelareainteligentei biologice Din acest punct de vedere ea este similara domeniuluinumit inteligenta articiala Spre deosebire de inteligenta articiala care estebazata pe notiunea de cunostinta inteligenta computationala este o modelarenumerica a inteligentei biologice Putem vorbi deci de trei tipuri de inteligentabiologica articiala si computationala
Inteligenta computationala este formata din urmatoarele subdomenii reteleneurale algoritmi genetici programare evolutionara sisteme fuzzy viata articiala In contextul inteligentei computationale toate aceste subdomenii suntlegate de modelarea numerica a inteligentei biologice
Acest curs acopera majoritatea subdomeniilor inteligentei computationaleFiecare capitol ofera pe langa informatii teoretice cate o sectiune de aplicatiiurmata de un set de exercitii cele marcate prin C ind destinate implementariipe calculator
Bezdek J On the Relationship Between Neural Networks Pattern Recognition andIntelligence Int J Approximate Reasoning
Cuprins
Preliminarii n calculul neural Calculul neural exemple Istoricul dezvoltarii retelelor neurale Viitorul
Concepte fundamentale Neuronii biologici si modelele lor articiale Modelarea retelelor neurale Invatare si adaptare Reguli de nvatare Exemple Exercitii
Perceptroni monostrat Clasicare Functii discriminant Clasicatori liniari Perceptronul discret ca dihotomizator liniar Perceptronul continuu ca dihotomizator liniar Teorema de convergenta a perceptronului Retele monostrat de perceptroni Exemple Exercitii
Retele neurale feedforward multistrat Clasicarea patternurilor liniar
neseparabile Regula de nvatare delta Regula delta generalizata Algoritmul de instruire backpropagation Factori ai nvatarii Aproximatori universali Teorema lui Kolmogorov si retelele neurale Aplicatii Exemple
CUPRINS
Exercitii
Retele neurale feedback monostrat Retele Hopeld cu timp discret Retele Hopeld cu timp continuu Aplicatie problema comisvoiajorului Exemple Exercitii
Memorii asociative Concepte de baza Asociatori liniari Memorii autoasociative recurente Analiza performantei Memoria asociativa bidirectionala MAB Exercitii
Retele neurale cu autoorganizare Retelele Hamming si MAXNET Instruirea nesupervizata a clusterelor Harti Kohonen Exercitii
Retele neurale RBF Functii radiale O tehnica de grupare clustering Discutie
Retele neurale fuzzy Logica fuzzy
De ce logica fuzzy Logica fuzzy si cea conventionala
Retele neurale fuzzy Neuroni fuzzy Structura unei RNF Algoritmul de instruire a unei RNF Analiza RNF Rezultatele simularii Concluzii
Algoritmi genetici Introducere Exemplu Fundamente matematice Exercitii
CUPRINS
Puterea si complexitatea de calcul Masina Turing Puterea de calcul a retelelor neurale Reprezentarea functiilor booleene Complexitatea instruirii
Consideratii epistemologice Scopul unei retele neurale Functiile neurale biologice sunt localizate sau distribuite Este neliniaritatea esentiala n
calculul neural Deosebiri esentiale Cum pot programate calculatoarele
neurale Poate creierul sa se autoperceapa
A Complemente matematice A Vectori si matrici A Forme patratice A Elemente de geometrie analitica A Operatia XOR A Iacobianul si hessianul A Probleme de optimizare A Metoda lui Euler metoda tangentei A Stabilitatea sistemelor dinamice neliniare A Variabile aleatoare
B Subiectetip pentru examen
C Linkuri
Bibliograe
CUPRINS
Capitolul
Preliminarii n calculul neural
Calculul neural se efectueaza pe o retea densa de noduri si conexiuni Acestenoduri lucreaza n mod colectiv si simultan si se numesc neuroni articiali sauneuroni Neuronii pot opera de exemplu ca sumatoare sau comparatoare Deobicei neuronii lucreaza n paralel si sunt congurati n arhitecturi regulateAstfel ei pot organizati pe nivele ierarhice si se permit conexiuni feedback ncadrul unui nivel sau conexiuni feedback catre nivelele adiacente Puterea ecareiconexiuni este exprimata printro valoare numerica numita pondere care poate modicata
Domeniul retelelor neurale este cunoscut si sub denumiri similare neurocalcul conexionism procesare paralela distribuita sisteme adaptive retele cuautoorganizare etc Aceasta varietate indica de fapt tot atatea perspective dincare se studiaza retelele neurale
Retelele neurale functioneaza ca retele paralele distribuite Caracteristica lorde baza este arhitectura Unele retele sunt caracterizate de comportarea lor ntimp de dinamica lor Retelele neurale difera ntre ele prin modul de nvatareexista o varietate de reguli de nvatare care stabilesc cand si cum se modicaponderile conexiunilor In ne retelele difera prin viteza si ecienta de nvatare
Spre deosebire de calculatoarele conventionale care sunt programate sa efectueze anumite lucrari majoritatea retelelor neurale trebuie sa e nvatate sauinstruite Ele nvata noi asocieri noi patternuri noi dependente functionaleDupa cum vom vedea mai tarziu faptul ca retelele nvata reguli si algoritminlocuieste programarea necesara n calculul conventional Utilizatorii retelelorneurale nu specica un algoritm care sa e executat de catre un anumit neuron cum sar ntampla pe o masina traditionala In loc de aceasta ei aleg oconguratie care li se pare cea mai buna arhitectura specica toate caracteristicile neuronilor si ponderile initiale apoi aleg modul de instruire pentru retea Inurmatoarea faza sunt aplicate diferite date de intrare din care reteaua si extragecunostinte adica nvata Ca rezultat reteaua acumuleaza informatie care poate apoi utilizata
Calculul cu retele neurale se situeazantre inginerie si inteligenta articiala Sefolosesc tehnicile matematice ingineresti clasice dar si metode euristice speciceinteligentei articiale
CAPITOLUL PRELIMINARII IN CALCULUL NEURAL
In acest sens vom raspunde la urmatoarele ntrebari
Cum poate instruita ecient o retea si cum se nvata ea
Ce modele de neuroni trebuie folosite
Care sunt cele mai adecvate arhitecturi pentru anumite clase de probleme
Care sunt cele mai bune metode pentru a extrage cunostintele acumulatentro retea
Care sunt aplicatiile tipice pentru calculul neural si cat de eciente suntaceste aplicatii
Retelele neurale au atras atentia specialistilor din numeroase discipline Neurobiologii sunt interesati n modelarea retelelor neurale biologice Fizicienii suntatrasi de analogiile dintre retelele neurale si sistemele dinamice neliniare pe carele studiaza Matematicienii sunt fascinati de potentialul modelarii matematiceaplicat n sistemele foarte mari si complexe Inginerii n electronica si calculatoare aplica retelele neurale n procesarea semnalelor si construiesc pe bazaretelelor neurale circuite integrate inteligente Psihologii cauta n retelele neurale structurile prototip care modeleaza procesarea informatiei de catre om Inne informaticienii sunt interesati n posibilitatile de calcul ale retelelor masivparalele n domeniile inteligentei articiale teoriei calculabilitatii modelarii sisimularii etc
Calculul neural exemple
Ne propunem sa dam cateva exemple de utilizare a retelelor neurale n rezolvareaunor probleme reale
Clasicatori si sisteme automate de orientare n spatiu
Vom deni retelele neurale care raspund instantaneu datelor de intrare Pentrunceput vom analiza performantele unui simplu clasicator apoi vom extindeaceasta problema
Fie P P P opt puncte n spatiul tridimensional Multimea consta dintoate varfurile unui cub tridimensional
fP P P P P P P P g
Consideram doua clase de puncte
puncte cu doua sau mai multe coordonate pozitive P P P P
restul de puncte
CALCULUL NEURAL EXEMPLE
nod sumator
sumaponderata
elementcomparator
1
1
ponderi
Σ clasa
date deintrare
+ sgn(.)
1
x1
x2
x3
Figura Clasi cator realizat cu o singura unitate
(-1,0,1)
(0,-1,1)x +x +x =0
1
P
3
P
P P
P75P
02
P4 P6
1 2 3
Figura Partitionarea spatiului cartezian
Pentru orice punct Pix x x i apartenenta la una dintre claselede mai sus poate stabilita prin urmatorul calcul
sgnx x x
pentru clasa
pentru clasa
Aceasta expresie descrie functia de decizie a unui clasicator Nu este necesarao instruire a acestui clasicator Reteaua neurala rezultata este extrem de simplag
Am realizat clasicarea printro singura unitate sau nod de calcul Aceastaimplementeaza nsumarea cu ponderile respective n acest caz si este urmatade o comparare cu prag
De fapt se realizeaza o partitionare a spatiului cartezian tridimensional prinplanul x x x g
CAPITOLUL PRELIMINARII IN CALCULUL NEURAL
Punctele de deasupra planului fac parte din clasa iar punctele de dedesuptdin clasa
Problema pe care neo punem este daca o functie continua nu poate maiavantajoasa g
-1
Σ
1f( )Σ
Figura Functie continua de decizie
In acest caz datele de iesire pot n intervalul dintre si Folosireaneuronilor cu caracteristici continue ofera posibilitati mult mai mari Se obtineo granularitate o ranare mai mare a datelor de iesire
Neurologii folosesc electroencefalograma EEG care preia pe mai multe canale impulsurile electrice ale creierului Evaluarea EEG este dicila si de aceea seface de obicei de catre neurologi calicati Pentru o monitorizare pe calculatorsa ne concentram pe un caz concret detectarea unei iminente crize de epilepsieEste nevoie de o prelucrare online a semnalelor EEG
In Eberhart si Dobbins au realizat detectarea semnalelor EEG pentrucrizele de epilepsie folosind un clasicator neural Datele sunt monitorizate prinpatru canale de interes Semnalele EEG sunt esantionate de sau oripe secunda ntro fereastra de ms Aceasta are ca rezultat obtinerea a sau de esantioane de date pentru ecare canal Aceste esantioane trebuieevaluate si sunt introduse ntro retea neurala de de unitati interconectate cucaracteristici continue Un total de de unitati aranjate pe trei nivele ierarhice proceseaza datele Doua unitati de iesire sunt utilizate pentru identicareavarfurilor de semnal
Reteaua a fost elaborata de o echipa de ingineri si neurologi Dupa ce a fostinstruita reteaua a dat rezultate excelente dovedindusi utilitatea n spitale
Sa consideram un alt exemplu proiectul ALVINN Autonomous Land Vehicle In a Neural Network raportat de Pomerleau Reteaua ALVINNpreia imagini ale drumului printro camera si printrun laser care detecteaza profunzimea obiectelor La iesire este generata directia pe care trebuie sa circuleautovehiculul pentru a urma drumul Arhitectura retelei este cea din gura
CALCULUL NEURAL EXEMPLE
45 unitati de directie
unitate de feedbackpt. intensitatea drumului
29 unitati
imagine30x32
profunzime8x32
(intrare) (intrare)
...
...
...
Figura Arhitectura retelei ALVINN
Informatia video este o retina de x care sesizeaza n albastru ofera celmai bun contrast Unitatea de feedback regleaza contrastul Cele intrariconduc spre unitati cu functie continua Unitatea din mijlocul celor deunitati de iesire arata cat de puternica este tendinta de a merge nainte Unitatiledin stangadreapta reprezinta tendintele de a o lua la stangadreapta Unitatiledin extremitatile stanga si dreapta corespund virajelor stangadreapta cat maiaccentuate
ALVINN a fost instruit prin imagini sintetizate pe calculator Performanteleobtinute au fost comparabile cu caracteristicile celor mai bune sisteme traditionale de orientare prin vedere articiala
Capacitatea sistemului ALVINN de a pastra directia drumului nu a fost implementata prin programare algoritm ci se bazeaza pe cunostintele asimilateprin instruire Dupa ora de instruire sistemul era capabil sa se orienteze singur pe drum Altfel ar fost necesare luni de zile pentru dezvoltarea algoritmilorcare sa recunoasca patternurile din imaginile preluate
Sau facut observatii interesante Astfel reteaua sa comportat mai bine dupace a fost instruita sa refaca erori de conducere Prin aceasta reteaua sia dezvoltatmasurile de corectare a conducerii
Memorie simpla si restaurarea patternurilor
Vom discuta acum despre retele neurale care raspund n timp datelor de intrareun pattern n acest caz Deoarece ele fac acest lucru ntrun mod foarte caracteristic prin reconstructia treptata a unui pattern memorat vom numi aceste
CAPITOLUL PRELIMINARII IN CALCULUL NEURAL
retele memoriiFie reteaua simpla din gura
sgn(.)Σ1
unitatea 1o1+
sgn(.)Σ o+ 2
unitatea 2
2
sgn(.)Σ o+ 3
unitatea 3
3
-11
1
-1
-1-1
Figura Retea memorie
Reteaua consta din trei unitati care calculeaza valorile functiei signum treinoduri densumare si sase ponderi care pot Semnalele care trec prin ponderisunt nmultite cu valoarea ponderilor Presupunem ca reteaua este initializatala iesire cu o o o cazul tab Cand se permite retelei sacalculeze intrarile la unitatile si sunt n timp ce la unitatea este Carezultat o si o nu se modica deoarece sgn nu este denit n timp ce odevine Urmeaza cazul care este o iesire nala deoarece nu se mai poatemodica Cazurile si sunt alte exemple de tranzitii posibile Observam ca sicazurile si duc apoi la cazul operand cate o singura modicare
Iata cum se reprezinta geometric aceste actualizari efectuate de reteaua de tipmemorie descrisa Se vede ca P este iesirea stabila a memoriei Cando singura componenta a vectorului de initializare binar o o o difera de Preteaua corecteaza aceasta componenta Iesirea este apoi mentinuta constantaDaca P reprezinta descrierea corecta a unui pattern iar P P P variantedistorsionate ale lui P memoria are capacitatea de a restaura variantele distorsionate asimilandule cu P g
Acest concept de memorie poate extins cu usurinta la lumea reala a aplicatiilor
Probleme de optimizare
Retelele neurale pot aplicate cu succes pentru rezolvarea unor probleme deoptimizare
CALCULUL NEURAL EXEMPLE
Tabelul Exemple de tranzitii ale retelei tip memorie X nseamna sgn iar iesirilencadrate sunt cele care se modi ca
Cazul Nr unitatii Iesirea actuala sgn Iesirea urmatoare X
X
X
X X
X
Sa presupunem ca valoarea analogica x x trebuie digitizata ntrunnumar binar vv v v f g astfel incat
x v v
Exista evident patru posibilitati O retea similara cu memoriadin exemplul precedent poate rezolva aceasta conversie g
Reteaua consta din doua unitati cu caracteristici continue ecare cu raspunsn intervalul dintre si La cele doua unitati retelei i se mai adauga un numarde elemente de interconectare pe care nu le specicam
Conversia corespunde minimizarii erorii de conversie AD unde eroarea estex v v
n prezenta restrictiei v v f g Aceasta problema de minimizare este rezolvabila de catre o anumita clasa de retele neurale Caracteristicacestei clase este ca se minimizeaza asa numita functie de energie pe parcursulcalculului
Proprietatea de minimizare a energiei este de importanta foarte mare si seformuleaza astfel reteaua si cauta singura energia ei minima si se stabilizeazaacolo O serie de probleme de optimizare se transpun direct n minimizareafunctiei de energie a unei retele neurale Minimizarea energiei de catre reteapoate considerata analoga minimizarii erorii de conversie AD
Clasa de retele neurale exemplicata prin conversia AD este utilizabila si pentru probleme de optimizare combinatorican care complexitatea este exponentialasau mai rau n ordinul lui n In aceste probleme este important sa se reducaordinul timpului de cautare Retelele neurale ofera si n acest sens o alternativa
CAPITOLUL PRELIMINARII IN CALCULUL NEURAL
cazul 3
cazul 1
cazul 4
cazul 2
1
5
PP
P
P
P3
7P
0
2
P64P
Figura Actualizarile efectuate de reteaua de tip memorie
Detectarea gruparilor si a trasaturilor
O clasa importanta de retele neurale pot utilizate pentru detectarea gruparilorde date Aceste retele sunt calate pe anumite aspecte de similaritate n dateleevaluate De exemplu se poate sa m interesati n a grupa anumite rezultatede masurare n scopul eliminarii erorilor sistematice care pot aparea n timpulmasurarii Deoarece zgomotul este aleator el nu formeaza grupari ci doar perturba formarea gruparilor reale de date
Detectarea gruparilor si trasaturilor prezinta importante proprietati de autoorganizare care sunt legate de inteligenta articiala si teoria informatiei Retelele din aceasta clasa au n general arhitecturi simple dar subtilitatile apar ntimpul procesului de autoorganizare
Detectarea trasaturilor se raporteaza la reducerea dimensionalitatii datelorDe exemplu semnalul vorbirii consta din canale de frecventa audio Fonemelesunt deci descrise ntrun spatiu dimensional Problema este ca nu putemreprezenta astfel fonemele deoarece capacitatea noastra de vizualizare se reducela trei dimensiuni Utilizand o retea neurala este posibil sa reprezentam spectruldimensional al vorbirii ntrun tablou n plan Secventa fonemelor unui cuvantformeaza o traiectorie specica n plan Aceste harti fonotopice pot foarte utilen construirea masinilor de scris fonetice n nvatarea vorbirii si pentru terapie
ISTORICUL DEZVOLTARII RETELELOR NEURALE
v
unitatea 1
1
retea de
interconectare
unitatea 0
v0
x
analogicaintrare
digitalaiesire
Figura Diagrama bloc a unui convertor AD pe doi biti
Istoricul dezvoltarii retelelor neurale
McCulloch si Pitts au propus primul model pentru neuron Acest modelinclude toate elementele pentru a efectua operatii logice dar la acel nivel tehnologic era imposibil de implementat
Donald Hebb a propus un model de nvatare pentru a actualiza conexiunile neuronului cunoscut acum ca regula hebbiana de nvatare El a formulatideea ca informatia poate memorata n conexiuni
Primele neurocalculatoare au fost construite n anii Minsky Elesi adaptau automat conexiunile In Frank Rosenblatt a inventat un element neural numit perceptron Era conceput ca o masina instruibila capabila sanvete sa clasice anumite patternuri prin modicarea conexiunilor la elementelecomparatoare
La nceputul anilor a fost propus ADALINE ADAptive LINEar combiner un dispozitiv bazat pe regula de nvatare WindrowHo Bernard Windrow Marcian Ho Regula minimiza eroarea patratica nsumata pe parcursulinstruirii Aplicatiile erau de recunoasterea formelor control adaptiv si previziunea vremii
In ciuda entuziasmului anilor masinile existente nu permiteau abordareaunor probleme complexe Pe de alta parte nici schemele de nvatare nu erausucient de dezvoltate Sa intrat astfel ntro perioada de stagnare a carei cauzeerau de fapt cunoscute
Episodul nal al acestei ere a fost lucrarea lui Minsky si Papert care ademonstrat limitele retelelor bazate pe perceptroni In acest timp majoritateacercetatorilor se ndreptau spre alte domenii Domeniul retelelor neurale carefacea la acea vreme parte din cibernetica parea nchis In schimb se dezvolta
Minsky M S Papert Perceptrons Cambridge MA MIT Press
CAPITOLUL PRELIMINARII IN CALCULUL NEURAL
promitator domeniul inteligentei articiale preluand si sarcini pe care reteleleneurale nu puteau sa le rezolve la acel stadiu
In perioada cativa cercetatori au reusit sa dezvolte totusi cercetarile Kunihiko Fukushima a denit o clasa de retele neurale numite neocognitroni Neocognitronul modeleaza recunoasterea vizuala a formelor prin emulareaimaginilor de pe retina si procesarea lor folosind neuroni ierarhizati pe douanivele
Cercetarile n domeniul memoriilor asociative au evoluat n Finlanda TeuvoKohonen si SUA James Anderson Stephen Grossberg si Gail Carpenter au introdus cateva arhitecturi de retele neurale si au dezvoltat teoria retelelor adaptiveprin rezonanta ART
Era renasterii a nceput odata cu introducerea arhitecturii recurente pentrumemoriile asociative John Hopeld O alta revitalizare a domeniuluiprovine din lucrarile lui James McClelland si David Rumelhart
Incepand cu anii sau initiat multe programe de cercetare si interesul a devenit extrem de mare Au aparut aplicatii complexe Au fost fabricatechipuri VLSI de retele neurale Cu toate ca domeniul calculului neural are oistorie interesanta el este nca la nceputul dezvoltarii sale
Viitorul
Datorita denumirii domeniul retelelor neurale este supus unei supraestimari populiste Este tentant pentru om sasi imagineze o masina care sa e asemeni luiTerminologia antropomorfa trebuie privita cu multa retinere
Putem aproape siguri ca retelele neurale nu vor nlocui calculatoarele clasice Aceasta deoarece calculatoarele clasice sunt foarte ieftine si eciente pentruefectuarea calculelor numerice procesari de text CAD procesari de date
Sunt nsa domenii ntregi n care retelele neurale devin mai avantajoase Celemai interesante aplicatii sunt cele care presupun inferenta de tip uman si perceperea vorbirii si a imaginilor Aceste aplicatii nu pot decat partial rezolvatepe calculatoare clasice
Este de asteptat ca retelele neurale sa e aplicate n procesarea semnalelor sisisteme expert Retelele neurale nu vor nlocui aplicatiile de inteligenta articialade pe calculatoarele clasice ci vor oferi o tehnologie complementara
Neurocalculatoarele actuale sunt de multe ori calculatoare conventionale careexecuta software de simulare a retelelor neurale Alte neurocalculatoare folosescdeja componente placi chipuri dedicate Cele mai interesante sunt desigurchipurile VLSI care implementeaza retele neurale Fabricarea acestor chipurieste deja actuala In ATT a fabricat primul circuit integrat de memorieneurala
Capitolul
Concepte fundamentale
Exista doua posibilitati de a deni retelele neurale La o extrema retelele neurale sunt o clasa de algoritmi matematici deoarece o retea poate privita nesenta ca o notatie graca pentru o clasa larga de algoritmi La cealalta extremaretelele neurale emuleaza retelele neurale biologice din organismele vii In lumina cunostintelor limitate pe care le avem n prezent asupra retelelor neuralebiologice cea mai plauzibila denitie se apropie mai mult de cea algoritmica
Retelele neurale sunt n mod cert inspirate din biologie dar exista maridiferente ntre retelele neurale articiale si cele naturale Nu exista nca modelecare sa concureze cu succes performantele creierului uman De fapt si cunostintelenoastre despre functionarea creierului sunt extrem de limitate Creierul ramanemai curand o metafora pentru retelele neurale dezvoltate pana acum
Cu toate ca analogia dintre retelele neurale articiale si cele naturale este vagavom ncepe totusi prin a mentiona modelul neuronului biologic Vom deni apoineuronul articial si retelele neurale articiale elementare In ne vom discutaformele de baza ale procesarii n retele neurale articiale cu un accent deosebitpe procesele de nvatare
Neuronii biologici si modelele lor articiale
Creierul uman consta din aproximativ neuroni Ei comunica printro reteade conexiuni formate din axoni si sinapse avand o densitate de aproximativ
sinapseneuron Ipoteza cea mai recenta privind modelarea sistemului nervosnatural este ca neuronii comunica ntre ei prin impulsuri electrice Totodataneuronii opereaza ntrun mediu chimic Creierul poate considerat o reteadensa de conexiuni electrice conditionate n mare masura de procese biochimiceReteaua neurala are o structura elaborata cu interconexiuni foarte complexe Intrarea n retea este asigurata de catre receptorii senzoriali Receptorii furnizeazastimuli atat din partea corpului cat si din partea organelor senzoriale care preiaustimulii lumii exterioare Stimulii au forma impulsurilor electrice care conducinformatia n reteaua de neuroni Ca rezultat al procesarii informatiei n sistemulnervos central efectorii sunt controlati si dau raspunsuri sub forma diferitelor
CAPITOLUL CONCEPTE FUNDAMENTALE
actiuni Avem deci un sistem constand din receptori reteaua neurala si efectoricare controleaza organismul si actiunile sale Fluxul informational este descris ngura
Receptori
senzorialeOrgane
motorOrgane
Efectori
Corp
Sistemulnervoscentral
internfeedback
externfeedback
Figura Fluxul informational n sistemul nervos
Neuronul biologic
Neuronul este celula nervoasa si are trei componente
soma corpul celulei
axonul bra lunga care serveste ca linie de comunicatie
dendriteleDendritele formeaza un arbore de bre ne n jurul corpului neuronului Den
dritele receptioneaza informatia de la alti neuroni prin axonii acestora Axonuleste o conexiune cilindrica lunga caren partea nala devine arborescenta Fiecareramura are o terminatie care aproape atinge dendritele neuronilor vecini Sinapsaeste interfata prin care neuronul si introduce semnalul catre dendrita altui neuron Semnalele care ajung la o sinapsa plecand de la dendritele neuronului respectiv sunt impulsuri electrice g
Transmisia interneuronala este uneori electrica dar de obicei este efectuataprin eliberarea de transmitatori chimici la sinapse Astfel terminatia axonuluigenereaza substanta chimica care afecteaza neuronul receptor Neuronul receptore genereaza un impuls catre axonul sau e nu produce nici un raspuns
Neuronul este capabil sa raspunda totalului intrarilor sale agregate ntrunscurt interval de timp numit perioada de latenta Raspunsul neuronului estegenerat daca totalul potentialului membranei sale atinge un anumit nivel Membrana poate considerata ca o nvelitoare care agrega magnitudinea semnalelor
NEURONII BIOLOGICI SI MODELELE LOR ARTIFICIALE
soma dendrite
axoni venind de la alti neuroni
impulsuldin parteacorpului
neuronuluisinapsa neuron
dendrita altui
Figura Modelul neuronului biologic
care intra pe parcursul unei anumite durate de timp Neuronul genereaza unimpulsraspuns si l transmite axonului sau numai daca conditiile necesare suntndeplinite
Impulsurile care intra n neuron pot excitatoare daca cauzeaza generarea de catre neuron a unui impuls sau inhibitoare daca mpiedica generareaunui astfel de impuls O conditie mai precisa pentru ca neuronul sa genereze unimpuls este ca excitatia sa depaseasca inhibitia cu o valoare de aproximativ mV numita pragul neuronului Deoarece o conexiune sinaptica produce reactiade excitatie sau de inhibitie a neuronului receptor este practic sa atasam ponderile acestor conexiuni Neuronul genereaza un impuls atunci candsuma ponderilor impulsurilor receptate depaseste valoarea pragului peparcursul perioadei de nsumare latenta
Procesarea n retelele neurale biologice este complexa si mai putin structuratadecat calculul digital Spre deosebire de cazul calculului digital impulsurile neurale nu sunt sincronizate n timp O caracteristica importanta a neuronului biologic este ca semnalele generate nu difera n magnitudine Cu alte cuvinteinformatia transmisa ntre celulele nervoase este sub forma semnalelor binare
Dupa transmiterea unui impuls axonul ramane pentru un timp ntro staree de neexcitabilitate completa acest interval numinduse perioada refractaraPutem diviza timpul n intervale consecutive ecare de durata perioadei refractare Aceasta ne permite o descriere discreta a comportarii neuronului Deexemplu putem preciza care neuroni vor genera impulsuri la momentul k bazandune pe conditiile de excitatie de la momentul k
Neuronul va excitat la un anumit moment dat daca numarulsinapselor excitate excitatoare depaseste numarul sinapselor excitateinhibitoare la momentul precedent cu cel putin numarul T unde T estevaloarea pragului neuronului
Intervalele de timp pot luate de ordinul milisecundelor Perioada refractaranu este nsa uniforma depinde de tipul de neuroni si de modul n care suntei conectati Avem deci o retea densa de neuroni interconectati care genereazasemnale asincrone Semnalele sunt transmise apoi catre neuronii vecini dar sunt
CAPITOLUL CONCEPTE FUNDAMENTALE
si retransmise feedback neuronilor generatoriAceasta discutie este o simplicare foarte mare din punct de vedere neurobi
ologic Retelele neurale articiale sunt mult mai simple decat corespondentul lornatural Sa examinam un model de neuron articial cu semnicatie istorica
Modelul neural McCullochPitts
Este prima denitie formala a unui neuron articial
1x
i
T o2x
nxw
w
w1
2
ni=1,2,...,nw =-1 sau +1
Figura Neuronul McCullochPitts
Intrarile xki i n sunt sau n functie de absenta sau prezentaimpulsului la momentul k g Semnalul de iesire al neuronului este oRegula dupa care neuronul genereaza un semnal este
ok
daca
Pniwix
ki T
dacaPn
iwixki T
wi pentru o sinapsa excitatoare si wi pentru o sinapsa inhibitoareCu toate ca este foarte simplu acest model are un remarcabil potential
computational Poate realiza operatiile logice NOT OR si AND Dupa cumstim orice functie logica de mai multe variabile poate implementata utilizandsau NOT si OR sau NOT si AND De exemplu functiile NOR si NAND pot implementate prin retele de neuroni conform modelelor din gura
-1
-1
-1
1x
x2
3x
T=1
1
1 o
T=0
T=0
T=0
1
NAND
1x
x2
3x
T=1
1
1
1
T=0 o-1
NOR
Figura Functiile NOR si NAND
NEURONII BIOLOGICI SI MODELELE LOR ARTIFICIALE
Neuronul McCullochPitts are o ntarziere cu durata de o unitate Aceastaproprietate permite construirea circuitelor digitale secventiale Notam pentrunceput ca un singur neuron cu o singura intrare x cu ponderea si valoareade prag unitare calculeaza ok xk Un astfel de neuron se comporta ca unregistru simplu capabil sa retina intrarea pentru un interval de timp de o unitateO celula de memorie se construieste ca n gura
T=1 o
-1
1
1
intrareexcitatoare
intrareinhibitoare
=x kk+1
Figura Celula de memorie
Dupa ce sa initializat celula astfel ncat sa genereze sau sa nu genereze unsemnal aceasta valoare de iesire este sustinuta indenit n absenta unor intrari
Hardwareul unui calculator digital de orice complexitate poate obtinut prinutilizarea unei retele neurale constituite din blocuri elementare pentru operatiilogice si pentru memorie Ne intereseaza nsa altceva care este puterea de calcula retelelor neurale tinand cont de capacitatea lor de a nvata Vom reveni asupraacestor aspecte mai tarziu
Modelarea unui neuron general
Modelul neural McCullochPitts este elegant si are o expresie matematica precisaEl opereaza nsa cateva simplicari drastice Astfel permite doar stari binare si presupune ca timpul este discret si presupune sincronismul operatiilortuturor neuronilor De asemenea ponderile si pragurile sunt presupuse xe Incontinuare vom prezenta generalizari ale modelului McCullochPitts care vor de altfel modelele noastre operationale
Fiecare model neural consta dintrun element de procesare cu conexiuni sinaptice de intrare si cu o singura iesire Intrarile si iesirile sunt unidirectionaleDenim modelul unui neuron general ca in gura
o fwtx
sau
o fnXi
wixi
unde w este vectorul de ponderi denit astfel
w !ww wn"t
CAPITOLUL CONCEPTE FUNDAMENTALE
1xconexiunisinaptice
nod(unitate)de procesare
o2x
nxw
w
w1
2
n
f(w x)t
ponderimultiplicative
Figura Modelul unui neuron general
iar x este vectorul de intrari
x !xx xn"t
Toti vectorii din acest curs sunt vectori coloana iar indicele t noteaza otranspunere Functia fwtx este functia de activare Domeniul ei de denitieeste multimea valorilor de activare net a unui model neural
net wtx
De aceea folosim si notatia fnet Variabila net este analogul potentialuluimembranei neuronului biologic
Convenim ca exista n conexiuni sinaptice si ca xn wn T Uneori vom extrage explicit pragul T ca parametru separat De acum ncolo vomntelege prin neuroni modele de neuroni iar prin retele neurale retele neuralearticiale compuse din modele de neuroni
Functii de activare tipice sunt
bipolara continua fnet expnet
bipolara binara fnet sgnnet
net
net Se observa ca pentru functia bipolara continua devine bipolar binaraFunctiile unipolare sunt
unipolara continua fnet expnet
unipolara binara fnet
net net
Pentru functiile continue devin functii discrete Cele doua functiicontinue se numesc si caracteristici sigmoidale
Majoritatea neuronilor utilizeaza functii de activare bipolare Desigur functiile de activare pot denite si altfel
NEURONII BIOLOGICI SI MODELELE LOR ARTIFICIALE
f(net)
net-1 1
1 λ=5 λ=1
00
f(net)
net-1
-1
1
1 λ=5 λ=1 λ=0,5
Figura Functii de activare continue bipolara si unipolara
Daca functia de activare este bipolara binara putem folosi reprezentarea dingura a unui perceptron binar iar pentru functia bipolara continua putemfolosi reprezentarea din gura a unui perceptron continuu
1x
-1
net12x
nxw
w
w1
2
n
+ net
sumatorcomparator
cu prag
o(w,x)
neuron
Figura Perceptron binar
Perceptronul discret a fost introdus de Rosenblatt si a fost primamasina instruibila
Iesirile neuronilor pot discrete binare sau continue Pentru un strat de mneuroni valorile lor de iesire o o om pot date de
o !o o om"
Domeniul de denitie al vectorilor o este un spatiu mdimensional denitpentru cazul continuu astfel
m fo m oi g pentru cazul bipolar
sau m fo m oi g pentru cazul unipolar
Domeniul lui o este interiorul unui cub mdimensional
CAPITOLUL CONCEPTE FUNDAMENTALE
1xf(net)= −λ1+e net
2 -1
2x
nx
f(net)
neuron
o(w,x)
Figura Perceptron continuu
Pentru cazul discret avem
f gm fo m oi f gg pentru cazul bipolar
sauf gm fo m oi f gg pentru cazul unipolar
Domeniul lui o este format din varfurile unui cub mdimensional Un vectorpoate avea deci m valori
Modelarea retelelor neurale
Cunoscand acum denitia modelului unui neuron general putem deni o reteaneurala ca o interconectare de neuroni astfel ncat iesirea ecarui neuron esteconectata via ponderi cu toti neuronii inclusiv cu neuronul respectiv
Retea feedforward
Sa consideram o arhitectura feedforward dem neuroni care receptioneaza n intrarig Pentru acest model denim
o !oo om"t
six !xx xn"
t
Ponderea wij caracterizeaza al ilea neuron cu a ja intrare Valoarea deactivare pentru al ilea neuron este atunci
neti nXj
wijxj i m
Fie wi !wiwi win"t atunci
neti wtix oi fwt
ix i m
MODELAREA RETELELOR NEURALE
......
1
2
m
2
m
11
w
1
x1
x2
nx
w
w2n
m1
wmn
o
o
o
Figura Retea neurala feedforward
Denim operatorul matricial neliniar # pentru care
o #Wx
unde W este matricea ponderilor matricea conexiunilor
W
w w wn
w w wn
wm wm wmn
iar
#!"
f f f
Functiile f sunt functii neliniare de activareVectorii x o sunt numiti si patternuri de intrare respectiv de iesire Trans
formarea unui pattern de intrare ntrun pattern de iesire are loc fara ntarziereinstantaneu De aceea spunem ca o astfel de retea este de tip feedforward Avemg
ot #!Wxt"
Γ[Wx]x(t) o(t)
Figura Diagrama bloc a unei retele neurale feedforward
CAPITOLUL CONCEPTE FUNDAMENTALE
Reteaua feedforward este caracterizata prin lipsa de feedback O retea feedforward poate conectata n cascada pentru a forma o retea pe mai multe straturiIntro astfel de retea iesirea unui strat este intrarea urmatorului strat
Retea feedback
O retea feedback se poate obtine dintro retea feedforward prin conectarea iesirilorneuronilor cu propriile intrari g
∆
∆∆
1
2
n o
o
o
wnnx (0)
x (0)
x (0)
2
1
n
w11
w21 w
1n
o (t)
o (t)1
o (t)2
n
1(t+ )∆
2(t+ )∆
n(t+ )∆
Figura Retea neurala feedback
Perioada de timp $ este analoga perioadei refractare a modelului neuronuluibiologic Avem g
ot $ #!Wot"
[Wo(t)]Γinstantanee
retea
intarziere∆
∆o(t+ )x(0)
Figura Diagrama bloc a retelei neurale feedback
Intrarea xt este folosita doar pentru a initializa aceasta retea astfel ncato x Intrarea este apoi ndepartata si pentru t sistemul devineautonom
MODELAREA RETELELOR NEURALE
Considerand timpul ca o variabila discreta si decidem sa observam functionarea retelei la momentele $ $ $ sistemul este cu timp discret Conventional putem considera ca pasul timpului este unitar Atunci notam
ok #Wok pentru k
Aceasta retea este recurenta deoarece raspunsul ei la momentul k depinde dentregul istoric al retelei ncepand cu momentul k
o #!Wx"
o #!W#!Wx""
ok #!W#! #!Wx" ""
Retelele recurente opereaza de obicei cu o reprezentare discreta a datelor si folosesc neuroni cu o functie de activare discreta Un sistem avand intrari cu timpdiscret si o reprezentare discreta a datelor se numeste un automat Deci reteleleneurale recurente din aceasta categorie pot considerate niste automate
Numim o o stari ale retelei la momentele si ecuatiile de mai susoglindesc secventa tranzitiilor starilor O stare de echilibru se numeste si atractorUn atractor consta dintro singura stare sau dintrun numar limitat de stari In
capitolul am vazut ca o h
iteste un atractor Secventa de stari ale
unei retele recurente este n general nedeterministaO retea cu timp continuu se obtine nlocuind elementele de ntarziere discrete
cu elemente continue Fie de exemplu reteaua feedback cu timp continuu dingura
+
-
v
+
-2
RC1 v
Figura Retea feedback cu timp continuu
Ea este o retea electrica constand dintro rezistenta si un condensator unde veste tensiunea la intrare iar v este tensiunea la iesire De fapt retelele electricesunt utilizate frecvent pentru a modela calculele efectuate de o retea neuralaRetelele electrice poseda %exibilitatea de a modela toate fenomenele liniare sineliniare ntalnite n acest curs Din aceasta cauza retelele electrice reprezintamodele zice functionale ale retelelor neurale Din legea lui Kircho obtinem
v vR
Cdvdt
CAPITOLUL CONCEPTE FUNDAMENTALE
dvdt
vRC
vRC
De aici obtinem
$v $t
C v v
R
care reprezinta modicarea tensiunii v n intervalul $t
v2
v1
tensiunea
t0
(b)(a)
tensiunea
tt00
v1
v2
Figura Raspunsul n timp a la un impuls si b la o tensiune de intrare de tip undaarmonica al retelei cu timp continuu din gura anterioara
De obicei retelele cu timp continuu folosesc neuroni cu functii de activarecontinue In gura avem o conexiune sinaptica bazata pe circuitul electricdescris n gura
oi
Rij
Ci
neti
i
oj
netj
j
Figura Conexiune sinaptica
INVATARE SI ADAPTARE
Rezistenta Rij serveste ca pondere de la iesirea neuronului j catre intrareaneuronului i Ecuatia poate discretizata astfel
netki netki$t
RijCiokj netki
De aici
netki
netki $t
RijCiokj netki
O retea de mai multi neuroni de acest tip are din punct de vedere dinamic ocomportare complexa
Invatare si adaptare
In general nvatarea este schimbarea comportamentului datorita experientei Laom si animale procesul de nvatare nu poate observat direct ci presupunem caa avut loc observand modicarile de comportament La retelele neurale procesulde nvatare este mai direct putem observa ecare pas al nvatarii ca o relatiedistincta de tip cauzaefect
Un cadru general pentru procesul de nvatare la retele neurale este dat deteoria aproximarii
Invatarea ca aproximare
Teoria aproximarii se refera la aproximarea unei functii continue de mai multevariabile hx printro alta functie Hwx unde x !x x xn"
t este vectorulde intrare si w !w w wm"
t este vectorul parametrilor ponderilor Scopulnvatarii este sa se gaseasca w pentru care se obtine cea mai buna aproximare alui hx avand la dispozitie o multime de exemple fxg folosite pentru nvatareO problema importanta este alegerea functiei Hwx aceasta numinduse problema reprezentarii Dupa alegerea lui Hwx se aplica algoritmul de nvatareal retelei pentru gasirea parametrilor optimi w
!Hwx hx" !Hwx hx"
unde este o metrica o distantaRetelele feedback sunt sisteme dinamice De aceea nvatarea n acest caz se
refera la nvatarea starilor de echilibru
Invatarea supervizata si nvatarea nesupervizata
Majoritatea retelelor neurale pe care le discutam nvata incremental pas cu pasDaca ponderile retelei sunt ajustate printrun singur pas atunci informatia feedback produsa de retea nu mai este necesara si vorbim de o nvatare de tip batchadica la gramada
CAPITOLUL CONCEPTE FUNDAMENTALE
reteaadaptiva
Wo
generatorde distanta
x
ρ[d,o]invatared
semnal de
Figura Invatare supervizata
Ne referim n continuare la nvatarea incrementala n care conceptul de feedback are un rol central
In nvatarea supervizata g presupunem ca la ecare moment cand seaplica intrarea raspunsul d al sistemului este dat de catre instructor un factoruman
oxretea
adaptiva
W
Figura Invatare nesupervizata
Invatarea nesupervizata g se foloseste de multe ori de exemplu laclustering g atunci cand informatia a priori este minima
Reguli de nvatare
Sa studiem procesul de instruire a vectorului wi de ponderi avand componentelewij unde wij este ponderea conexiunii celei dea ja intrari cu cel deal ileaneuron g
Fie urmatoarea regula generala de nvatare Vectorul wi !wi wi win"t
creste proportional cu produsul intrarii x si a semnalului de nvatare r Semnalulr este in general o functie de wi x si daca este cazul di
r rwix di
Incrementul lui wi produs la momentul t este
$wit cr!witxt dit"xt
unde c este constanta de nvatare pozitiva care determina ratanvatarii Atunci
wit wit cr!witxt dit"xt
REGULI DE INVATARE
x1
x2 x2
x1
(a)
0 0
(b)
Figura a Patternuri bidimensionale care formeaza doua clustere b Aparent nu sedisting mai multe clustere si nu stim cate sunt In acest caz nvatarea nesupervizata nu esteindicata
X
∆wi
wi1
x1
...
neuronul i oi
generator desemnal deînvãtare
dir
c
x
wi2
win
x2
xn
Figura Modelul instruirii n cazul nvatarii supervizate
Pentru cazul discret
wki wk
i crwki x
ki d
ki x
k
Pentru cazul continuudwit
dt crxt
Vom studia n continuare nvatarea cu timp discret pas cu pas Se presupune ca ponderile sunt initializate convenabil nainte ca procesul de nvataresa nceapa
Regula de nvatare a lui Hebb
Aceasta regula particularizeaza semnalul de nvatare astfel
r fwtix
adica semnalul de nvatare este chiar iesirea neuronului Atunci
$wi cfwtixx
CAPITOLUL CONCEPTE FUNDAMENTALE
$wij cfwtixxj coixj pentru j n
Este necesar ca initial ponderile sa aiba valori aleatoare mici Invatareadupa regula lui Hebb este de tip feedforward si nesupervizata Este implementataurmatoarea idee
Daca celula A excita n mod repetat celula B facando sa generezeun impuls atunci are loc un proces de crestere schimbare metabolicantruna sau n ambele celule astfel ncat ecienta excitarii lui B decatre A creste
Cu alte cuvinte patternurile de intrare mai frecvente vor avea si in%uentacea mai mare asupra ponderilor conexiunilor
Regula de nvatare a perceptronului Rosenblatt
Semnalul de nvatare pentru aceasta regula este
r di oi
unde oi sgnwtix si di este raspunsul dorit pentru cazul bipolar g
wi1
x1
X
∆wi
di
oicomparator
net i
...
wi2
win
x2
xn
x +
c
+
-
+d -oi i
Figura Regula de nvatare a perceptronului
Avem$wi c!di sgnwt
ix"x
$wij c!di sgnwtix"xj pentru j n
Sa observam ca aceasta regula este aplicabila doar pentru situatia cand functiade activare este binara Are loc o ajustare a ponderilor daca si numai daca oieste incorect Deoarece raspunsul dorit poate sau avem
$wi cx daca di si sgnwtix
$wi cx daca di si sgnwtix
Daca di sgnwtix se observa ca $wi
Regula de nvatare a perceptronului este importanta pentru nvatarea supervizata a retelelor neurale Ponderile sunt initializate cu orice valoare
REGULI DE INVATARE
Regula de nvatare delta McClelland Rummelhart
Este valabila pentru functii de activare continue si pentru nvatarea supervizataSemnalul de nvatare pentru aceasta regula g este numit delta si estedat de
r !di fwtix"f
wtix
wi1
x1
X
∆wi
X
f(net )i
f’(net )i
di
oi
+
...
wi2
win
x2
xn
c
x-
+d -oi i
Figura Regula de nvatare delta
Aceasta regula se deduce din conditia de cea mai mica eroare patratica dintreoi si di Fie E eroarea patratica
E
di oi
ceea ce este echivalent cu
E
!di fwt
ix"
De aicirE di oif
wtixx
Componentele gradientului erorii sunt
E
wij
di oifwt
ixxj pentru j n
si reprezinta panta pe directia wij Alegem termenul $wij astfel ncat sa eproportional cu panta negativa deci sa minimizam pe E si obtinem
$wij di oifnetixj j n
$wi di oifnetix
$wi rEunde este o constanta pozitiva
CAPITOLUL CONCEPTE FUNDAMENTALE
Presupunand ca semnalul de nvatare este
r !di fwtix"f
wtix
obtinem
$wi cdi oifnetix
ceea ce este identic cu c si ind constante arbitrare
Regula delta este de fapt o transpunere a regulii de nvatare a perceptronuluidiscret la cazul perceptronului continuu Ponderile pot initializate cu oricevaloare
Regula de nvatare WindrowHo
Aceasta regula este aplicabila pentru nvatarea supervizata Este independentade functia de activare folosita deoarece minimizeaza eroarea patratica dintreraspunsul dorit di si valoarea de activare a neuronului neti wt
ix Semnalulde nvatare este
r di wtix
Atunci
$wi cdi wtixx
$wij cdi wtixxj j n
Aceasta regula poate considerata un caz special al regulii delta presupunemfwt
ix wtix adica functia de activare este functia identica fnet net si
obtinem f net
Ponderile pot initializate oricum
Regula corelatiei
Substituind r di n regula generala de nvatare obtinem regula corelatiei
$wi cdix
$wij cdixj j n
De obicei regula corelatiei se aplican retele de memorie cu neuroni cu functiede activare binara Se poate interpreta ca un caz particular al regulii lui Hebbn care functia de activare este binara si oi di Totusi nvatarea hebbiana estenesupervizata n timp ce regula corelatiei se aplica la nvatarea supervizata Casi n cazul nvatarii hebbiene este necesar ca ponderile sa e initializate cu valoriapropiate de
REGULI DE INVATARE
Regula castigatorul ia tot
Aceasta regula difera mult de regulile prezentate pana acum Poate explicatape o multime de neuroni si este un exemplu de nvatare competitiva folosita ninstruirea nesupervizata In general aceasta regula se foloseste pentru nvatareaproprietatilor statistice ale intrarilor
Invatarea se bazeaza pe premiza ca unul din neuroni e el neuronul m areraspunsul maxim pentru intrarea x Acest neuron este castigatorul g
p
...m
......
...neuronulcastigator
1
1x
jx
xn
wm1
wmn
o
o
owpn
11w
Figura Regula de nvatare castigatorul ia tot
Ca rezultatwm !wm wm wmn"
t
este singurul vector ajustat
$wm xwm
$wmj xj wmj pentru j n
unde este o constanta denvatare mica Criteriul de alegere a castigatoruluieste
wtmx max
ipwt
ix
Numai ponderile neuronului castigator se modica Dupa ajustare wm va estimasi mai bine patternul x
Ponderile se initializeaza cu valori aleatoare si sunt normalizate In general scade pe parcursul procesului de nvatare
Paradigme ale nvatarii n retele neurale
Autoasociere O multime de patternuri este prezentata n mod repetat sisistemulmemoreaza aceste patternuri Apoi un pattern similar cu unul dinpatternurile memorate este prezentat Sarcina este de a regasi patternuloriginar
CAPITOLUL CONCEPTE FUNDAMENTALE
Tabelul Comparatie ntre calculul conventional si calculul neural din punct de vedere aletapelor care trebuie parcurse
SarcinaCalculconventional
Calcul neural
Rezolvarea unei probleme
Formulareaalgoritmului
Selectarea unei arhitecturi si denireamultimii de exemplereprezentative
Achizitionareacunostintelor
Programare Instruire
CalculAritmeticprecizie mare
Precizie mica aplicatii neliniare
Memorarea datelorROM RAM memorii binare
Ponderi ale conexiunilor avand n general valori continue
Heteroasociere Este o varianta a autoasocierii O multime de perechi depatternuri este prezentata n mod repetat Paradigmele autoasocierii siheteroasocierii sunt tipice memoriilor asociative
Clasicare Paradigma clasicarii poate considerata o varianta a autoasocierii In acest caz avem o multime xata de categorii n care trebuieclasicate patternurile de intrare In perioada instruirii sistemului i seprezinta patternuri din secventa de instruire precizand categoriile din carefac parte Scopul este de a nvata corect clasicarea astfel ncat ulterior orice pattern de intrare eventual perturbat fata de patternurile dinsecventa de instruire sa e clasicat corect Aceasta este paradigma tipicapentru algoritmul perceptronului si instruirea prin propagarea n urma aerorii n retelele feedforward multistrat Instruirea este supervizata Instruirea este mai buna daca n secventa de instruire apar si patternuriperturbate spre deosebire de paradigma autoasocierii
Detectare de regularitati clustering Sistemul trebuie sa descopere caracteristici trasaturi comune ntro multime de patternuri Nu exista categorii a priori de patternuri Sistemul trebuie sasi construiasca singurcategoriile Instruirea este nesupervizata Numarul clusterelor poate saupoate nu cunoscut a priori
REGULI DE INVATARE
TabelulPrincipaleleregulideinstruireConstantelecsisuntpozitive
Regulade
nvatare
Ajustarea$wij
Ponderile
initiale
Tipul
nvatarii
Caracteris
ticile
neuronilor
Neuronsau
strat
Hebb
coixjjn
nesuperv
oricare
neuron
perceptron
c!disgnwt ix"xjjn
oricare
superv
binar
neuron
delta
cdio if netixjjn
oricare
superv
continuu
neuron
WindrowHo
cdiwt ixxjjn
oricare
superv
oricare
neuron
corelatie
cdixjjn
superv
oricare
neuron
castigatorul
iatot
$wmjxjwmjjn
aleatoare
normalizate
nesuperv
continuu
stratde
neuroni
CAPITOLUL CONCEPTE FUNDAMENTALE
Exemple
Exemplu de retea feedforward pe doua straturi cufunctie de activare bipolara
intrarestrat 1
o1
neuronul 1
-1
comparator 5+o5
intrarestrat 2strat 1
iesirestrat 2iesire
comparator 1+
comparator 2+o2
comparator 3+o3
comparator 4+o4
Figura Retea feedforward pe doua straturi
o # !Wx"
Pentru stratul o #
ho o o o
itx
hx x
it
W
Pentru stratul o !o"
x ho o o o
itW
h
itRaspunsurile primului strat se calculeaza astfel
o hsgnx sgnx sgnx sgnx
itRaspunsul pentru al doilea strat este
o sgno o o o
Observam ca o daca si numai daca o o o o Rezulta caaceasta retea este o aplicatie a spatiului bidimensional xx n punctele
EXEMPLE
o1,o2,o3,o4
0 1 2 3
1
2
3
x1
x2
portiunea pt. caresunt +1
Figura Reprezentare n spatiul bidimensional
Sa presupunem acum ca avem aceeasi arhitectura dar ca neuronii au caracteristici sigmoidale Obtinem
o
ex
ex
ex
ex
o
eoooo
Aplicatia spatiului bidimensional xx ntrun segment al axei reale este n acestcaz mai complicata
Exemplu de retea recurenta
Starile retelei sunt varfurile unui cub dimensional f g Trecerea dintro stare in alta se face dea lungul unei muchii a hipercubului deci doua starisuccesive difera doar printro componenta Avem
W
Presupunand x h
it obtinem
o hsgn sgn sgn sgn
ith
it
CAPITOLUL CONCEPTE FUNDAMENTALE
∆
∆
∆
1
2
4
o1
∆
3
o
o
o
2
3
4
x0
x0
x0
x0
k+1
ponderea=+1ponderea=-1
+
+
+
comparator
comparator
comparator
k+1
k+1
k+1
+ comparator1
2
3
4
Figura Retea neurala recurenta
si decih
iteste o stare de echilibru Tot o stare de echilibru este sih
it
Presupunand x h
it obtinem
o hsgn sgn sgn sgn
it
Are deci loc tranzitiah
i
h
isi se ajunge la cea mai
apropiata stare de echilibruVericati singuri ce se intampla cand x ia alte valori
x h
it
x h
itx
h
it
Exemplu de retea feedback cu timp continuu
Fie reteaua din gura unde oi fneti i iar f este functia deactivare continua bipolara In aceasta gura R si R sunt ponderi negativentarzierile sunt realizate de dispozitivul RC iar rezistentele R modeleaza curentul absorbit de neuroni
EXEMPLE
1
2
R 21R C1
net1
R C2
net2
12 R
o1
o2
Figura Retea electrica a doi neuroni
Obtinem
Cdnetdt
onetR
netR
Cdnetdt
onetR
netR
Discretizam
netk
netk t
RCok netk netk
RC$t
netk
netk t
RCok netk netk
RC$t
Presupunem ca C C R R pentru aceasta retea Presupunem cacircuit a fost initializat prin ncarcarea condensatoarelor cu o o
nu neaparat
egale Reteaua si cauta unul din cele doua puncte de echilibru g Simularea retelei se face pe calculator prin ecuatiile date
Exemplu de nvatare hebbiana
In gura avem intrarea
x
xxxx
si ponderile initiale
w h
it
CAPITOLUL CONCEPTE FUNDAMENTALE
1
-1
-1 1
o2
o1
x
x
Figura Modul n care reteaua si gaseste cele doua puncte de echilibru
Presupunem ca aceasta retea este instruita folosind multimea de vectori de intrare
x
x
x
Consideram c Presupunem pentru nceput ca avem neuroni bipolari binarifnet sgnnet
o
x1
x2
x3
x4
Figura Retea neurala pentru nvatarea hebbiana
Pasul Se aplica x
net wtx h
i
EXEMPLE
w w sgnnetx w x
w
Pasul Se aplica x
net wtx h
i
w w sgnnetx w x
Pasul Se aplica xnet wtx
w w sgnnetx w x
Sa presupunem acum ca functia de activare este continua si bipolara Luam si pornim din nou de la w
Pasul Se aplica x
fnet w
Pasul Se aplica x
fnet w
Pasul Se aplica x
fnet w
Se observa ca pentru functia de activare continua se obtin n general rezultate naceeasi directie valorile ind nsa mai diferentiate
CAPITOLUL CONCEPTE FUNDAMENTALE
Exemplu de nvatare prin regula perceptronului
Consideram urmatorii vectori de intrare
x
x
x
w
si c Raspunsurile dorite de catre supervizor pentru x x x sunt si respectiv
Pasul Se aplica x
net wtx h
i
Deoarece sgn are loc o corectie a ponderilor
w w x
Pasul Se aplica x
net wtx h
i
Deoarece sgn nu se aplica nici o corectie
Pasul Se aplica x
net wtx h
i
Deoarece sgn se aplica o corectie
w w
EXEMPLE
Nu este o simpla coincidenta faptul ca ultima componenta a vectorilor x xx este invariabila Invatarea prin regula perceptronului necesita ca o componentaa vectorului de intrare sa e xata nu neaparat la valoarea
Daca reciclam din nou vectorii x x x la intrare erorile vor mai micideci reteaua a nvatat De exemplu daca dupa ce am aplicat o data x x xmai aplicam o data x obtinem net deci raspunsul este mai bun decatnet
Un contraexemplu important
x
x
d d
Trebuie ca w w si w w ceea ce este imposibil Fie acum
y
y
d d
In acest caz trebuie ca w w w si w w w Acest sistem are solutiievident de exemplu w w w Ce am facut de fapt Deoareceeste evident ca x si x nu pot nvatati n mod supervizat am considerat vectorii extinsi y si y care se obtin din x si x prin adaugarea unei componenteconstante Am vazut ca pentru y si y exista w si w astfel ncat perceptronul sa nvete corect Puteti acum folosi regula perceptronului pentru a nvatay si y Incercati sa explicati din punct de vedere geometric care este diferentadintre a nvata x si x fata de a nvata y si y
Exemplu de nvatare prin regula delta
Folosim aceiasi vectori ca n exemplul precedent
x
x
x
w
La fel raspunsurile dorite sunt iar c Se demonstreaza mai tarziu ca
f net
o
daca f este functia de activare bipolara continua Consideram
Pasul Se aplica xnet wtx
o fnet
CAPITOLUL CONCEPTE FUNDAMENTALE
f net
! o"
w c of netx w
Pasul Se aplica xnet wtx o fnet
f net
! o"
w c of netx w
Pasul Se aplica xnet wtx o fnet
f net
! o"
w c of netx w
Metoda necesita de obicei valori mici pentru c
Exercitii
Folositi neuronul McCullochPitts pentru a elabora retele care implementeaza urmatoarele functii logice
a ok xkoko
k unde x
k este complementul lui xk Se va folosi un
neuron
b ok xk x
kx
k Se vor folosi doi neuroni n cascada
c ok xkxk Se vor folosi doi neuroni n cascada
Aratati ca retelele neurale din gura sunt echivalente implementeazaaceeasi functie Se presupune ca
fnet
net net
EXERCIT II
f(net)+
f(net)+
f(net)+
1o
-11/2
-1
-1
x1
x2
1
11
1
1/2
3/2
f(net)+f(net)+o
1/2
-1
-1
x1
x2 1
21/2
1
-1
1
-1
Figura Exemplu de retele neurale echivalente
Reteaua din gura este un convertor AD si poate utilizata pentru codicarea unei valori continue x ntrun cod binar unipolar pe bitio o o o Analizati reteaua si gasiti pentru ce valori ale lui x se obtincodicarile Presupuneti x si ca
fnet
net net
Reteaua din gura foloseste neuroni cu functie de activare bipolaracontinua Sa masurat ca o o Gasiti vectorulde intrare x !x x"
t care a fost aplicat
Reteaua din gura cu functie de activare bipolara continua este proiectata pentru a atribui vectorilor x x x clusterele sau Numarulclusterului este identic cu numarul neuronului care produce cel mai mareraspuns Determinati din ce clustere fac parte vectorii
x
x
x
C Reteaua din gura foloseste neuroni cu functie de activare bipolaracontinua si implementeaza o aplicatie de la planul xx la segmentul joj Simulati functionarea retelei si tabulati functia ox xpentru jxj si jxj
Invatare hebbiana pentru un neuron care este instruit cu
x
x
x
x
w
CAPITOLUL CONCEPTE FUNDAMENTALE
f(net)+
f(net)+
f(net)+
f(net)+o0
o1
o2
o3
x
-10,5
1,5
-1
-1
3,5 -4
-8 -8
-2
-4
-87,5
-1
1
1
1
1
Figura Convertor AD
f(net)o1
f(net)o2x2
x1
-1 12
-1
-1/2
3/4
1/2
Figura Retea neurala care foloseste neuroni cu functie de activare bipolara continua
si c Gasiti ponderile nale pentru cazul cand functia de activare este
a bipolara binara
b bipolara continua
C Implementatinvatarea unui neuron prin regula perceptronului folosind
w
B x
d
CA
B x
d
CA
Repetati secventa de instruire xd xd pana cand se obtin raspunsurile corecte Listati valorile netk obtinute
EXERCIT II
f(net)o1
f(net)o2x2
x1-0,966
-0,259
0,906
0,423
Figura Retea neurala care implementeaza un clasi cator
x2
x1 f(net)
f(net)
f(net)o1
1
-1
-1
1
1
-1
-1
-1
1
Figura Retea neurala care implementeaza o aplicatie de la un plan la o dreapta
C Instruiti prin regula delta un neuron folosind c si
w
B x
d
CA
B x
d
CA
Se va folosi f net o
Repetati secventa de instruire xd xd si studiati comportarea
C Folositi aceleasi date ca si n problema precedenta aplicand regulaWindrowHo
Repetati secventa de instruire
C Elaborati un program pentru analiza retelelor feedforward cu douastraturi Parametrii de intrare sunt
tipul functiei de activare
daca este cazul
marimea retelei
vectorii de intrare pentru testarea retelei
C Implementati algoritmii de nvatare pentru un neuron cu cel mult saseintrari Parametrii de intrare sunt
CAPITOLUL CONCEPTE FUNDAMENTALE
regula Hebb perceptron delta WindrowHo
functia de activare
daca este cazul
datele pentru instruire
numarul de pasi pentru instruire se pot repeta datele
Capitolul
Clasicatori pe baza de
perceptroni monostrat
In acest capitol vom formula fundamentele retelelor neurale instruibile folosite nprocese de decizie Functia principala a unui sistem de decizie este luarea deciziilor n ceea ce priveste clasa din care face parte patternul de intrare considerat
Arhitecturile discutate n acest capitol sunt de tip feedforward neuronii inddispusi pe un singur strat
Clasicare
Una dintre cele mai importante categorii de probleme care poate efectuatade o retea neurala este clasicarea patternurilor Un pattern este descriereacantitativa a unui obiect eveniment sau fenomen Clasicarea se poate referiatat la patternuri spatiale cat si temporale ex imagini video de vapoare hartimeteo amprente caractere semnale acustice electrocardiograme etc
Scopul clasicarii patternurilor este de a atribui un obiect zic evenimentsau fenomen unei clase specicate n prealabil Un sistem de clasicare arata can gura
masuratori trasaturitraductor clasificatorextragerea
trasaturilor
clasificator...
nx
xx1
2
pattern-ul x
clasai (x)=1 sau 2 sau ... sau R0
clasadate
Figura Sistem de clasi care
Trasaturile sunt date comprimate obtinute prin reducerea dimensionalitatii
CAPITOLUL PERCEPTRONI MONOSTRAT
1 2 3 4 5 6 7 8 9 101112.......
....... x =0
x =1i
i
de unde putem extrage vectorul
x
xxxn
f(t )1f(t )2
f(t )n
t1 t2 tn
f(t)
tde unde putem extrage vectorul
x
ftft
ftn
Figura Exemple de codi care
De exemplu din imaginile receptionate de pe satelitul LANDSAT sunt necesaredoar cateva din componentele spectrale
Retelele neurale pot utilizate atat pentru clasicare cat si pentru extragereatrasaturilor
In continuare vom reprezenta componentele de intrare ale unui clasicator caun vector x g Clasicarea este obtinuta prin implementarea unei functiide decizie i unde ix f Rg
Atunci cand patternurile de intrare nu sunt identice cu patternurile folositepentru instruirea clasicatorului procesul de clasicare se numeste recunoastere
Clasicarea poate descrisa de multe ori n termeni geometrici Orice patternpoate reprezentat printrun punct n spatiul euclidian ndimensional En numitspatiul patternurilor Un clasicator aplica multimi de puncte din En ntrunuldin numerele R Multimile care contin patternurile din clasele Rle vom nota cu HH HR respectiv In gura n R si i jpentru orice x Hj j
RegiunileHi sunt regiuni de decizie separatentre ele prin suprafete de deciziePresupunem ca patternurile de pe suprafetele de decizie nu apartin nici uneiclase In spatiul ndimensional suprafetele de decizie sunt hipersuprafete n dimensionale
FUNCTII DISCRIMINANT
1
3
1
24x1
x2
0
(-10,10)
(4,6)
(20,10)
H
H
H
H
H
Figura Regiuni de decizie
Functii discriminant
Presupunem ca avem o multime nita de patternuri ndimensionale x x xP si cunoastem clasicarea dorita pentru ecare dintre ele Presupunem ca avemfunctiile discriminant g g gR astfel ncat x face parte din clasa i daca sinumai daca
gix gjx pentru j R si i j
Valorile gix si gjx sunt scalare Conform relatiei de mai sus n regiunea Higix este maxim g
1
g (x)1
2
g (x)2
R
g (x)R
...
012
R
Selectorde
maximx
pattern ...
clasa i
Figura Clasi cator
Daca x se a%a pe suprafata de decizie dintre Hi si Hj atunci
gix gjx
Pentru cazul cand R clasicatorul se numeste dihotomizator Acest cuvantprovine din alaturarea cuvintelor grecesti dicha n doua si tomia taietura Incazul dihotomizatorului regula de clasicare devine
gx clasa gx clasa
CAPITOLUL PERCEPTRONI MONOSTRAT
unde gx gx gxFunctia
i sgn!gx"
gx nedenit gx gx
implementeaza un dihotomizator g Problema gasirii functiilor discriminant este esentiala Ele pot liniare sau neliniare
g(x)g(x)
discriminant
discriminatorcomparator
xpattern clasa i0
Figura Dihotomizator
Ne vom concentra asupra clasicatorilor ale caror functii discriminant se obtinprin nvatare iterativa cu ajutorul patternurilor de instruire Presupunem ca
Multimea patternurilor de instruire si clasicarea lor sunt cunoscute decinvatarea este supervizata
Functiile discriminant sunt liniare si doar coecientii lor sunt ajustati peparcursul procesului de nvatare
Clasicatori liniari
Vom discuta n detaliu functiile discriminant liniare In acest caz suprafetelede decizie sunt hiperplane Consideram initial ca R Centrii P P aleclusterelor care formeaza cele doua clase sunt vectorii x si x respectiv g
Punctele prototip P si P pot interpretate ca centrii de greutate ale clusterelor respective Vom prefera ca hiperplanul de decizie sa contina mijloculsegmentului care conecteaza P si P si sa e perpendicular pe vectorul x xEcuatia hiperplanului de decizie este atunci
gx x xtx
kxk kxk
In general ecuatia lui gx este de forma
wx wx wnxn wn
sau wtx wn
sau
w
wn
t x
CLASIFICATORI LINIARI
x2
x1
g(x)=0
-1
|1
g(x)>0
hiperplan de decizie
1_
|32
P2
clasa 2
P1
clasa 1x1-x2
x1
x2
Figura Separarea a doua clase printrun hiperplan de decizie
unde w
w
wwn
este vectorul ponderilor In cazul precedent
w x x wn
kxk kxk
Deci daca punctele prototip P si P sunt cunoscute se deduce si gxFunctiile discriminant liniare pot folosite si daca avem mai mult decat doua
clase Daca avem R clase doua cate doua separabile atunci vor pana la RR
hiperplane de decizieSa presupunem ca folosim criteriul distantei minime pentru a clasica pattern
uri si ca avem R clase Fiecare clasa este reprezentata de un punct prototipP P PR reprezentat de un vector x xR Distanta euclidiana dintre unpattern de intrare x si patternul prototip xi este
kx xik qx xitx xi
Clasicatorul calculeaza distantele dintre x si xi i R alegand apoiclasa pentru care distanta este minima Avem
kx xik xtx xtix xtixi i R
De fapt cautam xi pentru care se obtine maxxtix xtixi Putem lua atunci
gix xtix
xtixi i R
CAPITOLUL PERCEPTRONI MONOSTRAT
Functia discriminant are forma
gix wtix win i R
unde wi xi win
xtixi i R
Clasicatorii care folosesc criteriul distantei minime pot considerati clasicatori liniari si ei se numesc uneori masini liniare Un clasicator liniar arata can gura
1
x
1
...
1
wR
11
12 ...
R1
...
R,n+1
pattern
ponderi
1
R
de maximselector
discriminanti
iraspuns
0
g (x)
g (x)
1,n+1
w
R
1
w
w
w
w
w
+
+
Figura Clasi cator liniar
Sa observam ca suprafata de decizie Sij dintre regiunile contigue alaturatevecine Hi si Hj este un hiperplan
gix gjx
sau wtix win wt
jx wjn
Daca denim
y
x
obtinemgiy wt
iy
Sa presupunem ca avem o multime H de patternuri pe care o mpartim nsubmultimile HH HR Daca o masina liniara poate clasica patternuriledin Hi ca facand parte din clasa i pentru i R atunci multimile Hi
sunt liniar separabile Mai formal daca exista R functii liniare pentru care
gix gjx pt x Hi i R j R i j
PERCEPTRONUL DISCRET CA DIHOTOMIZATOR LINIAR
x1
x2
0 1
1
|
_
Figura Patternuri neseparabile liniar
atunci multimile Hi sunt liniar separabileIn gura avem un exemplu de patternuri liniar neseparabile care pot
modelate prin functia de paritate unipolara
XORx x x x
unde este operatorul OR exclusiv
Utilizarea perceptronului discret n instru
irea unui dihotomizator liniar
Am vazut n sectiunea precedenta cum se pot determina coecientii discriminantilor liniari ponderile din informatia a priori asupra patternurilor si aapartenentei lor la diferite clase
In aceasta sectiune ponderile se vor obtine printrun proces de nvatarePatternurile de instruire xx xP sunt prezentate masinii liniare g mpreuna cu raspunsurile corecte Aceasta secventa de patternuri se numestesecventa de instruire Raspunsul este dat de catre supervizor iar clasicatorulsi modica parametrii pe baza nvatarii iterative supervizate
+
+y =1n+1
...
y =x
y =x
w1
w
nw
wn+1
comparator
+-
dd-o
o=i0 i =1 sau -1
y =x1 1
2
n n
2 g(y)2
0
Figura Masina liniara
Fie R deci analizam cazul unui dihotomizator foloseste doua clase
CAPITOLUL PERCEPTRONI MONOSTRAT
Suprafata de decizie n spatiul En are ecuatia
wtx wn
sau wty y En
Aceasta ecuatie descrie un hiperplan care trece prin origine si este perpendicularpe vectorul y iar y este ndreptat catre semispatiul pentru care wty decicatre semispatiul unde se a%a clasa
In gura este dat un exemplu n care patternurile y yy suntdeplasate de la origine n paralel dea lungul hiperplanelor lor de decizie Esteumbrita regiunea din spatiul ponderilor care satisface conditia de separabilitateliniara a claselor si
1
23
4
5
w y >0t1
w
w
2
1
pattern-ul 5
pattern-ul 4(clasa 1)
(clasa 2)
pattern-ul 2(clasa 2) (clasa 2)
pattern-ul 3
pattern-ul 1(clasa 1)
w
y4
y1
y2y
y3
5
Figura Reprezentarea unor suprafete de decizie n spatiul ponderilor
Sa presupunem acum ca ponderile initiale sunt w Discutam despre patternul y din clasa Conform gurii y nu este clasicat corect deoarecewty
Ajustam vectorul w astfel ncat wty sa creasca cat mai rapid deci n directiagradientului Gradientul este
rwwty y
Deci atunci cand patternul y este clasicat gresit vom ajusta ponderile astfel
w w cy
PERCEPTRONUL DISCRET CA DIHOTOMIZATOR LINIAR
y1
w y =0t1
w y <0t1
w y >0t1
w1
w
w
2
1
(clasa 1)
Figura Ajustarea ponderilor pentru un pattern din clasa
unde c este incrementul de corectie Repetand ajustarea de cateva ori indiferent de valoarea lui c ajungem cu ponderile n regiunea corecta unde wty
Sa presupunem ca ponderile initiale sunt w De data aceasta discutamdespre patternul y din clasa g
In acest caz y nu este clasicat corect deoarece wty Descrestem catmai rapid pe wty deci n directia gradientului negativ
w w cy
Procedura de instruire supervizata este asadar
w w cy
unde este valabil cand se clasica gresit un pattern din clasa iar estevalabil cand se clasica gresit un pattern din clasa Atunci cand patternul esteclasicat corect nu se face nici o corectie Procedura se repeta iterativ pentrutoate patternurile de instruire Vom vedea ca aceasta formula este aceeasi curegula de nvatare a perceptronului discret sectiunea
Sa rezumam clasicarea patternurilor liniar separabile apartinand la doardoua clase Se cauta un vector w astfel ncat
wty pentru x H
wty pentru x H
Perceptronul se instruieste pornind cu un vector al ponderilor care este ales arbitrar si cu un increment de corectie ales de asemenea arbitrar Se ajunge laun vector w wk k ind numarul iteratiilor necesare pentru instruire Incontinuare
w wk wk
Se poate demonstra urmatoarea teorema
CAPITOLUL PERCEPTRONI MONOSTRAT
y1
w y =0t1
w y <0t1
w y >0t1
w1
w
w
2
1
(clasa 2)
Figura Ajustarea ponderilor pentru un pattern din clasa
Teorema de convergenta a perceptronului Un clasicator pentru doua clase liniar separabile de patternuri este ntotdeauna instruibil ntrun numar nit de iteratii
Vom discuta mai detaliat aceasta teorema n sectiunea urmatoareValoarea lui k depinde de incrementul de corectie si de secventa de pattern
uri utilizate pentru instruireRegula w w cy devine n cazul instruirii percepronului discret
wk wk c
dk okyk
unde k este numarul iteratiei ok este iesirea actuala iar dk reprezinta iesireadorita pentru vectorul yk aplicat la intrare Daca dk ok nu se ajusteaza wkDaca dk si ok atunci
wk wk cyk
Daca dk si ok atunci
wk wk cyk
Algoritmul de instruire a unui perceptron discret care poate folosit apoi cadihotomizator liniar este urmatorul
Se dau P perechi x d x dxP dP unde xi este unvector de n elemente i P Se deneste vectorul y hxi
it i P
Se alege c
PERCEPTRONUL CONTINUU CA DIHOTOMIZATOR LINIAR
Se initializeaza vectorul w de n elemente cu valori aleatoaresi mici Se fac urmatoarele initializari k i si E
y yi d di o sgnwty
w w cd oy
Se calculeaza eroarea patratica cumulata
E E
d o
if i P then i i k k go to
if E then E i go to else sa terminat instruirea write w k
Utilizarea perceptronului continuu n
instruirea unui dihotomizator liniar
Utilizarea perceptronului continuu are doua avantaje
Un control mai n asupra procedurii de instruire
Se lucreaza cu caracteristici diferentiabile ale comparatorului ceea ce permite calcularea gradientului erorii
generatorde eroare
... o
E d
y =x
y =x1 1
n n
y =1n+1
Figura Modelul folosit la instruirea unui perceptron continuu folosit ca dihotomizatorliniar
Problema modicarii ponderilor se rezolva foarte elegant prin minimizareafunctiei care masoara eroarea de clasicare iar aceasta minimizare se realizeazaprin folosirea gradientului g Se porneste de la un vector w arbitrar sise calculeaza rEw gradientul functiei eroare curente Urmatoarea valoare alui w este obtinuta ndreptandune n directia gradientului negativ dea lungulsuprafetei multidimensionale a erorii Directia gradientului negativ este cea adescresterii cea mai rapide Luam deci
wk wk rEwk
CAPITOLUL PERCEPTRONI MONOSTRAT
unde este constanta de nvatare o valoare pozitivaEroarea de clasicare care trebuie minimizata este
Ek
dk ok
hdk fwktyk
i
Obtinem pentru simplicarea scrierii omitem temporar indicii k
rEw d of nety
unde net wty sau
E
wi
d of netyi i n
care este de fapt regula delta de nvatare pentru perceptronul continuuDaca functia de activare este
fnet
enet
n care luam atunci
f net enet
enet
Aplicam identitateaenet
enet
o
care se verica luand o fnet si obtinem
rEw
d o oy
Rezulta
wk wk
dk ok ok
yk
Aceasta regula corecteaza ponderile n aceeasi directie ca si regula
wk wk c
dk okyk
din cazul perceptronului discret Difera marimea vectorului de corectie a ponderilor Ambele reguli implica adunarea sau scaderea unei fractiuni din y Diferentaesentiala este prezenta factorului moderator ok
Acest factor este
ok Atunci cand raspunsurile sunt eronate avem urmatoarea proprietate
pentru net apropiat de factorul de corectie este mai mare decat daca net estedeparte de Aceasta contribuie la stabilitatea procesului de nvatare
PERCEPTRONUL CONTINUU CA DIHOTOMIZATOR LINIAR
O alta diferenta semnicativa este ca algoritmul pe baza perceptronului discret duce ntotdeauna la o solutie daca solutia exista Acest lucru nu estegarantat n cazul perceptronului continuu pentru orice valoare a lui Deoarecevalorile ponderilor se modica de la un pas la altul nu mergem de fapt exactn directia lui rEw Pentru mic putem considera ca mergem n aceastadirectie Pentru o valoare a lui sucient de mica se ajunge la un w care lminimizeaza pe Ew Nu avem o teorema a perceptronului de tip continuu caresa garanteze convergenta catre o solutie
Algoritmul de instruire a unui perceptron continuu pentru utilizarea sa cadihotomizator liniar este urmatorul
Se dau P perechi x d x dxP dP unde xi este unvector de n elemente i P Se deneste vectorul y hxi
it i P
Se aleg si Emax
Se initializeaza vectorul w de n elemente cu valori aleatoaresi mici Se fac urmatoarele initializari k i si E
y yi d di o fwty care este functia de activarecontinua
w w d o oy
Se calculeaza eroarea patratica cumulata
E E
d o
if i P then i i k k go to
if E Emax then E i go to else sa terminat instruirea write w k E
In acest capitol am presupus pana acum ca yn Fie acum un dihotomizator bazat pe perceptron n care yn g
... f(net)
w1
nw
n+1w
y =x1 1
ny =xn
y =1n+1
Figura Perceptron instruit ca dihotomizator
Ca urmare a procesului de instruire obtinem acelasi rezultat doar semnul luiwn se inverseaza Putem lua deci yn sau yn
CAPITOLUL PERCEPTRONI MONOSTRAT
Sa presupunem n cazul dihotomizatorului bazat pe perceptronul continuuca luam yn Atunci
net wtx wn
Luam T wn Avemfnet pentru wtx Tfnet pentru wtx T
Functia de activare f cu argumentul wtx este cea din gura
net
f(net)
T=w
_1
-1
n+1
Figura Functia de activare folosita de un perceptron instruit ca dihotomizator
Procesul de instruire accepta pentru yn orice valoare constanta Luand nsayn wn devine egal cu pragul T al neuronului De acum ncolo vomconsidera yn si wn T n cazul n care nu specicam altfel
Mai multe despre teorema de convergenta
a perceptronului
Vom discuta n aceasta sectiune mai n detaliu acest important rezultat teoreticSa ne reamintim enuntul teoremei
T Un clasicator pentru doua clase liniar separabile de patternurieste ntotdeauna instruibil ntrun numar nit de iteratii
Iteratiile se refera la relatia
wk wk c
dk okyk
TEOREMA DE CONVERGENT A A PERCEPTRONULUI
adica dacadk ok wk wk cyk
O alta varianta a acestei teoreme este cea formulata de Rosenblatt side Minsky si Papert
T Daca patternurile de intrare sunt din f gn atunci unperceptron nvata ntrun numar nit de pasi sa clasice corect patternurile presupunand ca acestea sunt liniar separabile
Trebuie sa notam ca
Ponderile initiale pot numere reale oarecare
Nu l putem determina pe k deoarece depinde de w unde w este unvector solutie pentru ponderi Deci ar trebui sa l cunoastem a priori pe w
pentru a determina numarul de iteratii De asemenea k depinde de w
Ne punem acum problema ce se ntampla cand aplicam algoritmul perceptronului asupra a doua clase de patternuri care nu sunt liniar separabile Sepoate demonstra urmatoarea teorema
T Pentru o secventa nita de patternuri de instruire cu n componente din f gn algoritmul de instruire a perceptronului vaexecuta ntrun numar nit de pasi exact una dintre urmatoareledoua variante
Produce un vector al ponderilor pentru care perceptronul clasica corect toate patternurile de instruire daca si numai dacaaceste patternuri sunt liniar separabile
Paraseste si reviziteaza un vector al ponderilor daca si numaidaca patternurile de instruire nu sunt liniar separabile
Se pot face acum urmatoarele observatii
Rezulta astfel o procedura de testare a liniar separabilitatii
Nu se cunoaste o limita superioara pentru cat ar dura acest test
In nal se poate demonstra urmatoarea teorema
T Daca patternurile de instruire au componente reale algoritmulde instruire a perceptronului poate sa nu convearga catre o solutiechiar daca patternurile sunt liniar separabile constanta de nvatareind oarecare
Cu alte cuvinte atunci cand patternurile de instruire au componente realeoarecare alegerea unei constante de nvatare adecvate devine critica si aceastaconstanta nu mai poate un numar real pozitiv oarecare
CAPITOLUL PERCEPTRONI MONOSTRAT
Instruirea unui clasicator liniar prin uti
lizarea unei retele monostrat de perceptroni
Fie R clase doua cate doua liniar separabile Exista deci R functii discriminant liniare astfel ncat
gix gjx pentru i j R i j x Hi
Denim vectorul ponderilor
wq hwq wq wqn
it
Sa presupunem ca un pattern y este prezentat unui clasicator liniar Dacawt
iy wtjy j R i j clasicarea este corecta si
w w
w w
wR wR
sunt valorile ajustate ale vectorilor ponderilor Daca avem wtiy wt
my pentruun m i atunci
wi wi cy
wm wm cy
wk wk pentru k R k im
sau
wij wij cyj pentru j n
wmj wmj cyj pentru j n
wkj wkj pentru k R k im j n
Acest clasicator are la iesire un selector de maximSa ncercam acum sa nlocuim selectorul de maxim dintrun clasicator liniar
cu R perceptroni discreti g Daca x Hi trebuie ca oi si oj pentru j R si j i
Eliminam astfel selectorul de maxim Ajustarea ponderilor se face astfel
wki wk
i ck
dki oki
yk pentru i R
Aceasta este regula de instruire a clasicatorului bazat pe o retea de perceptronidiscreti In relatia de mai sus di si oi se refera la al ilea perceptron
Teorema perceptronului se poate generalizaa si demonstra si pentru cazul cuR clase doua cate doua liniar separabile
Algoritmul de instruire a unei retele monostrat de perceptroni folosita ca siclasicator liniar este urmatorul
EXEMPLE
+
+
+
x-1
11w
w12w
1,n+1w21
w22w2,n+1
wR1
R2wwR,n+1
......
......
o1
o2comparator2
oRcomparatorR
comparator1
Figura Clasi cator liniar cu R clase
Se dau perechile xd xP dP unde xi este un vector de
R elemente si i P Se denesc vectorii yi hxi
it
i P
Se alege c ca n cazul perceptronului discret
Se initializeaza matricea W de R n cu valori aleatoare simici Se initializeaza k p si E
y yp d dP oi sgnwtiy pentru i R unde
wi este linia i din matricea W
wi wicdi oiy pentru i R unde i reprezinta
elementul al ilea din vectorul d
E di oi
E i R
if i P then i i p p go to
if E Emax then E i go to else sa terminat instruirea write w k E
Putem folosi si o retea de perceptroni de tip continuu g In acest caz ajustarea ponderilor se face astfel
wki wk
i
dki oki
oki
yk pentru i R
Asupra acestei formule si a retelei de perceptroni de tip continuu vom discuta pelarg n capitolul urmator
Exemple
Exemplu de construire a unui clasicator liniar
Avem urmatoarele patternuri
x
x
x
CAPITOLUL PERCEPTRONI MONOSTRAT
x-1
11w
w12w
1,n+1
wR1R2w
wR,n+1
......
...
o1
oR
Figura Retea de perceptroni de tip continuu
cu n si R
Folosim formula
wi xiwin
xtixi i R
si obtinem ponderile
w
w
w
Din formula
gix wtix wii i R
obtinem functiile discriminant
gx x x gx x x gx x x
Din
wtix win wt
jx wjn
sau din gix gjx obtinem
S x x S x x S x x
EXEMPLE
P (-5,5)
P (2,-5)2
1
3
S P (10,2)
S13
S12
S23
H
H
H
1
2
3
x
x2
1
123
Figura Suprafetele de decizie pentru un clasi cator liniar S
Exemplu de instruire a unui dihotomizator cuajutorul unui perceptron discret
Avem urmatoarele patru patternuri si raspunsuri dorite pentru ecare dintre ele
Clasa x x d d Clasa x x d d
Patternurile extinse sunt
y
y
y
y
Fie ponderile initiale w h
italese arbitrar Regula w w cy
devine n cazul perceptronului
$wk c
hdk sgnwktyk
iyk
Alegem c
Pasul Aplicam y
o sgn
h
i
d o
w w y
CAPITOLUL PERCEPTRONI MONOSTRAT
1x
1x
1x
1
3
i =1 sau 2 sau 3selectorde maxim2
g (x)1
12x
10
2
-52
2
12x
2
-5
-14,5
+
+
g (x)3
12x
-5
5
-25+
g (x) 0
Figura Clasi catorul liniar care implementeaza regiunile de decizie din gura
+
+
1
w2
net
comparator
+-
dd-o
wy =x11
y =12
Figura Perceptron discret folosit ca un clasi cator instruibil
Pasul Aplicam y
o sgn
h
i
d o
w w y
Pasul Aplicam yo
d o
w w y
Pasul Aplicam y Dupa citirea lui y nu se modica ponderile Reciclamsecventa y y deoarece nu stim daca perceptronul a reusit sa nvete saclasice corect
EXEMPLE
Pasul Aplicam yw w
Pasul Aplicam yw w
Pasul Aplicam y
w h
it
Pasul Aplicam yw w
Reciclam din nou si obtinem
w w w w
w h
icare sunt ponderile nale
Exemplu de instruire a unui dihotomizator liniar cu ajutorul unui perceptron continuu
Reluam exemplul din cazul discret Valoarea erorii la pasul k este
Ek
dk
enetk
unde netk wkty Luand yk yk pentru k obtinem
Ew
eww
Consideram si obtinem
Ew
! eww"
La urmatorii pasi obtinem
Ew
! eww"
Ew
! eww"
Ew
! expw w"
Luam si facem calculele conform algoritmului Deoarece o nu poate niciodata vom lua de obicei pentru d valorile si
CAPITOLUL PERCEPTRONI MONOSTRAT
Exemplu de instruire a unui clasicator reprezentat ca retea de perceptroni discreti
Reluam clasicatorul liniar R construit deja pe baza distantei minimeSunt usor de calculat valorile functiilor discriminant n x x si x
x x xgx gx gx
Raspunsurile maxime se obtin desigur pe diagonala Construim nu prin instruire reteaua de perceptroni corespunzatoare acestui clasicator g
102
-52 -5
5
5012,523
comparator
comparator
comparator1
2
R
x1
2x
-1
+
+
+
o1
o2
oR
Figura Retea de perceptroni
Ar trebui sa avem w w si w ca valori de prag Putemscadea aceste praguri cu fara ca sa modicam raspunsurile clasicatorului
Vom construi acum direct clasicatorul prin instruirea retelei de perceptroniAlegem aleator vectorii initiali
w
w
w
Fie c Cu & marcam raspunsurile incorecte
Pasul y
sgn
sgn
sgn
EXEMPLE
w w
w w
w
Pasul y
sgn
sgn
sgn
w
w
w w
w
Pasul y
sgn wt y
sgn wt y
sgn wt y
w
w
w w
w
Se ncheie primul ciclu apoi reluam secventa etc Se modica doar ponderileprimului perceptron
w w
w
w
w
w w
Obtinem o retea de perceptroni pentru care
o sgnx x o sgnx o sgnx x
Sau produs regiuni de indecizie n g sunt zonele umbrite De exem
plu pentru Q avem o h
it Pe de alta parte patternuri ca acest Q
nu au fost utilizate la instruire
CAPITOLUL PERCEPTRONI MONOSTRAT
P (2,-5)2
1
x
x2
1
o=[-1 -1 +1]
o=[+1 -1 -1]
o=[-1 +1 -1]
o=[+1 +1 -1]
Q
t
t
t
t
3
P (10,2)
P (-5,5)
5x +3x -5=01 2
-x -2=02
1 2-9x +x =0
Figura Regiuni de indecizie
Exercitii
C Implementati algoritmul de instruire a unui dihotomizator cu ajutorul
unui perceptron discret luand c w h
itsi
clasa xh
it h
it h
itclasa x
h
it h
it h
it
Incercati si alte valori pentru c
1 2 3
4 5 6
7 8 9
1 2 3
4 5 6
7 8 9
[ 1 0 0 1 0 0 1 1 1 ]
Figura Caracterele tiparite L si I folosite al instruirea unui dihotomizator
EXERCIT II
C Implementati algoritmul de instruire a unui dihotomizator cu ajutorul unui perceptron continuun conditiile problemei precedente Incercatidiferite valori pentru constanta de nvatare
Prin algoritmul de instruire a unui clasicator liniar cu trei clase reprezentatprintro retea de trei perceptroni discreti sa ajuns ca n trei pasi sa setermine instruirea Se considera c
Pasul x Se ajusteaza w w
w
h
it
Pasul x Se ajusteaza w
Pasul x Se ajusteaza w
In nal
w
h
it w
h
it w
h
it
Gasiti patternurile x x si x
C Implementati algoritmul de instruire a unui clasicator liniar reprezentatca retea de perceptroni discreti folosind c si urmatoarele patternuri deinstruire
i pentru xh
it
h
iti pentru x
h
it
h
iti pentru x
h
it
h
iti pentru x
h
ith
it
Reprezentati suprafetele de decizie rezultate
Proiectati si instruiti un clasicator pentru caracterele tiparite L si I g
Folositi un perceptron discret Ce se ntampla daca literele sunt distorsionate
Rezultat Apare indecizia Ar trebui sa instruim perceptronul si cu acestelitere distorsionate
CAPITOLUL PERCEPTRONI MONOSTRAT
Capitolul
Retele neurale feedforward
multistrat
Pentru patternuri de instruire care nu sunt liniar separabile reteaua neuralaintrodusa n capitolul trebuie modicata Modicarea se poate face astfel
e prin utilizarea unor functii discriminant neliniare de ex liniare peportiuni
e printro retea multistrat
Alegem ultima varianta In acest caz ecare strat este compus dintro retea carese bazeaza pe conceptul de functie discriminant liniara
Retelele multistrat pot implementa suprafete de decizie arbitrare In completare la capitolul se pot rezolva astfel multe alte aplicatii aproximareafunctiilor recunoasterea caracterelor scrise recunoasterea vorbirii sisteme expert generarea traiectoriilor etc
Retelele neurale multistrat sunt n prezent cele mai raspandite arhitecturiIn acest capitol vom studia retelele neurale multistrat instruibile
Clasicarea pattern urilor liniar
neseparabile
Fie doua multimi de patternuri Y si Y Daca nu exista un vectorw al ponderilorastfel ncat
ytw pentru orice y Y
ytw pentru orice y Y
atunci Y si Y sunt liniar neseparabile Vom presupune ca patternurile din Y
si Y sunt vectori mariti cu o componentaSa presupunem pentru nceput ca doua multimi de patternuri H si H tre
buie clasicate n doua categorii g Aceasta clasicare se poate implementa ca n gura
CAPITOLUL RETELE NEURALE FEEDFORWARD MULTISTRAT
1
2
3
A
B
CD
E
clasa 1clasa 2
Figura Doua multimi de patternuri care trebuie clasi cate n doua categorii
Fiecare dintre cele sapte compartimente inclusiv AE sunt aplicate ntrunul din varfurile cubului n spatiul ooo spatiul o Se observa ca n spatiulimagine o patternurile din cele doua clase sunt usor separabile printrun plande exemplu prin planul o o o Perceptronul cu intrarile o o o esteun dihotomizator liniar
o
sgno o o clasa sgno o o clasa
Regula de nvatare delta pentru o retea de
neuroni monostrat
Fie o retea monostrat de perceptroni de tip continuu g n care dacayJ atunci wkJ k K sunt chiar valorile pragurilor celor Kneuroni
In aceasta retea o # !Wy" unde
y
yyyJ
o
oooK
W
w w wJ
w
wK wKJ
REGULA DE INVATARE DELTA
+
+
+
+
o
(b)(a)
x
1
-1
o1
o
o2
3
4
pattern-imagine liniarimaginetransformare
2
3
1
4o
0
separabila
3
o1
o2
A
B
C
E
(1,-1, 1)
(-1, 0, 1)(-1, 1, 1)
(-1, 1, 0)
(1, 1, 1)
(-1,-1,-1)
(1, 1,-1)(1,-1,-1)
(-1,-1, 1)
(1,-1, 0)
D(-1, 1,-1)
comparator
comparator
comparator
comparator
Figura a Clasi cator monostrat b Reprezentarea patternurilor din gura n spatiulimagine o
......
......
1
K
o
y
y
y
o
o
1
j
J
1
k
K
w
w
11w
kjw
k1
K1w
KJ
Figura Retea monostrat de perceptorni de tip continuu
#!"
f f
f
Prin denitie
d
ddK
este raspunsul dorit Generalizam expresia erorii
Ep
KXk
dpk opk
kdp opk
CAPITOLUL RETELE NEURALE FEEDFORWARD MULTISTRAT
pentru un pattern p p P unde dp este raspunsul dorit iar op raspunsulretelei pentru patternul p
dp
dp
dpK
op
op
opK
Pentru simplitate sa presupunem ca
yJ si wkJ Tk pentru k K
unde Tk sunt praguri Ca si n cazul unui singur perceptron calculam
$wkj E
wkj
deci pe directia gradientului negativ al erorii unde pentru simplitate am omisindicele lui E Avem
ok fnetk netk PJ
jwkjyj pentru k K
Semnalul de eroare pentru al klea neuron este
ok E
netk
Acest semnal lam numit si semnal de nvatare Avem
E
wkj
E
netk netkwkj
okyj
deoarecenetkwkj
yj
Putem scrie
$wkj okyj pentru k K j J
Calculam
ok E
ok oknetk
Dar
f knetk oknetk
siE
ok dk ok
Obtinemok dk okf
knetk pentru k K
REGULA DE INVATARE DELTA
Formula de ajustare a ponderilor este atunci
$wkj dk okfknetkyj
si este identica cu regula de nvatare delta pentru un singur perceptronPentru functia de activare continua unipolara obtinem
f net enet
enet
enet enet
enet o o
In acest caz avemok dk okok ok
In cazul bipolar am aratat n capitolul ca
f net
o
si deci
ok
dk ok ok
In concluzie actualizarea ponderilor se face pentru k K j Jastfel
wkj wkj dk okok okyj
pentru
ok
enetk
si
wkj wkj
dk ok okyj
pentru
ok
enetk
In general putem scrieW W oy
t
unde
o
oo
oK
Algoritmul de instruire a unei retele monostrat de perceptroni de tip continuuprin regula delta este urmatorul
Se dau perechile yd ydyP dP unde yi este un vector de J elemente di este un vector de K elemente iar componentaJ a vectorului yi i P este
CAPITOLUL RETELE NEURALE FEEDFORWARD MULTISTRAT
Se aleg si Emax
Se initializeaza matriceaW de KJ elemente cu valori aleatoaresi mici Se initializeaza p q si E
y yp d dp ok fwtky pentru k K unde wk
este linia k din W
Se actualizeaza ponderile conform regulii
wk wk
dk ok oky
pentru k K n cazul bipolarsi conform regulii
wk wk dk okok oky
pentru k K n cazul unipolar
Se calculeaza eroarea patratica cumulata
E E
dk ok
k K
if p P then p p q q go to
if E Emax then E p go to else sa terminat instruirea write W q E
Regula delta generalizata
Vom generaliza acum regula delta de nvatare pentru retele feedforward multistrat Consideram pentru aceasta o retea de neuroni cu doua straturi g
Straturile de neuroni ale caror iesiri nu sunt direct accesibile se numesc straturiinterne sau straturi ascunse Pentru stratul ascuns avem
$vji Evji
j J i I
E
vji
E
netj netjvji
$vji yjzi
unde yj este semnalul de eroare pentru stratul ascuns avand iesirea y Vom scrie
yj E
netj j J
si atunci
yj E
yj yjnetj
REGULA DELTA GENERALIZATA
y1
yj
J-1y
11v
11v 11w
......
z
jiv
J-1,Iv
JIv
......
1
K
o
o
o
1
k
K
wkj
wk1
wK1
wKJ
1z
z = -1
I-1
Iy = -1
J
zi
Figura Retea neurala feedforward cu un strat ascuns
undeE
yj
yj
KXk
fdk f !netky"g
Dar
f inetj yjnetj
E
yj
KXk
dk ok
yjf !netky"
KXk
dk okfnetk
netkyj
KXk
okwkj
deoarece
ok dk okfnetk
netk JXj
wkjyj
Atunci
yj f jnetjKXk
okwkj j J
$vji f jnetjziKXk
okwkj j J i I
CAPITOLUL RETELE NEURALE FEEDFORWARD MULTISTRAT
Ultima relatie este regula delta generalizata Aceasta regula se poate rescrie nfelul urmator
vji vji f jnetjziKXk
okwkj j J i I
sau matriceal
V V yzt
unde
z
zzI
V
v vI
vJ vJI
y
yyJ
In aceasta relatie
yj f jnetjKXk
okwkj
sau
y wtjof
y
unde wj este coloana j din W iar
f y
f y
f yJ
Pentru cazul unipolar folosim f yj yj yj iar pentru cazul bipolar avem
f yj yj
Comparand regulile de actualizare a ponderilor
pentru stratul de iesire W W oyt
pentru stratul ascuns V V yzt
se observa ca diferenta semnicativa este indicele care localizeaza stratul si moduln care se calculeaza vectorul semnalului de eroare
o ho oK
it ok dk okf
oknetk
y hy yJ
it yj wt
jofyjnetj
Se observa ca wtjo este produsul scalar al semnalelor de eroare provenind de la
stratul urmator
Regula delta generalizata propaga eroarea cu cate un strat n urma Vomformaliza n continuare aceasta metoda de instruire pentru o retea neurala multistrat
ALGORITMUL DE INSTRUIRE BACKPROPAGATION
Instruirea unei retele neurale multistrat
prin propagarea n urma a erorii
In general o retea neurala multistrat aplica vectorul de intrare z n vectorul deiesire o astfel
o N !z"
unde N este un operator compus neliniar matricial Pentru reteaua cu un stratascuns avem
o #!W#!Vz""
In acest caz trebuie sa ajustam matricile V si W astfel ncat eroarea
kd ok
sa e minima Algoritmul de instruire a unei retele neurale multistrat prin propagarea n urma a erorii error backpropagation este
Se dau perechile zd zdzP dP unde zi este un vector de I elemente ziI si i P Se determina marimeastratului ascuns Acesta va avea iesirile y unde y este un vectorde J elemente iar yJ Iesirile o din retea sunt vectori de Kelemente
Se aleg si Emax Se initializeaza matricea W de KJsi matricea V de J I elemente cu valori aleatoare mici Seinitializeaza p q si E
Se initializeazaz zp d dp
yj fvtjz pentru j J
unde vj este un vector coloana reprezentand linia j din V
ok fwtky pentru k K
unde wk este un vector coloana reprezentand linia k din W
Se calculeaza eroarea patratica cumulata
E E
dk ok
k K
Se calculeaza semnalele de eroare pentru cazul bipolar
ok
dk ok ok k K
yj
yj
KXk
okwkj j J
CAPITOLUL RETELE NEURALE FEEDFORWARD MULTISTRAT
respectiv pentru cazul unipolar
ok dk ok okok k K
yj yj yjKXk
okwkj j J
Se ajusteaza ponderile stratului de iesire
wkj wkj okyj k K j J
Se ajusteaza ponderile stratului ascuns
vji vji yjzi j J i I
if p P then p p q q go to
if E Emax then E p go to else sa terminat instruirea write W V q E
In algoritmul de instruire prin propagarea n urma a erorii n loc de
$wnkj okyj
$vnji yjzi
putem lua$wn
kj okyj $wnkj
$vnji yjzi $vnji
unde este o constanta numita momentum Prin regula delta nu ne deplasamde fapt n directia gradientului negativ al erorii deoarece ponderile se modica laecare pas Pot aparea oscilatii daca este mare Daca este mic oscilatiile suntneglijabile dar rata nvatarii este prea mica Termenul n care apare ltreazaoscilatiile De obicei se ia si se poate mari Daca ajungem laacelasi rezultat dar trebuie sa folosim o valoare mai mica pentru Instruireapoate dura nsa mai mult
Algoritmul de instruire prin propagarea n urma a erorii face o serie de deplasari n sensul gradientilor negativi ai valorilor individuale pe care le ia Epadica pentru un pattern si nu n sensul gradientului negativ al lui E Acestlucru se ntampla deoarece nu este innit de mic Din acest motiv n anumitecazuri dupa citirea lui zp se poate ca E sa creasca Eroarea referitoare doar lazp scade nsa sau ramane zero
In general functia de activare bipolara duce la rezultate mai bune decatfunctia unipolara
In cazul discret intrarea xa este ceruta de teorema perceptronului permitand crearea de hiperplane de separatie care nu trec prin origine La regula delta
FACTORI AI INVAT ARII
generalizata intrarea xa este recomandata nu de o teorema ci de ideea obtineriiunei aproximari mai %exibile
Eroarea cumulata este
E
PXp
KXk
dpk opk
Aceasta eroare poate foarte mare daca P si K sunt mari De aceea este maiadecvat sa folosim
Em
PK
vuut PXp
KXk
dpk opk
adica eroarea medie normalizataAtunci cand reteaua este instruita ca si clasicator ne intereseaza doar eroarea
de decizie
Ed Ner
PK
unde Ner este numarul total de erori de clasicare De obicei iesirile dorite sunt cu exceptia uneia care este si corespunde clasei din care face parte patternul respectiv O retea multistrat poate transformata ntrun clasicator dupainstruire prin nlocuirea perceptronilor de tip continuu cu perceptroni discreti
Clasicarea este o forma importanta a calculului neural nsa ea limiteazapotentialul de calcul al unei retele deoarece foloseste raspunsul binar O reteamultistrat poate utilizata si pentru aproximarea functiilor
Factori ai nvatarii
Algoritmul de instruire prin propagarea n urma a erorii poate interpretat cao problema de optimizare se minimizeaza eroarea medie cumulata Em mergandpe directia gradientului negativ
O dicultate tipica ar ca prin acest algoritm se poate sa obtinem doar unminim local pentru functia eroare Prin faptul ca impunem o valoare minimaacceptabila pentru Em putem controla acest lucru Se poate nsa sa nu avem oconvergenta a algoritmului daca ne ndreptam spre un minim local n loc de ane ndrepta spre un minim global Este de fapt un algoritm de tip greedy
Totusi problema minimelor locale nu este o problema majora a acestui algoritm Aceasta deoarece algoritmul are o natura stohastica exista o anumitarandomizare n instruire Cu cat reteaua este mai mare cu atat mai bine vafunctiona instruirea Natura stohastica este data atat de ponderile initiale catsi de patternurile de instruire Chiar cand patternurile de instruire au o naturadeterminista adaugarea unui zgomot cu medie zero poate duce al mbunatatireaecientei instruirii
Instruirea functioneaza cel mai bine n conditii de randomizare De aceeaponderile initiale se aleg cu valori aleatoare iar patternurile de instruire estebine sa e ntro secventa aleatoare
CAPITOLUL RETELE NEURALE FEEDFORWARD MULTISTRAT
Sa studiem acum efectul lui asupra lui f net g Avem
f net enet
enet
pentru functia de activare continua bipolara
λ=2λ=1
λ=0,5
f’(net, )λ
net
Figura Efectul lui asupra lui f net
Deoarece ponderile sunt ajustate proportional cu f net nseamna ca ponderile corespunzatoare neuronilor pentru care net se modica cel mai multPonderile neuronilor cu raspunsuri incerte sunt cele mai afectate Deoarece semnalele de eroare ok si yj sunt de asemenea proportionale cu f net rezulta cacomponentele erorii care se propaga n urma sunt mari doar pentru neuronii curaspunsuri incerte
Se observa ca pentru o constanta de nvatare xata ajustarea ponderiloreste proportionala cu Folosirea functiilor de activare cu valoare mare pentru are acelasi efect cu utilizarea unei constante de nvatare mari De aceea esterecomandabil sa pastram si sa controlam viteza de nvatare doar prin
Valoarea optima pentru constanta de nvatare depinde de problema de rezolvat O valoare mare pentru duce al viteza mai mare de nvatare dar se poateca astfel sa trecem de solutie O valoare mai mica pentru duce la o ranarepasi mai mici care nsa nseamna si pasi mai multi deci timp de procesare maindelungat In concluzie trebuie ales n mod experimental pentru ecare problema Cel mai bine se porneste cu avand valoare mica si se ncearca marireaacestui parametru pentru a mari viteza algoritmului Sa observat ca n generalvalorile pentru sunt ntre si
Una dintre cele mai importante probleme este alegerea arhitecturii retelei Sapresupunem ca avem un singur strat ascuns de J neuroni ca stratul de iesire areK neuroni si ca avem I noduri de intrare n retea Evident I este dependent deproblema de rezolvat deci l consideram xat Cum i alegem pe J si pe K
Daca reteaua functioneaza ca un clasicator K poate egal cu numarul declase Dar K poate considerat si logC unde C este numarul claselor dacafolosim o reprezentare binara a claselor De exemplu pentru neuroni de iesireputem avea clasele corespunzatoare iesirilor Numarul
FACTORI AI INVAT ARII
de neuroni de iesire pentru un clasicator cu C clase poate deci un ntreg ntrelog C si C Pe de alta parte comprimarea stratului de iesire sub C neuronipoate afecta perioada de instruire si robustetea retelei nale De aceea n cazulunui clasicator se ia de obicei K C
Alegerea lui J este nca o problema n studiu Retelele cu un singur stratascuns pot forma regiuni arbitrare de decizie pentru patternuri ndimensionaleSa presupunem ca avem o colectie de patternuri ndimensionale liniar separabilen M regiuni disjuncte apartinand ecare la una dintre cele R clase R M Evident trebuie ca numarul de patternuri de instruire P sa e mai mare saucel mult egal cu M
Cu cat PM este mai mare cu atat instruirea este mai na Mirchandini siCao au aratat care este numarul maxim de regiuni liniar separabile folosind Jneuroni
nXk
Jk
unde
Jk
pentru k J
2
5
6
1
4
7
3
2-clasa 11,3,5,7-clasa 24,6-clasa 3
Figura Regiuni disjuncte care apartin la trei clase
In exemplul nostru g avem n si M Deci
J
J
J
J
J
De aici rezulta o estimare pentru marimea stratului ascuns J Daca avemn J atunci numarul maxim de regiuni este
J
J
JJ
J
si de aici l obtimem pe J
Mirchandini G W Cao On Hidden Nodes in Neural Nets IEEE Trans Circuits andSystems
CAPITOLUL RETELE NEURALE FEEDFORWARD MULTISTRAT
Retele feedforward multistrat folosite
ca aproximatori universali
Ne propunem sa aproximam functia continua hx cu functia treapta Hw xg
x
H(w,x)h(x)
H(w,x)
2h
h1
0 1 2
∆ x
h(x)
bpxxxa
Figura Aproximarea functiei hx cu functia treapta Hw x
Presupunem ca se cunosc P esantioane adica valorile functiei hx n punctelex x xP Presupunem ca
xi xi $x b a
P i P
Denim functia
x
sgnx
pentru x nedenit pentru x pentru x
Scriem atunci
Hw x PXi
hi!x xi
$x
x xi $x
"
unde hi hxi
APROXIMATORI UNIVERSALI
Putem scrie
x xi
$x
x xi $x
sgn
x xi
$x
sgn
x xi $x
Acest termen este o fereastra de naltime unitara si latime $x g
x ix i −∆ x___________
2x i
x
1 -
0 +∆ x___________
2
perceptroni de tip discretimplementare cu
implementare cuperceptroni de tip continuu
Figura Fereastra de naltime unitara si latime x
Fereastra se poate implementa ca n gura
+
+
+
xi−∆x____
2
+∆ x____2
x
-1
1
-1
1-1
1/2
-1/2
o
comparator1
comparator2
Figura Retea neurala care implementeaza fereastra de naltime unitara si latime x
O retea cu P perceptroni discreti poate implementa functia Hw x Pentruun termen reteaua se poate descrie ca n gura
In general o functie hx unde x este un vector poate aproximata printroretea neurala cu un singur strat ascuns In ce masura reteaua este instruibila depilda prin regula delta generalizata ramane o problema deschisa
Fara a demonstra vom mentiona doua importante proprietati
O retea feedforward cu un singur strat ascuns poate aproxima oricat debine orice functie neliniara continua
O retea feedforward cu un singur strat ascuns poate implementa o functiebooleana arbitrara
CAPITOLUL RETELE NEURALE FEEDFORWARD MULTISTRAT
+
+
+i
_______x + x∆2
i_______x - x∆
2 +
+
+
(a) (b)
1
1/2
-1/2
o
1
-1
x
comparator2
comparator1
x
-1
o
2
1
Figura Implementare folosind a perceptroni de tip discret si b perceptroni de tipcontinuu cu cat este mai mare cu atat mai mult forma ferestrei se apropie de cea rectangulara
Teorema lui Kolmogorov si retelele neurale
In loc de a aproxima o functie continua ne punem acum problema reprezentariiei exacte printro retea neurala
In David Hilbert a formulat urmatoarea ipoteza o functie continua demai multe variabile nu este n mod necesar decompozabila ntro suprapunere defunctii continue de un numar mai mic de variabile Aceasta presupunere a fostcontrazisa n de Kolmogorov printro teorema a carei aplicatii au aparutabia acum n contextul retelelor neurale
Teorema lui Kolmogorov arma ca orice functie f continua denita pe un cubndimensional este reprezentabila astfel
fx xn nXq
q
nXp
pqxp
A
unde q q n si pq p n sunt functii continue de o singuravariabila
... ...
1
2
2n+1
1
2
m
...
x1
x2
xn
y1
y
y
2
m
Figura Retea neurala care implementeaza o functie oarecare f
Interpretarea neurala este urmatoarea
T HechtNielsen Fie f ! "n n m fx yo functie continua oarecare Atunci f poate implementata exact
APLICAT II
de catre o retea neurala feedforward cu un singur strat ascuns avandarhitectura din gura
Denim acum functiile de activare pentru aceasta arhitectura
Fie zk iesirea din neuronul ascuns k Avem
zk nX
j
k xj k k
unde este o constanta reala este o functie monoton crescatoareindependenta de f este o constanta rationala unde este o constanta pozitiva arbitrar aleasa
Iesirile yi se calculeaza astfel
yi nXk
gizk
unde functiile gi i m sunt reale si continue depinzand de fsi
Aceasta teorema nu ne spune cum sa obtinem functia sau constanta Este o teorema existentiala Ea se poate extinde pentru orice functii continuepe un compact multime nchisa si marginita Acest rezultat a fost primul pasCybenco a aratat ca orice functie continua denita pe un compact dinn poate aproximata oricat de bine de o retea feedforward cun un singur stratascuns folosind functii de activare sigmoidale Uneori se pot obtine aproximarimai compacte folosind mai multe straturi ascunse
Sprecher a gasit algoritmul de constructie a functiei din teorema luiHechtNielsen astfel ncat este monoton crescatoare independent de f si n
Aplicatii
Retelele feedforward multistrat pot aplicate cu succes la multe probleme declasicare si de recunoastere Pentru aceasta nu este necesar sa e cunoscutun model formal pentru clasicare sau recunoastere Este sucient sa utilizamo arhitectura potrivita si o multime sucienta de patternuri de instruire apoiaplicam algoritmul de instruire prin propagarean urma a erorii Solutia se obtinedeci prin experimentare si simulare nu printro abordare formala riguroasa
Cu toate ca nu este foarte clar ce constituie o multime adecvata de patternuri de instruire sunt raportate o serie de aplicatii n recunoasterea vorbirii asemnalelor sonore etc
Sa notam ca iesirile cu mai mult de doua valori pentru un neuron pot modelaincertitudinea Modul conventional de a construi un sistem expert necesita unexpert uman care sa formuleze regulile cu ajutorul carora sa e analizate datelede intrare Numarul acestor reguli poate foarte mare Pe de alta parte de
CAPITOLUL RETELE NEURALE FEEDFORWARD MULTISTRAT
1
2
I
1
2
J
1
K... ...
...simptome neuroni
ascunsiboli
Figura Sistem expert conexionist pentru diagnoza medicala
multe ori este dicil de formulat aceste reguli Deoarece retelele neurale pot instruite fara ca ele sa ncapsuleze cunostintele n reguli sa vedem n ce masuraele pot aplicate ca o alternativa la sistmele expert conventionale
Retelele neurale pentru diagnosticare defectoscopie predictie recunoastereaformelor rezolva n esenta probleme de clasicare asociere si generalizare Acesteretele pot achizitiona cunostinte fara sa extraga reguli de tip IFTHEN de la unexpert uman Dupa instruire ele pot functiona ca sisteme expert Ceea ceva lipsi este explicarea un sistem expert neural nu poate explica utilizatorului rationamentul deciziilor luate Numim aceste sistem expert sisteme expertconexioniste
Atunci cand o retea instruita este testata cu un pattern substantial diferitde cele folosite pentru instruire raspunsul obtinut se presupune ca rezolva oproblema de generalizare Exemple tipice de generalizare sunt diagnosticarea sipredictia Figura descrie functionarea unui sistem expert conexionist pentrudiagnostic medical
Intrun sistem expert conventional o dicultate este formularea si introducerea regulilor de catre expertul uman Sistemul expert conexionist poate nvatadin diagnosticul curent care a fost acceptat O atentie speciala trebuie dataalegerii lui J Daca J este prea mic apar dicultati de aplicare a celor I intrarin cele K iesiri Daca J este prea mare creste inutil timpul de instruire si dediagnosticare si ponderile sunt dicil de estimat corect
O serie de aplicatii folosesc patternuri temporale care se obtin prin esantionarea unor semnale de tip continuu g
Exemple
Exemplu de construire a unui clasicator multistrat pentrupatternuri liniar neseparabile
Fie functia de decizie XOR
EXEMPLE
∆ ∆
x0x1 x2 xn
...
...
x(t)∆ ...
strat de iesire
x(t- )∆ x(t- ) x(t- )2∆ n∆
strat ascuns
Figura Retea neurala cu ntarziere cu un singur canal de achizitie
x x iesirea
Punctele avand coordonatele x si x de mai sus sunt notate cu A B C D
2
1 o2
o
r3
x
1/2
1B
C
r
r
x
o=[-1 1]
1
2
A
clasa 1clasa 2
2
1 1
D
A,D
C
Bo = 0
(a) (b)
o=[1 -1]t
t
o=[-1 -1]t
3
1
- -1
Figura Suprafete de decizie n problema XOR
Alegem
x x
x x
CAPITOLUL RETELE NEURALE FEEDFORWARD MULTISTRAT
n mod arbitrar g a Pentru aceste linii vectorii normali unitari sunt
r p
h
itr
p
h
it
+
+
+
x1
-1
1
x2
-2
1/2
1/2
-1
1
11
1
-1
-1o2
o1
o3comparator3
comparator1
comparator2
Figura Reteaua neurala care implementeaza problema XOR
Reteaua neurala din gura implementeaza aceste suprafete de decizieprin intermediul stratului ascuns Pentru acestea avem
o sgnx x
o sgn
x x
Arbitrar se alege linia de decizie g b
o o
si atuncio sgno o
Reteaua neurala implementata aici clasica patternurile A B C D astfel
Simbol x x o o o o o clasaA B C D
Exemplu de instruire prin propagarea n urma a erorii
Presupunem ca avem o retea cu trei neuroni cu un strat ascuns g Neuronii si sunt ctivi si ne simplica notatia Presupunem ca ponderile
au fost initializate si ca o si o sunt calculate conform unui pattern de intrareCalculam o o o si apoi
d oo o
f netX
k
kwk o ow
EXEMPLE
1
2
4
5
0
1
2o
o3
0o = -1
o5
Figura Retea neurala multistrat Functiile de activare sunt unipolare
o ow
$w $w o
$w o
Apoi$w $w $w o $w o$w o $w o
Putem astfel sa construim prin instruire un clasicator multistrat pentru patternurile liniar neseparabile din exemplul precedent problema XOR cu doua variabile Denim matricile
W hw w w
iV
w w w
w w w
Pentru se ajunge dupa instruire la
W h
i
V
Dorim ca reteaua sa functioneze ca un clasicator cu iesiri binare Inlocuimneuronii de tip continuu cu neuroni binari si pastram ponderile pe care leamcalculat pentru cazul continuu
Exemplu de alegere a marimii stratului ascuns
In gura avem un clasicator pentru problema XOR cu n Presupunand J n obtinem pentru J numarul maxim de regiuni
CAPITOLUL RETELE NEURALE FEEDFORWARD MULTISTRAT
x2
1x
0
1
2
3
-1/2
1
1
1
1
-3/2
-1/2
1
-1
-1
x
x
o1
2
Figura Problema XOR pentru n
x1
-x 2
x3
1
1
0
21
1/2
3/2
1
-2
11
1
-1
1
2
x
x
o
Figura Problema XOR pentru n
Sa consideram acum aceeasi problema pentru n g unde x xx
Luand n si M obtinem J Am rezolvat deci aceeasi problemadar cu mai putini neuroni
Exercitii
Patternurile liniar neseparabile
x
x
x
x
x
x
x
x
x
x
EXERCIT II
trebuie clasicate astfel
clasa xxxx xclasa restul
Elaborati o retea neurala de perceptroni discreti cu un strat ascuns care safunctioneze ca un clasicator Nu instruiti reteaua de neuroni ci folositimetoda din primul exemplu
Fie prototipurile n forma extinsa
x
x
x
x
x
x
x
x
O masina multistrat cu doi perceptroni discreti bipolari n stratul ascunssi un singur perceptron discret bipolar de iesire trebuie sa clasice prototipurile astfel ncat
clasa xxxclasa restul
a Vericati daca vectorii pondere
w
w
asigura separarea liniara a patternurilor primul strat
b Completati elaborarea clasicatorului folosind rezultatul anterior sicalculati ponderile perceptronului de iesire
Demonstrati ca pentru n numarul J al neuronilor stratului ascunsnecesari pentru partitionarea prin hiperplane n M regiuni este
J
pM
Fie problema clasicarii n doua clase a unor patternuri planare n rezolvata printro arhitectura de retea neurala cu J si K Determinati o margine inferioara pentru P care este numarul vectorilor deinstruire Indicatie Acest numar este egal cu numarul regiunilor separabileM
CAPITOLUL RETELE NEURALE FEEDFORWARD MULTISTRAT
1
-2
3
2
0
-1
1
0
-2
1
3
-1
1
1o
o 2
z1
2z
-1
Figura Retea neurala multistrat pentru exercitiul
Reteaua din gura daca a fost instruita corect trebuie sa raspundacu o si o la patternul de intrare
z
z
Ponderile au fost initializate ca n gura Se alege iar neuroniifolosesc functia de activare
fnet
enet
Analizati un pas al algoritmului de instruire prin propagarea n urma aerorii realizand urmatoarele operatii
a Gasiti matricile ponderilor V W
b Calculati netj y netk o
c Calculati f netj si f netk
d Calculati o si y
e Calculati $V si $W
f Gasiti noile valori pentru V si W
C Implementati algoritmul de instruire prin propagarea n urma a eroriipentru I J K si selectabile si un singur strat ascuns Folositi perceptronibipolari de tip continuu
C Elaborati clasicatorul pentru literele A I si O denite ca n gura cu ajutorul programului de la exercitiul Presupuneti doua tipuride reprezentari interne
EXERCIT II
Figura Literele A I si O pentru exercitiul
a n P I J K si
clasa A x ! "t
clasa I x ! "t
clasa O x ! "t
b n P I J K si
clasa A O x ! "t
clasa A I O x ! "t
clasa A O x ! "t
clasa A O x ! "t
clasa A O x ! "t
clasa I x ! "t
clasa A O x ! "t
clasa A O x ! "t
clasa A I x ! "t
clasa A x ! "t
clasa A O x ! "t
clasa A O x ! "t
clasa I O x ! "t
clasa O x ! "t
clasa A O x ! "t
Incercati diferite valori pentru Evaluati numarul de cicluri de instruirepentru ambele arhitecturi Iesirile trebuie sa e
pentru A ! "pentru I ! "pentru O ! "
C Elaborati o retea pentru patternurile liniar neseparabile din gura folosind programul scris la exercitiul
a Selectati un numar potrivit de neuroni n stratul ascuns Folositi K
CAPITOLUL RETELE NEURALE FEEDFORWARD MULTISTRAT
||| |
-
-
-
-
0 1/4 1/2 3/4 1
1
3/4
1/2
1/4
x1
x 2
clasa 3
clasa 2
clasa 1
Figura Patternuri neseparabile pentru exercitiul
astfel ncat iesirile sa e
pentru clasa ! "t
pentru clasa ! "t
pentru clasa ! "t
b Instruiti reteaua pentru vectorii din gura si diferite valori pentru
C Fie hx sin x x si aproximarea ei printro reteaneurala ox Construiti o retea de perceptroni bipolari de tip continuu cuun strat ascuns care aproximeaza hx prin ox
C Realizati un sistem expert conexionist care sa va ajute la planicareatimpului vostru liber In functie de factorii de circumstanta sistemul expertva va spune ce activitate sa alegelti Activitatile posibile sunt
a vizita
b sport
c lm
d somn
e cumparaturi
Factorii care determina alegerea activitatii sunt
EXERCIT II
a resursele nanciare disponibile
b starea vremii
c durata de timp care poate afectata
d existenta unui prieten care poate vizitat
e starea de oboseala
f necesitatea de a face cumparaturi
g ultima activitate facuta n timpul liber
h existenta unui lm bun
Sistemul va realizat ca o retea de perceptroni Propuneti o secventa de de perechi de forma activitati factori de decizie ca secventa de instruirecu cel putin perechi pentru ecare activitate din lista Codicati intrarileca variabile mixte continue si binare din intervalul ! " si atribuiti intrarilor care nu au importanta Instruiti sistemul si apoi testatil cudate de intrare diferite de cele folosite pentru instruire
C Scrieti un program care implementeaza o retea de perceptroni capabilasa clasice cifrele n categoriile par impar Pentru instruirea reteleifolositi o secventa de instruire n care caracterele sunt codicate ca matricibinare de pixeli Dupa instruire utilizati reteaua pentru clasicareapatternurilor perturbate
CAPITOLUL RETELE NEURALE FEEDFORWARD MULTISTRAT
Capitolul
Retele neurale feedback
monostrat
Retelele neurale pe care le vom studia n acest capitol sunt sisteme dinamice careevolueaza n timp ntrun spatiu discret sau continuu Evolutia unei astfel deretele este asa cum vom vedea disipativ n sensul ca are tendinta de scadere aenergiei Tranzitia ntro retea neurala dinamica este catre o solutie asimptoticstabila care este un minim local al unei functii a energiei disipate
Retelele discutaten acest capitol se bazeazan special pe lucrarile lui Hopeld
Sa mentionam cateva concepte fundamentale ale sistemelor dinamiceAm vazut ca un atractor este o stare catre care sistemul evolueaza n timp
pornind de la anumite conditii initiale Multimea acestor conditii formeaza bazinul de atractie al atractorului Daca atractorul este un punct unic n spatiulstarilor atunci el este un punct x Un atractor poate nsa consta si dintrosecventa de stari caz n care se numeste ciclu limita
O retea de acest tip este capabila sa tolereze anumite distorsiuni ale vectorilorde initializare si sa le elimine
Fundamentele matematice ale retelelor
Hopeld cu timp discret
Acest tip de retele au proprietati foarte interesante Utilizand tehnologii microelectronice si optoelectronice sau fabricat microsisteme care se bazeaza pe acesteretele
Conform postulatelor lui Hopeld o retea feedback monostrat este de formacelei din gura
Aceasta retea consta din n neuroni cu pragurile TTn Pentru ecare neuron se calculeaza
neti nX
jj i
wijvj ii Ti pentru i n
CAPITOLUL RETELE NEURALE FEEDBACK MONOSTRAT
1
2
n
v1
v2
vnvn
v2
v1
...
...
-1
-1
T
T2
T1
n
w2112w
wn1
w2n
n2w
i1
i2
in-1
Figura Retea feedback monostrat
unde ii este intrarea externa a neuronului i Vectorial putem scrie
neti wti ii Ti pentru i n
unde
wi
wi
win
v
vvn
Putem de asemenea sa rescriem relatia de mai sus astfel
net Wv iT
unde
net
net
netn
i
iin
T
TTn
W
wt
wt
n
w wn
w wn
wn wn
In acest model matricea W este simetricaSa presupunem pentru moment ca functia de activare este sgn Atunci
vi ramane neschimbat daca neti vi daca neti v daca neti
Adica
vki sgnwt
ivk ii Ti i n k
RETELE HOPFIELD CU TIMP DISCRET
Regula se aplica asincron adica pentru cate o singura valoare a lui i la un momentdat Se porneste de la v Pentru k avem n actualizari Pentru nceput seactualizeaza vi unde numarul neuronului i este aleator Pentru ceilalti neuroniiesirile raman aceleasi Se calculeaza apoi vj j i j aleator etc pana se completeaza v Apoi se calculeaza v etc Acest algoritm particular de actualizare aponderilor este cunoscut ca o recursivitate stohastica asincrona a retelelor Hopeld Trebuie sa facem distinctie ntre algoritmul asincron si cel sincron paraleldescris de formula
vk #!Wvk iT" k
Conform acestei formule toti neuronii si pot modica simultan iesirile In algoritmul asincron dupa ce se calculeaza vk
i aceasta valoare ia locul lui vkiparticipand la calculul celorlalte componente din vk Procesul continua panase calculeaza toate valorile din vk Pentru ecare k avem n actualizari aleatoare individuale la nivel de neuron Algoritmul se opreste candvk vk
Reprezentand vectorul de iesire n f gn acesta se misca dintrun varf alcubului ndimensional ntrun varf adiacent pana cand se stabilizeaza ntrunuldin varfuri Pozitia nala a lui vk pentru k este determinata de ponderileinitiale pragurile initiale intrari v dar si de ordinea tranzitiilor
Urmatoarele probleme sunt deschise daca sistemul are atractori si daca sistemul se stabilizeaza
Pentru a evalua proprietatea de stabilitate vom deni functia energiei computationale
E
vtWv itv Ttv
care este o forma patratica Adica
E
nXiij
nXj
wijvivj nXi
iivi nXi
Tivi
Fie vki vki $vi adica presupunem ca nodul i sa modicat la momentul k
Modicarea este asincrona deci se refera doar la neuronul i Calculam
rE Wv it Tt
n care am tinut cont ca W este simetrica Incrementul energiei este
$E rEt$v
unde
$v
$vi
CAPITOLUL RETELE NEURALE FEEDBACK MONOSTRAT
Atunci
$E wtiv ii Ti$vi
$E nXj
wijvj ii Ti
A$vi pentru i j
$E neti$viPentru functia de activare sgn din relatia avem
daca neti $vi
daca neti $vi
daca net $vi
Adica avem mereu neti$vi si $E Aceasta nseamna ca energia reteleipoate doar sa scada sau sa ramana constanta Presupunand ca neti atunci$E daca si numai daca $vi Cu alte cuvinte E scade strict daca sinumai daca $vi si E ramane constanta daca si numai daca $vi Dacaneti atunci $vi deci $E
Pentru o stare stabila adica pentru un atractor n cazul unei scheme asincroneavem
vk limk
sgnWvk iT
Am aratat ca energia este necrescatoare Ea este n mod evident si marginitaceea ce nseamna ca E si atinge minimul
Daca algoritmul de actualizare a ponderilor este sincron se poate ntamplaca algoritmul sa cicleze ntre doua patternuri complementare Acest lucru esteilustrat de exemplul de mai jos
W
v
h
it
v #
sgnsgn
v
etc
Vom vedea ca patternurile complementare corespund unor nivele identice aleenergiei
Fundamentele matematice ale retelelor
Hopeld cu timp continuu
Retelele feedback monostrat cu timp continuu se numesc si retele de tip gradientO retea de tip gradient converge catre unul dintre minimele stabile din spatiul
RETELE HOPFIELD CU TIMP CONTINUU
starilor Evolutia sistemului este n directia generala a gradientului negativ alfunctiei de energie Cautarea unui minim energetic corespunde cautarii uneisolutii pentru o problema de optimizare Retelele de tip gradient sunt exemplede sisteme neliniare dinamice si asimptotic stabile
...1
1g
u1 u2 un
_ __
i1 i2 in
w
w
...
C
2g
C
g
v1 v2 vn
v1 v2 vn
1n w2n
wn1
n2
n
n
2C
Figura Retea neurala de tip gradient care foloseste componente electrice
Vom exemplica un model de retea neurala de tip gradient prin folosirea unorcomponente electrice g Pentru a pastra notatia originala a lui Hopeldtensiunile ui sunt de fapt neti Ponderile wij sunt conductante Iesirile inversate'vi sunt folosite pentru a modela conductante negative adica inhibitorii Avem
wij wji si wii pentru i j n
Neuronii pot interpretati ca amplicatori curentul prin conductanta gi esteamplicat de neuronul i g Ci i n sunt capacitati
Folosind acest model de neuron putem scrie legea lui Kirchho
ii nX
jj i
wijvj ui
BB nX
jj i
wij gi
CCA Ci
duidt
Partea stanga a acestei ecuatii reprezinta curentul total care intra n condensatorul de capacitate Ci Notam conductanta totala care este conectata la in
CAPITOLUL RETELE NEURALE FEEDBACK MONOSTRAT
...
u i iv
inw
i1
i11 i
(v -u )w in
v
wv1
n i i-g u
ii
_idudtiC
f(u )ig
i Ci
in
(v -u )w
Figura Modelul unui neuron
trarea neuronului i cu
Gi nX
j
wij gi
Atunci ecuatia se poate scrie
ii nX
j
wijvj uiGi Ciduidt
Fie matricile
C diaghC C Cn
i G diag
hG G Gn
i
ut
ut
unt
vt
vt
vnt
i
iin
unde ut este vectorul starilor iar vt reprezinta vectorul iesirilor Avem
C dutdt
WvtGut i ecuatia starilor
vt fut ecuatia iesirilor
Sa studiem stabilitatea sistemului descris de aceste ecuatii Functia energieicare ne permite sa analizam modelul continuu este
Ev
vtWv itv
nXi
Gi
Z vi
fi zdz
unde fi z este inversa functiei de activare fi Aceasta formula contine termenulTtv din functia energiei discrete
vtWv itv Ttv
RETELE HOPFIELD CU TIMP CONTINUU
n termenul al doilea iar ultimul termen este specic cazului continuu si disparepentru Avem
d
dvi
Gi
Z vi
fi zdz
Giui
rEv Wv iGu
Atunci
dE!vt"
dt rEtv (v Wv iGut (v
Cdu
dt
tdv
dt
Xi
Cidfi vi
dvi
dvidt
deoareceduidt
dfi vi
dvi
dvidt
||
u=f (v)
-1 +1
-1
Figura Inversa functiei de activare
In gura functia fi este monoton crescatoare decidfi
vi
dvi Atunci
dE
dt pentru
dv
dt si
dE
dt pentru
dv
dt
Am gasit o functie Liapunov a sistemului deci sistemul este asimptotic stabilFunctia E este marginita n spatiul iesirilor deci tinde catre un minim
Modicarile n timp nu sunt exact pe directia gradientului functiei de energieadica pe directia scaderii cat mai rapide a energiei
Reteaua de tip gradient n cazul n care spatiul iesirilor este marginit converge catre unul dintre minimele lui Ev deci catre o stare stabila Acest minimeste n interiorul hipercubului iesirilor Daca atunci minimul este ntrunvarf al hipercubului
CAPITOLUL RETELE NEURALE FEEDBACK MONOSTRAT
Faptul ca sistemul este asimptotic stabil n spatiul iesirilor este echivalent cufaptul ca sistemul este asimptotic stabil n spatiul starilor u Aceasta deoareceecuatia
vt fut
este monotona
Aplicatie problema comis voiajorului
Vom da o solutie a problemei comisvoiajorului pentru n orase folosind retele detip gradient Hopeld Tank Problema este NPcompleta
Reprezentand problema sub forma unui graf cu n varfuri trebuie sa gasimciclul de lungime minima care trece prin toate varfurile Numarul de astfel decicluri care trebuie evaluate este n
Se poate elabora o retea neurala de n neuroni unipolari de tip continuu caresa rezolve aceasta problema Aranjam neuronii ntrun tablou de nn elementeTabloul este reprezentat n gura n care Poz reprezinta pozitia n ciclu
B
AD
C
EPoz. 1
Poz. 2
Poz. 3
Poz. 4Poz. 5
Figura Reprezentarea cu ajutorul unui graf a problemei comisvoiajorului
Fie orasele A B E si e acest ciclu Il reprezentam prin tabelul undevxi este iesirea neuronului corespunzator orasului x si pozitiei i n ciclu
orasul
A B C D E
pozitia
Tabelul Reprezentarea ciclului din gura
Pentru un ciclu care viziteaza toate varfurile tabloul trebuie sa aiba un singur pe ecare coloana si un singur pe ecare linie Pozitionam neuronii n acesttablou de nn elemente n ecare element punand un neuron Vom avea exact n
APLICAT IE PROBLEMA COMISVOIAJORULUI
neuroni activi pentru solutie Presupunem pentru o valoare mare deci energiaeste trunchiata
E
nXxi
nXyj
wxiyjvxivyj nX
xi
ixivxi
unde wxiyj este ponderea de la neuronul yj la neuronul xi Observam ca domeniulvectorilor v unde se minimizeaza functia E este format din cele n
varfuri ale
hipercubului ndimensional ! "Scopul optimizarii este selectarea circuitelor minime Trebuie sa avem obli
gatoriu cate un neuron activ pe linie si pe coloana In plus trebuie sa eliminamsolutiile triviale pentru care avem n tablou linii sau coloane nule Sa exprimamaceste conditii de optimizare folosind patru functii de energie ecare ndeplinindun rol separat
E AnX
x
nXi
Xjj i
vxivxj
Produsul vxivxj se refera la acelasi oras x Relatia
nXi
nXjj i
vxivxj
se ndeplineste daca cel mult un vxi iar restul sunt adica daca orasul xapare cel mult o singura data pe circuit E nseamna ca ecare oras estevizitat cel mult o data Daca E atunci exista orase vizitate de mai multeori
E BnXi
nXx
nXyy x
vxivyi
E nseamna ca ecare pozitie din ciclu are cel mult un singur oras asociat eiDaca E atunci exista mai multe orase vizitate simultan Observam ca E
si E sunt de asemenea nule pentru solutii triviale n care avem linii sau coloanen tablou care nu contin nici un De aceea mai introducem
E C
nX
x
nXi
vxi n
pentru a ne asigura ca nu avem o solutie triviala deci o solutie cu mai putinde n de n tablou E nseamna ca avem exact n de n tablou DeciE E E are minimul pentru toate matricile care au exact un pe ecarelinie si pe ecare coloana Dorim sa minimizam lungimea ciclului Notam cu dxydistanta dintre x si y si dxy dyx Lungimea ciclului este
nXx
nXy
nXi
dxyvxivyi vyi
CAPITOLUL RETELE NEURALE FEEDBACK MONOSTRAT
dar vom folosi urmatoarea functie de energie
E DnX
x
nXyy x
nXi
dxyvxivyi vyi
unde vxn vx si vx vxnDorim sa minimizam EEE E Prin identicarea termenilor acestei
sume cu cei din E obtinem
wxiyj Axy ij Bij xy C Ddxyji ji
unde ij este simbolul lui Kronecker ij pentru i j ii Constantelepozitive A B C D sunt selectate euristic pentru a construi o suma convenabila atermenilor E E Ele dau ponderea ecaruia dintre acesti termeni Obtinemde asemenea
ixi Cn
Am generat reteaua Mai trebuie acum sa gasim solutia prin simularea functionarii ei
Din formula generala a ecuatiei starilor
Ci
duidt
ii
nXj
wijvj uiGi
obtinem
duxidt
uxi A
nXjj i
vxj BnX
yy x
vyi
C nXx
nXj
vxj n
A D
nXyy x
dxyvyi vyi
unde este o constanta a timpuluiSau luat A B D C n si sa
rezolvat numeric acest sistem de ecuatii Nu se ajunge neaparat la solutia optimaPentru n ) din teste au produs cele mai scurte cicluri din desolutii posibile Pentru valori mari ale lui n apar nsa dicultati
Aceasta duce la ntrebarea fundamentala daca retelele neurale sunt mai adecvate decat calculatoarele clasice pentru rezolvarea problemelor nedeterminist polinomiale
Sa demonstrat Bruck Goodman ca nu exista nici o retea de marimepolinomiala n n care sa rezolve problema comisvoiajorului cu o precizie doritaAceasta atata timp cat NP P
Problema comisvoiajorului ilustreaza utilizarea retelelor Hopeldn problemede optimizare Sau obtinut rezultate n probleme de alocare a resurselor planicarea lucrarilor optimizarea tracului optimizarea conexiunilor n circuiteleintegrate programare liniara si neliniara
EXEMPLE
In concluzie putem spune ca una dintre limitarile retelelor Hopeld este faptulca ajungem de multe ori la un minim local si nu global Aceasta se datoreazaformei complexe a functiei Ev
Una din dicultati este si traducerea problemei de optimizare ntro problemade minimizare a energiei Singurele forme ale functiei de energie care se cunoscsunt cele date de Hopeld Daca este mare se poate lua energia trunchiataDaca intrarile externe sunt nule dispare si al doilea termen Schema de rezolvarea unei probleme de optimizare folosind retele feedback monostrat este cea dingura
punct de echilibrucare este solutie
STOP
se calculeaza W,iE (W,i,v)=E (v)
algoritmul de simularesau se elaboreazase construieste reteaua
reteaua cu conditiise initializeaza
se implementeaza
functia energiei generaleE (W,i,v)
problema de optimizareE (v)
tranzitiile dinamice
initial neutre
Figura Modul de rezolvare a unei probleme de optimizare folosind retele feedback monostrat
Exemple
Retea Hopeld cu timp discret
Fie
W
CAPITOLUL RETELE NEURALE FEEDBACK MONOSTRAT
Presupunem pragurile si intrarile externe zero Calculam
Ev
hv v v v
iW
vvvv
vv v v vv v vv
Calculand expresia pentru toate varfurile hipercubuluih
ith
it
se ajunge la nivelele de energie Tranzitiile au loc pemuchiile hipercubului de la un varf la un alt varf cu energie mai scazuta Minimul
este atins n varfurileh
itsih
it unde avem stari
stabile Tranzitiile au loc asincron De aceea o tranzitie este doar dea lungulunei singure muchii se poate modica cel mult o componenta
Daca tranzitiile au loc sincron atunci ele nu minimizeaza energia si nu tind
catre o stare stabila De exemplu pornind din v h
it ajungem
la
v #hWv
i #
sgnsgnsgnsgn
Tranzitia nu mai este dea lungul unei muchii Se calculeaza ca
v v
deci oscileaza ntre v si v In v si v energia este Spre deosebire detranzitiile sincrone tranzitiile asincrone duc ntotdeauna la unul dintre minimeleenergetice Daca la tranzitiile asincrone pornim de la
h
isi scadem
energia atunci evolutia se poate desfasura ca n gura Minimul la care ajungem depinde de ordinea de actualizare a componentelor
Retea de tip gradient
Vom elabora un convertor AD Tank Hopeld pe biti Presupunem cafui este continua unipolara
Se poate arata ca o functie energiei totale aleasa convenabil poate
E
x
Xi
vii
Xi
ivivi
EXEMPLE
[1 1 1 1]
[-1 -1 -1 1]
[-1 -1 1 1]
[1 1 1 -1]
[-1 1 1 1](E = 2)
(E = 0) (E = 0)
(E = -6)(E = -6)
Figura Variante de evolutie a starilor pentru o serie de tranzitii asincrone
Dorim sa minimizam pe E ceea ce implica minimizarea lui
xP
i vii
care este eroarea de conversie AD unde v v este valoarea zecimala a vec
torului binarhv v
itsi corespunde valorii analogice x Calculand ajungem
la
E
x
Xi
Xjj i
ijvivj Xi
i ix
vi
Pentru x xat x este o constanta deci irelevanta atunci cand minimizam pe
E Expresia energiei n reteaua Hopeld este
Xi
Xj
wijvivjXi
iivi
Ultimul termen dispare deoarece minimele sunt n varfurile hipercubului Prinidenticarea termenilor din cele doua expresii ajungem la
w w i x
i x
Convertorul rezultat este un caz special al unei retele de tip gradient g Avem
Cdudt
x
v u g
Cdudt
x v u g
care sunt ecuatiile starilor De exemplu putem presupune ca folosim o tensiunede referinta avand valoarea de V g
CAPITOLUL RETELE NEURALE FEEDBACK MONOSTRAT
i0i1
1_2x-
1
2x-2
0
1
g
C
g
-2
Ω
-2
Ω
1
1 0
C 0
1v v0
u0u
Figura Convertor AD pe doi biti implementat printro retea de tip gradient
Ecuatiile starilor devin
Cdudt
x
'v u g
Cdudt
x 'v u g
Conditia wij asigura realizabilitatea retelei folosind rezistente de valoare
Rij wij
Inlocuind ponderile si valorile curentilor externi n expresia energiei
obtinem pentru valori mari ale lui
E vv v
v xv v
Reprezentand grac functia E obtinem
Pentru x punctul stationar este punct de minim v v
Pentru x punctul stationar este punct de minim v v
Pentru x punctele stationare sunt punctul de minim dorit v v dar si punctul de minim nedorit v v precum si un punctsa undeva n interiorul patratului v v
In loc sa rezolvam sistemul de ecuatii diferentiale oare nu putem cauta minimele lui E
EXEMPLE
i0i1−+ −+−+
Ω1 Ω21_2Ω 1_
2Ω
1 0
-1V -1VxV
gg1 u1 0u 0
C1 C 0
_v1
_v0
Ω
2 2
Ω
Figura Convertor AD pe doi biti implementat printro retea de tip gradient si care folosesteo tensiune de referinta de V
Din relatia obtinem
rEv
v
x
v x
H rEv
Observam
det H
det H
Matricea H nu este pozitiv sau negativ denita E nu are deci minim sau maximdaca nu consideram alte restrictii Impunem restrictia ca spatiul de iesire sa e
patratul
Atunci minimele lui E sunt situate n varfurile patratului
daca aceste minime exista Se poate demonstra acest lucru pentru Dacav este o solutie pentru rEv si se a%a n interiorul patratului atunci esteun punct sa Rezulta ca pentru a gasi solutia avem doua posibilitati
Rezolvarea numerica a sistemului de ecuatii diferentiale
Simularea retelei printrun program de simulare a circuitelor electronice deexemplu SPICE
CAPITOLUL RETELE NEURALE FEEDBACK MONOSTRAT
-2
Ω
-2
Ω
f1
f2
2 2RC
u
u
v1
v
1 1RC
1
2 2
Figura Reteaua neurala propusa pentru exercitiul
Exercitii
Simulati n SPICE convertorul AD Generalizatil pentru patru biti
Pentru reteaua neurala din gura cu mare gasiti
a Ecuatiile starilor
b Ponderile conductantele W
c Functia energiei Ev trunchiata
d rEv
f1
f2
RC
Ω
1
1
Ω
_
_
1A
1RC
u
u1
1
2
2
2
v1
v2
Figura Reteaua neurala propusa pentru exercitiul
EXERCIT II
Pentru reteaua neurala din gura cu mare gasiti
a Ecuatiile starilor
b Ponderile conductantele W
c Vectorul i al intrarilor externe
d Functia energiei Ev trunchiata
e rEv
Fie o retea neurala cu trei neuroni a carei functie de energie trunchiataeste
Ev v v v vv vv v
Gasiti
a rEv
b rEv
c Minimele maximele si punctele sa ale lui Ev atunci cand nu avemalte restrictii
2
1
3
5-5
5
-15
-5-15
v
v1
2
3v
Figura Reteaua neurala propusa pentru exercitiul
Fie reteaua neurala din gura cu mare Evaluand functia de energietrunchiata gasiti minimele maximele si punctele san ! " Calculatiapoi valorile energiei n toate varfurile cubului
O retea neurala este descrisa de ecuatiile
duidt
Ci
Pnjwijvj uiGi ii
pentru i n
vi fui
Rezolvati numeric acest sistem
CAPITOLUL RETELE NEURALE FEEDBACK MONOSTRAT
Indicatie Alegem de exemplu o metoda foarte simpla cea a lui Euler
uki uki h
Ci
Pnjwijv
kj ukiGi ii
pentru i n
unde h tk tk
vki fuki
Implementati metoda din exercitiul pentru problema convertorului ADpe doi biti si gasiti vt iesirea stabila pentru
C C F g g * x
vi fui
eui i
Testati programul pentru
v ! "t
v ! "t
v ! "t
C Proiectati o memorie Hopeld recurenta autoasociativa care sa memoreze ca prototipuri caracterele A I si O codicate ca matrici binare de pixeli Implementati algoritmul de regasire si simulati convergentaasincrona a memoriei catre ecare din prototipurile memorate folosind capatternuri cheie caracterele A I si O perturbate
Capitolul
Memorii asociative
In capitolul precedent neam concentrat n special pe rezolvarea unor problemede optimizare In acest capitol vom interpreta evolutia unui sistem dinamic cao miscare a unui pattern de intrare catre un alt pattern care este memorat sise numeste prototip sau memorie stocata Retelele neurale din aceasta clasa senumesc memorii asociative
O memorie asociativa ecienta poate stoca un mare numar de patternuri Peparcursul apelului memoria este excitata cu un pattern cheie numit si argumental cautarii care contine o portiune de informatie despre un anumit pattern dintro multime de patternuri memorate Acest prototip anume poate regasit prinasocierea patternului cheie si a informatiei memorate
Sau elaborat mai multe modele de memorii asociative Ne vom concentraasupra retelelor feedback din capitolul precedent dar vom discuta si arhitecturifeedforward de memorie
In general memoriile asociative achizitioneaza informatie a priori Scrierea nmemorie provoaca modicari ale conexiunilor dintre neuroni Nu exista adresetoata informatia din memorie este distribuita spatial n retea
Care sunt cerintele pentru o astfel de memorie Ea trebuie sa aiba o capacitate mare de stocare a prototipurilor Ea trebuie sa e robusta astfel ncat odistrugere locala a structurii sa nu provoace caderea ntregului sistem In plus oastfel de memorie trebuie sa e capabila de a adaugaelimina asociatii pe masurace se modica cerintele de stocare
Memoriile asociative permit de obicei cautarea paralela Scopul cautarii estede a extrage unul sau toate patternurile care se potrivesc cu patternul cheie
Se presupune ca memoria biologica opereaza conform principiilor unei memoriiasociative nu exista locatii de memorie cu adrese stocarea este distribuita ntroretea densa de neuroni interconectati
Concepte de baza
Diagrama bloc a unei memorii asociative este reprezentata n gura
CAPITOLUL MEMORII ASOCIATIVE
... ...
vnxn
x2 v2
x1 v1
M
Figura Diagrama bloc a unei memorii asociative
In aceasta gura x este vectorul intrarilor v este vectorul iesirilor x nv m si v M !x" unde M este un operator neliniar matricial specic ecaruitip de memorie Structura lui M re%ecta o paradigma specica Pentru memoriidinamice M implica si variabila timp
Pentru un model de memorie dat forma operatorului M este exprimata deobicei n functie de vectorii prototip care trebuie stocati Algoritmul care permite calcularea lui M se numeste algoritm de nregistrare sau stocare De obiceineuronii sunt asezati pe unul sau doua straturi
Maparea v M !x" este numita regasire Notam prototipurile cu un indicesuperior n paranteza
Sa presupunem ca n memorie sunt stocati anumiti vectori prototip astfelncat daca se aplica un pattern cheie iesirea produsa de memorie si asociatacheii este raspunsul memoriei
Presupunand ca exista p perechi de asocieri stocate
xi vi pentru i p
sivi xi pentru i p
atunci reteaua este o memorie heteroasociativaDaca aplicatia este de forma
xi vivixi
pentru i p
atunci memoria este autoasociativaIn memoria heteroasociativa asocierile se fac ntre multimile ordonate de
vectori fxx xpg si fvv vpg Memoriile autoasociative asociaza vectori din cadrul unei singure multimi care este fxx xpg Evident proiectarea unui vector xi n el nsusi nu are nici o semnicatie O aplicatiemai realista a unei mapari autoasociative este asocierea unui pattern cheie perturbat cu prototipul sau stocat n memorie
Spre deosebire de memoriile calculatoarelor care sunt adresabile prin adresamemoriile asociative sunt adresabile prin continut
Prin retele neurale se pot realiza memorii statice instantanee nerecurente simemorii dinamice recurente Memoria din gura este una statica realizata
ASOCIATORI LINIARI
x0 v0
1M
Figura Memorie statica realizata printro retea feedforward
vk+1x0
2M
∆
xk
Figura Memorie dinamica autoasociativa realizata printro retea recurenta
printro retea feedforward si v M!x" care reprezinta un sistem de ecuatii
algebrice neliniare In gura este o memorie dinamica autoasociativa realizataprintro retea recurenta pentru care vk M!x
vk" reprezentand un sistemde ecuatii diferentiale neliniare
Un exemplu de memorie dinamica este reteaua Hopeld n care
vk M!vk"
adica n care avem un v dar nu avem intrari externe g
M
M
∆
vk+1
∆xk
vk+2
xk+1
x0
’
Figura Memorie dinamica heteroasociativa
Asociatori liniari
Memoriile asociative traditionale sunt de tip instantaneu feedforward Pentrumemoria asociativa liniara avem
v Wx
CAPITOLUL MEMORII ASOCIATIVE
unde x este patternul de intrare iar v patternul de iesire Nu apar neuroniDaca totusi introducem formal neuroni atunci avem
v M!Wx"
unde M!" este un operator matricial liniar unitate Avem un strat de neuronide iesire pentru care
v fneti neti
Sa presupunem ca dorim sa stocamn acest asociator liniar p Se dau perechilede vectori fsi f ig i p Vectorii s reprezinta stimulii iar vectorii f suntraspunsurile fortate Avem
si hsi sin
itf i
hfi f i
m
it
Practic si pot patternuri iar f i informatii asupra apartenentei lor la o clasasau imagini ale lor
Obiectivul asociatorului liniar este sa implementeze maparea
v Wx
sub formaf i i Wsi
sau folosind simbolul de mapare
si f i i pentru i p
astfel ncat vectorul zgomot i sa e minimizatProblema se poate pune si astfel pentru un numar mare de observatii sa
se gaseasca W care minimizeazaP
i kik Este o problema tipica de statisticamatematica si nu o vom aborda aici
Dorim sa gasim W care permite stocarea ecienta a datelor n memorieAplicam regula de nvatare hebbiana pentru a instrui asociatorul
wij wij fisj pentru i m j n
unde vectorii f si s trebuie sa e membrii ai perechii de asociere
W W fst
Initializand ponderile din W cu zero avem
W f isit
Acesta este primul pas al instruirii Avem p perechi de nvatat deci
W pX
i
f isit
ASOCIATORI LINIARI
W FSt
unde W este o matrice de corelatie m n si
F hf f f p
i
S hs s sp
i
Sa presupunem ca dupa instruire aplicam vectorul cheie sj Atunci
v
pXi
f isitsj
f stsj f psptsj
Ideal ar sa avem v f j Aceasta se ntampla daca
sitsj pentru i j
sjtsj
Deci multimea de vectori ortonormali fs spg asigura maparea perfectaOrtonormalitatea este o conditie supusa intrarilor si ea nu este ntotdeauna respectata
Sa presupunem ca sjeste sj perturbat
sj
sj $j
unde termenul perturbatie $j se poate presupune statistic independent de sjPentru cazul cand vectorii stocati n memorie sunt ortonormali avem
v f jsjtsj f jsjt$j pXiij
f isit
$j
f j pX
iij
f isit
$j
Am tinut cont si de faptul ca $j este statistic independent de sj deci pot considerati ortogonali adica
sjt$j ksjtkk$jkcos
Observam ca raspunsul memoriei este asocierea dorita f j plus o componentaaditiva datorata perturbatiei $j Aceasta componenta contine n parantezaaproape toti termenii lui W ponderati de $j Chiar si n cazul n care vectoriimemorati sunt ortonormali la f j se adauga un zgomot foarte mare Metodaeste inecienta pentru a regasi un pattern perturbat
CAPITOLUL MEMORII ASOCIATIVE
In nal sa notam o proprietate interesanta a asociatorului liniar n cazulautoasociativ In acest caz reteaua este un autocorelator Luam f i si siobtinem matricea de autocorelatie W
W pX
i
sisit SSt
tinand cont de faptul caW este simetrica Sa notamnsa caW nu are diagonalaegala cu zero Presupunand s sp ortonormali pentru vectorul de intrareperturbat sj
obtinem
v sj Xii j
sisit$j
sj p $j
unde termenul $j apare amplicat de p oriAsociatorii liniari si autoasociatorii pot folositi si atunci cand vectorii s
sp sunt liniar independenti o conditie mai slaba decat ortogonalitateaKohonen a aratat ca n acest caz avem
W FStSSt
Acest W minimizeaza eroarea patratica dintre f j si vjDeoarece vectorii prototip nu sunt n general liniar independenti nici aceasta
metoda nu poate aplicata oricand In plus apare problema zgomotuluiIn concluzie asociatorii liniari nu sunt n general utilizabili n practica
Concepte de baza ale memoriilor
autoasociative recurente
O astfel de memorie este n esenta o retea feedback monostrat cu timp discret detip Hopeld g
Recursivitatea este stohastic asincrona Fiecare feedback se produce cu ontarziere $ Neuronii sunt alcatuiti dintrun sumator si un comparator si suntbipolari discreti Iesirile sunt n multimea f gn Presupunem ca ii Ti pentru i n
Algoritmul de regasire
vki sgn
nXj
wijvkj
A
Presupunand ca pornim din v si ca se alege n mod aleator secventa m p q deneuroni avem
Prima actualizare v ! v v vm vp vq vn "t
A doua actualizare v ! v v vm vp vq vn "t
A treia actualizare v ! v v vm vp vq vn "t
MEMORII AUTOASOCIATIVE RECURENTE
... ...
v
v
v1k
2k
nk
w
w
w
12w
1n
w21
2n
n1
n2w
...
1
n
2
Figura Memorie Hop eld autoasociativa
Avem
Ev
vtWv
Am vazut ca energia este necrescatoare si reteaua se stabilizeaza ntrunul dinminimele locale energetice
Fie v complementul vectorului vSe observa ca Ev Ev Deci un minim pentru Ev are aceeasi
valoare cu un minim pentru Ev Cu alte cuvinte tranzitiile memoriei se pottermina n aceeasi masura atat n v cat si n v Factorul decisiv care determinaconvergenta este similaritatea dintre v si v respectiv v
Algoritmul de stocare
Fie s sp prototipurile bipolar binare care trebuie stocate Algoritmul destocare pentru calcularea matricii ponderilor este
W pX
m
smsmt pI
sau
wij ijpX
m
smi s
mj
unde ij pentru i j ii si I este matricea unitateMatricea W este foarte similara cu matricea de autocorelatie obtinuta prin
nvatare hebbiana n cazul asociatorului liniar autoasociativ Diferenta esteca wii Sistemul nu memoreaza vectorul sm ci doar ponderile wij carereprezinta corelatii ntre componentele acestui vector
Oricand se pot adauga noi autoasocieri aditionale la memoria existenta prinincrementarea ponderilor existente Oricand se pot elimina autoasociatori prindecrementarea ponderilor existente Regula de stocare este invarianta la ordinean care sunt stocate prototipurile
CAPITOLUL MEMORII ASOCIATIVE
Daca avem vectorii unipolari s sm algoritmul de stocare trebuie modicat astfel ncat o componenta sa nlocuiasca elementul n vectorul unipolaroriginar
wij ijpX
m
smi s
mj
Sa observam ca regula de stocare este invarianta la operatia de complementarebinara Stocand vectorul s
m complementar lui sm obtinem
wij ij
pXm
smi sm
j
Substituind smi s
mi obtinem wij
wij Cu alte cuvinte este indiferentdaca stocam un pattern sau complementul sau binar
Algoritmul de stocare si regasire pentru o memorie autoasociativa recurentaeste urmatorul
Se dau vectorii binar bipolari s sp de cate n componenteVectorul initial care se cere regasit este v tot de n componente
Stocarea
Se initializeaza W m unde W este matricea n n aponderilor
Se stocheaza sm
WW smsmt I
if m p then m m go to
Regasirea
Se initializeaza k v v unde k este un contor de ciclu
Se initializeaza i contorul de actualizare n ciclu Seobtine o permutare aleatoare a ntregilor n nactualizare FALSE
Este actualizat neuronul i daca este cazulneti
Pnjwijvj vnew sgn neti
if vi vnew then actualizare TRUE vi vnew
if i n then i i goto
if actualizare FALSE then fnu a avut loc nici o actualizaren acest ciclu regasirea se terminag display k velse k k goto
MEMORII AUTOASOCIATIVE RECURENTE
Consideratii asupra modului de functionare
Memoria autoasociativa Hopeld este referita de multe ori ca un decodor corectorde erori Memoria lucreaza cel mai bine cu valori mari ale lui n
Sa presupunem ca n are o valoare mare Presupunem ca patternul sm este
unul din cele p patternuri stocate Acest pattern este acum la intrarea memorieiPentru neuronul i avem
neti nX
j
wijsmj
Aplicand formula
wij ijpX
m
smi s
mj
si neglijand pentru moment termenul ij obtinem
neti nX
j
pXm
smi s
mj s
mj
pX
m
smi
nXj
smj s
mj
Daca vectorii sm si sm sunt statistic independenti atunci termenul
nXj
smj s
mj
este n medie zero De altfel aceasta suma este produsul scalar smsm Daca
sm si sm sunt ortogonali deci statistic independenti acest produs devine zero
Daca sm si sm sunt ntro anumita masura identici atunci termenul devine
pozitiv Daca sm sm atunci termenul este n
Deci daca sm sm pentru un anumit m p atunci
neti smi n pentru i n
neti are acelasi semn ca si smi pentru i n In concluzie vectorul sm
este stabil si nu se mai poate modicaVom da acum o explicatie intuitiva a faptului ca patternurile perturbate pot
refacuteSa presupunem ca vectorul de la intrare este o versiune perturbata a proto
tipului sm care este stocat n memorie iar perturbatia afecteaza doar o mica
parte a componentelor majoritatea componentelor sunt neperturbate In acestcaz n multiplicatorul n va avea o valoare ceva mai mica egala cu numarul
de componente identice dintre sm si vectorul de intrare Semnul lui sm
i se
propaga asupra lui neti Componentele perturbate sunt actualizate una cateuna cu valorile lor neperturbate din sm
Evident este necesar ca majoritateacomponentelor vectorului initial sa e neperturbate si ca n sa e mare Componentele perturbate se conformeaza deci dorintei majoritatii
CAPITOLUL MEMORII ASOCIATIVE
Aceasta explica intuitiv cum un pattern perturbat poate asociat celui maiapropiat prototip stocat Discutia este nsa valabila doar pentru valori mari alelui n
Sa presupunem acum ca prototipurile stocate sunt ortogonale Avem
net
pXm
smsmt pI
sm
Deoarece sitsj pentru i j si sitsj n obtinem
net n psm
Daca n p rezulta ca sm este stabil Functia de energie este
Ev
vtWv
vt pXm
smsmt
v
vtpIv
Pentru ecare prototip stocat sm avem
Esm
pXm
sm
tsm smtsm
sm
tpIsm
n pn
Memoria are o stare de echilibru la ecare prototip sm iar energia are valoarea
ei minima n pn n aceste stari
Pentru cazul mai general cand prototipurile nu sunt mutual ortogonale energia nu mai este n mod necesar minimizata pentru ecare prototip iar prototipurile nu mai sunt n mod necesar stari de echilibru In acest caz avem
net nsm psm
pX
mmm
smsmt
sm
n psm
pXmmm
smsmt
sm
Fata de situatia anterioara apare suplimentar ultimul temen
pXmmm
smsmt
sm
Acesta poate interpretat ca un vector zgomot Cu cat n p este mai marecu atat scade importanta zgomotului si prototipurile devin stari de echilibru
ANALIZA PERFORMANTEI
Analiza performantei memoriilor
autoasociative recurente
In aceasta sectiune vom stabili relatii ntre marimea n a memoriei si numarul depatternuri distincte care pot refacute n mod ecient Aceasta depinde si degradul de similaritate dintre vectorul cheie si cel mai apropiat prototip precumsi de gradul de similaritate dintre prototipuri
Pentru a masura similaritatea vom folosi distanta Hamming De fapt eaeste proportionala cu disimilaritatea Pentru vectorii bipolari de n componentex si y avem
DHxy
nXi
jxi yij
Aceasta nseamna ca DHxy reprezinta numarul de pozitii n care difera bitiiPrin actualizarea asincrona la ecare pas se modica vectorul de iesire cu DH
Fie de exemplu
s ! "t
s ! "t
Construim
W
Pornind din
v ! "t
obtinem prin actualizari asincrone ascendente
v ! "t
v ! "t v
Actualizarile au fost astfel descrise pas cu pas Convergenta este catre s sinu catre s sau s Avem
DHv s
DH
v s
deci v nu este atras catre s sau sFie acum
v ! "t
Avem
DHv s
DH
v s
CAPITOLUL MEMORII ASOCIATIVE
Prin actualizari asincrone ascendente obtinem
v v
v ! "t v s
Pe de alta parte nsa daca actualizarile sunt n ordine descendenta obtinem sPentru acest exemplu avem pn deci memoria este suprancarcata
si sensibila la perturbatii De aceea refacerea patternurilor perturbate nu estentotdeauna ecienta Se observa si ca nu putem evita stocarea complementelorpatternurilor stocate
In astfel de memorii pot exista stari stabile care nu reprezinta patternurimemorate De asemenea convergenta nu este neaparat catre cel mai apropiatpattern memorat apropiere masurata prin DH Aceste doua deciente devinderanjante atunci cand memoria este suprancarcata deci cand pn este mare
Capacitatea memoriei autoasociative recurente
Vom mentiona aici rezultatele obtinute de McEliece et alUn vector stare vk al unei memorii este stabil daca
vk #hWvk
i vk
Aceasta denitie nu este legata de tipul de actualizare sincron sau asincronFie raza de atractie denita astfel orice vector la o DH mai mica decat n
distanta de atractie de starea stabila v este eventual atras de v Am vazut cadistanta de atractie este ntre si n deci este ntre n si
Pentru ca sistemul sa functioneze ca o memorie impunem ca ecare vectormemorat sm sa e stabil Mai putin restrictiv este sa cerem sa existe un vectorstabil la o distanta mica de sm n pentru toate cele p patternuri memorate
Capacitatea asimptotica a unei memorii autoasociative cu n neuroni este
c n
ln n
Daca p c atunci toate cele p patternuri stocate sunt stabile cu probabilitateaaproape Oricum ar valoarea capacitatea unei memorii Hopeldeste deci ntre
n ln n c n ln n
unde c depinde de fapt de toleranta la eroare adica de In loc de n patternuriputem stoca doar c patternuri
Studiul lui McEliece et al releva prezenta unor atractori n care nu au fostmemorate patternuri acestia au n general bazinele de atractie mai mici decatcele ale patternurilor stocate
Chiar daca numarul patternurilor ce pot stocate ntro memorie Hopeldeste destul de mic aceste memorii au o serie de aplicatii n procesarea vorbiriibaze de date prelucrarea imaginilor
McElice RJ Posner EC Rodemich ER Vankatesh SV The Capacity of the Hop eldAssociative Memory IEEE Trans on Information Theory
MEMORIA ASOCIATIVA BIDIRECT IONALA MAB
Memoria asociativa bidirectionala MAB
MAB g este o memorie heteroasociativa adresabila prin continut constanddin doua straturi Kosko
W
W
... ...
1
2
1
2
n m
stratul A stratul Bt
Figura Memorie asociativa bidirectionala
Fie p perechi de patternuri memorate
fab
ab
apbp
g
Presupunem ca avem vectorul b la intrarean stratul A al memoriei Presupunemca neuronii sunt binari bipolari
a #!Wb"
adica
ai sgn
mXj
wijbj
A i n
Procesarea are loc sincron Urmeaza
b #hWta
ibj sgn
nXi
wijai j m
Apoi
a # !Wb"
b #hWta
ietc
CAPITOLUL MEMORII ASOCIATIVE
Procesul continua pana cand a si b nu se mai modicaIn mod ideal procesul se stabilizeaza ntro pereche
aibi
din multimea
perechilor memorate Putem opera asemanator pentru cazul unipolar Presupunem ca straturile sunt activate alternativ
Stabilitatea unei astfel de retele nu este afectata de procesarea sincrona ca ncazul memoriilor Hopeld deoarece oricum cele doua straturi lucreaza asincronDe aceea se prefera procesarea sincrona convergenta ind mai rapida decat ncazul n care am folosi procesarea asincrona
DacaW este patrata si simetrica atunciW Wt si avem de fapt o memorieautoasociativa cu un singur strat Stocarea are loc conform regulii hebbiene
W pX
m
ambmt
wij pX
m
ami b
mj
Presupunand ca unul din patternurile stocate am este prezentat la intrare
obtinem
b #
pXm
bmamt
am
#
nbm
pXmmm
bmamtam
Ultimul termen din relatia anterioara pe care l notam cu
pX
mmm
bmamtam
reprezinta zgomotulSa presupunem pentru moment ca patternurile a ap sunt ortogonale
Atunci si se obtine b bm dintrun singur pasDaca patternul de intrare este o versiune perturbata a lui am
stabilizareala bm nu mai este iminenta si depinde de mai multi factori DH dintre vectorulcheie si prototipuri ortogonalitatea sau DH dintre vectorii b bp etc
Consideratii asupra stabilitatii
Cand memoria MAB ajunge la o stare de echilibru astfel ncat ak bk ak ak spunem ca ea este bidirectional stabila
Fie functia de energie
Eab
atWb
btWta atWb
MEMORIA ASOCIATIVA BIDIRECT IONALA MAB
Vom evalua modicarile energiei pentru un pas
$aiin
pentru
Pmjwijbj
pentruPm
jwijbj pentru
Pmjwijbj
$bjjn
pentru
Pniwijaj
pentruPn
iwijaj pentru
Pniwijaj
Calculam
raEab Wb
rbEab Wta
Modicarile de energie cauzate de catre modicarea unei singure componentesunt
$Eaiab mXj
wijbj
A$ai pentru i n
$Ebj ab
nXi
wijai
$bj pentru j m
Rezulta ca $E daca tinem cont si de Deoarece E este inferior marginitaadica
Eab nXi
mXj
jwijj
rezulta ca memoria converge catre un punct stabil care este un minim local pentrufunctia de energie Deci memoria este bidirectional stabila
Sa observam ca nu este important daca procesareantrun strat se face sincronsau asincron
Kosko a aratat euristic ca numarul maxim de perechi p care pot stocate si regasite cu succes este minnm O masura mai stricta a capacitatiieste
p qminnm
Observatii
Formula de stocare a perechilor de patternuri nu garanteaza ca acesteacorespund unor minime locale
Am vazut ca daca patternurile stocate sunt ortogonale atunci zgomotuleste zero si toate patternurile stocate pot n mod garantat recuperateprintrun pas daca nu sunt perturbate Wang a propus crestereactiva a patternurilor de instruire pentru a obtine o ortogonalizare a lor
CAPITOLUL MEMORII ASOCIATIVE
Perechileai aj
sibibj
sunt fara zgomot unde i j p
daca
HDai aj
n
HDbibj
m
acestea ind conditiile de ortogonalitate ntre ai si aj respectiv bi sibj Daca avem aceasta situatie atunci recuperarea datelor este imediatasi fara erori daca nu sunt perturbate Prin cresterea vectorilor ai si bii p cu componente aditionale obtinem aceasta ortogonalitate lanivel de perechi
Prin aceasta tehnica se mbunatateste si capacitatea MAB de a corectaerori
Utilizarea MAB pentru patternuri temporale
Fie secventa S ns s sp
ode vectori ndimensionali bipolari binari
reprezentand tranzitiile starilor patternuri temporale Reteaua MAB este capabila sa memoreze secventa S astfel ncat
si #hWsi
iunde i este modulo p
Pornind de la starea initiala x n vecinatatea lui si secventa S este apelataca un ciclu de tranzitii ale starilor Acest model este numit memorie asociativatemporala
Pentru stocarea secventei astfel ncat s sa e asociat cu s s cu s sp cu s procedam astfel
W pXi
sisit sspt
sau daca indicele este modulo p
W pX
i
sisit
Avand straturile A si B avem
a #!Wb"
b #!Wa"
Daca secventa s sp este aplicata la intrarea n stratul A avem
a #
nskz !sst skskt sspt z
W
sk"
EXERCIT II
Termenul
pX
iik
sisitsk
este zgomotul unde indicele de nsumare este modulo p Daca vectorii din Ssunt ortogonali atunci si a sk dintrun singur pas
Asadar daca la intrare avem sk obtinem n mod circular
sk sk sp
Daca vectorii din S nu sunt ortogonali presupunand nsa ca ei sunt stocati lao DH n n general ne putem astepta sa obtinem totusi secventa corecta Sdaca aplicam sk
Aceasta memorie poate stoca cel mult k secvente de lungimi p p pkunde
p kXi
pi p n
Exercitii
Asociatorul liniar trebuie sa asocieze urmatoarele perechi de vectori
s h
it f ! "t
s h
it f ! "t
s h
it f ! "t
a Vericati daca vectorii s s s sunt ortonormali
b Calculati matricea ponderilor
c Vericati asocierea produsa de retea pentru unul din vectorii si
d Perturbati si dandui unei componente valoarea si calculati vectorulrezultat perturbat
Asociatorul liniar din gura a fost instruit sa asocieze vectorilor deintrare
s h
p
p
p
its
hp
p
its
hp p
p
itvectorii f f f Gasiti matricea W si vectorii f f f care suntcodicati n retea
CAPITOLUL MEMORII ASOCIATIVE
x1
x2
x3
+
+
v1
v2
-1/2+1/6
1/6
1/2+1/6
1/6
-2/6
-2/6
Figura Asociatorul liniar propus pentru exercitiul
Autoasociatorul liniar trebuie sa asocieze versiuni perturbate ale vectorilors s s cu prototipurile lor neperturbate din problema Calculati matricea W
Urmatorii vectori trebuie stocati ntro memorie autoasociativa recurenta
s ! "t
s ! "t
s ! "t
a Calculati matricea W
b Aplicati la intrare vectorul v ! "t si folositi actualizarea asincrona ascendenta
c Aplicati v prin actualizare asincrona descendenta
d Comentati daca memoria Hopeld ofera o solutie optima din punct devedere al DH Atentie memoria este suprancarcata Luati sgn n aceasta problema
O memorie asociativa temporala trebuie sa stocheze urmatoarea secventa
s ! "t
s ! "t
s ! "t
Calculati W si vericati regasirea patternurilor Incercati sa introducetila intrare patternuri perturbate
C Proiectati o memorie heteroasociativa bidirectioanla care asociaza caracterele A C I I si O T Reprezentati caracterele A I O ca matrici
EXERCIT II
binare de pixeli iar caracterele C I T ca matrici binare de pixeli Vericati memoria folosind la intrare patternuri neperturbate sipatternuri perturbate
CAPITOLUL MEMORII ASOCIATIVE
Capitolul
Retele neurale cu autoorganizare
In acest capitol ne vom concentra pe retele neurale care trebuie sa descoperesingure relatiile interesante din cadrul patternurilor de intrare deci nu vomfolosi instruirea supervizata Obiectivul nostru este sa exploram algoritmii deinstruire nesupervizata ai retelelor neurale retele care au astfel capacitatea deautoorganizare adica de adaptare
Retelele Hamming si MAXNET
Vom considera un clasicator cu doua straturi pentru vectori binari bipolari g
[x ... t]1 xn yk+11 yk+1
p[ ... t]
∆
MAXNETReteaHamming
Figura Clasi cator cu doua straturi pentru vectori binari
Prima parte este o retea Hamming detaliata n gura Fie sm m p vectorul prototip pentru clasa m Presupunem ca
avem pentru ecare clasa un vector prototip si corespunzator un neuronFie x vectorul de intrare Folosim produsul scalar al vectorilor ca o masura
de matching potrivire ntre acesti vectori Ideea este sa luam
wm hwm wmn
itpentru m p
si sa avem xtwm maxim cand x sm Deoarece vectorii sunt binari bipolariprodusul xtsm reprezinta numarul de pozitii n care x si sm difera Numarul
CAPITOLUL RETELE NEURALE CU AUTOORGANIZARE
...
...
1
n w
w
w
w
1
1
n/2
n/2
y
y
1
p
1
p
11
1n
p1
pn
a)
netf( )
0 n
1
net
b)
Figura a Reteaua Hamming b Functia de activare a neuronilor retelei Hamming Zonelen care fnet si fnet sunt inactive pentru ca net n
de pozitii n care acesti doi vectori difera este nsa chiar distanta HammingDH
x sm
prin denitie Atunci
xtsm n DH
x sm
z
nr de pozitiin care sunt egali
DHx sm
Obtinem
xtsm
n
DH
x sm
Luam
WH
s sn
s sn
sp spn
unde factorul folosese la scalare La intrarea n nodul m m p avem
netm
xtsm
n
n DHx sm
Se observa ca am adaugat termenul n Luam f netm
nnetm m p
Deoarece netm n avem fnetm m pAvem
Daca x sm atunci DH x sm
si netm n deci f netm
RETELELE HAMMING SI MAXNET
Daca x este complementul lui sm atunci DHx sm
n netm si
f netm
In general numarul neuronului cu cea mai mare iesire indica numarul clasei careiai este atribuit x din punct de vedere al DH Reteaua Hamming este evident detip feedforward
Reteaua MAXNET g este recurenta si are rolul de a transforma iesiriledin reteaua Hamming astfel ncat toate aceste iesiri sa devina cu exceptia celeimaxime
∆
∆∆
y1
y2
yp
y1
y2
yp
k+1
k+1
k+1
k
k
k
−ε−ε
−ε
−ε
−ε−ε1
1
1
Figura Reteaua MAXNET
Matricea ponderilor retelei MAXNET este matricea p p
WM
unde p ind coecientul de interactie lateralaLuand g
fnet
net net net
yk #hWMy
ki
si presupunand yi i p valorile de init ializare obtinemurmatorul proces
CAPITOLUL RETELE NEURALE CU AUTOORGANIZARE
netf( )
0
1
net1
Figura Functia de activare a neuronilor retelei MAXNET Zona n care avem net esteinactiva
La ecare recurenta ecare componenta a vectorului yk scadepana devine Componentele lui yk devin n ordinea inversa amarimii lor Procesul se stabilizeaza cand o singura componenta ceamaxima ramane nenula Aceasta componenta scade cel mai lent Pemasura ce sunt anulate componente descresterea este mai lenta
Sa comparam aceasta retea cu asociatorul Hopeld Presupunem ca trebuiesa clasicam n clase posibile un vector cu de componente
Reteaua Hamming necesita de conexiuni pentru cei neuroni
Reteaua Hopeld necesita de conexiuni pentru cei de neuroni Inplus capacitatea de stocare este limitata
Reteaua Hamming pare mai ecienta Totusi ea nu regaseste patternul prototipci doar indicele clasei din care face parte patternul de intrare Deci reteaua Hamming nu poate restaura un pattern perturbat ci gaseste doar distanta minima aacestui pattern fata de prototipuri
Reteaua Hamming este un clasicator propriuzis nu o memorie autoasociativa
Instruirea nesupervizata a clusterelor
Clusteringnseamna gruparea patternurilor similare si separarea celor nesimilareExista tehnici clasice de clustering kmeans ISODATA etc dar noi ne vomconcentra pe metodele conexioniste
INSTRUIREA NESUPERVIZATA A CLUSTERELOR
Instruirea castigatorul ia tot
Presupunem ca avem secventa de instruire fx xNg care reprezinta p clusterePentru reteaua Kohonen g despre care vom discuta n continuare avem
y #!Wx"
W
wt
wtwt
p
unde wi
wi
win
i p
.........
...
wm1
m2
wmn
y
y
1
m
p
1
w
y
n
2
Figura Reteaua Kohonen
Algoritmul de instruire este de tip castigatorul ia tot Vectorii wi i psunt variabili si trebuie nvatati Inainte de instruire se normalizeaza vectoriiponderilor
wi wi
kwik i p
Se calculeaza indicele m pentru care
kx wmk minip
fkx wikg
unde x este vectorul de intrare Deoarece
kx wmk xtx wt
mx
avemwtmx max
ip wt
ix
Neuronul almlea cu cea mai mare valoare pentru intrare este declarat castigatorIn general avem
cos xtxi
kxkkxik
CAPITOLUL RETELE NEURALE CU AUTOORGANIZARE
In loc de kx xik putem folosi cos ca si criteriu de similaritate ntre x si xiastfel ncat x este mai aproape de xi daca este mai mic Este necesar nsasa normalizam vectorii x si xi pentru ca altfel criteriul nu mai functioneaza sepoate ca kx xik sa e mare dar sa e mic
Reducem acum kxwmk n directia gradientului negativ al distantei
rwmkxwmk xwm
$ wm x wm
unde este de obicei ntre si Celelalte ponderi nu se schimba Avematunci
wkm wk
m kx wk
m
wki wk
i i m
Procesul continua pentru un nou pattern x Parametrul se reduce monotonsi instruirea ncetineste pe parcurs Vectorul modicat wk
m este normalizat siintra n pasul urmator In nal ecare wi va reprezenta centrul de greutate alunei regiuni de decizie deci a unui cluster
Functiile de activare ale neuronilor nu au relevanta dar n general sunt de tipcontinuu
Obtinem n nal un clasicator n care patternul de intrare x este asociatgruparii m unde ym maxy yp
Dupa instruire reteaua Kohonen poate folosita ca si clasicator Pentruaceasta trebuie sa o calibram supervizat se aleg p reprezentanti ai celor p clusteresi se aplica etichetand corespunzator cele p noduri cu iesirile respective Astfeletichetam de fapt clusterele
Ponderile initiale sunt luate n general n mod aleator astfel ncat sa acopereuniform spatiul patternurilor
Reteaua Kohonen are limitari legate de arhitectura monostrat nu poate manipula ecient patternuri liniar neseparabile Chiar si pentru patternuri liniarseparabile ponderile pot sa se blocheze n regiuni izolate fara sa formeze clusterele adecvate In astfel de situatii se reinitializeaza ponderile cu valori noi sause adauga zgomot la vectorii pondere n timpul instruirii
Daca numarul gruparilor este a priori necunoscut se ia un p sucient demare Pe parcursul instruirii unii neuroni se vor comporta haotic ponderilecatre ei nestabilizanduse Acesti neuroni nu reprezinta clustere deci pot omisin faza de utilizare a retelei
Harti Kohonen
Centrii anumitor activitati vorbire vedere auz functii motoare sunt localizatin anumite arii specice ale cortexului Mai mult aceste arii prezinta o ordonarelogica a functionalitatii lor Putem da ca exemplu harta tonotopica a regiunilorauditive unde neuronii vecini raspund unor frecvente similare ale sunetului dela frecvente nalte la frecvente joase Un alt exemplu este harta somatotopica
H ARTI KOHONEN
Astfel de regiuni cum este harta tonotopica se numesc harti de trasaturi ordonateordered feature maps Vom studia n aceasta sectiune mecanismul prin careaceste harti de trasaturi ordonate se pot dezvolta natural
Cortexul este o suprafata de mm grosime avand aproximativ m siconstand din straturi de neuroni de tip si densitate variabile El are formape care o cunoastem pentru a maximiza densitatea n craniu
Vom studia un model al cortexului care este o suprafata bidimensionala deelemente de procesare Vectorii de intrare vor proiectati prin reducerea dimensionalitatii pe aceasta suprafata mentinanduse nsa ordinea ntre ei Aceastasuprafata este o harta care conserva topologia datelor de intrare topology preserving map O astfel de harta este o harta cu autoorganizare si este instruitanesupervizat Neuronii biologici de pe suprafata mentionata au conexiuni lateralea caror tarie depinde de distanta dintre neuronii respectivi g
γ
0
puterea conexiunii
distanta laterala de la al i-lea neuron
Figura Palaria mexicana descrie puterea conexiunii laterale a neuronilor biologici
In vecinatatea cu raza de m conexiunile sunt excitatoare Deciautofeedbackul ecarui neuron este pozitiv exprimat de coecientul g
Aria excitatoare este nconjurata de un inel de conexiuni mai slabe inhibitoare cu raza de m
Autoorganizarea unei astfel de harti poate exemplicata pe un model liniarde neuroni reprezentand o sectiune arbitrara a unei harti bidimensionale g
Calculam
yit f
xit
kXkk
yiktk
A
Semnalele yt sunt ntarziate cu o unitate nainte de a deveni feedbackuri
CAPITOLUL RETELE NEURALE CU AUTOORGANIZARE
xi
γ
i+1xi+1
γ
i
i-1xi-1
γ
yi
Figura Modelarea interactiunilor dintre neuronii biologici
Coecientii de feedback k depind de distanta dintre neuroni Luand
xit sini
i
fnet
net net net net
b c
se obtin iesirile din gura Un algoritm de proiectie a trasaturilor converteste un pattern de dimensi
une arbitrara n raspunsurile unui tablou unidimensional sau bidimensional deneuroni
Rezultatele urmatoare apartin lui Kohonen Presupunem ca vectorii de intrare cu un numar arbitrar dar xat de compo
nente sunt proiectati pe un tablou de neuroni avand o topologie hexagonala g In aceasta gura m este neuronul castigator iar Nmt este vecinatatealui m la momentul t
Dupa instruire ecare intrare x produce un raspuns n retea pozitia locala araspunsului ind semnicativa ea re%ecta caracteristica trasaturii dominante alui x Aceasta proiectie a trasaturilor este o proiectie neliniara a spatiului patternurilor pe tabloul neuronilor Proiectia face ca relatiile de vecinatate topologicasa expliciteze relatiile de ordine dintre datele de intrare aceste relatii din urmaind nsa ntrun spatiu de dimensiune mult mai mare
Sa vedem cum are loc instruireaIntrarea x este aplicata simultan tuturor neuronilor Fie
kxwmk minifkxwikg
H ARTI KOHONEN
y1 y2
y10
x1x2 x10
a)
...
distantab)
k
γk
b
-3 -2
-1 12 3
-c
Figura a Sectiune arbitrara a unei harti bidimensionale b Feedbackul lateral
unde wi este vectorul ponderilor catre neuronul iDaca neuronul m este castigator deci raspunde maxim pentru x aceasta
antreneaza ca n exemplul precedent neuronii vecini Nu avem un neuroncastigator ci o vecinatate Nm castigatoare Se ajusteaza doar ponderile catreneuronii din Nm
Raza lui Nm trebuie sa scada pe masura ce instruirea progreseaza
Nmt Nmt Nmt pentru t t t
Se ncepe cu o raza foarte mare si se termina cu vecinatatea care include doarneuronul castigator Mecanismul interactiilor laterale tip palarie mexicanaeste ncadrat n denitia acestor vecinatati locale si a modului de adaptare aponderilor
Adaptarea ponderilor pentru hartile cu autoorganizare se face astfel
$wi Ni t !xtwit" pentru i Nmt
unde Ni t este constanta de nvatare De exemplu Kohonen a folosit
Ni t t ekrirmk
t
unde rm este vectorul pozitiei neuronului m ri este vectorul pozitiei neuronuluii iar t si t sunt functii descrescatoare n timp
Ca rezultat al instruirii ponderilor se obtine o harta de neuroni n care ponderile codica functiile de densitate px ale probabilitatilor patternurilor deinstruire Raspunsul neuronilor unei arii sentareste daca apar mai multe patternuri similare corespunzatoare acelei arii
Fie de exemplu de vectori dimensionali diferiti etichetati cu A tab
CAPITOLUL RETELE NEURALE CU AUTOORGANIZARE
iesirea y
2
1/2
1 8 103
i
i = nr. neuronului
0 pasi
4 pasi
15 pasi
Figura Evolutia iesirilor celor neuroni
m
N (t )
N (t )
m
m 2
1
Figura Tablou de neuroni avand o topologie hexagonala
Proiectia se face pe un tablou de de neuroni conectati ecare prin ponderi cu componentele x x Tabloul se instruieste folosind cei de vectoriselectati n ordine aleatoare Dupa de pasi de instruire ponderile se stabilizeaza si reteaua obtinuta este calibrata Calibrarea se face prin etichetaresupervizata De exemplu avand vectorul B la intrare observam unde apareraspunsul maxim n tabloul de neuroni si etichetam acel neuron cu B Obtinemharta din g
de neuroni vor etichetati si nu Inspectam similaritatile dintre vectorii de instruire Reprezentam vectorii ca varfuri ntrun graf Fiecarei muchiii atasam distanta dintre cele doua patternuri corespunzatoare varfurilor Deexemplu distanta dintre A si C este egala cu
kA Ck
Construim n continuare arborele partial de lungime minima g Se
H ARTI KOHONEN
A B C D E F G H I J K L M N O P Q R S T U V WX Y Z x x x x x
Tabelul Vectori dimensionali
A
*
*
*
B
H
*
*
G
I
F
C
K
J
*
*
*
*
M
*
*
D
L
*
N
E
*
S
O
*
T
*
*
*
*
P
*
*
*
*
*
*
*
*
*
Q
U
*
W
R
*
V
*
3
*
*
X
2
4
*
*
*
*
Y
*
5
1
Z
*
6
Figura Harta obtinuta n urma instruirii
poate observa ca harta trasaturilor produsa prin autoorganizare are aceeasi structura ca si acest arbore Inseamna ca am reusit sa pastram topologia dintrunspatiu dimensional ntrun plan Distanta dintre vectorii xi si xj din spatiulpatternurilor
kxi xjk vuut X
k
xik xjk
se mentine si n spatiul trasaturilor unde devine o simpla distanta n planAlgoritmul de instruire tine cont atat de relatiile topologice dintre datele de
intrare cat si de istoricul datelor de intrare adica de frecventa de aparitie apatternurilor similare sau identice
Acest algoritm are numeroase aplicatii n controlul robotilor recunoastereavorbirii etc
Un exemplu celebru este masina de scris fonetica Kohonen folositan recunoasterea vorbirii
La intrare avem un vector dimensional Semnalul vocal este convertit prinFFT n semnal n frecventa acoperind pe canale frecventele dintre Hzsi kHz Fiecare fonem tinde sa ocupe un segment al spectrului dimensionalFourier Cu toate ca spectrele unor foneme diferite se suprapun partial un tabloude neuroni este capabil dupa instruire sa extraga trasaturile fonemelor si sa leproiecteze pe o harta plana Reteaua neurala a fost instruita cu semnale spectralegenerate la ecare ms de vorbirea continua Esantioanele spectrului FFT aufost folosite n ordinea lor naturala
Dupa instruire anumiti neuroni devin sensibili la spectrul diferitelor fonemeg
Harta a fost calibrata folosind foneme standard Majoritatea celulelor au
CAPITOLUL RETELE NEURALE CU AUTOORGANIZARE
A B C D E
F
G
H
I
J
K L M
S
N
U
V
T
O P
W
X
Y
Z
Q R
1 2 3 4 5 6
Figura Arborele partial de lungime minima construit pe baza distantelor dintre vectori
a a a ah h oe
o a a h r
o o a h r
......
...
Figura Harta fonemelor dupa instruire n limba nlandeza
nvatat un singur fonem Exista cateva celule care indica raspunsul a doua fonemediferite necesitand o discriminare suplimentara Pe aceasta harta un cuvantgenereaza o traiectorie
Exercitii
C Proiectati reteaua Hammimg si reteaua MAXNET asociata care realizeaza clasicarea optima a vectorilor binari bipolari care reprezinta caracterele A I si O din problema capitolul n termenii distantei Hammingminime
C Implementati algoritmul de instruire castigatorul ia tot pentru gruparea caracterelor C I si T afectate de zgomot n mod similar reprezentariifolosite n problema anterioara Presupuneti ca aceste caractere afectate de
EXERCIT II
zgomot au DH fata de prototipurile neafectate de zgomot Calculativectorii nali de ponderi wC wI si wT In timpul operatiei de testarecalculati raspunsurile fnetC fnetI si fnetT ecarui neuron cu functiede activare unipolar continua Intrarile sunt vectori bipolari binari obtinutidin literele reprezentate matriceal Folositi
C Fie multimea de patternuri
x
x
x
x
x
Implementati harta Kohonen pentru a proiecta acesti vectori pe o retea de neuroni Folositi vecinatati hexagonale Descresteti pe de la la pentru primii de pasi apoi descrestetil de la la pentruurmatorii de pasi Descresteti raza vecinatatii de la la pe parcursulprimilor de pasi Calibrati apoi harta si desenati arborele partial delungime minima produs pe harta pentru intrarile x x x x x
CAPITOLUL RETELE NEURALE CU AUTOORGANIZARE
Capitolul
Retele neurale cu functie de
activare radiala
Aceste retele neurale au un timp de instruire mult mai rapid decat retelele neuralefeedforward cu propagare n urma a erorii evitand si problema minimului localDezavantajul este ca dupa instruire necesita un timp de calcul mai mare nexploatare In sa demostrat ca aceste retele sunt aproximatori universalica si retelele feedforward cu functie de activare continua Aceasta nseamna capot aproxima orice functie continua oricat de bine
O astfel de retea este o retea feedforward n care functia de activare este ofunctie de tip gaussiana Deoarece gaussiana este simetric radiala vom numiaceste retele cu functie de activare radiala Gaussiana nu este nsa decat ofunctie particulara de acest tip
Spre deosebire de retelele feedforward ponderile conexiunilor catre straturileascunse nu sunt initializate aleator Ele sunt initializate cu valorile care producraspunsul dorit
Functii radiale
Fie cazul unei singure intrari ntrun neuron ascuns g
h(x)x u σ
−σ u +σ
h(x)
1
x
Figura Neuron cu functie de activare radiala
CAPITOLUL RETELE NEURALE RBF
Pentru neuronii de acest tip avem
hx exu
hu
unde este un parametru iar u este o pondere hx scade foarte rapid daca xeste diferit de u
De aceasta data nu mai exista analogia cu potentialul membranei cum estecazul functiei de activare de forma fxtw De aceea retelele de acest tip senumesc radial basis function neural networks Ponderile nu se mai nmultesccu intrarile Le vom numi totusi astfel fara a crea confuzie
Iesirea hx are un raspuns semnicativ doar pentru un interval de valoriale lui x acest interval ind domeniul receptiv al neuronului Marimea acestuidomeniu este determinata de Prin analogie cu distributia normala u poate valoarea medie iar dispersia functiei de activare a neuronului
Forma generala a unei retele neurale bazata pe acest tip de neuron este ceadin gura
...
Σ
x
x
x
h
h
h
y
y
y
out
out
out
w
w
1
2
p
1
2
m
11
nm
1
2
n
1
2
n
u11
ump
strat de intrari
strat ascuns
strat de iesiri
strat de normalizari
Σ y /s
y /sΣ
Σ
s
1σ
σ2
σm y /s
1
2
n
Figura Retea neurala cu functie de activare radiala
Avem
hi e xui
txui
i
undex ! x xp "t
i este parametrul pentru al ilea neuron ascuns si
ui ! ui uim "t
este vectorul ponderilor dintre intrari si al ilea neuron ascunsFiecarui pattern nvatat i corespunde un neuron ascuns
FUNCTII RADIALE
In stratul de iesire se calculeaza
yj mXi
hiwji
iar pe ultimul strat cel al normalizarilor se calculeaza iesirile nale
s nX
j
yj
outi yis
Aceste din urma normalizari sunt optionaleDomeniul receptiv al celui deal ilea neuron ascuns este determinat de centrul
sau ui si de marimea sa data de i La neuronii studiati pana acum acestdomeniu era determinat de conexiunile neurale nu de forma functiei de activareSe pot folosi si alte functii de activare Esential este ca ele sa tinda rapid catrezero atunci cand distanta dintre vectorii x si u creste iar raspunsul maxim sa laiba cand x u
Reteaua trebuie instruita prin xarea parametrilor i si a ponderilor de tip usi w Instruirea se face n doua faze La nceput se atribuie valori pentru ui sii i m Apoi se instruieste matricea W prin nvatare supervizata
Fixarea centrilor domeniilor receptive
Trebuie sa xam centrii domeniilor receptive Fixarea ponderilor ui se poate facen mai multe feluri Putem atribui ecarui vector din secventa de instruire cateun neuron ascuns cu centrul corespunzator Deoarece vectorii sunt n generaldispusi n grupari clustere aceasta metoda duce la un numar prea mare deneuroni ascunsi Mai bine este sa gasim centrul ecarui cluster de vectori dinsecventa de instruire si sa atribuim ecarui astfel de centru cate un neuron ascuns
Fixarea diametrelor domeniilor receptive
Diametrul domeniului receptiv determinat de valoarea lui poate avea un efectfoarte profund asupra retelei Obiectivul este sa acoperim spatiul patternurilorde intrare cat mai uniform cu domenii receptive Daca distanta dintre centrii domeniilor receptive nu este uniforma este necesar ca ecare neuron ascuns sa aiba o valoare specica pentru Daca centrii domeniilor receptivesunt la distanta mare atunci trebuie sa e sucient de mare pentru a acoperigolurile daca centrii sunt apropiati atunci neuronii respectivi trebuie sa aiba mic Aceasta este ca o egalizare de histograma procedeu cunoscut n procesareaimaginilor
De exemplu putem xa astfel
Pentru ecare neuron ascuns gaseste distanta medie dintre centrul sau uisi centrii celor N vecini ai sai cei mai apropiati
Atribuie aceasta valoare lui i
CAPITOLUL RETELE NEURALE RBF
Instruirea matricii W
Se aplica vectorul x la intrare unde x este din secventa de instruire
Se calculeaza iesirile h din stratul ascuns
Se calculeaza iesirile y si se compara cu vectorul t al iesirilor dorite Seajusteaza W astfel
wijk wijk ti yixj
unde este coecientul de nvatare De obicei iar aceasta estede fapt regule WindrowHo Se pot folosi si alte reguli de exemplu regulaperceptronului
Repeta pentru ecare pattern de instruire
Repeta pana cand eroarea este sucient de mica
Deoarece domeniile receptive sunt limitate ajustarile apar destul de rar ceeace conduce la o viteza mare
Algoritmul de instruire a lui W se refera la un singur strat iar patternurilecorespunzatoare neuronilor din stratul ascuns sunt liniar separabile deoareceecare clasa este formata dintrun pattern Rezulta ca algoritmul de instruire alui W converge catre minimul global conform teoremei perceptronului Practicconvergenta este de aproximativ de ori mai rapida decat n cazul instruiriiprin propagarea n urma a erorii
O tehnica de grupare clustering
Am vazut ca este avantajos sa obtinem cate un reprezentant pentru ecare cluster si sa instruim apoi reteaua doar cu acesti reprezentanti Putem ponderareprezentantii cu numarul de patternuri pe care i reprezinta
yj
PnimihiwjiPnimihi
unde mi este numarul de patternuri din clusterul iIata o tehnica de clustering Specht simpla si ecienta Se deneste
o raza r Primul pattern de instruire devine centrul primului cluster Fiecarepattern din secventa de instruire este considerat pe rand Daca distanta dintrepatternul considerat si cel mai apropiat cluster este mai mica sau egala decat ratunci patternul este atribuit acelui cluster daca distanta este mai mare decatr patternul devine primul membru al unui nou cluster
Procedeul de clustering este folositor atunci cand exista un exces de instruirecu date care formeaza clustere dense
DISCUT IE
Discutie
Retelele cu functie de activare radiala sunt foarte rapide la instruire dar lente lautilizare Procedeul de clustering poate util Foarte importanta este alegereacorecta a lui
CAPITOLUL RETELE NEURALE RBF
Capitolul
Retele neurale fuzzy
Logica fuzzy
De ce logica fuzzy
In Hitachi a instalat n Japonia un metrou controlat prin logica fuzzyTrenurile accelereaza mai rapid si uniform economisind ) energie comparativcu solutia conventionala
In Vest interesul este ceva mai mic Explicatia este probabil si traditia logiciiaristotelice binare care spune ca ceva exista sau nu exista Filosoa si religiaorientale se bazeaza pe principiul ca ceva exista si n acelasi timp nu exista deexemplu YIN si YANG
Atunci cand nu au putut converti binar o informatie conform principiuluitruefalse occidentalii au apelat la statistica Astfel probabilitatea ca o masinasa e lenta sau rapida se exprima printrun numar ntre si Logica fuzzyproduce acelasi rezultat etichetand masinile n functie de viteza cu numere ntre si Aceasta a produs o mare confuzie nenteleganduse diferenta dintre celedoua demersuri Vom vedea nsa ca diferenta este fundamentala
Initiatorul logicii fuzzy este paradoxal un occidental Zadeh n
Controlere fuzzy
Sistemele fuzzy au fost folosite foarte des n controlere Aceste controlere suntusor de proiectat uneori n cateva ore Performantele lor sunt mai bune decat ncazul controlerelor clasice Proiectarea unui sistem fuzzy nu necesita cunostintede logica fuzzy Vom demonstra aceasta proiectand un controler fuzzy pentru unlift
Primul pas n proiectarea unui sistem fuzzy este sa decidem asupra uneimultimi de reguli fuzzy In cazul nostru ele sunt
Daca liftul se ridica lent si pozitia sa este departe de pozitia dorita atuncimareste viteza
CAPITOLUL RETELE NEURALE FUZZY
Daca liftul se ridica cu o viteza medie si este aproape de pozitia doritaatunci micsoreaza viteza
Exprimam acelasi lucru prin reguli IFTHEN
IF viteza este SP small positive AND pozitia este LN large negativeTHEN tensiunea motorului este LP large positive
IF viteza este MP medium positive AND pozitia este SN small negativeTHEN tensiunea motorului este SP small positive
Sarcina controlerului fuzzy este sa proceseze aceste doua reguli eventual sialtele dupa ce a determinat pozitia si acceleratia
O regula are doua parti partea antecedenta si cea consecventa Partea antecedenta poate contine mai multe clauze legate prin AND OR si NOT O clauzaeste de exemplu viteza este SP Clauzele pot descompuse n variabile si adjective De exemplu variabile sunt viteza si pozitia iar adjective sunt SPLN si LP
Gradul n care o regula este relevanta ntro situatie masurata este acelasicu gradul n care antecedentul regulii este adevarat n sens fuzzy Valoarea deadevar fuzzy a unui antecedent depinde de valoarea de adevar fuzzy a ecareiclauze ale sale si de operatiile logice care leaga aceste clauze
In logica fuzzy ecarui adjectiv cum este si SP i se atribuie o functie deapartenenta Valoarea functiei de apartenenta este ntre si Data ind valoarea unei variabile functia de apartenenta este folosita pentru a calcula valoareade adevar a acelei variabile
Exemplu Un barbat de m n mod cert nu este nalt deci functia deapartenenta la multimea barbatilor nalti a acestuia are valoarea Pentru mavem o valoare ntre si
Folosind functiile de apartenenta fuzzy ecarei clauze dintrun antecedent i sepoate atribui o valoare de adevar fuzzy Mai trebuie acum sa atribuim o valoarede adevar ntregului antecedent
Exemplu Functia de apartenenta a vitezei la SP are valoarea si functia deapartenenta a pozitiei la LN are valoarea deci valoarea de adevar a ntreguluiantecedent este pentru ca se considera valoarea minima
Pasul nal consta n combinarea valorilor de iesire pentru cele doua reguliAcest proces se numeste defuzzicare La acest proces nu exista un consensasupra modului de operare
Tipul de defuzzicare ilustrat n gura se numeste defuzzicare minmaxIntrun sistem fuzzy toate regulile actioneaza simultan asupra iesirii La
iesire avem tensiunea corespunzatoare centrului de greutate al sumei regiunilor
LOGICA FUZZY
0 00
0 0 0
0
0,20,3
0,60,8SP LN LP
MP SN SP
regula 2
regula 1
viteza(functia de apartenenta) (functia de apartenenta) (functia de apartenenta)
tensiunea motoruluipozitie
tensiunilorsuma
(se ia max.)
centrul degreutate
iesire (tensiunea motorului)
0,1 m/sviteza(intrare)
-10 mpozitia(intrare)
x
Figura Defuzzi care minmax
hasurate Trebue sa facem observatia ca forma functiei de apartenenta este datade proiectant De obicei se alege o functie triunghiulara sau trapezoidala
Logica fuzzy generalizeaza logica binara permitand valori reale ntre si
Logica fuzzy logica conventionalasi teoria multimilor
Ca si teoria multimilor logica fuzzy se ocupa de conceptul apartenentei la omultime In teoria clasica a multimilor un element poate sau nu poate sa apartinaunei multimi ceea ce este nenatural
Exemplu Un barbat de m poate avea un grad de apartenenta de la multimea barbatilor nalti Aceasta nseamna si ca acest barbat are un gradde apartenenta de la multimea barbatilor care nu sunt nalti Acest barbatapartine deci simultan celor doua multimi complementare ceea ce ar imposibiln teoria conventionala
Logica conventionala deneste o functie de apartenenta la o multime A astfelfAx f g unde nseamna x A iar nseamna x A In logica fuzzyfunctia de apartenenta devine fAx ! "
Ideea de a vedea o multime ca o functie capabila sa deneasca grade deapartenenta sta la baza teoriei multimilor fuzzy Evident este nevoie de o nouamatematica cea introdusa de Zadeh
CAPITOLUL RETELE NEURALE FUZZY
Logica conventionala si logica fuzzy
Logica conventionala foloseste AND OR si NOT Orice relatie poate descrisaprin combinarea acestor operatori Functiile logice fuzzy opereaza asupra unorvalori de adevar n ! " Pentru valorile si o astfel de functie trebuie sadea acelasi rezultat ca si n logica conventionala Evident exista o innitate defunctii care sa satisfaca aceste cerinte Trebuie alese cele mai avantajoase
Functia AND poate implementata astfel
andX Y minX Y
unde X Y ! "Functia OR orX Y maxX Y Functia NOT notX X
Teoria clasica si fuzzy a multimilor
FiemAx valoarea functiei de apartenenta a punctului x la multimeaA si mBxvaloarea functiei de apartenenta a punctului x la multimea B Denim
mABx min!mAx mBx"
Este o denitie compatibila cu denitia functiei AND Este relatia pe care amfolosito n exemplul cu controlerul Similar
mABx max!mA mB"
mAcx mAx
unde Ac este complementul lui ACa exercitiu calculati intersectia si reuniunea multimilor A si Ac
Multimi fuzzy si paradoxuri logice
Bertrand Russell a dat urmatorul paradox al barbierului Intrun oras exista unbarbier care barbiereste pe oricine nu se barbiereste singur Problema este dacabarbierul se barbiereste singur Apare o contradictie logica un paradox Dacapropozitia P se barbiereste singur are valoarea de adevarat truthP atuncitruthP truthnotP deoarece barbierul se barbiereste si n acelasi timp nuse barbiereste singur Folosind complementul fuzzy
truthnotP truthP
AtuncitruthP truthP
decitruthP
RETELE NEURALE FUZZY
In logica fuzzy propozitiile pot avea valori de adevarat oriunde ntre si deci paradoxul lui Russell nu mai exista
Desigur eliminand toate restrictiile asupra imaginatiei putem practic explica orice De exemplu sa consideram superstitiile popoarelor primitive careexplica fenomenele naturale cu ajutorul entitatilor supranaturale Logicieniiconventionali acuza teoreticienii fuzzy de constructie articala Teoriile matematice trebuie nsa judecate prin consistenta frumusetea si utilitatea lor Teoriafuzzy satisface toate aceste cerinte
Observatii matematice
Fie X o multime oarecare Fie fA X ! " o functie Functia fA deneste omultime fuzzy n X adica multimea A fx fAxjx Xg Functia fA estefunctia de apartenenta la multimea A
Apare un abuz de limbajntre multimea fuzzyA si functia de apartenentala A Acest abuz se datoreaza faptului ca denim o multime prin gradul deapartenenta la aceasta multime nu prin enumerarea multimii cum suntem obisnuiti
Retele neurale fuzzy
Neuroni fuzzy
Un neuron nonfuzzy are N intrari ponderate si o iesire Iesirea se calculeazaastfel
y f
NXi
wixi T
unde f este functia de activare n general neliniara Un neuron fuzzy NF g are N intrari ponderate si M iesiri
...
...
x
x
x
1
2
N
w
w
w
1
2
N
h f
gg
g
...
1
2
M
y
y
y
1
2
M
T
intrari ponderi iesiri
Figura Neuronul fuzzy
CAPITOLUL RETELE NEURALE FUZZY
Toate intrarile si ponderile sunt valori reale iar iesirile sunt valori reale nintervalul ! " Fiecare iesire poate asociata gradului de apartenenta n sensul fuzzy adica exprima n ce masura patternul cu intrarile fx x xNgapartine unei multimi fuzzy Avem
z hwx wx wNxN
unde z este intrarea n NF iar h este functia de agregare
s fz T
unde s este starea NF f este functia de activare iar T este pragul
yj gjs j M
unde gj j M sunt functiile de iesire ale NF reprezentand gradele de
apartenenta ale lui fx xNg la cele M multimi fuzzy In general ponderilepragul si functiile de iesire sunt modicabile n timpul procesului de instruireFunctia de agregare si functia de activare sunt xe Se pot deni multe tipuri deNF prin schimbarea functiilor f si h
Denim acum patru tipuri de NF
un NF de intrare este un NF folosit n stratul de intrare a unei RNF retelede neuroni fuzzy avand doar o singura intrare x astfel ncat z x
un MAXNF are functia de agregare
z maxiNwixi
un MINNF are functia de agregare
z miniNwixi
un COMPNF NF competitiv are pragul variabil si o singura iesire astfelncat
y gs T
daca s T daca s T
T tc c cK
unde s este starea NF t este functia prag iar ck k K sunt variabilecompetitive ale NF
RETELE NEURALE FUZZY
Structura unei RNF
RNF propusa este pe patru straturi Primul strat de intrare foloseste neuronifuzzy de intrare Presupunand ca dorim sa recunoastem caractere ecare NF dinacest strat corespunde unui pixel din patternul de intrare Daca ecare patternde intrare are N N pixeli atunci primul strat are N N NF de intrarePentru al i jlea NF de intrare din primul strat avem
sij z
ij xij pentru i N j N
yij
sij
Pvmaxpentru i N j N
unde xij este valoarea pixelului i j xij iar Pvmax este valoarea maxima apixelilor pentru toate patternurile de intrare
Al doilea strat consta din N N MAXNF Acest al doilea strat realizeazafuzzicarea patternurilor de intrare prin functia pondere wmn Starea celuideal p qlea MAXNF din al doilea strat este
spq maxiNmaxjNwp i q jyij
pentru p N si q N unde wpi qj este ponderea conexiuniidintre al i jlea NF de intrare din primul strat si al p qlea MAXNF din aldoilea strat
wmn emn
pentru m N N si n N N Prin aceastafunctie pondere care are o forma de gaussiana ecare NF din al doilea strateste ca o lentila astfel ncat ecare NF focalizeaza pe un pixel din patternul deintrare dar vede si pixelii vecini Parametrul determina cati pixeli vedeun NF aceasta ind decis prin algoritmul de instruire Functia w se numeste sifunctie de fuzzicare Fiecare MAXNF din acest strat are M iesiri diferite cateuna pentru ecare NF din al treilea strat Iesirile celui deal p qlea MAXNFdin al doilea strat sunt
ypqm gpqmspq
pentru p N q N m M unde ypqm este a ma iesire acelui deal p qlea MAXNF catre al mlea MINNF din stratul trei Functia deiesire gpqm se determina prin algoritmul de instruire Pentru simplitate putemalege triunghiuri isoscele de naltime si baza g
Avem
ypqm gpqmspq
jspqpqmj
pentru jspq pqmj
n rest
Kwan HK CaiY A Fuzzy Neural Network and its Application to Pattern RecognitionIEEE Trans on Fuzzy Systems
CAPITOLUL RETELE NEURALE FUZZY
1
0
gpqm(s )pq
Θpqm
α
pq
[2]
[2]
[2]s
Figura Functia de iesire gpqm
pentru p N q N m M unde pqm estemijlocul bazei triunghiului Prin algoritmul de instruire se determina pentruecare p q m valorile corespunzatoare pentru si pqm
Al treilea strat consta din M neuroni de tip MINNF Fiecare din acestineuroni reprezinta un pattern nvatat Deci M poate determinat doar lancheierea procesului de instruire Iesirea celui deal mlea MINNF este
ym sm minpNminqNypqm
pentru m M Al patrulea strat este stratul de iesire si consta din M neuroni de tip COMP
NF cate unul pentru ecare pattern nvatat Daca un pattern de intrare estecel mai asemanator cu al mlea pattern nvatat atunci iesirea celui deal mleaCOMPNF este iar celelalte iesiri sunt Avem
sm zm ym pentru m M
ym g!sm T "
daca sm T daca sm T
pentru m M
T maxmMym pentru m M
unde T este pragul de activare pentru toti neuronii din cel deal patrulea strat
Algoritmul de instruire a unei RNF
Prin instruire trebuie sa determinam urmatorii parametri pqm si M Denim Tf Tf ca toleranta la eroare a RNF Fie K numarul total depatternuri de instruire
Pasul Creeaza NN neuroni de tip NF de intrare n primul strat si NN
neuroni de tip MAXNF n al doilea strat Alege o valoare pentru si o valoare pentru
RETELE NEURALE FUZZY
Pasul M k
Pasul M M Creeaza al M lea MINNF n al treilea strat si al M leaCOMPNF n al patrulea strat
pqM spq maxiNmaxjNwp i q jxijk
pentru p N si q N unde pqM este mijlocul bazei triunghiului pentru cea deaM a functie de iesire a celui deal p qlea MAXNF n stratul Xk fxijkg i N j N este al kleapattern de instruire Presupunem ca valorile xijk sunt deja normalizate
Pasul k k Daca k K algoritmul de instruire se terminaAltfel accepta la intrarea n retea al klea pattern si calculeaza iesirea RNFcurente cu M neuroni n straturile si
maxjMyjk
unde yjk este iesirea celui deal jlea MINNF din stratul pentru al klea
pattern de instruire XkDaca Tf goto Pasul Tf goto Pasul
Analiza RNF
Primul strat de neuroni accepta datele de intrare si transforma valoarea pixelilorn valori normalizate n intervalul ! "
Al doilea strat fuzzica patternul de intrare Valoarea unui pixel n patternul de intrare va afecta starile mai multor NF din stratul Cu cat este mai miccu atat mai multi NF din stratul vor afectati de un pixel din patternul deintrare Deci controleaza gradul de fuzzicare Daca este prea mic RNF nuva putea separa patternurile distincte Daca este prea mare RNF si pierdeabilitatea de a recunoaste patternuri perturbate Valoarea lui trebuie aleasaastfel ncat toate patternurile distincte sa poata separate iar RNF sa aiba orata de recunoastere acceptabila
Valoarea ypqm exprima conceptul fuzzy cu privire la gradul n care valoareapixelilor n jurul pixelului p q din patternul de intrare sunt similare cu valoareapixelilor n jurul pixelului p q din cel deal mlea pattern nvatat Functiade iesire gpqm pentru neuronii din cel deal doilea strat este de fapt o functiede apartenenta fuzzy gpqms
pq arata gradul de apartenenta al patternului de
intrare la clasa reprezentata de almlea pattern nvatat apartenenta referindusela vecinatatile corespunzatoare ale pixelului p q
Neuronii din al treilea strat determina similaritatile dintre patternul de intrare si patternurile nvatate Avem de fapt
ym
minpq
jspq pqmj pentru maxpqjspq pqmj
n rest
CAPITOLUL RETELE NEURALE FUZZY
pentru m M Valoarea ym masoara similaritatea patternului de intrarecu al mlea pattern nvatat Daca patternul de intrare a fost deja nvatat vaexista un m pentru care ym Daca patternul de intrare nu a fost nvatattoate valorile ym m M vor mai mici decat Valoarea lui trebuiesa acopere toate valorile posibile la nivel de pixel
Stratul de iesire este folosit pentru defuzzicare Deci procedura de recunoastere prin RNF consta din
datele de intrare stratul
fuzzicare stratul
deductie fuzzy stratul
defuzzicare stratul
Straturile si sunt construire prin instruirea retelei Daca un pattern deintrare este similar cu un pattern deja nvatat el este tratat ca acel pattern faraa mai nvatat si el In caz contrar patternul de intrare este nvatat Procesulde instruire poate continuu RNF nu trebuie n mod necesar instruita completnainte de a folosita ea poate si instruita si pe parcursul folosirii
Parametrii si Tf trebuie xati convenabil
Rezultatele simularii
In implementarea autorilor literele si cifrele au fost construite ca patternuri de pixeli pixelii avand doar valori binare Patternurile au fost apoi miscateprin deplasari n cele opt directii cu unul si doi pixeli Cele de patternuricorecte si cateva din patternurile obtinute prin deplasari au fost folosite pentrua instrui reteaua
Pentru a testa performantele retelei sau folosit patternuri perturbate prinmariremicsorare subtierengrosare adaugareaextragerea unor mici portiunietc
Sau folosit diferite valori pentru Tf la instruire
Tf
Dupa instruire sa testat RNF la recunoasterea unor patternuri perturbaterezultatele ind foarte bune
RETELE NEURALE FUZZY
Concluzii
Timpul de instruire a RNF este mai mic decat n cazul instruirii prin propagarean urma a erorii Recunoasterea este si ea mai rapida Sa observam ca aceastaRNF nvata nesupervizat ind n esenta un algoritm de clustering Ulteriorinstruirii RNF este folosita ca un clasicator Exista variante ale acestei RNFcare nvata n mod supervizat
Cai Y HK Kwan Fuzzy Classi cation Using Fuzzy Inference Networks IEEE TransSyst Man and Cyb Part B Cybernetics
CAPITOLUL RETELE NEURALE FUZZY
Capitolul
Algoritmi genetici
Natura a demonstrat puterea geneticii Cei ce vor sa multiplice performantelesistemelor biologice chiar partial nu pot ignora modul n care acestea sau dezvoltat cum au evoluat
Algoritmii genetici sunt mijloace prin care masinile pot emula mecanismeleselectiei naturale Acesti algoritmi sunt simpli robusti si generali Cu reteleleneurale au n comun urmatoarele
nu sunt necesare cunostinte asupra spatiului de cautare
consuma uneori mult timp
sunt paraleli prin natura lor
ambele metode se aplica unor probleme similare
De aceea de multe ori algoritmii genetici si retelele neurale se aplica mpreunaDe exemplu algoritmii genetici se pot aplica pentru accelerarea procesului deinstruire a retelelor neurale In mod ciudat printrun algoritm genetic se poateobtine algoritmul genetic care rezolva o problema data
Introducere
Metodele conventionale de optimizare se bazeaza pe ajustarea parametrilor unuimodel pentru a produce un rezultat dorit La retelele neurale prin instruire semodica iterativ ponderile conexiunilor astfel ncat sa se produca relatia doritantre intrari si iesiri De remarcat ca este mentinuta o singura solutie care esteoptimizata n mod iterativ
Algoritmii genetici opereaza optimizari conform tehnicilor cunoscute n genetica biologica se modica si se mentin caracteristicile unei populatii de solutiiindivizi pe parcursul unui mare numar de generatii Acest proces producepopulatii succesive avand un numar din ce n ce mai mare de indivizi cu caracteristicile dorite Ca si n natura procesul este probabilistic dar nu completaleator Dupa cum vom vedea regulile geneticii retin caracteristicile dorite prin
CAPITOLUL ALGORITMI GENETICI
maximizarea probabilitatii de proliferare a solutiilor indivizilor care au acestecaracterisitci
Genetica nu optimizeaza ci mbunatateste Un individ nu trebuie sa e optim pentru a supravietui el trebuie sa e superior altor indivizi din populatiarespectiva
Algoritmii genetici opereaza asupra unor codicari de parametri nu directasupra parametrilor Codicarile sunt siruri de lungime nita de obicei binareFiind data o populatie initiala de siruri un algoritm genetic produce o nouapopulatie de siruri folosind o multime de reguli genetice Regulile sunt astfelconstruite ncat aceasta noua generatie tinde sa aiba siruri superioare celor dingeneratia precedenta din punct de vedere al unei functii obiectiv
Exemplu
Dorim sa minimizam valoarea unui sir binar considerat aici ca un numar binarVom efectua urmatorii pasii
initializare
reproducere
ncrucisare
mutatie
repeta pasii
Initializare
Fiecare sir este generat ca un numar binar aleator Pornim cu urmatoarele sasesiruri
i sirul Ai val zecimala fi pi
Total
Ca functie obiectiv se alege val zecimala
Reproducere prin selectie
Se obtine o a doua generatie de siruri care au n medie functia obiectiv maimare Fiecare sir Ai este copiat n generatia urmatoare de un numar de ori care
EXEMPLU
este proportional cu pi unde
pi fiPj fj
fi ind functia obiectiv iar pi este functia obiectiv relativa Discul noroculuig este reprezentarea graca a acestor functii
001011
011010
010110
100111
010011
110110
Figura Discul norocului Sectiunile sunt proportionale cu pi
Pentru ecare copiere n generatia urmatoare se copiaza sirul la care sa opritdiscul Se fac sase copieri pentru ca a doua generatie sa e la fel de mare
Primul sir se reproduce n medie de ori deci prin rotunjire odata
Incrucisare
Se simuleaza schimbul de material genetic care are loc n timpul reproduceriibiologice In mod aleator se obtin perechi de siruri Pentru simplitate vomncrucisa perechile adiacente Pentru ecare pereche se obtine un numar ntregaleator ntre si Acesta arata cati biti din dreapta se schimba ntre cele douasiruri De exemplu ncrucisam sirurile A si A avand ntregul aleator
CAPITOLUL ALGORITMI GENETICI
Procesul continua pentru sirurile A si A avand ntregul aleator si pentrusirurile A si A avand ntregul aleator Obtinem sirurile
Mutatie
Biologic ea perturba caracteristicile populatiei n mod aleator prevenind degenerarile Cele mai multe mutatii mai mult distrug decat sa e benece Deaceea mutatia trebuie sa e rara pentru a nu distruge specia Pe de alta parteea e necesara In simularea noastra vom presupune o rata a mutatiei de biti mutatia nsemnand aici o inversare de bit Deoarece avem de biti npopulatie probabilitatea unei mutatii este Presupunem ca nu are loc nicio mutatie la acest pas Obtinem astfel a doua generatie
i sirul Ai val zecimala fi pi
Total
Observam ca totalul functiei obiectiv a crescut vizibilIntregul proces se reia obtinand urmatoarele generatiiIn general populatia poate sa creasca sau sa scada de la o generatie la altaAcest proces continua pana cand functia obiectiv atinge o valoare acceptabila
pentru o anumita generatie Convergenta este n general rapidaSe poatentampla sa ajungem la o degenerare de exemplu daca cele sase siruri
sunt De aici putem iesi doar asteptand o mutatie favorabila Aceastapoate avea loc doar dupa multe generatii Astfel se poate ntampla si n naturaunde o specie poate suferi o adaptare neoptima pentru milenii pana cand apareun organism mai bine adaptat care ajuta la perfectionarea speciei
Fundamente matematice
O schema este o submultime de siruri cu similaritati n anumite pozitii Vom considera siruri peste alfabetul V f g Un sir va notat astfel A aaa alunde ai poate sau iar l este lungimea sirului O schema H peste alfabetul
FUNDAMENTE MATEMATICE
V f g este de exemplu H Schema H este de pildareprezentata de sirul
Daca V are k siruri atunci se pot forma k l scheme Fiecare sir estecontinut n l scheme deoarece ecare caracter din sir poate avea e valoarea pecare o are e
Deci ntro populatie de n siruri exista cel mult n l scheme si cel putin l
scheme reprezentate efectiv n populatie acest numar depinzand de diversitateapopulatiei Ordinul unei scheme H oH este numarul pozitiilor xate din HDe exemplu o
Lungimea de denitie a unei scheme H h este distanta dintre prima siultima pozitie xata De exemplu
Vom considera efectele operatiilor de reproducere ncrucisare si mutatie asupra schemelor reprezentate ntro populatie de siruri
Reproductie
Presupunem ca la momentul t exista m reprezentanti m siruri ai schemei H ngeneratia At Vom scrie m mH t Conform algoritmului de reproductieun sir Ai este copiat n generatia urmatoare cu probabilitatea pi
fiPfj Pre
supunem ca selectam n siruri distincte din At pentru urmatoarea generatieAt cu reintroducere Avem
mH t mH t n fHPfj
unde fH este valoarea medie a functiei obiectiv pentru sirurile care reprezintaschema H la momentul t
Fie 'f P
fjn
valoarea medie a functiei obiectiv pentru ntreaga populatieAt are n siruri Atunci
mH t mH tfH
'f
O schema H creste deci direct proportional cu raportul
valoarea medie a functiei obiectiv pentru schema H
valoarea medie a functiei obiectiv pentru ntreaga populatie
Efectul reproducerii este clar din punct de vedere al numarului de reprezentantio schema H cu fH 'f creste iar o schema H cu fH 'f scade
Sa presupunem acum ca pentru o schema H avem fH 'f c 'f unde c esteo constanta Atunci
mH t mH t'f c 'f
'f c mH t
Pornind din t obtinem
mH t mH ct
adica obtinem o progresie geometrica Cresterea scaderea unei scheme prinreproductie este exponentiala
CAPITOLUL ALGORITMI GENETICI
Incrucisare
Fie l si e
A
H
H
Sirul A reprezinta schemele H si H Taietura dupa care se executa ncrucisarea se alege aleator echiprobabil ntre cele posibilitati De exemplu
A
H
H
Incrucisarea are loc prin schimbarea primelor caractere din A Observamca H este distrusa deoarece si vor plasate n siruri diferite H
supravietuieste nsa Probabilitatea ca H sa e distrusa este mai mare deoareceH H Probabilitatea ca H sa e distrusa este
pd H
l
Probabilitatea ca H sa supravietuiasca este
ps pd
Similar pentru H pd
Nu am considerat deocamdata situatia n care prin operatia de ncrucisarepozitiile xate din schema nu se modica
In general
ps H
l
Fie pc probabilitatea ca sa efectuam operatia de ncrucisare Avem
ps pcH
l
Se foloseste semnul pentru ca acum tinem cont si de situatia n care prinoperatia de ncrucisare pozitiile xate nu se modica
Consideram acum efectul combinat al reproductiei si ncrucisarii Presupunand ca aceste doua operatii sunt independente obtinem
mH t mH tfH
'f
pc
H
l
Observam ca schemele cu lungime mica sunt favorizate
EXERCIT II
Mutatie
Alteram o pozitie xata cu probabilitatea pm deci supravietuieste cu probabilitatea pm O schema H supravietuieste daca ecare dintre cele oH pozitii xate supravietuieste Rezulta ca probabilitatea ca o schema H sa supravietuiascaeste pm
oH Pentru valori mici ale lui pm aceasta probabilitate se poateaproxima cu oHpm conform inegalitatii Bernoulli Oricare ar a sin natural avem
an na
T inand cont de toate operatiile genetice obtinem rotunjit
mH t mH tfH
'f
pc
H
l oHpm
Observam ca schemele cu ordin mic sunt favorizateIn nal putem formula urmatoarea teorema
Teorema Fundamentala a Algoritmilor Genetici Holland Schemele cu valoare a functiei obiectiv peste medie cu lungimea de denitie si ordinul mici cresc exponential n generatiileurmatoare
Am vazut ca ntro populatie de n siruri de lungime l sunt procesate ntre l
si nl scheme Nu toate aceste scheme sunt procesate cu o probabililitate maredatorita operatiilor de ncrucisare si mutatie schemele lungi sunt distruse
Se poate demonstra ca numarul de scheme efectiv procesate este n ordinullui n tinand cont si de operatiile de ncrucisare si mutatie
Cu alte cuvinte cu toate ca se proceseaza n siruri la ecare generatie unalgoritm genetic proceseaza de fapt n ordinul lui n scheme Aceasta proprietatedeneste paralelismul implicit al unui algoritm genetic Manipuland n elementeprocesam de fapt aproximativ n similaritati
Acestui paralelism implicit i se datoreaza faptul ca spatiul cautarilor estesucient de mare pentru ca algoritmul sa nu duca n general la un optim localci la unul global
Fiind data o populatie de siruri cu valorile respective ale functiei obiectiv nepunem problema de ce informatie dispunem pentru a ghida cautarea unor sirurimai bune Raspunsul este similaritatile dintre siruri Aceste similaritati suntdescrise de schemele populatiei
Exercitii
C Minimizati functia fx y z xyz x y z ! " Folositisiruri binare de lungime
CAPITOLUL ALGORITMI GENETICI
Capitolul
Puterea si complexitatea de
calcul a retelelor neurale
Masina Turing
Masina Turing este un model abstract de calculabilitate O masina Turing esteformata dintro banda divizata n celule innita la dreapta si dintrun cap decitirescriere care la un moment dat este pozitionat exact asupra unei celuleFiecare celula poate contine cel mult un simbol In plus exista o multime nitade stari care controleaza mutarile masinii La o mutare masina Turing n functiede simbolul din celula de banda pe care este pozitionat capul de citirescriere side starea n care se a%a masina efectueaza urmatoarele
Trece ntro noua stare
Scrie un simbol n celula pe care masina se a%a pozitionata nlocuind ceeace era scris nainte eventual poate tipari acelasi simbol
Deplaseaza capul de citire o celula la dreapta sau stanga sau lasa capul decitirescriere pozitionat asupra aceleiasi celule
Initial capul de citirescriere este pozitionat asupra celei mai din stanga celulePrimele n celule din stanga pentru un n contin simboluri care reprezintadatele de intrare iar restul de celule n numar innit contin un simbol specialce nu poate folosit pentru reprezentarea datelor de intrare de obicei blank
Masina porneste dintro stare precis determinata numita stare initiala Unelestari din multimea nita a starilor se numesc stari nale Starile nale sunt dedoua tipuri de acceptare si de respingere
Multimea simbolurilor formeaza un alfabet nit Secventele nite de simboluri se numesc cuvinte O masina M accepta un cuvant w daca pornind dinstarea initiala cu w ca data de intrare ajunge dupa un numar nit de pasintro stare nala de acceptare
Limbajul acceptat de o masina M este multimea nita sau innita
LM fwjM accepta wg
CAPITOLUL PUTEREA SI COMPLEXITATEA DE CALCUL
Multimea limbajelor acceptate de masini Turing formeaza clasa limbajelor recursiv enumerabile L
In cazul n care numarul de pasi efectuati este nit modul de operare al uneimasini Turing este descris de catre un algoritm
In afara de imaginea masinii Turing ca si o procedura algoritm daca estenit de recunoastere a unei multimi putem considera ca un astfel de dispozitivcalculeaza o functie adaugand o banda de scriere O astfel de masina calculeazao functie naturala f daca pornind cu data de intrare x se opreste cu fx pebanda de scriere Functia f se numeste n acest caz Turingcalculabila
Calculabilitatea intuitiva este un concept prematematic care nu permite nicio restrictie inevitabil impusa de o denitie riguroasa
Orice functie Turingcalculabila este si intuitiv calculabila Reciproca acesteiarmatii este mai dicil de formulat deoarece identica doua obiecte din careunul este matematic iar unul prematematic
Teza lui ChurchTuring Orice functie intuitiv calculabila este Turingcalculabila
Teza lui ChurchTuring nu poate demonstrata ci doar justicata prematematic Cu alte cuvinte este greu de acceptat existenta unor functii naturale intuitivcalculabile care sa nu e Turingcalculabile
In conformitate cu teza lui ChurchTuring clasa multimilor L coincide cuclasa multimilor algoritmic calculabile
Teorema Turing Problema opririi masinii Turing estenerezolvabila
Cu alte cuvinte nu exista un algoritm care sa determine daca o masina Turingarbitrara actionata dintro conguratie arbitrara q w i se va opri sau nu q estestarea w este data de intrare iar i este pozitia capului
Puterea de calcula a masinilor Turing este foarte mare orice algoritm chiar siNP poate implementat pe o masina Turing corespunzatoare O masina Turingpoate rezolva orice problema rezolvabila pe un calculator de uz general avandavantajul ca poate descrisa matematic foarte concis
Masinile Turing pot deterministe sau nedeterministe Multimea limbajeloracceptate de masinile nedeterministe este nsa egala cu multimea limbajeloracceptate de masinile deterministe
Un algoritm NP poate rezolvat ntrun timp polinomial pe o masina Turingnedeterminista Daca se doreste rezolvarea pe o masina determinista timpul numai ramane polinomial
Un algoritm P poate rezolvat ntrun timp polinomial pe o masina Turingdeterminista
PUTEREA DE CALCUL A RETELELOR NEURALE
Puterea de calcul a retelelor neurale
Un model masiv paralel MMP este o multime de celule interconectate printroretea de comunicatie Fiecarei celule i corespunde o vecinatate din care provinconexiunile care intra n celula Numarul de celule poate innit numarul deconexiuni este la nivel local nit iar conexiunile sunt orientate
In particular modele masiv paralele sunt retelele neurale automatele celularesi retelele de automate
In cadrul masinilor Turing o problema este rezolvabila algoritmic daca exista un algoritm avand la intrare un cuvand nit w si la iesire un cuvant carereprezinta informatia determinata de w Spre deosebire de aceasta un MMPrezolva probleme de conguratie avand la intrare o conguratie x a modelului sila iesire o conguratie a modelului care reprezinta informatia determinata de x
Generalizam acum notiunea de rezolvabilitate pentru MMP
Denitie O problema de conguratie este prezolvabila printrunmodel masiv paralel M daca indiferent de conguratia de intrare xexista un moment t astfel ncat avem
stabilitate T t x T t x pentru t tcorectitudine T t x este exact iesirea dorita
Prin T am notat functia care deneste dinamica globala a modelului
Cateva rezultate fundamentale
McCulloch si Pitts armaun ca retelele neurale sunt calculatoare universale
Franklin si Garzon au aratat ca orice problema rezolvabila algoritmic printromasina Turing poate efectiv formulata sub forma unei probleme de conguratieprezolvabila pe o retea neurala Asadar retelele neurale sunt ce putin la fel deputernice ca si masinile Turing
Conguratiile unui MMP pot nsa innite deci prezolvabilitatea este onotiune mai complexa decat calculabilitatea Franklin si Garzon au demonstrat caproblema opririi este prezolvabila pe o retea neurala innita Aceasta problemanu estensa rezolvabila pe o masina Turing dupa cum am vazut Conform acestuirezultat dar si al altor rezultate de acest fel sau demonstrat de catre Garzon siFranklin urmatoarele relatii
masini Turing automate celulare retele neurale retele de automate
Garzon M S Franklin NeuralComputability II Report of Memphis State UniversityMSUTR
CAPITOLUL PUTEREA SI COMPLEXITATEA DE CALCUL
Reprezentarea functiilor booleene prin
retele feedforward
Orice functie nita poate implementata exact printro retea neurala feedforward cu un strat ascuns de perceptroni de tip continuu Ito
Prin denitie o functie nita este de forma f Q R unde Q Rd Qnita
Orice functie continua poate aproximata oricat de bine de o retea neuralafeedforward cu un singur strat ascuns de perceptroni de tip continuu FunahashiHechtNielsen
Sa consideram cazul functiilor booleene Domeniul de denitie al unei functiibooleene cu N argumente contine N elemente Pentru ecare din aceste N
elemente exista valori posibile ale functiei Deci exista N
functii booleenediferite cu N argumente Vom reprezenta o functie booleeana arbitrara printroretea feedforward cu un strat ascuns Aceasta nu surprinde o functie booleeanaind un caz particular de functie nita Primul strat va format din N perceptroni discreti N reprezentand argumentele functiei Ultimul stratconsta dintrun neuron discret S reprezentand valoarea functiei F NValorile logice sunt reprezentate de In stratul ascuns sunt N neuronidiscreti q qN Ponderea wjk dintre k si qj este w calculata astfele N reprezentarea binara a lui j Luam wjk w daca k siwjk w daca k Adica wjk k w unde w este o constantapozitiva Alegem pragul pentru neuronii ascunsi N w Potentialul pentruun neuron ascuns este
hj Xk
wjkk N w
w!Xk
k k N "
Avem hj daca si numai daca
k k pentru k N
unde k si k Deci conditia este
k k pentru k N
Cu alte cuvinte pentru o intrare exact un neuron din stratul ascuns va deveniactiv Acest neuron este qj unde j este reprezentat binar ca
N
Ito Y Finite Mapping by Neural Networks and Truth Functions Math Scientist
Funahashi K On the Approximate Realization of Continuous Mapping by Neural Networks Neural Networks
HechtNielsen R Theory of the Backpropagation Neural Network In Neural Networksfor Perception H Wechsler Ed Academic Press
REPREZENTAREA FUNCT IILOR BOOLEENE
Avem deci urmatoarele iesiri din neuronii ascunsi
sj
pentru j j pentru j j
Ponderea vj dintre sj si neuronul S va
vj
daca F N true daca F N false
unde N corespunde lui sj Luam pragul
Xj
vj
Potentialul pentru neuronul S este
k Xj
vjsj Xj
vj Xj
vjsj vj
Iesirea din retea va sgnh F N g
σN
σ1
2 -1N
2 -1N2 -1N
σ1σ
N... ...
+/-1
+/-1 w01 q0
q
s0v0 S
sv
sgn(h) = F ( ,..., )
Figura Retea neurala care implementeaza functia F N
Se observa ca numarul de neuroni ascunsi este N deci foarte mare Pe dealta parte problema reprezentarii unei functii booleene SATI este NPcompletateorema lui Cook Deci este explicabil De fapt am folosit forma normaladisjunctiva cu o poarta OR si N porti AND
In cazuri particulare reprezentarea se poare face nsa mult mai ecient cumai putini neuroni De exemplu XOR su argumente se poate reprezenta cu nu neuroni ascunsi
Apare problema minimizarii retelei neurale care reprezinta o functie booleanadata Pentru retelele cu un strat ascuns corespunzand functiilor booleene nforma normala conjunctiva problema minimizarii este cunoscuta se minimizeazafunctia booleana printrunul din algoritmii uzuali Karnaugh sau Quine McCluskey Minimizarea se refera aici la numarul de neuroni adica numarul deporti O problema cu totul diferita este daca o functie booleana cu N argumentepoate nvatata de catre o retea neurala ntrun timp polinomial Valiant a
Valiant LG A Theory of the Learnable Commun ACM
CAPITOLUL PUTEREA SI COMPLEXITATEA DE CALCUL
aratat ca functiile logice sub forma normala conjunctiva pot instruite folosinddoar un numar polinomial de exemple pozitive In cazul functiilor n forma normala disjunctiva mai este nevoie n plus de nca un nivel de nvatare
O problema interesanta este daca functia poate nvatata folosind doar putineexemple si lasando apoi sa generalizeze
Complexitatea instruirii retelelor neurale
feedforward
Fie cazul retelelor feedforward multistrat cu perceptroni de tip continuu sau discret nu are importanta si e cazul nvatarii supervizate
Teorema Judd Problema generala a instruirii unei astfel de reteleeste NPcompleta
Cu alte cuvinte presupunand PNP nu exista un algoritm cu timp polinomialcare sa instruiasca o retea n conditiile n care
Arhitectura retelei neuronii si conexiunile fara ponderi este arbitrara
Numarul de patternuri care trebuie memorate n retea este arbitrar
Marimea unui caz este aici proportionala cu marimea retelei numarul de perceptroni conexiuni plus numarul patternurilor de memorat
Daca de exemplu pentru a accelera instruirea marim numarul de neuronin retea timpul de executie creste foarte mult deoarece timpul poate cresteexponential fata de numarul de neuroni
Teorema ramane valabila indiferent de functia de activare folosita De asemenea teorema ramane valabila chiar daca arhitectura retelelor considerate vericarestrictia
nr de straturi ascunse
Observatii
Aceasta teorema se refera la instruire n general Exista clase mari de retelesi secvente de instruire care duc la o instruire n timp polinomial Problemagenerala a instruirii unei retele cu o functie booleana oarecare este nsa NPcompleta
Se observa empiric faptul ca algoritmul de instruire prin propagarea nurma a erorii este foarte lent daca numarul de straturi este mare Sarputea deduce ca aceasta ar o proprietate generala retelele cu straturiputine se instruiesc mai ecient Teorema lui Judd ne arata ca nu esteneaparat asa Importanta este marimea retelei complexitatea ei
Judd JS Neural Network Design and the Complexity of Learning The MIT PressCambridge
COMPLEXITATEA INSTRUIRII
Instruirea este de fapt memorare Memorarea unor perechi asociate desiruri se face n timp liniar pe o masina von Neumann adica mult mairapid Este nsa adevarat ca astfel se pierd avantajele procesarii neuralede exemplu invarianta la perturbatii
Ramane ca subiect de cercetare din punct de vedere al NPcompletitudiniiproblema instruirii retelelor recurente
CAPITOLUL PUTEREA SI COMPLEXITATEA DE CALCUL
Capitolul
Consideratii epistemologice
asupra calculului neural
Scopul unei retele neurale
Formele superioare de viata inclusiv cele bazate pe sisteme nervoase centraletind sa faciliteze supravietuirea speciei respective n conditii de mediu care devindin ce n ce mai dicile
Natura nu si foloseste niciodata n mod inutil resursele ci actioneaza conform unui principiu de optimalitate De aceea putem arma ca mecanismelecreierului tind sa asigure n mod optim supravietuirea De exemplu somnuln interpretarea lui Freud tinde sa integreze zgomotele pastrand homeostaziasistemului
Din aceasta perspectiva analogiile dintre calculatoarele digitale si reteleleneurale biologice sunt nerezonabile Problemele aritmetice sunt rareori rezolvatecu scopuri biologice poate ca pasarile nvata sasi numere ouale nsa chiar siaceasta abilitate poate explicata pana la un anumit nivel prin functii elementare de recunoastere a formelor Necesitatea de a numara sclavi si soldatifolosind semne este de origine mai tarzie n dezvoltarea omului si este realizatape baza unor mijloace nebiologice Orice ncercare de a construi modele neuralepentru sumatoare multiplicatoare convertoare AD si alte circuite de calcul estede aceea din acest punct de vedere irationala
Cea mai importanta functie a sistemului nervos este monitorizarea si controlul conditiilor n care organismul traieste n mediul respectiv Aceasta functiese realizeaza prin modicarea starilor organismului sisau a mediului Cele maielementare stari controlabile ale organismului sunt globale nestructurate de exemplu temperatura Cele mai evoluate astfel de stari sunt legate de comportament social care implica planicarea anticipativa si interactiunile sociale Chiarsi acestea sunt nsa motivate biologic
Diferenta dintre calculatoare si creier rezulta din scopurile lor diferite Calcu
Kohonen T SelfOrganization and Associative Memory Springer Berlin rd ed chap
CAPITOLUL CONSIDERAT II EPISTEMOLOGICE
latoarele au fost dezvoltate initial pentru a rezolva probleme matematice mai alesaritmetice Ulterior sa descoperit ca instructiunile folosite pentru calculul simbolic pot utilizate si pentru procesarea limbajului natural Aceasta descoperirea fost un efect secundar n istoria dezvoltarii calculatoarelor Inca nu sa observatca o anumita generatie de calculatoare sasi doreasca sa supravietuiasca
Pentru a modela cat mai bine sistemele neurale biologice retelele neurale articiale trebuie sa interactioneze cu lumea reala cu obiectele naturale Statisticasemnalelor naturale de exemplu vorbirea sunt complet diferite de statistica presupusa n teoria matematica a probabilitatilor Natura gaussiana a zgomotuluisi distributia normala a datelor sunt ipoteze foarte proaste n acest context
Functiile neurale biologice sunt localizate
sau distribuite
Este unul dintre subiectele de dezbatere continua Circuitele neurale trebuiesa proceseze functiile local n timp ce distribuirea globala a activitatilor este ofunctie colectiva a activitatilor tuturor partilor
De fapt dihotomia distribuire localizare poate urmarita si la nivelul neuronului
putem localiza cu acuratete de microni corpul si axonul neuronului
ramurile dendritelor aceleiasi celule sunt nsa distribuite pe o arie cu undiametru de cativa milimetri
Cu alte cuvinte raspunsul poate localizat cu toate ca functiile adaptive pot distribuite spatial pe o arie mare
Este neliniaritatea esentiala n
calculul neural
Semnalele procesate n retelele neurale sunt de obicei continue In electronicacu toate ca de fapt caracteristicile componentelor sunt neliniare prin folosireafeedbackurilor negative si a altor metode de stabilizare se organizeaza componentele si circuitele n module integrate care se comporta liniar
Neuronii biologici au caracteristici si mai neregulate decat componentele electronice Faptul ca neuronii au raspunsuri neliniare nu nseamna nsa ca sistemul integrat nu poate sa se comporte liniar Iata un exemplu de astfel deintegrare cand creierul recunoaste o situatie importanta sistemul reticular deactivare adauga n circuitul cortical o excitatie care face ca neuronii sa opereze nmijlocul plajei lor dinamice Se adauga deci un semnal pentru a modica plajan care opereaza neuronii Acest lucru se face doar pentru un timp scurt Inplaja lor dinamica neuronii pot apoi sa functioneze liniar In ansambul sistemulfunctioneaza n acest caz temporar liniar Daca sistemul reticular de activare
DEOSEBIRI ESENT IALE
nu recunoaste o situatie ca ind importanta neuronii raman inactivi sub pragulde saturatie
Exista si cazuri de neliniaritate De exemplu n cazul perceptiei vizuale lainsecte Ochiul insectei este format din multe lentile ecare captand un sectoral campului vizual Semnalele rezultate din fotoreceptoarele acestor lentile suntprelucrate n cativa centri nervosi numiti ganglia situati langa organele senzoriale Acesti centri combina semnalele receptate ntrun mod neliniar formandproduse de perechi de semnale unul obtinut din gura si unul din fundal Corelarea perechilor de semnale este diferita n cazurile cand gura este respectiv nueste n miscare
Deosebirile esentiale dintre calculatoarele
neurale si cele digitale
Gradul de paralelism al retelelor neurale este mai mare decat cel al oricaruicalculator digital masiv paralel
Calculatoarele masiv paralele sunt retele de procesoare care lucreaza asincron Aceste calculatoare sunt totusi digitale si au circuite digitale nnodurile lor Deosebirea lor esentiala fata de calculatoarele von Neumannconsta n faptul ca este imposibil de prezis ordinea operatiilor realizate ntimpul calculului
Retelele neurale lucreaza tot asincron Semnalele neurale nu aunsa o formaexacta deci nu este posibil sa combinam nici o informatie de control coduride control biti de paritate adrese cu datele De exemplu multiplexareanu mai este din aceasta cauza posibila
Calculatoarele neurale sunt calculatoare analogice Ele nu pot executa programe memorate Operatiile implementate pe ele nu pot denite algoritmic
De ce semnalele neurale nu pot aproximate de variabile booleene
Impulsurile neurale au un aspect binar amplitudinea nu conteaza Dardurata unui impuls nu este variabila nu este posibil sa denim semnalelogice statice similare cu cele folosite n calculatoarele digitale Mai multimpulsurile neurale nu sunt nici sincronizate deci semnalele neurale diferade cele digitale
Circuitele neurale nu implementeaza automate nite
Filosoa calculului digital dar si a inteligentei articiale se bazeaza peteoria automatelor nite Prin feedback g un automat nit poateimplementa orice secventa de stari ind capabil de a deni recursiv functiilecalculabile
CAPITOLUL CONSIDERAT II EPISTEMOLOGICE
automatfinit
intrare iesire
Figura Automat nit
Toate calculatoarele digitale aplica principiul recursivitatii la diferite nivelede la hardware la procedurile denite n limbaje de programare Aplicarearecursivitatii este posibila din doua motive tehnologice
valorile semnalelor sunt stabile
toate combinatiile de semnale si stari sunt accesibile
O retea neurala biologica nu poate implementa un automat nit Functiilefeedback din retelele neurale servesc altor scopuri Procesul de calcul neuralarticial este mai apropiat unei aproximari stohastice
Cum pot programate calculatoarele
neurale
Este greu de imaginat cum ar putea programati pasii individuali de procesaren creier si cum sa e programat un calculator neural ca un calculator digital
Structurile anatomice n sine constituie un program incluzand si codulgenetic In acest sens creierul este programat Similar arhitectura reteleineurale articiale reprezinta programul ei
In natura biologica structurile par atat de semnicative ca si cum ar createconform unui plan a priori Explicatia stiintica este ca mutatiile pe parcursulunei lungi evolutii duc prin selectie la solutia optima Solutiile optime la care seajunge sunt nsa foarte greu de nteles datorita faptului ca sunt denite implicitprin codurile genetice Este imposibil sa adoptam aceasta tehnica n calcululretelelor neurale articiale
Problema principala este cum sa obtinem raspunsuri corecte din partea mediului fara interventia si interpretarea programatorului si sa le prezentam sistemului
Din toate aceste motive putem arma ca o retea neurala veritabila nu poate programata Cele mai utile aplicatii ale retelelor neurale sunt cele pentru carestructurile sau mecanismele sunt deja familiare
Poate creierul sa se autoperceapa
Numim complexitate a unui sistem numarul de bucle feedbackuri care potaparea n sistemul respectiv Astfel complexitatea unei singure bucle este
POATE CREIERUL SA SE AUTOPERCEAPA
Creierul care poate sa perceapa comportamentul unui alt creier mai mic trebuie sa aiba o complexitate de cel putin ori mai mare decat complexitateacreierului investigat Stakermann
In mod ironic cunostintele deja achizitionate sunt pierdute n mod continuuprin moartea indivizilor si trebuie restabilite de catre cei tineri
In concluzie o identitate nu se poate autopercepe Creierul biologic nu sepoate autontelege
Starkermann R The Functional Intricacy of Neural Networks A Mathematical StudyProceedings Insbruck
CAPITOLUL CONSIDERAT II EPISTEMOLOGICE
Anexa A
Complemente matematice
A Vectori si matrici
Vector coloana x
xxxn
Vector linie x !x xn"
t
Fie vectorii ndimensionali x x xn Vectorul x este o combinatie liniaraa vectorilor x x xn daca exista scalarii c cm astfel ncat
x mXi
cixi
Multimea de vectori x x xn este liniar dependenta daca exista c cm nu toti nuli astfel ncat
mXi
cixi
In caz contrar vectorii x x xn sunt liniar independenti
Norma euclidiana a unui vector kxk xtx qPn
i xi
Produsul scalar a doi vectori x si y xty Pn
i xiyi kxk kyk cos unde este unghiul dintre cei doi vectori
Proprietate xty kxkkykcos unde este unghiul dintre x si y
Se observa ca xty ytx deci produsul scalar este comutativ
Vectorii x si y sunt ortogonali daca si numai daca produsul lor scalar este
Daca vectorii nenuli x x xn sunt doi cate doi ortogonali atunci suntliniar independenti
ANEXA A COMPLEMENTE MATEMATICE
Exemplu Vectorii x
x
x
sunt doi cate doi
ortogonali si sunt independenti
Exemplu Gasiti produsul scalar dintre vectorii x si y lungimea lor si unghiuldintre ei unde
x
y
Solutie xty kxk kyk p cos xty
kxkkyk p deci o
A Forme patratice
O forma patratica FP este o functie Ex xtAx unde x este un vectorndimensional iar A o matrice simetrica de n n elemente
Daca A aijijn atunci
Ex x xn ax axx axx anxxn
ax axx anxxn annx
n
nXi
nXj
aijxixj
Proprietati ale formelor patratice
Ex este o FP pozitiv semidenita iar A este o matrice pozitiv semidenitadaca !x Ex "
Ex este o FP pozitiv denita iar A este o matrice pozitiv denita daca!x Ex "
Ex este o FP negativ semidenita iar A este o matrice negativ semidenita daca !x Ex "
Ex este o FP negativ denita iar A este o matrice negativ denita daca!x Ex "
Ex este pozitiv denita daca si numai daca pentru A aijijn avem
det A kak
det A
a aa a
det Ann det A
Conditii suciente pentru ca Ex sa e
A ELEMENTE DE GEOMETRIE ANALITICA
a FP pozitiv semidenita
detA detA detAnn
b FP pozitiv denita
detA detA detAnn
c FP negativ semidenita
detA detA detA
d FP negativ denita
detA detA detA
e In toate celelalte cazuri FP este nedenita
Sa notam ca o forma patratica Ex este nedenita daca este pozitiva pentruanumite valori ale lui x si negativa pentru alte valori deci depinde de x
A Elemente de geometrie analitica
Ecuatia unei drepte n plan este
a x b y c cu a b
Vectorul
n
ab
este un vector normal la dreapta data Acesta este ndreptat spre semiplanulpozitiv adica pentru care a x b y c
Ecuatia unei drepte a carei vector normal este n !n n"t si trece prin
punctul reprezentat de vectorul x este
nt x x
Avand doua puncte x si x n plan si vectorii asociati lor x si x ecuatiamediatoarei segmentului dintre x si x este
x xt x x
unde x este mijlocul segmentului respectivDin relatia anterioara rezulta
x xtx
x x
tx x
ANEXA A COMPLEMENTE MATEMATICE
si obtinem
x xtx
xtx xtx
Dinxtx kxk
obtinem urmatoarea ecuatie a mediatoarei
x xtx
kxk kxk
Ecuatia planului care trece prin trei puncte necoliniare estex y z x y z x y z x y z
Ecuatia planului care trece printrun punct xx y z si este perpendicularpe vectorul n !a b c"t este
a x x b y y c z z
Ecuatia planului care trece prin mijlocul segmentului xyz xyz si esteperpendicular pe vectorul x x unde x !xyz"
t x !xyz"t este
x xtx
jjxjj jjxjj
A Operatia XOR
XOR este o operatie binara asupra argumentelor logice x x Avem
x x x x x x x x x
Putem extinde operatia XOR pentru n argumente logice
XORx x xn x x xn
Aceasta functie se numeste si functia de paritate deoarece are valoarea daca sinumai daca numarul argumentelor care au valoarea este impar
A Iacobianul si hessianul
Un vector xt dependent de timp se deneste astfel
xt
xt
xnt
dxt
dt
dxdt
dxndt
(xt
(xt
(xnt
A IACOBIANUL SI HESSIANUL
Fie functia Ex unde x este un vector cu n componente Gradientul sedeneste astfel
rxEx
ExExn
Proprietati
a rxxt y y
b rxxtAy Ay
c rxxtAy AxAt x
d Cand lucram cu forme patratice A este simetrica si avem A At Rezultarxx
tAx Ax
Gradientulntrun punct x al unei functii reprezinta directia cresterii maximea lui Ex Gradientul reprezinta tangenta la curba pe directia de crestere si estenul n punctele de maxim si minim
Daca avem o functie E!xt" nu neaparat o forma patratica unde x este unvector de n componente dependente de timp atunci
dE!xt"
dt
E
x xt
E
xn xnt
nXi
E
xi(xit
Observam cadE!xt"
dt !rxEx"t xt
Exemplu Fie
xt
xtxt
et
t
Forma patratica a lui xt cu matricea
A
este
E!xt" het t
i
et
t
rxEx
ddx
x xx xddx
x xx x
x xx x
(xt
et
ANEXA A COMPLEMENTE MATEMATICE
Atunci
dE!xt"
dthet t et t
i et
et t et t
Fie m functii
Ex Ex x xn
Emx Emx x xn
Matricea iacobiana se deneste n felul urmator
Ix dE
dx
E
x E
xn
Emx
Emxn
Exemplu Pentru
x h
itEx x xx
Ex xx x
avem
Ix
x x x
x x x
Matricea hessiana a functiei Ex Ex xn se deneste astfel
Hx rxEx rx!rxEx"
Ex
xx
xxn
E
xxnE
xxn E
xn
Matricea hessiana este simetricaExemplu Pentru
Ex x x x
avem
rxEx
x x x x
rxEx
Deoarece determinantii principali sunt si matricea hessiana este pozitivdenita
A PROBLEME DE OPTIMIZARE
A Probleme de optimizare
Presupunem ca avem o functie obiectiv Ex unde x este o variabila scalaraAceasta functie si atinge minimul n punctul x x pentru care se ndeplinescurmatoarele conditii
dEx
dx
dEx
dx
Daca x este un vector generalizarea se face astfel rxEx rxEx pozitiv denita
Pentru a ntelege aceste conditii sa consideram de exemplu
x
xx
Dezvoltam n serie Taylor n punctul x x si retinem primii termeni ai dezvoltarii
Ex Ex x xExx
x xExx
x x
Exx
x x
Exx
x xx xExxx
Pentru $x x x $x x x obtinem
Ex Ex h
Exx
Exx
i $x$x
$x$x
t Exx
Exxx
Exxx
Exx
$x
$x
Luand
$x
$x$x
obtinem
Ex Ex !rxEx"t$x
$xt!r
xEx"$x A
Daca Ex are un minim n x orice schimbare innitezimala $x n x trebuiesa rezulte n Ex $x Ex Pentru aceasta trebuie ca
Gradientul n x sa scada si sa faca termenul liniar din A sa e zero
Hessiana n x sa e pozitiv denita ceea ce va face forma patratica dinA pozitiva independent de $x
ANEXA A COMPLEMENTE MATEMATICE
Solutia analitica a unei probleme de optimizare speciale
Fie functia
Ex
xtAx btx
unde x este un vector ndimensional A este o matrice n n simetrica pozitivdenita b este un vector ndimensional constant Ex este una dintre putinelefunctii pentru care exista o solutie analitica pentru minimul fara restrinctii
Calculam
rxEx Ax b
rxEx A
Prin ipoteza A este pozitiv denita Impunem conditia Ax b Solutiaeste x Ab Rezulta ca x este un minim
A Metoda lui Euler metoda tangentei
Fie ecuatia diferentiala de ordinul ntai
y fx y unde y yx
cu conditia initialay yx
Daca f este complicata nu putem integra directDorim o aproximare a lui y +x care se demonstreaza ca este solutia
unica g A Scriem
y y $y
+x $y
$x $y +x$x
y y +xx x y fx yx x
Apoi y y yx x y fx yx x
In general
yn yn hfxn yn yn hyn daca xn xn h n
Aceasta relatie este formula lui Euler
Exemplu y x yy
A METODA LUI EULER METODA TANGENTEI
y*=Φ(x)y
xx0 x1 x2
y0
y1
y2
y*=Φ(x)y
xx0 x1 x2
y0
y1y2
∆x∆y
Figura A Ne deplasam pe tangenta la y pana la x
Se stie ca solutia exacta a acestui sistem are urmatoarea expresie analitica
y +x
x
ex
Aproximati pe + presupunand ca nu aveti expresia analitica a lui +
Avem
h
y f
y y hf
y y hfx y
Eroarea este
j + j
Luand o valoare mai mica pentru h obtinem o eroare mai mica
Fie acum un sistem de doua ecuatii diferentiale de ordinul I
x ft x yy ft x yxt x yt y
Cautam valorile aproximative x x xn y y yn ale solutiei exactex +t y ,t n punctele tn t nh Avem
x hft x y
y hgt x y
In general
xn xn hftn xn yn xn hxn
yn yn hgtn xn yn yn hyn
ANEXA A COMPLEMENTE MATEMATICE
Exemplu Determinati valorile aproximative ale lui x +t y ,t npunctele t si t pentru sistemul
x x yy x yx y
Pentru h avem
x
x x
x
y
y y
y
Fie sistemul
x Ft x xn
x Ft x xn
xn
Fnt x xn
cu conditiile initialext xxnt xn
Acest sistem are o solutie n intervalul t daca exista functiile x +t xn +ny diferentiabile n t si care satisfac conditiile initiale
Teorema de existenta si unicitate Daca F Fn si Fx
Fxn
Fnx
Fnxn
sunt continue n regiunea R care contine punctul
t x x
n atunci exista un interval jt tj R n care exista o
solutie unica x +t xn +nt a sistemului care satisface
conditiile initiale
Observam ca nu se spune nimic despre derivatele Fit
A Stabilitatea sistemelor dinamice neliniare
La sfarsitul secolului XIX Liapunov a dezvoltat o metoda pentru analiza stabilitatii sistemelor dinamice Aceasta metoda se bazeaza pe conceptul de energiegeneralizata si presupune evaluarea functiei lui Liapunov
Fie un sistem autonom descris de sistemul de ecuatii diferentiale liniare sauneliniare
(x fx
(x fx
A VARIABILE ALEATOARE
(xn fnx
care este echivalent cu x fx unde x este vectorul starilor sistemului Presupunem ca f adica x este un punct de echilibru Vom formula oconditie pentru ca x sa e asimptotic stabil adica vectorul starilor sa tindacatre zero cand timpul tinde catre innit Fie Ex energia acumulata n sistem
Teorema lui Liapunov Daca E este o functie pozitiv denita pentru care
E este continua fata de toate componentele xi i n
dExt
dt adica functia energiei descreste n timp
atunci originea este asimptotic stabila
Functia E care satisface aceste conditii se numeste functia lui Liapunov Ingeneral ea nu este unica
0
x2
x1
traiectorie
dE/dt>0
instabila
0
x2
x1
t=0
dE/dt<0
traiectoriestabila
t=0
Figura A Functia lui Liapunov
Daca cel putin o astfel de functie satisface conditiile teoremei atunci sistemuleste asimptotic stabil Uneori nu este foarte clar despre ce energie este vorbaConsideratiile sunt mai curand matematice decat zice In cazul retelelor neuralevorbim de functia energiei computationale ea neavand legatura cu energia dinzica
A Variabile aleatoare
Fie o variabila aleatoare discreta
a anp pn
X
pi
ANEXA A COMPLEMENTE MATEMATICE
DenimValoarea medie m
Paipi E
Varianta dispersia E E E E Pai p
i
Paipi
Deviatia standard Functia de repartitie a unei variabile aleatoare normale cu media m si dis
persia este
F x P x
p
Z x
e
um
du pentru x
si este notata cu Nm Distributia N este standard Functia de densitate a lui Nm este
fx F x
p
exm
pentru x
Anexa B
Subiectetip pentru examen
Clasicatorul liniar functia discriminant liniara
Regula hebbiana
Regula WindrowHo
Deduceti regula delta pentru un neuron din conditia de minimizare a erorii
Demonstrati ca functia energiei computationale
E
vtWv itv
nXi
Gi
Z vi
fi zdz
ntro retea Hopeld cu timp continuu este necrescatoare
Principiul de functionare a unui convertor AD pe biti implementat printro retea de tip gradient
Teorema perceptronului
Algoritmul de stocare a patternurilor prototip ntro memorie autoasociativa recurenta unipolara
Aproximarea unei functii continue prin retele neurale feedforward
Alegerea arhitecturii unei retele neurale feedforward cu un strat ascuns
Teorema lui Liapunov
Problema zgomotului ntrun asociator liniar
Reprezentarea unei functii booleene printro retea neurala feedforward
Adaugarea eliminarea unui pattern la o dintro memorie autoasociativarecurenta
In%uenta factorilor si n algoritmul backpropagation
ANEXA B SUBIECTETIP PENTRU EXAMEN
Demonstrati ca functia energiei computationale
E
vtWv itv Ttv
ntro retea Hopeld cu timp discret este necrescatoare
Perioada refractara a unui neuron biologic
Perioada de nsumare latenta a unui neuron biologic
Algoritmul backpropagation este convergent
Care este numarul maxim de regiuni liniar separabile folosind J neuroniascunsi
Intro retea Hopeld cu timp continuu energia scade cat mai rapid
De ce algoritmul de actualizare la retelele Hopeld trebuie sa e stochasticasincron
Cum putem gasi punctele de stabilitate ale unei retele Hopeld de tip gradient
Ce este un asociator liniar
Teorema fundamentala a geneticii
Paralelismul implicit al algoritmilor genetici
Multime fuzzy
Logica fuzzy
Rolul intrarii xe n algoritmul de instruire a unei retele feedforward deperceptroni discreti
Teza ChurchTuring
Masina Turing
Adaugati relatiile de incluziune corespunzatoare ntre urmatoarele multimimasini Turing automate celulare retele neurale retele de automate
Teorema lui Judd referitoare la complexitatea instruirii retelelor neuralefeedforward multistrat
Capacitatea memoriei autoasociative recurente
De ce n cazul memoriei asociative bidirectionale se prefera procesarea sincrona
Principiul de functionare al retelei Hamming
Principiul de functionare al retelei MAXNET
Care este scopul calibrarii supervizate a unui clasicator neural
Principiul de functionare a retelei Kohonen
Ce este o harta Kohonen
Principiul de functionare a retelei neurale fuzzy
Principiul de functionare a retelei neurale cu functie de activare radiala
Teorema lui Judd
Teorema lui HechtNielsen
Teorema lui Kolmogorov
ANEXA B SUBIECTETIP PENTRU EXAMEN
Anexa C
Linkuri
Neural Networks Commercial Software Toolshttpwwwemslpnlgov projneuronneuralsystemssoftwarehtml
SNNS Stuttgart Neural Network SimulatorhttpwwwrainformatikunituebingendeSNNS
OFAI Library Information System Biblio Neural Networkshttpwwwaiunivieacatoefainnconn bibliohtml
An Introduction to Genetic AlgorithmshttpwwwcsqubacukMSullivangaga indexhtml
The Genetic Algorithms Archivehttpwwwaicnrlnavymilgalist
David W Aha Machine Learning Pagehttpwwwaicnrlnavymilaharesearchmachinelearninghtml
ANEXA C LINKURI
Bibliograe
!" Davis L Handbook of Genetic Algorithms Van Nostrand Reinhold
!" Dumitrescu D H Costin Retele neuronale teorie si aplicatii TeoraBucuresti
!" Freeman JA DM Skapura Neural Networks Algorithms Applicationsand Programming Techniques AddisonWesley Reading Mass
!" Goldberg DE Genetic Algorithms in Search Optimization and MachineLearning AddisonWesley
!" Hagan M T HB Demuth M Beale Neural Network Design PWSPublishing Co Boston
!" Hassoun MH Fundamentals of Articial Neural Networks The MITPress Cambridge Mass
!" Haykin S Neural Networks A Comprehensive Foundation MacmillanCollege Publishing Company New York second edition
!" HechtNielsen R Neurocomputing AddisonWesley Reading MA
!" Kosko B Neural Networks and Fuzzy Systems Prentice Hall EnglewoodClis
! " Masters T Practical Neural Network Recipes in C Academic PressBoston
!" Michalewicz Z Genetic Algorithms Data Structures Evolution Programs SpringerVerlag Berlin second edition
!" Muller B J Reinhardt Neural Networks An Introduction SpringerVerlag Berlin
!" Negoita CV DA Ralescu Multimi vagi si aplicatii ale lor Ed TehnicaBucuresti
!" Stefan Gh Functie si structura n sistemele digitale Ed Academiei Bucuresti
BIBLIOGRAFIE
!" Tou JT RC Gonzales Pattern Recognition Principles ReadingAddisonWesley
!" Tsoukalas LH RE Uhrig Fuzzy and Neural Approaches in EngineeringJohn Wiley Sons New York
!" Wasserman PD Advanced Methods in Neural Computing Van NostrandReinhold Inc Computer Science Press NY
!" Zurada J Introduction to Articial Neural Systems West PublishingCompany St Paul