Prefat - vega.unitbv.rovega.unitbv.ro/~cataron/Publications/curs_rn.pdfdin San An tonio SUA n an ul univ ersitar Angel Cat aron a f acut parte din prima generat ie de absolv ent

Despre autoriIncepand cu anul universitar Razvan Andonie a predat un curs

de Retele neurale la Universitatea Transilvania specializarile Electronica sicalculatoare Electrotehnica Informatica Acelasi curs la predat la UniversitateaTexas din San Antonio SUA n anul universitar

Angel Cataron a facut parte din prima generatie de absolventi care au frecventat acest curs In perioada el a predat cursul de Retele neurale laUniversitatea Transilvania specializarea Electronica si calculatoare Pe langaaceasta el este coordonatorul orelor de laborator pentru acest curs si este doctorand n domeniul retelelor neurale

Prefata

Chiar daca acest material este suportul cursului de Retele neurale dea lungultimpului acest curs a nceput sa contina capitole noi la interferenta retelelorneurale cu sistemele fuzzy si algoritmii genetici Aceasta este n concordanta cutendintele actuale n lume

De aceea am preferat denumirea de inteligenta computationala Inteligentacomputationala asa cum a fost denita de Bezdek are ca obiectiv modelareainteligentei biologice Din acest punct de vedere ea este similara domeniuluinumit inteligenta articiala Spre deosebire de inteligenta articiala care estebazata pe notiunea de cunostinta inteligenta computationala este o modelarenumerica a inteligentei biologice Putem vorbi deci de trei tipuri de inteligentabiologica articiala si computationala

Inteligenta computationala este formata din urmatoarele subdomenii reteleneurale algoritmi genetici programare evolutionara sisteme fuzzy viata articiala In contextul inteligentei computationale toate aceste subdomenii suntlegate de modelarea numerica a inteligentei biologice

Acest curs acopera majoritatea subdomeniilor inteligentei computationaleFiecare capitol ofera pe langa informatii teoretice cate o sectiune de aplicatiiurmata de un set de exercitii cele marcate prin C ind destinate implementariipe calculator

Bezdek J On the Relationship Between Neural Networks Pattern Recognition andIntelligence Int J Approximate Reasoning

Cuprins

Preliminarii n calculul neural Calculul neural exemple Istoricul dezvoltarii retelelor neurale Viitorul

Concepte fundamentale Neuronii biologici si modelele lor articiale Modelarea retelelor neurale Invatare si adaptare Reguli de nvatare Exemple Exercitii

Perceptroni monostrat Clasicare Functii discriminant Clasicatori liniari Perceptronul discret ca dihotomizator liniar Perceptronul continuu ca dihotomizator liniar Teorema de convergenta a perceptronului Retele monostrat de perceptroni Exemple Exercitii

Retele neurale feedforward multistrat Clasicarea patternurilor liniar

neseparabile Regula de nvatare delta Regula delta generalizata Algoritmul de instruire backpropagation Factori ai nvatarii Aproximatori universali Teorema lui Kolmogorov si retelele neurale Aplicatii Exemple

CUPRINS

Exercitii

Retele neurale feedback monostrat Retele Hopeld cu timp discret Retele Hopeld cu timp continuu Aplicatie problema comisvoiajorului Exemple Exercitii

Memorii asociative Concepte de baza Asociatori liniari Memorii autoasociative recurente Analiza performantei Memoria asociativa bidirectionala MAB Exercitii

Retele neurale cu autoorganizare Retelele Hamming si MAXNET Instruirea nesupervizata a clusterelor Harti Kohonen Exercitii

Retele neurale RBF Functii radiale O tehnica de grupare clustering Discutie

Retele neurale fuzzy Logica fuzzy

De ce logica fuzzy Logica fuzzy si cea conventionala

Retele neurale fuzzy Neuroni fuzzy Structura unei RNF Algoritmul de instruire a unei RNF Analiza RNF Rezultatele simularii Concluzii

Algoritmi genetici Introducere Exemplu Fundamente matematice Exercitii

CUPRINS

Puterea si complexitatea de calcul Masina Turing Puterea de calcul a retelelor neurale Reprezentarea functiilor booleene Complexitatea instruirii

Consideratii epistemologice Scopul unei retele neurale Functiile neurale biologice sunt localizate sau distribuite Este neliniaritatea esentiala n

calculul neural Deosebiri esentiale Cum pot programate calculatoarele

neurale Poate creierul sa se autoperceapa

A Complemente matematice A Vectori si matrici A Forme patratice A Elemente de geometrie analitica A Operatia XOR A Iacobianul si hessianul A Probleme de optimizare A Metoda lui Euler metoda tangentei A Stabilitatea sistemelor dinamice neliniare A Variabile aleatoare

B Subiectetip pentru examen

C Linkuri

Bibliograe

CUPRINS

Capitolul

Preliminarii n calculul neural

Calculul neural se efectueaza pe o retea densa de noduri si conexiuni Acestenoduri lucreaza n mod colectiv si simultan si se numesc neuroni articiali sauneuroni Neuronii pot opera de exemplu ca sumatoare sau comparatoare Deobicei neuronii lucreaza n paralel si sunt congurati n arhitecturi regulateAstfel ei pot organizati pe nivele ierarhice si se permit conexiuni feedback ncadrul unui nivel sau conexiuni feedback catre nivelele adiacente Puterea ecareiconexiuni este exprimata printro valoare numerica numita pondere care poate modicata

Domeniul retelelor neurale este cunoscut si sub denumiri similare neurocalcul conexionism procesare paralela distribuita sisteme adaptive retele cuautoorganizare etc Aceasta varietate indica de fapt tot atatea perspective dincare se studiaza retelele neurale

Retelele neurale functioneaza ca retele paralele distribuite Caracteristica lorde baza este arhitectura Unele retele sunt caracterizate de comportarea lor ntimp de dinamica lor Retelele neurale difera ntre ele prin modul de nvatareexista o varietate de reguli de nvatare care stabilesc cand si cum se modicaponderile conexiunilor In ne retelele difera prin viteza si ecienta de nvatare

Spre deosebire de calculatoarele conventionale care sunt programate sa efectueze anumite lucrari majoritatea retelelor neurale trebuie sa e nvatate sauinstruite Ele nvata noi asocieri noi patternuri noi dependente functionaleDupa cum vom vedea mai tarziu faptul ca retelele nvata reguli si algoritminlocuieste programarea necesara n calculul conventional Utilizatorii retelelorneurale nu specica un algoritm care sa e executat de catre un anumit neuron cum sar ntampla pe o masina traditionala In loc de aceasta ei aleg oconguratie care li se pare cea mai buna arhitectura specica toate caracteristicile neuronilor si ponderile initiale apoi aleg modul de instruire pentru retea Inurmatoarea faza sunt aplicate diferite date de intrare din care reteaua si extragecunostinte adica nvata Ca rezultat reteaua acumuleaza informatie care poate apoi utilizata

Calculul cu retele neurale se situeazantre inginerie si inteligenta articiala Sefolosesc tehnicile matematice ingineresti clasice dar si metode euristice speciceinteligentei articiale

CAPITOLUL PRELIMINARII IN CALCULUL NEURAL

In acest sens vom raspunde la urmatoarele ntrebari

Cum poate instruita ecient o retea si cum se nvata ea

Ce modele de neuroni trebuie folosite

Care sunt cele mai adecvate arhitecturi pentru anumite clase de probleme

Care sunt cele mai bune metode pentru a extrage cunostintele acumulatentro retea

Care sunt aplicatiile tipice pentru calculul neural si cat de eciente suntaceste aplicatii

Retelele neurale au atras atentia specialistilor din numeroase discipline Neurobiologii sunt interesati n modelarea retelelor neurale biologice Fizicienii suntatrasi de analogiile dintre retelele neurale si sistemele dinamice neliniare pe carele studiaza Matematicienii sunt fascinati de potentialul modelarii matematiceaplicat n sistemele foarte mari si complexe Inginerii n electronica si calculatoare aplica retelele neurale n procesarea semnalelor si construiesc pe bazaretelelor neurale circuite integrate inteligente Psihologii cauta n retelele neurale structurile prototip care modeleaza procesarea informatiei de catre om Inne informaticienii sunt interesati n posibilitatile de calcul ale retelelor masivparalele n domeniile inteligentei articiale teoriei calculabilitatii modelarii sisimularii etc

Calculul neural exemple

Ne propunem sa dam cateva exemple de utilizare a retelelor neurale n rezolvareaunor probleme reale

Clasicatori si sisteme automate de orientare n spatiu

Vom deni retelele neurale care raspund instantaneu datelor de intrare Pentrunceput vom analiza performantele unui simplu clasicator apoi vom extindeaceasta problema

Fie P P P opt puncte n spatiul tridimensional Multimea consta dintoate varfurile unui cub tridimensional

fP P P P P P P P g

Consideram doua clase de puncte

puncte cu doua sau mai multe coordonate pozitive P P P P

restul de puncte

CALCULUL NEURAL EXEMPLE

nod sumator

sumaponderata

elementcomparator

1

1

ponderi

Σ clasa

date deintrare

+ sgn(.)

1

x1

x2

x3

Figura Clasi cator realizat cu o singura unitate

(-1,0,1)

(0,-1,1)x +x +x =0

1

P

3

P

P P

P75P

02

P4 P6

1 2 3

Figura Partitionarea spatiului cartezian

Pentru orice punct Pix x x i apartenenta la una dintre claselede mai sus poate stabilita prin urmatorul calcul

sgnx x x

pentru clasa

pentru clasa

Aceasta expresie descrie functia de decizie a unui clasicator Nu este necesarao instruire a acestui clasicator Reteaua neurala rezultata este extrem de simplag

Am realizat clasicarea printro singura unitate sau nod de calcul Aceastaimplementeaza nsumarea cu ponderile respective n acest caz si este urmatade o comparare cu prag

De fapt se realizeaza o partitionare a spatiului cartezian tridimensional prinplanul x x x g


Punctele de deasupra planului fac parte din clasa iar punctele de dedesuptdin clasa

Problema pe care neo punem este daca o functie continua nu poate maiavantajoasa g

-1

Σ

1f( )Σ

Figura Functie continua de decizie

In acest caz datele de iesire pot n intervalul dintre si Folosireaneuronilor cu caracteristici continue ofera posibilitati mult mai mari Se obtineo granularitate o ranare mai mare a datelor de iesire

Neurologii folosesc electroencefalograma EEG care preia pe mai multe canale impulsurile electrice ale creierului Evaluarea EEG este dicila si de aceea seface de obicei de catre neurologi calicati Pentru o monitorizare pe calculatorsa ne concentram pe un caz concret detectarea unei iminente crize de epilepsieEste nevoie de o prelucrare online a semnalelor EEG

In Eberhart si Dobbins au realizat detectarea semnalelor EEG pentrucrizele de epilepsie folosind un clasicator neural Datele sunt monitorizate prinpatru canale de interes Semnalele EEG sunt esantionate de sau oripe secunda ntro fereastra de ms Aceasta are ca rezultat obtinerea a sau de esantioane de date pentru ecare canal Aceste esantioane trebuieevaluate si sunt introduse ntro retea neurala de de unitati interconectate cucaracteristici continue Un total de de unitati aranjate pe trei nivele ierarhice proceseaza datele Doua unitati de iesire sunt utilizate pentru identicareavarfurilor de semnal

Reteaua a fost elaborata de o echipa de ingineri si neurologi Dupa ce a fostinstruita reteaua a dat rezultate excelente dovedindusi utilitatea n spitale

Sa consideram un alt exemplu proiectul ALVINN Autonomous Land Vehicle In a Neural Network raportat de Pomerleau Reteaua ALVINNpreia imagini ale drumului printro camera si printrun laser care detecteaza profunzimea obiectelor La iesire este generata directia pe care trebuie sa circuleautovehiculul pentru a urma drumul Arhitectura retelei este cea din gura


45 unitati de directie

unitate de feedbackpt. intensitatea drumului

29 unitati

imagine30x32

profunzime8x32

(intrare) (intrare)

...

...

...

Figura Arhitectura retelei ALVINN

Informatia video este o retina de x care sesizeaza n albastru ofera celmai bun contrast Unitatea de feedback regleaza contrastul Cele intrariconduc spre unitati cu functie continua Unitatea din mijlocul celor deunitati de iesire arata cat de puternica este tendinta de a merge nainte Unitatiledin stangadreapta reprezinta tendintele de a o lua la stangadreapta Unitatiledin extremitatile stanga si dreapta corespund virajelor stangadreapta cat maiaccentuate

ALVINN a fost instruit prin imagini sintetizate pe calculator Performanteleobtinute au fost comparabile cu caracteristicile celor mai bune sisteme traditionale de orientare prin vedere articiala

Capacitatea sistemului ALVINN de a pastra directia drumului nu a fost implementata prin programare algoritm ci se bazeaza pe cunostintele asimilateprin instruire Dupa ora de instruire sistemul era capabil sa se orienteze singur pe drum Altfel ar fost necesare luni de zile pentru dezvoltarea algoritmilorcare sa recunoasca patternurile din imaginile preluate

Sau facut observatii interesante Astfel reteaua sa comportat mai bine dupace a fost instruita sa refaca erori de conducere Prin aceasta reteaua sia dezvoltatmasurile de corectare a conducerii

Memorie simpla si restaurarea patternurilor

Vom discuta acum despre retele neurale care raspund n timp datelor de intrareun pattern n acest caz Deoarece ele fac acest lucru ntrun mod foarte caracteristic prin reconstructia treptata a unui pattern memorat vom numi aceste


retele memoriiFie reteaua simpla din gura

sgn(.)Σ1

unitatea 1o1+

sgn(.)Σ o+ 2

unitatea 2

2

sgn(.)Σ o+ 3

unitatea 3

3

-11

1

-1

-1-1

Figura Retea memorie

Reteaua consta din trei unitati care calculeaza valorile functiei signum treinoduri densumare si sase ponderi care pot Semnalele care trec prin ponderisunt nmultite cu valoarea ponderilor Presupunem ca reteaua este initializatala iesire cu o o o cazul tab Cand se permite retelei sacalculeze intrarile la unitatile si sunt n timp ce la unitatea este Carezultat o si o nu se modica deoarece sgn nu este denit n timp ce odevine Urmeaza cazul care este o iesire nala deoarece nu se mai poatemodica Cazurile si sunt alte exemple de tranzitii posibile Observam ca sicazurile si duc apoi la cazul operand cate o singura modicare

Iata cum se reprezinta geometric aceste actualizari efectuate de reteaua de tipmemorie descrisa Se vede ca P este iesirea stabila a memoriei Cando singura componenta a vectorului de initializare binar o o o difera de Preteaua corecteaza aceasta componenta Iesirea este apoi mentinuta constantaDaca P reprezinta descrierea corecta a unui pattern iar P P P variantedistorsionate ale lui P memoria are capacitatea de a restaura variantele distorsionate asimilandule cu P g

Acest concept de memorie poate extins cu usurinta la lumea reala a aplicatiilor

Probleme de optimizare

Retelele neurale pot aplicate cu succes pentru rezolvarea unor probleme deoptimizare


Tabelul Exemple de tranzitii ale retelei tip memorie X nseamna sgn iar iesirilencadrate sunt cele care se modi ca

Cazul Nr unitatii Iesirea actuala sgn Iesirea urmatoare X

X

X

X X

X

Sa presupunem ca valoarea analogica x x trebuie digitizata ntrunnumar binar vv v v f g astfel incat

x v v

Exista evident patru posibilitati O retea similara cu memoriadin exemplul precedent poate rezolva aceasta conversie g

Reteaua consta din doua unitati cu caracteristici continue ecare cu raspunsn intervalul dintre si La cele doua unitati retelei i se mai adauga un numarde elemente de interconectare pe care nu le specicam

Conversia corespunde minimizarii erorii de conversie AD unde eroarea estex v v

n prezenta restrictiei v v f g Aceasta problema de minimizare este rezolvabila de catre o anumita clasa de retele neurale Caracteristicacestei clase este ca se minimizeaza asa numita functie de energie pe parcursulcalculului

Proprietatea de minimizare a energiei este de importanta foarte mare si seformuleaza astfel reteaua si cauta singura energia ei minima si se stabilizeazaacolo O serie de probleme de optimizare se transpun direct n minimizareafunctiei de energie a unei retele neurale Minimizarea energiei de catre reteapoate considerata analoga minimizarii erorii de conversie AD

Clasa de retele neurale exemplicata prin conversia AD este utilizabila si pentru probleme de optimizare combinatorican care complexitatea este exponentialasau mai rau n ordinul lui n In aceste probleme este important sa se reducaordinul timpului de cautare Retelele neurale ofera si n acest sens o alternativa


cazul 3

cazul 1

cazul 4

cazul 2

1

5

PP

P

P

P3

7P

0

2

P64P

Figura Actualizarile efectuate de reteaua de tip memorie

Detectarea gruparilor si a trasaturilor

O clasa importanta de retele neurale pot utilizate pentru detectarea gruparilorde date Aceste retele sunt calate pe anumite aspecte de similaritate n dateleevaluate De exemplu se poate sa m interesati n a grupa anumite rezultatede masurare n scopul eliminarii erorilor sistematice care pot aparea n timpulmasurarii Deoarece zgomotul este aleator el nu formeaza grupari ci doar perturba formarea gruparilor reale de date

Detectarea gruparilor si trasaturilor prezinta importante proprietati de autoorganizare care sunt legate de inteligenta articiala si teoria informatiei Retelele din aceasta clasa au n general arhitecturi simple dar subtilitatile apar ntimpul procesului de autoorganizare

Detectarea trasaturilor se raporteaza la reducerea dimensionalitatii datelorDe exemplu semnalul vorbirii consta din canale de frecventa audio Fonemelesunt deci descrise ntrun spatiu dimensional Problema este ca nu putemreprezenta astfel fonemele deoarece capacitatea noastra de vizualizare se reducela trei dimensiuni Utilizand o retea neurala este posibil sa reprezentam spectruldimensional al vorbirii ntrun tablou n plan Secventa fonemelor unui cuvantformeaza o traiectorie specica n plan Aceste harti fonotopice pot foarte utilen construirea masinilor de scris fonetice n nvatarea vorbirii si pentru terapie

ISTORICUL DEZVOLTARII RETELELOR NEURALE

v

unitatea 1

1

retea de

interconectare

unitatea 0

v0

x

analogicaintrare

digitalaiesire

Figura Diagrama bloc a unui convertor AD pe doi biti

Istoricul dezvoltarii retelelor neurale

McCulloch si Pitts au propus primul model pentru neuron Acest modelinclude toate elementele pentru a efectua operatii logice dar la acel nivel tehnologic era imposibil de implementat

Donald Hebb a propus un model de nvatare pentru a actualiza conexiunile neuronului cunoscut acum ca regula hebbiana de nvatare El a formulatideea ca informatia poate memorata n conexiuni

Primele neurocalculatoare au fost construite n anii Minsky Elesi adaptau automat conexiunile In Frank Rosenblatt a inventat un element neural numit perceptron Era conceput ca o masina instruibila capabila sanvete sa clasice anumite patternuri prin modicarea conexiunilor la elementelecomparatoare

La nceputul anilor a fost propus ADALINE ADAptive LINEar combiner un dispozitiv bazat pe regula de nvatare WindrowHo Bernard Windrow Marcian Ho Regula minimiza eroarea patratica nsumata pe parcursulinstruirii Aplicatiile erau de recunoasterea formelor control adaptiv si previziunea vremii

In ciuda entuziasmului anilor masinile existente nu permiteau abordareaunor probleme complexe Pe de alta parte nici schemele de nvatare nu erausucient de dezvoltate Sa intrat astfel ntro perioada de stagnare a carei cauzeerau de fapt cunoscute

Episodul nal al acestei ere a fost lucrarea lui Minsky si Papert care ademonstrat limitele retelelor bazate pe perceptroni In acest timp majoritateacercetatorilor se ndreptau spre alte domenii Domeniul retelelor neurale carefacea la acea vreme parte din cibernetica parea nchis In schimb se dezvolta

Minsky M S Papert Perceptrons Cambridge MA MIT Press


promitator domeniul inteligentei articiale preluand si sarcini pe care reteleleneurale nu puteau sa le rezolve la acel stadiu

In perioada cativa cercetatori au reusit sa dezvolte totusi cercetarile Kunihiko Fukushima a denit o clasa de retele neurale numite neocognitroni Neocognitronul modeleaza recunoasterea vizuala a formelor prin emulareaimaginilor de pe retina si procesarea lor folosind neuroni ierarhizati pe douanivele

Cercetarile n domeniul memoriilor asociative au evoluat n Finlanda TeuvoKohonen si SUA James Anderson Stephen Grossberg si Gail Carpenter au introdus cateva arhitecturi de retele neurale si au dezvoltat teoria retelelor adaptiveprin rezonanta ART

Era renasterii a nceput odata cu introducerea arhitecturii recurente pentrumemoriile asociative John Hopeld O alta revitalizare a domeniuluiprovine din lucrarile lui James McClelland si David Rumelhart

Incepand cu anii sau initiat multe programe de cercetare si interesul a devenit extrem de mare Au aparut aplicatii complexe Au fost fabricatechipuri VLSI de retele neurale Cu toate ca domeniul calculului neural are oistorie interesanta el este nca la nceputul dezvoltarii sale

Viitorul

Datorita denumirii domeniul retelelor neurale este supus unei supraestimari populiste Este tentant pentru om sasi imagineze o masina care sa e asemeni luiTerminologia antropomorfa trebuie privita cu multa retinere

Putem aproape siguri ca retelele neurale nu vor nlocui calculatoarele clasice Aceasta deoarece calculatoarele clasice sunt foarte ieftine si eciente pentruefectuarea calculelor numerice procesari de text CAD procesari de date

Sunt nsa domenii ntregi n care retelele neurale devin mai avantajoase Celemai interesante aplicatii sunt cele care presupun inferenta de tip uman si perceperea vorbirii si a imaginilor Aceste aplicatii nu pot decat partial rezolvatepe calculatoare clasice

Este de asteptat ca retelele neurale sa e aplicate n procesarea semnalelor sisisteme expert Retelele neurale nu vor nlocui aplicatiile de inteligenta articialade pe calculatoarele clasice ci vor oferi o tehnologie complementara

Neurocalculatoarele actuale sunt de multe ori calculatoare conventionale careexecuta software de simulare a retelelor neurale Alte neurocalculatoare folosescdeja componente placi chipuri dedicate Cele mai interesante sunt desigurchipurile VLSI care implementeaza retele neurale Fabricarea acestor chipurieste deja actuala In ATT a fabricat primul circuit integrat de memorieneurala

Capitolul

Concepte fundamentale

Exista doua posibilitati de a deni retelele neurale La o extrema retelele neurale sunt o clasa de algoritmi matematici deoarece o retea poate privita nesenta ca o notatie graca pentru o clasa larga de algoritmi La cealalta extremaretelele neurale emuleaza retelele neurale biologice din organismele vii In lumina cunostintelor limitate pe care le avem n prezent asupra retelelor neuralebiologice cea mai plauzibila denitie se apropie mai mult de cea algoritmica

Retelele neurale sunt n mod cert inspirate din biologie dar exista maridiferente ntre retelele neurale articiale si cele naturale Nu exista nca modelecare sa concureze cu succes performantele creierului uman De fapt si cunostintelenoastre despre functionarea creierului sunt extrem de limitate Creierul ramanemai curand o metafora pentru retelele neurale dezvoltate pana acum

Cu toate ca analogia dintre retelele neurale articiale si cele naturale este vagavom ncepe totusi prin a mentiona modelul neuronului biologic Vom deni apoineuronul articial si retelele neurale articiale elementare In ne vom discutaformele de baza ale procesarii n retele neurale articiale cu un accent deosebitpe procesele de nvatare

Neuronii biologici si modelele lor articiale

Creierul uman consta din aproximativ neuroni Ei comunica printro reteade conexiuni formate din axoni si sinapse avand o densitate de aproximativ

sinapseneuron Ipoteza cea mai recenta privind modelarea sistemului nervosnatural este ca neuronii comunica ntre ei prin impulsuri electrice Totodataneuronii opereaza ntrun mediu chimic Creierul poate considerat o reteadensa de conexiuni electrice conditionate n mare masura de procese biochimiceReteaua neurala are o structura elaborata cu interconexiuni foarte complexe Intrarea n retea este asigurata de catre receptorii senzoriali Receptorii furnizeazastimuli atat din partea corpului cat si din partea organelor senzoriale care preiaustimulii lumii exterioare Stimulii au forma impulsurilor electrice care conducinformatia n reteaua de neuroni Ca rezultat al procesarii informatiei n sistemulnervos central efectorii sunt controlati si dau raspunsuri sub forma diferitelor

CAPITOLUL CONCEPTE FUNDAMENTALE

actiuni Avem deci un sistem constand din receptori reteaua neurala si efectoricare controleaza organismul si actiunile sale Fluxul informational este descris ngura

Receptori

senzorialeOrgane

motorOrgane

Efectori

Corp

Sistemulnervoscentral

internfeedback

externfeedback

Figura Fluxul informational n sistemul nervos

Neuronul biologic

Neuronul este celula nervoasa si are trei componente

soma corpul celulei

axonul bra lunga care serveste ca linie de comunicatie

dendriteleDendritele formeaza un arbore de bre ne n jurul corpului neuronului Den

dritele receptioneaza informatia de la alti neuroni prin axonii acestora Axonuleste o conexiune cilindrica lunga caren partea nala devine arborescenta Fiecareramura are o terminatie care aproape atinge dendritele neuronilor vecini Sinapsaeste interfata prin care neuronul si introduce semnalul catre dendrita altui neuron Semnalele care ajung la o sinapsa plecand de la dendritele neuronului respectiv sunt impulsuri electrice g

Transmisia interneuronala este uneori electrica dar de obicei este efectuataprin eliberarea de transmitatori chimici la sinapse Astfel terminatia axonuluigenereaza substanta chimica care afecteaza neuronul receptor Neuronul receptore genereaza un impuls catre axonul sau e nu produce nici un raspuns

Neuronul este capabil sa raspunda totalului intrarilor sale agregate ntrunscurt interval de timp numit perioada de latenta Raspunsul neuronului estegenerat daca totalul potentialului membranei sale atinge un anumit nivel Membrana poate considerata ca o nvelitoare care agrega magnitudinea semnalelor

NEURONII BIOLOGICI SI MODELELE LOR ARTIFICIALE

soma dendrite

axoni venind de la alti neuroni

impulsuldin parteacorpului

neuronuluisinapsa neuron

dendrita altui

Figura Modelul neuronului biologic

care intra pe parcursul unei anumite durate de timp Neuronul genereaza unimpulsraspuns si l transmite axonului sau numai daca conditiile necesare suntndeplinite

Impulsurile care intra n neuron pot excitatoare daca cauzeaza generarea de catre neuron a unui impuls sau inhibitoare daca mpiedica generareaunui astfel de impuls O conditie mai precisa pentru ca neuronul sa genereze unimpuls este ca excitatia sa depaseasca inhibitia cu o valoare de aproximativ mV numita pragul neuronului Deoarece o conexiune sinaptica produce reactiade excitatie sau de inhibitie a neuronului receptor este practic sa atasam ponderile acestor conexiuni Neuronul genereaza un impuls atunci candsuma ponderilor impulsurilor receptate depaseste valoarea pragului peparcursul perioadei de nsumare latenta

Procesarea n retelele neurale biologice este complexa si mai putin structuratadecat calculul digital Spre deosebire de cazul calculului digital impulsurile neurale nu sunt sincronizate n timp O caracteristica importanta a neuronului biologic este ca semnalele generate nu difera n magnitudine Cu alte cuvinteinformatia transmisa ntre celulele nervoase este sub forma semnalelor binare

Dupa transmiterea unui impuls axonul ramane pentru un timp ntro staree de neexcitabilitate completa acest interval numinduse perioada refractaraPutem diviza timpul n intervale consecutive ecare de durata perioadei refractare Aceasta ne permite o descriere discreta a comportarii neuronului Deexemplu putem preciza care neuroni vor genera impulsuri la momentul k bazandune pe conditiile de excitatie de la momentul k

Neuronul va excitat la un anumit moment dat daca numarulsinapselor excitate excitatoare depaseste numarul sinapselor excitateinhibitoare la momentul precedent cu cel putin numarul T unde T estevaloarea pragului neuronului

Intervalele de timp pot luate de ordinul milisecundelor Perioada refractaranu este nsa uniforma depinde de tipul de neuroni si de modul n care suntei conectati Avem deci o retea densa de neuroni interconectati care genereazasemnale asincrone Semnalele sunt transmise apoi catre neuronii vecini dar sunt


si retransmise feedback neuronilor generatoriAceasta discutie este o simplicare foarte mare din punct de vedere neurobi

ologic Retelele neurale articiale sunt mult mai simple decat corespondentul lornatural Sa examinam un model de neuron articial cu semnicatie istorica

Modelul neural McCullochPitts

Este prima denitie formala a unui neuron articial

1x

i

T o2x

nxw

w

w1

2

ni=1,2,...,nw =-1 sau +1

Figura Neuronul McCullochPitts

Intrarile xki i n sunt sau n functie de absenta sau prezentaimpulsului la momentul k g Semnalul de iesire al neuronului este oRegula dupa care neuronul genereaza un semnal este

ok

daca

Pniwix

ki T

dacaPn

iwixki T

wi pentru o sinapsa excitatoare si wi pentru o sinapsa inhibitoareCu toate ca este foarte simplu acest model are un remarcabil potential

computational Poate realiza operatiile logice NOT OR si AND Dupa cumstim orice functie logica de mai multe variabile poate implementata utilizandsau NOT si OR sau NOT si AND De exemplu functiile NOR si NAND pot implementate prin retele de neuroni conform modelelor din gura

-1

-1

-1

1x

x2

3x

T=1

1

1 o

T=0

T=0

T=0

1

NAND

1x

x2

3x

T=1

1

1

1

T=0 o-1

NOR

Figura Functiile NOR si NAND


Neuronul McCullochPitts are o ntarziere cu durata de o unitate Aceastaproprietate permite construirea circuitelor digitale secventiale Notam pentrunceput ca un singur neuron cu o singura intrare x cu ponderea si valoareade prag unitare calculeaza ok xk Un astfel de neuron se comporta ca unregistru simplu capabil sa retina intrarea pentru un interval de timp de o unitateO celula de memorie se construieste ca n gura

T=1 o

-1

1

1

intrareexcitatoare

intrareinhibitoare

=x kk+1

Figura Celula de memorie

Dupa ce sa initializat celula astfel ncat sa genereze sau sa nu genereze unsemnal aceasta valoare de iesire este sustinuta indenit n absenta unor intrari

Hardwareul unui calculator digital de orice complexitate poate obtinut prinutilizarea unei retele neurale constituite din blocuri elementare pentru operatiilogice si pentru memorie Ne intereseaza nsa altceva care este puterea de calcula retelelor neurale tinand cont de capacitatea lor de a nvata Vom reveni asupraacestor aspecte mai tarziu

Modelarea unui neuron general

Modelul neural McCullochPitts este elegant si are o expresie matematica precisaEl opereaza nsa cateva simplicari drastice Astfel permite doar stari binare si presupune ca timpul este discret si presupune sincronismul operatiilortuturor neuronilor De asemenea ponderile si pragurile sunt presupuse xe Incontinuare vom prezenta generalizari ale modelului McCullochPitts care vor de altfel modelele noastre operationale

Fiecare model neural consta dintrun element de procesare cu conexiuni sinaptice de intrare si cu o singura iesire Intrarile si iesirile sunt unidirectionaleDenim modelul unui neuron general ca in gura

o fwtx

sau

o fnXi

wixi

unde w este vectorul de ponderi denit astfel

w !ww wn"t


1xconexiunisinaptice

nod(unitate)de procesare

o2x

nxw

w

w1

2

n

f(w x)t

ponderimultiplicative

Figura Modelul unui neuron general

iar x este vectorul de intrari

x !xx xn"t

Toti vectorii din acest curs sunt vectori coloana iar indicele t noteaza otranspunere Functia fwtx este functia de activare Domeniul ei de denitieeste multimea valorilor de activare net a unui model neural

net wtx

De aceea folosim si notatia fnet Variabila net este analogul potentialuluimembranei neuronului biologic

Convenim ca exista n conexiuni sinaptice si ca xn wn T Uneori vom extrage explicit pragul T ca parametru separat De acum ncolo vomntelege prin neuroni modele de neuroni iar prin retele neurale retele neuralearticiale compuse din modele de neuroni

Functii de activare tipice sunt

bipolara continua fnet expnet

bipolara binara fnet sgnnet

net

net Se observa ca pentru functia bipolara continua devine bipolar binaraFunctiile unipolare sunt

unipolara continua fnet expnet

unipolara binara fnet

net net

Pentru functiile continue devin functii discrete Cele doua functiicontinue se numesc si caracteristici sigmoidale

Majoritatea neuronilor utilizeaza functii de activare bipolare Desigur functiile de activare pot denite si altfel


f(net)

net-1 1

1 λ=5 λ=1

00

f(net)

net-1

-1

1

1 λ=5 λ=1 λ=0,5

Figura Functii de activare continue bipolara si unipolara

Daca functia de activare este bipolara binara putem folosi reprezentarea dingura a unui perceptron binar iar pentru functia bipolara continua putemfolosi reprezentarea din gura a unui perceptron continuu

1x

-1

net12x

nxw

w

w1

2

n

+ net

sumatorcomparator

cu prag

o(w,x)

neuron

Figura Perceptron binar

Perceptronul discret a fost introdus de Rosenblatt si a fost primamasina instruibila

Iesirile neuronilor pot discrete binare sau continue Pentru un strat de mneuroni valorile lor de iesire o o om pot date de

o !o o om"

Domeniul de denitie al vectorilor o este un spatiu mdimensional denitpentru cazul continuu astfel

m fo m oi g pentru cazul bipolar

sau m fo m oi g pentru cazul unipolar

Domeniul lui o este interiorul unui cub mdimensional


1xf(net)= −λ1+e net

2 -1

2x

nx

f(net)

neuron

o(w,x)

Figura Perceptron continuu

Pentru cazul discret avem

f gm fo m oi f gg pentru cazul bipolar

sauf gm fo m oi f gg pentru cazul unipolar

Domeniul lui o este format din varfurile unui cub mdimensional Un vectorpoate avea deci m valori

Modelarea retelelor neurale

Cunoscand acum denitia modelului unui neuron general putem deni o reteaneurala ca o interconectare de neuroni astfel ncat iesirea ecarui neuron esteconectata via ponderi cu toti neuronii inclusiv cu neuronul respectiv

Retea feedforward

Sa consideram o arhitectura feedforward dem neuroni care receptioneaza n intrarig Pentru acest model denim

o !oo om"t

six !xx xn"

t

Ponderea wij caracterizeaza al ilea neuron cu a ja intrare Valoarea deactivare pentru al ilea neuron este atunci

neti nXj

wijxj i m

Fie wi !wiwi win"t atunci

neti wtix oi fwt

ix i m

MODELAREA RETELELOR NEURALE

......

1

2

m

2

m

11

w

1

x1

x2

nx

w

w2n

m1

wmn

o

o

o

Figura Retea neurala feedforward

Denim operatorul matricial neliniar # pentru care

o #Wx

unde W este matricea ponderilor matricea conexiunilor

W

w w wn

w w wn

wm wm wmn

iar

#!"

f f f

Functiile f sunt functii neliniare de activareVectorii x o sunt numiti si patternuri de intrare respectiv de iesire Trans

formarea unui pattern de intrare ntrun pattern de iesire are loc fara ntarziereinstantaneu De aceea spunem ca o astfel de retea este de tip feedforward Avemg

ot #!Wxt"

Γ[Wx]x(t) o(t)

Figura Diagrama bloc a unei retele neurale feedforward


Reteaua feedforward este caracterizata prin lipsa de feedback O retea feedforward poate conectata n cascada pentru a forma o retea pe mai multe straturiIntro astfel de retea iesirea unui strat este intrarea urmatorului strat

Retea feedback

O retea feedback se poate obtine dintro retea feedforward prin conectarea iesirilorneuronilor cu propriile intrari g

∆

∆∆

1

2

n o

o

o

wnnx (0)

x (0)

x (0)

2

1

n

w11

w21 w

1n

o (t)

o (t)1

o (t)2

n

1(t+ )∆

2(t+ )∆

n(t+ )∆

Figura Retea neurala feedback

Perioada de timp $ este analoga perioadei refractare a modelului neuronuluibiologic Avem g

ot $ #!Wot"

[Wo(t)]Γinstantanee

retea

intarziere∆

∆o(t+ )x(0)

Figura Diagrama bloc a retelei neurale feedback

Intrarea xt este folosita doar pentru a initializa aceasta retea astfel ncato x Intrarea este apoi ndepartata si pentru t sistemul devineautonom

MODELAREA RETELELOR NEURALE

Considerand timpul ca o variabila discreta si decidem sa observam functionarea retelei la momentele $ $ $ sistemul este cu timp discret Conventional putem considera ca pasul timpului este unitar Atunci notam

ok #Wok pentru k

Aceasta retea este recurenta deoarece raspunsul ei la momentul k depinde dentregul istoric al retelei ncepand cu momentul k

o #!Wx"

o #!W#!Wx""

ok #!W#! #!Wx" ""

Retelele recurente opereaza de obicei cu o reprezentare discreta a datelor si folosesc neuroni cu o functie de activare discreta Un sistem avand intrari cu timpdiscret si o reprezentare discreta a datelor se numeste un automat Deci reteleleneurale recurente din aceasta categorie pot considerate niste automate

Numim o o stari ale retelei la momentele si ecuatiile de mai susoglindesc secventa tranzitiilor starilor O stare de echilibru se numeste si atractorUn atractor consta dintro singura stare sau dintrun numar limitat de stari In

capitolul am vazut ca o h

iteste un atractor Secventa de stari ale

unei retele recurente este n general nedeterministaO retea cu timp continuu se obtine nlocuind elementele de ntarziere discrete

cu elemente continue Fie de exemplu reteaua feedback cu timp continuu dingura

+

-

v

+

-2

RC1 v

Figura Retea feedback cu timp continuu

Ea este o retea electrica constand dintro rezistenta si un condensator unde veste tensiunea la intrare iar v este tensiunea la iesire De fapt retelele electricesunt utilizate frecvent pentru a modela calculele efectuate de o retea neuralaRetelele electrice poseda %exibilitatea de a modela toate fenomenele liniare sineliniare ntalnite n acest curs Din aceasta cauza retelele electrice reprezintamodele zice functionale ale retelelor neurale Din legea lui Kircho obtinem

v vR

Cdvdt


dvdt

vRC

vRC

De aici obtinem

$v $t

C v v

R

care reprezinta modicarea tensiunii v n intervalul $t

v2

v1

tensiunea

t0

(b)(a)

tensiunea

tt00

v1

v2

Figura Raspunsul n timp a la un impuls si b la o tensiune de intrare de tip undaarmonica al retelei cu timp continuu din gura anterioara

De obicei retelele cu timp continuu folosesc neuroni cu functii de activarecontinue In gura avem o conexiune sinaptica bazata pe circuitul electricdescris n gura

oi

Rij

Ci

neti

i

oj

netj

j

Figura Conexiune sinaptica

INVATARE SI ADAPTARE

Rezistenta Rij serveste ca pondere de la iesirea neuronului j catre intrareaneuronului i Ecuatia poate discretizata astfel

netki netki$t

RijCiokj netki

De aici

netki

netki $t

RijCiokj netki

O retea de mai multi neuroni de acest tip are din punct de vedere dinamic ocomportare complexa

Invatare si adaptare

In general nvatarea este schimbarea comportamentului datorita experientei Laom si animale procesul de nvatare nu poate observat direct ci presupunem caa avut loc observand modicarile de comportament La retelele neurale procesulde nvatare este mai direct putem observa ecare pas al nvatarii ca o relatiedistincta de tip cauzaefect

Un cadru general pentru procesul de nvatare la retele neurale este dat deteoria aproximarii

Invatarea ca aproximare

Teoria aproximarii se refera la aproximarea unei functii continue de mai multevariabile hx printro alta functie Hwx unde x !x x xn"

t este vectorulde intrare si w !w w wm"

t este vectorul parametrilor ponderilor Scopulnvatarii este sa se gaseasca w pentru care se obtine cea mai buna aproximare alui hx avand la dispozitie o multime de exemple fxg folosite pentru nvatareO problema importanta este alegerea functiei Hwx aceasta numinduse problema reprezentarii Dupa alegerea lui Hwx se aplica algoritmul de nvatareal retelei pentru gasirea parametrilor optimi w

!Hwx hx" !Hwx hx"

unde este o metrica o distantaRetelele feedback sunt sisteme dinamice De aceea nvatarea n acest caz se

refera la nvatarea starilor de echilibru

Invatarea supervizata si nvatarea nesupervizata

Majoritatea retelelor neurale pe care le discutam nvata incremental pas cu pasDaca ponderile retelei sunt ajustate printrun singur pas atunci informatia feedback produsa de retea nu mai este necesara si vorbim de o nvatare de tip batchadica la gramada


reteaadaptiva

Wo

generatorde distanta

x

ρ[d,o]invatared

semnal de

Figura Invatare supervizata

Ne referim n continuare la nvatarea incrementala n care conceptul de feedback are un rol central

In nvatarea supervizata g presupunem ca la ecare moment cand seaplica intrarea raspunsul d al sistemului este dat de catre instructor un factoruman

oxretea

adaptiva

W

Figura Invatare nesupervizata

Invatarea nesupervizata g se foloseste de multe ori de exemplu laclustering g atunci cand informatia a priori este minima

Reguli de nvatare

Sa studiem procesul de instruire a vectorului wi de ponderi avand componentelewij unde wij este ponderea conexiunii celei dea ja intrari cu cel deal ileaneuron g

Fie urmatoarea regula generala de nvatare Vectorul wi !wi wi win"t

creste proportional cu produsul intrarii x si a semnalului de nvatare r Semnalulr este in general o functie de wi x si daca este cazul di

r rwix di

Incrementul lui wi produs la momentul t este

$wit cr!witxt dit"xt

unde c este constanta de nvatare pozitiva care determina ratanvatarii Atunci

wit wit cr!witxt dit"xt

REGULI DE INVATARE

x1

x2 x2

x1

(a)

0 0

(b)

Figura a Patternuri bidimensionale care formeaza doua clustere b Aparent nu sedisting mai multe clustere si nu stim cate sunt In acest caz nvatarea nesupervizata nu esteindicata

X

∆wi

wi1

x1

...

neuronul i oi

generator desemnal deînvãtare

dir

c

x

wi2

win

x2

xn

Figura Modelul instruirii n cazul nvatarii supervizate

Pentru cazul discret

wki wk

i crwki x

ki d

ki x

k

Pentru cazul continuudwit

dt crxt

Vom studia n continuare nvatarea cu timp discret pas cu pas Se presupune ca ponderile sunt initializate convenabil nainte ca procesul de nvataresa nceapa

Regula de nvatare a lui Hebb

Aceasta regula particularizeaza semnalul de nvatare astfel

r fwtix

adica semnalul de nvatare este chiar iesirea neuronului Atunci

$wi cfwtixx


$wij cfwtixxj coixj pentru j n

Este necesar ca initial ponderile sa aiba valori aleatoare mici Invatareadupa regula lui Hebb este de tip feedforward si nesupervizata Este implementataurmatoarea idee

Daca celula A excita n mod repetat celula B facando sa generezeun impuls atunci are loc un proces de crestere schimbare metabolicantruna sau n ambele celule astfel ncat ecienta excitarii lui B decatre A creste

Cu alte cuvinte patternurile de intrare mai frecvente vor avea si in%uentacea mai mare asupra ponderilor conexiunilor

Regula de nvatare a perceptronului Rosenblatt

Semnalul de nvatare pentru aceasta regula este

r di oi

unde oi sgnwtix si di este raspunsul dorit pentru cazul bipolar g

wi1

x1

X

∆wi

di

oicomparator

net i

...

wi2

win

x2

xn

x +

c

+

-

+d -oi i

Figura Regula de nvatare a perceptronului

Avem$wi c!di sgnwt

ix"x

$wij c!di sgnwtix"xj pentru j n

Sa observam ca aceasta regula este aplicabila doar pentru situatia cand functiade activare este binara Are loc o ajustare a ponderilor daca si numai daca oieste incorect Deoarece raspunsul dorit poate sau avem

$wi cx daca di si sgnwtix

$wi cx daca di si sgnwtix

Daca di sgnwtix se observa ca $wi

Regula de nvatare a perceptronului este importanta pentru nvatarea supervizata a retelelor neurale Ponderile sunt initializate cu orice valoare

REGULI DE INVATARE

Regula de nvatare delta McClelland Rummelhart

Este valabila pentru functii de activare continue si pentru nvatarea supervizataSemnalul de nvatare pentru aceasta regula g este numit delta si estedat de

r !di fwtix"f

wtix

wi1

x1

X

∆wi

X

f(net )i

f’(net )i

di

oi

+

...

wi2

win

x2

xn

c

x-

+d -oi i

Figura Regula de nvatare delta

Aceasta regula se deduce din conditia de cea mai mica eroare patratica dintreoi si di Fie E eroarea patratica

E

di oi

ceea ce este echivalent cu

E

!di fwt

ix"

De aicirE di oif

wtixx

Componentele gradientului erorii sunt

E

wij

di oifwt

ixxj pentru j n

si reprezinta panta pe directia wij Alegem termenul $wij astfel ncat sa eproportional cu panta negativa deci sa minimizam pe E si obtinem

$wij di oifnetixj j n

$wi di oifnetix

$wi rEunde este o constanta pozitiva


Presupunand ca semnalul de nvatare este

r !di fwtix"f

wtix

obtinem

$wi cdi oifnetix

ceea ce este identic cu c si ind constante arbitrare

Regula delta este de fapt o transpunere a regulii de nvatare a perceptronuluidiscret la cazul perceptronului continuu Ponderile pot initializate cu oricevaloare

Regula de nvatare WindrowHo

Aceasta regula este aplicabila pentru nvatarea supervizata Este independentade functia de activare folosita deoarece minimizeaza eroarea patratica dintreraspunsul dorit di si valoarea de activare a neuronului neti wt

ix Semnalulde nvatare este

r di wtix

Atunci

$wi cdi wtixx

$wij cdi wtixxj j n

Aceasta regula poate considerata un caz special al regulii delta presupunemfwt

ix wtix adica functia de activare este functia identica fnet net si

obtinem f net

Ponderile pot initializate oricum

Regula corelatiei

Substituind r di n regula generala de nvatare obtinem regula corelatiei

$wi cdix

$wij cdixj j n

De obicei regula corelatiei se aplican retele de memorie cu neuroni cu functiede activare binara Se poate interpreta ca un caz particular al regulii lui Hebbn care functia de activare este binara si oi di Totusi nvatarea hebbiana estenesupervizata n timp ce regula corelatiei se aplica la nvatarea supervizata Casi n cazul nvatarii hebbiene este necesar ca ponderile sa e initializate cu valoriapropiate de

REGULI DE INVATARE

Regula castigatorul ia tot

Aceasta regula difera mult de regulile prezentate pana acum Poate explicatape o multime de neuroni si este un exemplu de nvatare competitiva folosita ninstruirea nesupervizata In general aceasta regula se foloseste pentru nvatareaproprietatilor statistice ale intrarilor

Invatarea se bazeaza pe premiza ca unul din neuroni e el neuronul m areraspunsul maxim pentru intrarea x Acest neuron este castigatorul g

p

...m

......

...neuronulcastigator

1

1x

jx

xn

wm1

wmn

o

o

owpn

11w

Figura Regula de nvatare castigatorul ia tot

Ca rezultatwm !wm wm wmn"

t

este singurul vector ajustat

$wm xwm

$wmj xj wmj pentru j n

unde este o constanta denvatare mica Criteriul de alegere a castigatoruluieste

wtmx max

ipwt

ix

Numai ponderile neuronului castigator se modica Dupa ajustare wm va estimasi mai bine patternul x

Ponderile se initializeaza cu valori aleatoare si sunt normalizate In general scade pe parcursul procesului de nvatare

Paradigme ale nvatarii n retele neurale

Autoasociere O multime de patternuri este prezentata n mod repetat sisistemulmemoreaza aceste patternuri Apoi un pattern similar cu unul dinpatternurile memorate este prezentat Sarcina este de a regasi patternuloriginar


Tabelul Comparatie ntre calculul conventional si calculul neural din punct de vedere aletapelor care trebuie parcurse

SarcinaCalculconventional

Calcul neural

Rezolvarea unei probleme

Formulareaalgoritmului

Selectarea unei arhitecturi si denireamultimii de exemplereprezentative

Achizitionareacunostintelor

Programare Instruire

CalculAritmeticprecizie mare

Precizie mica aplicatii neliniare

Memorarea datelorROM RAM memorii binare

Ponderi ale conexiunilor avand n general valori continue

Heteroasociere Este o varianta a autoasocierii O multime de perechi depatternuri este prezentata n mod repetat Paradigmele autoasocierii siheteroasocierii sunt tipice memoriilor asociative

Clasicare Paradigma clasicarii poate considerata o varianta a autoasocierii In acest caz avem o multime xata de categorii n care trebuieclasicate patternurile de intrare In perioada instruirii sistemului i seprezinta patternuri din secventa de instruire precizand categoriile din carefac parte Scopul este de a nvata corect clasicarea astfel ncat ulterior orice pattern de intrare eventual perturbat fata de patternurile dinsecventa de instruire sa e clasicat corect Aceasta este paradigma tipicapentru algoritmul perceptronului si instruirea prin propagarea n urma aerorii n retelele feedforward multistrat Instruirea este supervizata Instruirea este mai buna daca n secventa de instruire apar si patternuriperturbate spre deosebire de paradigma autoasocierii

Detectare de regularitati clustering Sistemul trebuie sa descopere caracteristici trasaturi comune ntro multime de patternuri Nu exista categorii a priori de patternuri Sistemul trebuie sasi construiasca singurcategoriile Instruirea este nesupervizata Numarul clusterelor poate saupoate nu cunoscut a priori

REGULI DE INVATARE

TabelulPrincipaleleregulideinstruireConstantelecsisuntpozitive

Regulade

nvatare

Ajustarea$wij

Ponderile

initiale

Tipul

nvatarii

Caracteris

ticile

neuronilor

Neuronsau

strat

Hebb

coixjjn

nesuperv

oricare

neuron

perceptron

c!disgnwt ix"xjjn

oricare

superv

binar

neuron

delta

cdio if netixjjn

oricare

superv

continuu

neuron

WindrowHo

cdiwt ixxjjn

oricare

superv

oricare

neuron

corelatie

cdixjjn

superv

oricare

neuron

castigatorul

iatot

$wmjxjwmjjn

aleatoare

normalizate

nesuperv

continuu

stratde

neuroni


Exemple

Exemplu de retea feedforward pe doua straturi cufunctie de activare bipolara

intrarestrat 1

o1

neuronul 1

-1

comparator 5+o5

intrarestrat 2strat 1

iesirestrat 2iesire

comparator 1+

comparator 2+o2

comparator 3+o3

comparator 4+o4

Figura Retea feedforward pe doua straturi

o # !Wx"

Pentru stratul o #

ho o o o

itx

hx x

it

W

Pentru stratul o !o"

x ho o o o

itW

h

itRaspunsurile primului strat se calculeaza astfel

o hsgnx sgnx sgnx sgnx

itRaspunsul pentru al doilea strat este

o sgno o o o

Observam ca o daca si numai daca o o o o Rezulta caaceasta retea este o aplicatie a spatiului bidimensional xx n punctele

EXEMPLE

o1,o2,o3,o4

0 1 2 3

1

2

3

x1

x2

portiunea pt. caresunt +1

Figura Reprezentare n spatiul bidimensional

Sa presupunem acum ca avem aceeasi arhitectura dar ca neuronii au caracteristici sigmoidale Obtinem

o

ex

ex

ex

ex

o

eoooo

Aplicatia spatiului bidimensional xx ntrun segment al axei reale este n acestcaz mai complicata

Exemplu de retea recurenta

Starile retelei sunt varfurile unui cub dimensional f g Trecerea dintro stare in alta se face dea lungul unei muchii a hipercubului deci doua starisuccesive difera doar printro componenta Avem

W

Presupunand x h

it obtinem

o hsgn sgn sgn sgn

ith

it


∆

∆

∆

1

2

4

o1

∆

3

o

o

o

2

3

4

x0

x0

x0

x0

k+1

ponderea=+1ponderea=-1

+

+

+

comparator

comparator

comparator

k+1

k+1

k+1

+ comparator1

2

3

4

Figura Retea neurala recurenta

si decih

iteste o stare de echilibru Tot o stare de echilibru este sih

it

Presupunand x h

it obtinem

o hsgn sgn sgn sgn

it

Are deci loc tranzitiah

i

h

isi se ajunge la cea mai

apropiata stare de echilibruVericati singuri ce se intampla cand x ia alte valori

x h

it

x h

itx

h

it

Exemplu de retea feedback cu timp continuu

Fie reteaua din gura unde oi fneti i iar f este functia deactivare continua bipolara In aceasta gura R si R sunt ponderi negativentarzierile sunt realizate de dispozitivul RC iar rezistentele R modeleaza curentul absorbit de neuroni

EXEMPLE

1

2

R 21R C1

net1

R C2

net2

12 R

o1

o2

Figura Retea electrica a doi neuroni

Obtinem

Cdnetdt

onetR

netR

Cdnetdt

onetR

netR

Discretizam

netk

netk t

RCok netk netk

RC$t

netk

netk t

RCok netk netk

RC$t

Presupunem ca C C R R pentru aceasta retea Presupunem cacircuit a fost initializat prin ncarcarea condensatoarelor cu o o

nu neaparat

egale Reteaua si cauta unul din cele doua puncte de echilibru g Simularea retelei se face pe calculator prin ecuatiile date

Exemplu de nvatare hebbiana

In gura avem intrarea

x

xxxx

si ponderile initiale

w h

it


1

-1

-1 1

o2

o1

x

x

Figura Modul n care reteaua si gaseste cele doua puncte de echilibru

Presupunem ca aceasta retea este instruita folosind multimea de vectori de intrare

x

x

x

Consideram c Presupunem pentru nceput ca avem neuroni bipolari binarifnet sgnnet

o

x1

x2

x3

x4

Figura Retea neurala pentru nvatarea hebbiana

Pasul Se aplica x

net wtx h

i

EXEMPLE

w w sgnnetx w x

w

Pasul Se aplica x

net wtx h

i

w w sgnnetx w x

Pasul Se aplica xnet wtx

w w sgnnetx w x

Sa presupunem acum ca functia de activare este continua si bipolara Luam si pornim din nou de la w

Pasul Se aplica x

fnet w

Pasul Se aplica x

fnet w

Pasul Se aplica x

fnet w

Se observa ca pentru functia de activare continua se obtin n general rezultate naceeasi directie valorile ind nsa mai diferentiate


Exemplu de nvatare prin regula perceptronului

Consideram urmatorii vectori de intrare

x

x

x

w

si c Raspunsurile dorite de catre supervizor pentru x x x sunt si respectiv

Pasul Se aplica x

net wtx h

i

Deoarece sgn are loc o corectie a ponderilor

w w x

Pasul Se aplica x

net wtx h

i

Deoarece sgn nu se aplica nici o corectie

Pasul Se aplica x

net wtx h

i

Deoarece sgn se aplica o corectie

w w

EXEMPLE

Nu este o simpla coincidenta faptul ca ultima componenta a vectorilor x xx este invariabila Invatarea prin regula perceptronului necesita ca o componentaa vectorului de intrare sa e xata nu neaparat la valoarea

Daca reciclam din nou vectorii x x x la intrare erorile vor mai micideci reteaua a nvatat De exemplu daca dupa ce am aplicat o data x x xmai aplicam o data x obtinem net deci raspunsul este mai bun decatnet

Un contraexemplu important

x

x

d d

Trebuie ca w w si w w ceea ce este imposibil Fie acum

y

y

d d

In acest caz trebuie ca w w w si w w w Acest sistem are solutiievident de exemplu w w w Ce am facut de fapt Deoareceeste evident ca x si x nu pot nvatati n mod supervizat am considerat vectorii extinsi y si y care se obtin din x si x prin adaugarea unei componenteconstante Am vazut ca pentru y si y exista w si w astfel ncat perceptronul sa nvete corect Puteti acum folosi regula perceptronului pentru a nvatay si y Incercati sa explicati din punct de vedere geometric care este diferentadintre a nvata x si x fata de a nvata y si y

Exemplu de nvatare prin regula delta

Folosim aceiasi vectori ca n exemplul precedent

x

x

x

w

La fel raspunsurile dorite sunt iar c Se demonstreaza mai tarziu ca

f net

o

daca f este functia de activare bipolara continua Consideram

Pasul Se aplica xnet wtx

o fnet


f net

! o"

w c of netx w

Pasul Se aplica xnet wtx o fnet

f net

! o"

w c of netx w

Pasul Se aplica xnet wtx o fnet

f net

! o"

w c of netx w

Metoda necesita de obicei valori mici pentru c

Exercitii

Folositi neuronul McCullochPitts pentru a elabora retele care implementeaza urmatoarele functii logice

a ok xkoko

k unde x

k este complementul lui xk Se va folosi un

neuron

b ok xk x

kx

k Se vor folosi doi neuroni n cascada

c ok xkxk Se vor folosi doi neuroni n cascada

Aratati ca retelele neurale din gura sunt echivalente implementeazaaceeasi functie Se presupune ca

fnet

net net

EXERCIT II

f(net)+

f(net)+

f(net)+

1o

-11/2

-1

-1

x1

x2

1

11

1

1/2

3/2

f(net)+f(net)+o

1/2

-1

-1

x1

x2 1

21/2

1

-1

1

-1

Figura Exemplu de retele neurale echivalente

Reteaua din gura este un convertor AD si poate utilizata pentru codicarea unei valori continue x ntrun cod binar unipolar pe bitio o o o Analizati reteaua si gasiti pentru ce valori ale lui x se obtincodicarile Presupuneti x si ca

fnet

net net

Reteaua din gura foloseste neuroni cu functie de activare bipolaracontinua Sa masurat ca o o Gasiti vectorulde intrare x !x x"

t care a fost aplicat

Reteaua din gura cu functie de activare bipolara continua este proiectata pentru a atribui vectorilor x x x clusterele sau Numarulclusterului este identic cu numarul neuronului care produce cel mai mareraspuns Determinati din ce clustere fac parte vectorii

x

x

x

C Reteaua din gura foloseste neuroni cu functie de activare bipolaracontinua si implementeaza o aplicatie de la planul xx la segmentul joj Simulati functionarea retelei si tabulati functia ox xpentru jxj si jxj

Invatare hebbiana pentru un neuron care este instruit cu

x

x

x

x

w


f(net)+

f(net)+

f(net)+

f(net)+o0

o1

o2

o3

x

-10,5

1,5

-1

-1

3,5 -4

-8 -8

-2

-4

-87,5

-1

1

1

1

1

Figura Convertor AD

f(net)o1

f(net)o2x2

x1

-1 12

-1

-1/2

3/4

1/2

Figura Retea neurala care foloseste neuroni cu functie de activare bipolara continua

si c Gasiti ponderile nale pentru cazul cand functia de activare este

a bipolara binara

b bipolara continua

C Implementatinvatarea unui neuron prin regula perceptronului folosind

w

B x

d

CA

B x

d

CA

Repetati secventa de instruire xd xd pana cand se obtin raspunsurile corecte Listati valorile netk obtinute

EXERCIT II

f(net)o1

f(net)o2x2

x1-0,966

-0,259

0,906

0,423

Figura Retea neurala care implementeaza un clasi cator

x2

x1 f(net)

f(net)

f(net)o1

1

-1

-1

1

1

-1

-1

-1

1

Figura Retea neurala care implementeaza o aplicatie de la un plan la o dreapta

C Instruiti prin regula delta un neuron folosind c si

w

B x

d

CA

B x

d

CA

Se va folosi f net o

Repetati secventa de instruire xd xd si studiati comportarea

C Folositi aceleasi date ca si n problema precedenta aplicand regulaWindrowHo

Repetati secventa de instruire

C Elaborati un program pentru analiza retelelor feedforward cu douastraturi Parametrii de intrare sunt

tipul functiei de activare

daca este cazul

marimea retelei

vectorii de intrare pentru testarea retelei

C Implementati algoritmii de nvatare pentru un neuron cu cel mult saseintrari Parametrii de intrare sunt


regula Hebb perceptron delta WindrowHo

functia de activare

daca este cazul

datele pentru instruire

numarul de pasi pentru instruire se pot repeta datele

Capitolul

Clasicatori pe baza de

perceptroni monostrat

In acest capitol vom formula fundamentele retelelor neurale instruibile folosite nprocese de decizie Functia principala a unui sistem de decizie este luarea deciziilor n ceea ce priveste clasa din care face parte patternul de intrare considerat

Arhitecturile discutate n acest capitol sunt de tip feedforward neuronii inddispusi pe un singur strat

Clasicare

Una dintre cele mai importante categorii de probleme care poate efectuatade o retea neurala este clasicarea patternurilor Un pattern este descriereacantitativa a unui obiect eveniment sau fenomen Clasicarea se poate referiatat la patternuri spatiale cat si temporale ex imagini video de vapoare hartimeteo amprente caractere semnale acustice electrocardiograme etc

Scopul clasicarii patternurilor este de a atribui un obiect zic evenimentsau fenomen unei clase specicate n prealabil Un sistem de clasicare arata can gura

masuratori trasaturitraductor clasificatorextragerea

trasaturilor

clasificator...

nx

xx1

2

pattern-ul x

clasai (x)=1 sau 2 sau ... sau R0

clasadate

Figura Sistem de clasi care

Trasaturile sunt date comprimate obtinute prin reducerea dimensionalitatii

CAPITOLUL PERCEPTRONI MONOSTRAT

1 2 3 4 5 6 7 8 9 101112.......

....... x =0

x =1i

i

de unde putem extrage vectorul

x

xxxn

f(t )1f(t )2

f(t )n

t1 t2 tn

f(t)

tde unde putem extrage vectorul

x

ftft

ftn

Figura Exemple de codi care

De exemplu din imaginile receptionate de pe satelitul LANDSAT sunt necesaredoar cateva din componentele spectrale

Retelele neurale pot utilizate atat pentru clasicare cat si pentru extragereatrasaturilor

In continuare vom reprezenta componentele de intrare ale unui clasicator caun vector x g Clasicarea este obtinuta prin implementarea unei functiide decizie i unde ix f Rg

Atunci cand patternurile de intrare nu sunt identice cu patternurile folositepentru instruirea clasicatorului procesul de clasicare se numeste recunoastere

Clasicarea poate descrisa de multe ori n termeni geometrici Orice patternpoate reprezentat printrun punct n spatiul euclidian ndimensional En numitspatiul patternurilor Un clasicator aplica multimi de puncte din En ntrunuldin numerele R Multimile care contin patternurile din clasele Rle vom nota cu HH HR respectiv In gura n R si i jpentru orice x Hj j

RegiunileHi sunt regiuni de decizie separatentre ele prin suprafete de deciziePresupunem ca patternurile de pe suprafetele de decizie nu apartin nici uneiclase In spatiul ndimensional suprafetele de decizie sunt hipersuprafete n dimensionale

FUNCTII DISCRIMINANT

1

3

1

24x1

x2

0

(-10,10)

(4,6)

(20,10)

H

H

H

H

H

Figura Regiuni de decizie

Functii discriminant

Presupunem ca avem o multime nita de patternuri ndimensionale x x xP si cunoastem clasicarea dorita pentru ecare dintre ele Presupunem ca avemfunctiile discriminant g g gR astfel ncat x face parte din clasa i daca sinumai daca

gix gjx pentru j R si i j

Valorile gix si gjx sunt scalare Conform relatiei de mai sus n regiunea Higix este maxim g

1

g (x)1

2

g (x)2

R

g (x)R

...

012

R

Selectorde

maximx

pattern ...

clasa i

Figura Clasi cator

Daca x se a%a pe suprafata de decizie dintre Hi si Hj atunci

gix gjx

Pentru cazul cand R clasicatorul se numeste dihotomizator Acest cuvantprovine din alaturarea cuvintelor grecesti dicha n doua si tomia taietura Incazul dihotomizatorului regula de clasicare devine

gx clasa gx clasa


unde gx gx gxFunctia

i sgn!gx"

gx nedenit gx gx

implementeaza un dihotomizator g Problema gasirii functiilor discriminant este esentiala Ele pot liniare sau neliniare

g(x)g(x)

discriminant

discriminatorcomparator

xpattern clasa i0

Figura Dihotomizator

Ne vom concentra asupra clasicatorilor ale caror functii discriminant se obtinprin nvatare iterativa cu ajutorul patternurilor de instruire Presupunem ca

Multimea patternurilor de instruire si clasicarea lor sunt cunoscute decinvatarea este supervizata

Functiile discriminant sunt liniare si doar coecientii lor sunt ajustati peparcursul procesului de nvatare

Clasicatori liniari

Vom discuta n detaliu functiile discriminant liniare In acest caz suprafetelede decizie sunt hiperplane Consideram initial ca R Centrii P P aleclusterelor care formeaza cele doua clase sunt vectorii x si x respectiv g

Punctele prototip P si P pot interpretate ca centrii de greutate ale clusterelor respective Vom prefera ca hiperplanul de decizie sa contina mijloculsegmentului care conecteaza P si P si sa e perpendicular pe vectorul x xEcuatia hiperplanului de decizie este atunci

gx x xtx

kxk kxk

In general ecuatia lui gx este de forma

wx wx wnxn wn

sau wtx wn

sau

w

wn

t x

CLASIFICATORI LINIARI

x2

x1

g(x)=0

-1

|1

g(x)>0

hiperplan de decizie

1_

|32

P2

clasa 2

P1

clasa 1x1-x2

x1

x2

Figura Separarea a doua clase printrun hiperplan de decizie

unde w

w

wwn

este vectorul ponderilor In cazul precedent

w x x wn

kxk kxk

Deci daca punctele prototip P si P sunt cunoscute se deduce si gxFunctiile discriminant liniare pot folosite si daca avem mai mult decat doua

clase Daca avem R clase doua cate doua separabile atunci vor pana la RR

hiperplane de decizieSa presupunem ca folosim criteriul distantei minime pentru a clasica pattern

uri si ca avem R clase Fiecare clasa este reprezentata de un punct prototipP P PR reprezentat de un vector x xR Distanta euclidiana dintre unpattern de intrare x si patternul prototip xi este

kx xik qx xitx xi

Clasicatorul calculeaza distantele dintre x si xi i R alegand apoiclasa pentru care distanta este minima Avem

kx xik xtx xtix xtixi i R

De fapt cautam xi pentru care se obtine maxxtix xtixi Putem lua atunci

gix xtix

xtixi i R


Functia discriminant are forma

gix wtix win i R

unde wi xi win

xtixi i R

Clasicatorii care folosesc criteriul distantei minime pot considerati clasicatori liniari si ei se numesc uneori masini liniare Un clasicator liniar arata can gura

1

x

1

...

1

wR

11

12 ...

R1

...

R,n+1

pattern

ponderi

1

R

de maximselector

discriminanti

iraspuns

0

g (x)

g (x)

1,n+1

w

R

1

w

w

w

w

w

+

+

Figura Clasi cator liniar

Sa observam ca suprafata de decizie Sij dintre regiunile contigue alaturatevecine Hi si Hj este un hiperplan

gix gjx

sau wtix win wt

jx wjn

Daca denim

y

x

obtinemgiy wt

iy

Sa presupunem ca avem o multime H de patternuri pe care o mpartim nsubmultimile HH HR Daca o masina liniara poate clasica patternuriledin Hi ca facand parte din clasa i pentru i R atunci multimile Hi

sunt liniar separabile Mai formal daca exista R functii liniare pentru care

gix gjx pt x Hi i R j R i j

PERCEPTRONUL DISCRET CA DIHOTOMIZATOR LINIAR

x1

x2

0 1

1

|

_

Figura Patternuri neseparabile liniar

atunci multimile Hi sunt liniar separabileIn gura avem un exemplu de patternuri liniar neseparabile care pot

modelate prin functia de paritate unipolara

XORx x x x

unde este operatorul OR exclusiv

Utilizarea perceptronului discret n instru

irea unui dihotomizator liniar

Am vazut n sectiunea precedenta cum se pot determina coecientii discriminantilor liniari ponderile din informatia a priori asupra patternurilor si aapartenentei lor la diferite clase

In aceasta sectiune ponderile se vor obtine printrun proces de nvatarePatternurile de instruire xx xP sunt prezentate masinii liniare g mpreuna cu raspunsurile corecte Aceasta secventa de patternuri se numestesecventa de instruire Raspunsul este dat de catre supervizor iar clasicatorulsi modica parametrii pe baza nvatarii iterative supervizate

+

+y =1n+1

...

y =x

y =x

w1

w

nw

wn+1

comparator

+-

dd-o

o=i0 i =1 sau -1

y =x1 1

2

n n

2 g(y)2

0

Figura Masina liniara

Fie R deci analizam cazul unui dihotomizator foloseste doua clase


Suprafata de decizie n spatiul En are ecuatia

wtx wn

sau wty y En

Aceasta ecuatie descrie un hiperplan care trece prin origine si este perpendicularpe vectorul y iar y este ndreptat catre semispatiul pentru care wty decicatre semispatiul unde se a%a clasa

In gura este dat un exemplu n care patternurile y yy suntdeplasate de la origine n paralel dea lungul hiperplanelor lor de decizie Esteumbrita regiunea din spatiul ponderilor care satisface conditia de separabilitateliniara a claselor si

1

23

4

5

w y >0t1

w

w

2

1

pattern-ul 5

pattern-ul 4(clasa 1)

(clasa 2)

pattern-ul 2(clasa 2) (clasa 2)

pattern-ul 3

pattern-ul 1(clasa 1)

w

y4

y1

y2y

y3

5

Figura Reprezentarea unor suprafete de decizie n spatiul ponderilor

Sa presupunem acum ca ponderile initiale sunt w Discutam despre patternul y din clasa Conform gurii y nu este clasicat corect deoarecewty

Ajustam vectorul w astfel ncat wty sa creasca cat mai rapid deci n directiagradientului Gradientul este

rwwty y

Deci atunci cand patternul y este clasicat gresit vom ajusta ponderile astfel

w w cy

PERCEPTRONUL DISCRET CA DIHOTOMIZATOR LINIAR

y1

w y =0t1

w y <0t1

w y >0t1

w1

w

w

2

1

(clasa 1)

Figura Ajustarea ponderilor pentru un pattern din clasa

unde c este incrementul de corectie Repetand ajustarea de cateva ori indiferent de valoarea lui c ajungem cu ponderile n regiunea corecta unde wty

Sa presupunem ca ponderile initiale sunt w De data aceasta discutamdespre patternul y din clasa g

In acest caz y nu este clasicat corect deoarece wty Descrestem catmai rapid pe wty deci n directia gradientului negativ

w w cy

Procedura de instruire supervizata este asadar

w w cy

unde este valabil cand se clasica gresit un pattern din clasa iar estevalabil cand se clasica gresit un pattern din clasa Atunci cand patternul esteclasicat corect nu se face nici o corectie Procedura se repeta iterativ pentrutoate patternurile de instruire Vom vedea ca aceasta formula este aceeasi curegula de nvatare a perceptronului discret sectiunea

Sa rezumam clasicarea patternurilor liniar separabile apartinand la doardoua clase Se cauta un vector w astfel ncat

wty pentru x H

wty pentru x H

Perceptronul se instruieste pornind cu un vector al ponderilor care este ales arbitrar si cu un increment de corectie ales de asemenea arbitrar Se ajunge laun vector w wk k ind numarul iteratiilor necesare pentru instruire Incontinuare

w wk wk

Se poate demonstra urmatoarea teorema


y1

w y =0t1

w y <0t1

w y >0t1

w1

w

w

2

1

(clasa 2)

Figura Ajustarea ponderilor pentru un pattern din clasa

Teorema de convergenta a perceptronului Un clasicator pentru doua clase liniar separabile de patternuri este ntotdeauna instruibil ntrun numar nit de iteratii

Vom discuta mai detaliat aceasta teorema n sectiunea urmatoareValoarea lui k depinde de incrementul de corectie si de secventa de pattern

uri utilizate pentru instruireRegula w w cy devine n cazul instruirii percepronului discret

wk wk c

dk okyk

unde k este numarul iteratiei ok este iesirea actuala iar dk reprezinta iesireadorita pentru vectorul yk aplicat la intrare Daca dk ok nu se ajusteaza wkDaca dk si ok atunci

wk wk cyk

Daca dk si ok atunci

wk wk cyk

Algoritmul de instruire a unui perceptron discret care poate folosit apoi cadihotomizator liniar este urmatorul

Se dau P perechi x d x dxP dP unde xi este unvector de n elemente i P Se deneste vectorul y hxi

it i P

Se alege c

PERCEPTRONUL CONTINUU CA DIHOTOMIZATOR LINIAR

Se initializeaza vectorul w de n elemente cu valori aleatoaresi mici Se fac urmatoarele initializari k i si E

y yi d di o sgnwty

w w cd oy

Se calculeaza eroarea patratica cumulata

E E

d o

if i P then i i k k go to

if E then E i go to else sa terminat instruirea write w k

Utilizarea perceptronului continuu n

instruirea unui dihotomizator liniar

Utilizarea perceptronului continuu are doua avantaje

Un control mai n asupra procedurii de instruire

Se lucreaza cu caracteristici diferentiabile ale comparatorului ceea ce permite calcularea gradientului erorii

generatorde eroare

... o

E d

y =x

y =x1 1

n n

y =1n+1

Figura Modelul folosit la instruirea unui perceptron continuu folosit ca dihotomizatorliniar

Problema modicarii ponderilor se rezolva foarte elegant prin minimizareafunctiei care masoara eroarea de clasicare iar aceasta minimizare se realizeazaprin folosirea gradientului g Se porneste de la un vector w arbitrar sise calculeaza rEw gradientul functiei eroare curente Urmatoarea valoare alui w este obtinuta ndreptandune n directia gradientului negativ dea lungulsuprafetei multidimensionale a erorii Directia gradientului negativ este cea adescresterii cea mai rapide Luam deci

wk wk rEwk


unde este constanta de nvatare o valoare pozitivaEroarea de clasicare care trebuie minimizata este

Ek

dk ok

hdk fwktyk

i

Obtinem pentru simplicarea scrierii omitem temporar indicii k

rEw d of nety

unde net wty sau

E

wi

d of netyi i n

care este de fapt regula delta de nvatare pentru perceptronul continuuDaca functia de activare este

fnet

enet

n care luam atunci

f net enet

enet

Aplicam identitateaenet

enet

o

care se verica luand o fnet si obtinem

rEw

d o oy

Rezulta

wk wk

dk ok ok

yk

Aceasta regula corecteaza ponderile n aceeasi directie ca si regula

wk wk c

dk okyk

din cazul perceptronului discret Difera marimea vectorului de corectie a ponderilor Ambele reguli implica adunarea sau scaderea unei fractiuni din y Diferentaesentiala este prezenta factorului moderator ok

Acest factor este

ok Atunci cand raspunsurile sunt eronate avem urmatoarea proprietate

pentru net apropiat de factorul de corectie este mai mare decat daca net estedeparte de Aceasta contribuie la stabilitatea procesului de nvatare

PERCEPTRONUL CONTINUU CA DIHOTOMIZATOR LINIAR

O alta diferenta semnicativa este ca algoritmul pe baza perceptronului discret duce ntotdeauna la o solutie daca solutia exista Acest lucru nu estegarantat n cazul perceptronului continuu pentru orice valoare a lui Deoarecevalorile ponderilor se modica de la un pas la altul nu mergem de fapt exactn directia lui rEw Pentru mic putem considera ca mergem n aceastadirectie Pentru o valoare a lui sucient de mica se ajunge la un w care lminimizeaza pe Ew Nu avem o teorema a perceptronului de tip continuu caresa garanteze convergenta catre o solutie

Algoritmul de instruire a unui perceptron continuu pentru utilizarea sa cadihotomizator liniar este urmatorul

Se dau P perechi x d x dxP dP unde xi este unvector de n elemente i P Se deneste vectorul y hxi

it i P

Se aleg si Emax

Se initializeaza vectorul w de n elemente cu valori aleatoaresi mici Se fac urmatoarele initializari k i si E

y yi d di o fwty care este functia de activarecontinua

w w d o oy


E E

d o

if i P then i i k k go to

if E Emax then E i go to else sa terminat instruirea write w k E

In acest capitol am presupus pana acum ca yn Fie acum un dihotomizator bazat pe perceptron n care yn g

... f(net)

w1

nw

n+1w

y =x1 1

ny =xn

y =1n+1

Figura Perceptron instruit ca dihotomizator

Ca urmare a procesului de instruire obtinem acelasi rezultat doar semnul luiwn se inverseaza Putem lua deci yn sau yn


Sa presupunem n cazul dihotomizatorului bazat pe perceptronul continuuca luam yn Atunci

net wtx wn

Luam T wn Avemfnet pentru wtx Tfnet pentru wtx T

Functia de activare f cu argumentul wtx este cea din gura

net

f(net)

T=w

_1

-1

n+1

Figura Functia de activare folosita de un perceptron instruit ca dihotomizator

Procesul de instruire accepta pentru yn orice valoare constanta Luand nsayn wn devine egal cu pragul T al neuronului De acum ncolo vomconsidera yn si wn T n cazul n care nu specicam altfel

Mai multe despre teorema de convergenta

a perceptronului

Vom discuta n aceasta sectiune mai n detaliu acest important rezultat teoreticSa ne reamintim enuntul teoremei

T Un clasicator pentru doua clase liniar separabile de patternurieste ntotdeauna instruibil ntrun numar nit de iteratii

Iteratiile se refera la relatia

wk wk c

dk okyk

TEOREMA DE CONVERGENT A A PERCEPTRONULUI

adica dacadk ok wk wk cyk

O alta varianta a acestei teoreme este cea formulata de Rosenblatt side Minsky si Papert

T Daca patternurile de intrare sunt din f gn atunci unperceptron nvata ntrun numar nit de pasi sa clasice corect patternurile presupunand ca acestea sunt liniar separabile

Trebuie sa notam ca

Ponderile initiale pot numere reale oarecare

Nu l putem determina pe k deoarece depinde de w unde w este unvector solutie pentru ponderi Deci ar trebui sa l cunoastem a priori pe w

pentru a determina numarul de iteratii De asemenea k depinde de w

Ne punem acum problema ce se ntampla cand aplicam algoritmul perceptronului asupra a doua clase de patternuri care nu sunt liniar separabile Sepoate demonstra urmatoarea teorema

T Pentru o secventa nita de patternuri de instruire cu n componente din f gn algoritmul de instruire a perceptronului vaexecuta ntrun numar nit de pasi exact una dintre urmatoareledoua variante

Produce un vector al ponderilor pentru care perceptronul clasica corect toate patternurile de instruire daca si numai dacaaceste patternuri sunt liniar separabile

Paraseste si reviziteaza un vector al ponderilor daca si numaidaca patternurile de instruire nu sunt liniar separabile

Se pot face acum urmatoarele observatii

Rezulta astfel o procedura de testare a liniar separabilitatii

Nu se cunoaste o limita superioara pentru cat ar dura acest test

In nal se poate demonstra urmatoarea teorema

T Daca patternurile de instruire au componente reale algoritmulde instruire a perceptronului poate sa nu convearga catre o solutiechiar daca patternurile sunt liniar separabile constanta de nvatareind oarecare

Cu alte cuvinte atunci cand patternurile de instruire au componente realeoarecare alegerea unei constante de nvatare adecvate devine critica si aceastaconstanta nu mai poate un numar real pozitiv oarecare


Instruirea unui clasicator liniar prin uti

lizarea unei retele monostrat de perceptroni

Fie R clase doua cate doua liniar separabile Exista deci R functii discriminant liniare astfel ncat

gix gjx pentru i j R i j x Hi

Denim vectorul ponderilor

wq hwq wq wqn

it

Sa presupunem ca un pattern y este prezentat unui clasicator liniar Dacawt

iy wtjy j R i j clasicarea este corecta si

w w

w w

wR wR

sunt valorile ajustate ale vectorilor ponderilor Daca avem wtiy wt

my pentruun m i atunci

wi wi cy

wm wm cy

wk wk pentru k R k im

sau

wij wij cyj pentru j n

wmj wmj cyj pentru j n

wkj wkj pentru k R k im j n

Acest clasicator are la iesire un selector de maximSa ncercam acum sa nlocuim selectorul de maxim dintrun clasicator liniar

cu R perceptroni discreti g Daca x Hi trebuie ca oi si oj pentru j R si j i

Eliminam astfel selectorul de maxim Ajustarea ponderilor se face astfel

wki wk

i ck

dki oki

yk pentru i R

Aceasta este regula de instruire a clasicatorului bazat pe o retea de perceptronidiscreti In relatia de mai sus di si oi se refera la al ilea perceptron

Teorema perceptronului se poate generalizaa si demonstra si pentru cazul cuR clase doua cate doua liniar separabile

Algoritmul de instruire a unei retele monostrat de perceptroni folosita ca siclasicator liniar este urmatorul

EXEMPLE

+

+

+

x-1

11w

w12w

1,n+1w21

w22w2,n+1

wR1

R2wwR,n+1

......

......

o1

o2comparator2

oRcomparatorR

comparator1

Figura Clasi cator liniar cu R clase

Se dau perechile xd xP dP unde xi este un vector de

R elemente si i P Se denesc vectorii yi hxi

it

i P

Se alege c ca n cazul perceptronului discret

Se initializeaza matricea W de R n cu valori aleatoare simici Se initializeaza k p si E

y yp d dP oi sgnwtiy pentru i R unde

wi este linia i din matricea W

wi wicdi oiy pentru i R unde i reprezinta

elementul al ilea din vectorul d

E di oi

E i R

if i P then i i p p go to

if E Emax then E i go to else sa terminat instruirea write w k E

Putem folosi si o retea de perceptroni de tip continuu g In acest caz ajustarea ponderilor se face astfel

wki wk

i

dki oki

oki

yk pentru i R

Asupra acestei formule si a retelei de perceptroni de tip continuu vom discuta pelarg n capitolul urmator

Exemple

Exemplu de construire a unui clasicator liniar

Avem urmatoarele patternuri

x

x

x


x-1

11w

w12w

1,n+1

wR1R2w

wR,n+1

......

...

o1

oR

Figura Retea de perceptroni de tip continuu

cu n si R

Folosim formula

wi xiwin

xtixi i R

si obtinem ponderile

w

w

w

Din formula

gix wtix wii i R

obtinem functiile discriminant

gx x x gx x x gx x x

Din

wtix win wt

jx wjn

sau din gix gjx obtinem

S x x S x x S x x

EXEMPLE

P (-5,5)

P (2,-5)2

1

3

S P (10,2)

S13

S12

S23

H

H

H

1

2

3

x

x2

1

123

Figura Suprafetele de decizie pentru un clasi cator liniar S

Exemplu de instruire a unui dihotomizator cuajutorul unui perceptron discret

Avem urmatoarele patru patternuri si raspunsuri dorite pentru ecare dintre ele

Clasa x x d d Clasa x x d d

Patternurile extinse sunt

y

y

y

y

Fie ponderile initiale w h

italese arbitrar Regula w w cy

devine n cazul perceptronului

$wk c

hdk sgnwktyk

iyk

Alegem c

Pasul Aplicam y

o sgn

h

i

d o

w w y


1x

1x

1x

1

3

i =1 sau 2 sau 3selectorde maxim2

g (x)1

12x

10

2

-52

2

12x

2

-5

-14,5

+

+

g (x)3

12x

-5

5

-25+

g (x) 0

Figura Clasi catorul liniar care implementeaza regiunile de decizie din gura

+

+

1

w2

net

comparator

+-

dd-o

wy =x11

y =12

Figura Perceptron discret folosit ca un clasi cator instruibil

Pasul Aplicam y

o sgn

h

i

d o

w w y

Pasul Aplicam yo

d o

w w y

Pasul Aplicam y Dupa citirea lui y nu se modica ponderile Reciclamsecventa y y deoarece nu stim daca perceptronul a reusit sa nvete saclasice corect

EXEMPLE

Pasul Aplicam yw w

Pasul Aplicam yw w

Pasul Aplicam y

w h

it

Pasul Aplicam yw w

Reciclam din nou si obtinem

w w w w

w h

icare sunt ponderile nale

Exemplu de instruire a unui dihotomizator liniar cu ajutorul unui perceptron continuu

Reluam exemplul din cazul discret Valoarea erorii la pasul k este

Ek

dk

enetk

unde netk wkty Luand yk yk pentru k obtinem

Ew

eww

Consideram si obtinem

Ew

! eww"

La urmatorii pasi obtinem

Ew

! eww"

Ew

! eww"

Ew

! expw w"

Luam si facem calculele conform algoritmului Deoarece o nu poate niciodata vom lua de obicei pentru d valorile si


Exemplu de instruire a unui clasicator reprezentat ca retea de perceptroni discreti

Reluam clasicatorul liniar R construit deja pe baza distantei minimeSunt usor de calculat valorile functiilor discriminant n x x si x

x x xgx gx gx

Raspunsurile maxime se obtin desigur pe diagonala Construim nu prin instruire reteaua de perceptroni corespunzatoare acestui clasicator g

102

-52 -5

5

5012,523

comparator

comparator

comparator1

2

R

x1

2x

-1

+

+

+

o1

o2

oR

Figura Retea de perceptroni

Ar trebui sa avem w w si w ca valori de prag Putemscadea aceste praguri cu fara ca sa modicam raspunsurile clasicatorului

Vom construi acum direct clasicatorul prin instruirea retelei de perceptroniAlegem aleator vectorii initiali

w

w

w

Fie c Cu & marcam raspunsurile incorecte

Pasul y

sgn

sgn

sgn

EXEMPLE

w w

w w

w

Pasul y

sgn

sgn

sgn

w

w

w w

w

Pasul y

sgn wt y

sgn wt y

sgn wt y

w

w

w w

w

Se ncheie primul ciclu apoi reluam secventa etc Se modica doar ponderileprimului perceptron

w w

w

w

w

w w

Obtinem o retea de perceptroni pentru care

o sgnx x o sgnx o sgnx x

Sau produs regiuni de indecizie n g sunt zonele umbrite De exem

plu pentru Q avem o h

it Pe de alta parte patternuri ca acest Q

nu au fost utilizate la instruire


P (2,-5)2

1

x

x2

1

o=[-1 -1 +1]

o=[+1 -1 -1]

o=[-1 +1 -1]

o=[+1 +1 -1]

Q

t

t

t

t

3

P (10,2)

P (-5,5)

5x +3x -5=01 2

-x -2=02

1 2-9x +x =0

Figura Regiuni de indecizie

Exercitii

C Implementati algoritmul de instruire a unui dihotomizator cu ajutorul

unui perceptron discret luand c w h

itsi

clasa xh

it h

it h

itclasa x

h

it h

it h

it

Incercati si alte valori pentru c

1 2 3

4 5 6

7 8 9

1 2 3

4 5 6

7 8 9

[ 1 0 0 1 0 0 1 1 1 ]

Figura Caracterele tiparite L si I folosite al instruirea unui dihotomizator

EXERCIT II

C Implementati algoritmul de instruire a unui dihotomizator cu ajutorul unui perceptron continuun conditiile problemei precedente Incercatidiferite valori pentru constanta de nvatare

Prin algoritmul de instruire a unui clasicator liniar cu trei clase reprezentatprintro retea de trei perceptroni discreti sa ajuns ca n trei pasi sa setermine instruirea Se considera c

Pasul x Se ajusteaza w w

w

h

it

Pasul x Se ajusteaza w

Pasul x Se ajusteaza w

In nal

w

h

it w

h

it w

h

it

Gasiti patternurile x x si x

C Implementati algoritmul de instruire a unui clasicator liniar reprezentatca retea de perceptroni discreti folosind c si urmatoarele patternuri deinstruire

i pentru xh

it

h

iti pentru x

h

it

h

iti pentru x

h

it

h

iti pentru x

h

ith

it

Reprezentati suprafetele de decizie rezultate

Proiectati si instruiti un clasicator pentru caracterele tiparite L si I g

Folositi un perceptron discret Ce se ntampla daca literele sunt distorsionate

Rezultat Apare indecizia Ar trebui sa instruim perceptronul si cu acestelitere distorsionate


Capitolul

Retele neurale feedforward

multistrat

Pentru patternuri de instruire care nu sunt liniar separabile reteaua neuralaintrodusa n capitolul trebuie modicata Modicarea se poate face astfel

e prin utilizarea unor functii discriminant neliniare de ex liniare peportiuni

e printro retea multistrat

Alegem ultima varianta In acest caz ecare strat este compus dintro retea carese bazeaza pe conceptul de functie discriminant liniara

Retelele multistrat pot implementa suprafete de decizie arbitrare In completare la capitolul se pot rezolva astfel multe alte aplicatii aproximareafunctiilor recunoasterea caracterelor scrise recunoasterea vorbirii sisteme expert generarea traiectoriilor etc

Retelele neurale multistrat sunt n prezent cele mai raspandite arhitecturiIn acest capitol vom studia retelele neurale multistrat instruibile

Clasicarea pattern urilor liniar

neseparabile

Fie doua multimi de patternuri Y si Y Daca nu exista un vectorw al ponderilorastfel ncat

ytw pentru orice y Y

ytw pentru orice y Y

atunci Y si Y sunt liniar neseparabile Vom presupune ca patternurile din Y

si Y sunt vectori mariti cu o componentaSa presupunem pentru nceput ca doua multimi de patternuri H si H tre

buie clasicate n doua categorii g Aceasta clasicare se poate implementa ca n gura

CAPITOLUL RETELE NEURALE FEEDFORWARD MULTISTRAT

1

2

3

A

B

CD

E

clasa 1clasa 2

Figura Doua multimi de patternuri care trebuie clasi cate n doua categorii

Fiecare dintre cele sapte compartimente inclusiv AE sunt aplicate ntrunul din varfurile cubului n spatiul ooo spatiul o Se observa ca n spatiulimagine o patternurile din cele doua clase sunt usor separabile printrun plande exemplu prin planul o o o Perceptronul cu intrarile o o o esteun dihotomizator liniar

o

sgno o o clasa sgno o o clasa

Regula de nvatare delta pentru o retea de

neuroni monostrat

Fie o retea monostrat de perceptroni de tip continuu g n care dacayJ atunci wkJ k K sunt chiar valorile pragurilor celor Kneuroni

In aceasta retea o # !Wy" unde

y

yyyJ

o

oooK

W

w w wJ

w

wK wKJ

REGULA DE INVATARE DELTA

+

+

+

+

o

(b)(a)

x

1

-1

o1

o

o2

3

4

pattern-imagine liniarimaginetransformare

2

3

1

4o

0

separabila

3

o1

o2

A

B

C

E

(1,-1, 1)

(-1, 0, 1)(-1, 1, 1)

(-1, 1, 0)

(1, 1, 1)

(-1,-1,-1)

(1, 1,-1)(1,-1,-1)

(-1,-1, 1)

(1,-1, 0)

D(-1, 1,-1)

comparator

comparator

comparator

comparator

Figura a Clasi cator monostrat b Reprezentarea patternurilor din gura n spatiulimagine o

......

......

1

K

o

y

y

y

o

o

1

j

J

1

k

K

w

w

11w

kjw

k1

K1w

KJ

Figura Retea monostrat de perceptorni de tip continuu

#!"

f f

f

Prin denitie

d

ddK

este raspunsul dorit Generalizam expresia erorii

Ep

KXk

dpk opk

kdp opk


pentru un pattern p p P unde dp este raspunsul dorit iar op raspunsulretelei pentru patternul p

dp

dp

dpK

op

op

opK

Pentru simplitate sa presupunem ca

yJ si wkJ Tk pentru k K

unde Tk sunt praguri Ca si n cazul unui singur perceptron calculam

$wkj E

wkj

deci pe directia gradientului negativ al erorii unde pentru simplitate am omisindicele lui E Avem

ok fnetk netk PJ

jwkjyj pentru k K

Semnalul de eroare pentru al klea neuron este

ok E

netk

Acest semnal lam numit si semnal de nvatare Avem

E

wkj

E

netk netkwkj

okyj

deoarecenetkwkj

yj

Putem scrie

$wkj okyj pentru k K j J

Calculam

ok E

ok oknetk

Dar

f knetk oknetk

siE

ok dk ok

Obtinemok dk okf

knetk pentru k K

REGULA DE INVATARE DELTA

Formula de ajustare a ponderilor este atunci

$wkj dk okfknetkyj

si este identica cu regula de nvatare delta pentru un singur perceptronPentru functia de activare continua unipolara obtinem

f net enet

enet

enet enet

enet o o

In acest caz avemok dk okok ok

In cazul bipolar am aratat n capitolul ca

f net

o

si deci

ok

dk ok ok

In concluzie actualizarea ponderilor se face pentru k K j Jastfel

wkj wkj dk okok okyj

pentru

ok

enetk

si

wkj wkj

dk ok okyj

pentru

ok

enetk

In general putem scrieW W oy

t

unde

o

oo

oK

Algoritmul de instruire a unei retele monostrat de perceptroni de tip continuuprin regula delta este urmatorul

Se dau perechile yd ydyP dP unde yi este un vector de J elemente di este un vector de K elemente iar componentaJ a vectorului yi i P este


Se aleg si Emax

Se initializeaza matriceaW de KJ elemente cu valori aleatoaresi mici Se initializeaza p q si E

y yp d dp ok fwtky pentru k K unde wk

este linia k din W

Se actualizeaza ponderile conform regulii

wk wk

dk ok oky

pentru k K n cazul bipolarsi conform regulii

wk wk dk okok oky

pentru k K n cazul unipolar


E E

dk ok

k K

if p P then p p q q go to

if E Emax then E p go to else sa terminat instruirea write W q E

Regula delta generalizata

Vom generaliza acum regula delta de nvatare pentru retele feedforward multistrat Consideram pentru aceasta o retea de neuroni cu doua straturi g

Straturile de neuroni ale caror iesiri nu sunt direct accesibile se numesc straturiinterne sau straturi ascunse Pentru stratul ascuns avem

$vji Evji

j J i I

E

vji

E

netj netjvji

$vji yjzi

unde yj este semnalul de eroare pentru stratul ascuns avand iesirea y Vom scrie

yj E

netj j J

si atunci

yj E

yj yjnetj

REGULA DELTA GENERALIZATA

y1

yj

J-1y

11v

11v 11w

......

z

jiv

J-1,Iv

JIv

......

1

K

o

o

o

1

k

K

wkj

wk1

wK1

wKJ

1z

z = -1

I-1

Iy = -1

J

zi

Figura Retea neurala feedforward cu un strat ascuns

undeE

yj

yj

KXk

fdk f !netky"g

Dar

f inetj yjnetj

E

yj

KXk

dk ok

yjf !netky"

KXk

dk okfnetk

netkyj

KXk

okwkj

deoarece

ok dk okfnetk

netk JXj

wkjyj

Atunci

yj f jnetjKXk

okwkj j J

$vji f jnetjziKXk

okwkj j J i I


Ultima relatie este regula delta generalizata Aceasta regula se poate rescrie nfelul urmator

vji vji f jnetjziKXk

okwkj j J i I

sau matriceal

V V yzt

unde

z

zzI

V

v vI

vJ vJI

y

yyJ

In aceasta relatie

yj f jnetjKXk

okwkj

sau

y wtjof

y

unde wj este coloana j din W iar

f y

f y

f yJ

Pentru cazul unipolar folosim f yj yj yj iar pentru cazul bipolar avem

f yj yj

Comparand regulile de actualizare a ponderilor

pentru stratul de iesire W W oyt

pentru stratul ascuns V V yzt

se observa ca diferenta semnicativa este indicele care localizeaza stratul si moduln care se calculeaza vectorul semnalului de eroare

o ho oK

it ok dk okf

oknetk

y hy yJ

it yj wt

jofyjnetj

Se observa ca wtjo este produsul scalar al semnalelor de eroare provenind de la

stratul urmator

Regula delta generalizata propaga eroarea cu cate un strat n urma Vomformaliza n continuare aceasta metoda de instruire pentru o retea neurala multistrat

ALGORITMUL DE INSTRUIRE BACKPROPAGATION

Instruirea unei retele neurale multistrat

prin propagarea n urma a erorii

In general o retea neurala multistrat aplica vectorul de intrare z n vectorul deiesire o astfel

o N !z"

unde N este un operator compus neliniar matricial Pentru reteaua cu un stratascuns avem

o #!W#!Vz""

In acest caz trebuie sa ajustam matricile V si W astfel ncat eroarea

kd ok

sa e minima Algoritmul de instruire a unei retele neurale multistrat prin propagarea n urma a erorii error backpropagation este

Se dau perechile zd zdzP dP unde zi este un vector de I elemente ziI si i P Se determina marimeastratului ascuns Acesta va avea iesirile y unde y este un vectorde J elemente iar yJ Iesirile o din retea sunt vectori de Kelemente

Se aleg si Emax Se initializeaza matricea W de KJsi matricea V de J I elemente cu valori aleatoare mici Seinitializeaza p q si E

Se initializeazaz zp d dp

yj fvtjz pentru j J

unde vj este un vector coloana reprezentand linia j din V

ok fwtky pentru k K

unde wk este un vector coloana reprezentand linia k din W


E E

dk ok

k K

Se calculeaza semnalele de eroare pentru cazul bipolar

ok

dk ok ok k K

yj

yj

KXk

okwkj j J


respectiv pentru cazul unipolar

ok dk ok okok k K

yj yj yjKXk

okwkj j J

Se ajusteaza ponderile stratului de iesire

wkj wkj okyj k K j J

Se ajusteaza ponderile stratului ascuns

vji vji yjzi j J i I

if p P then p p q q go to

if E Emax then E p go to else sa terminat instruirea write W V q E

In algoritmul de instruire prin propagarea n urma a erorii n loc de

$wnkj okyj

$vnji yjzi

putem lua$wn

kj okyj $wnkj

$vnji yjzi $vnji

unde este o constanta numita momentum Prin regula delta nu ne deplasamde fapt n directia gradientului negativ al erorii deoarece ponderile se modica laecare pas Pot aparea oscilatii daca este mare Daca este mic oscilatiile suntneglijabile dar rata nvatarii este prea mica Termenul n care apare ltreazaoscilatiile De obicei se ia si se poate mari Daca ajungem laacelasi rezultat dar trebuie sa folosim o valoare mai mica pentru Instruireapoate dura nsa mai mult

Algoritmul de instruire prin propagarea n urma a erorii face o serie de deplasari n sensul gradientilor negativi ai valorilor individuale pe care le ia Epadica pentru un pattern si nu n sensul gradientului negativ al lui E Acestlucru se ntampla deoarece nu este innit de mic Din acest motiv n anumitecazuri dupa citirea lui zp se poate ca E sa creasca Eroarea referitoare doar lazp scade nsa sau ramane zero

In general functia de activare bipolara duce la rezultate mai bune decatfunctia unipolara

In cazul discret intrarea xa este ceruta de teorema perceptronului permitand crearea de hiperplane de separatie care nu trec prin origine La regula delta

FACTORI AI INVAT ARII

generalizata intrarea xa este recomandata nu de o teorema ci de ideea obtineriiunei aproximari mai %exibile

Eroarea cumulata este

E

PXp

KXk

dpk opk

Aceasta eroare poate foarte mare daca P si K sunt mari De aceea este maiadecvat sa folosim

Em

PK

vuut PXp

KXk

dpk opk

adica eroarea medie normalizataAtunci cand reteaua este instruita ca si clasicator ne intereseaza doar eroarea

de decizie

Ed Ner

PK

unde Ner este numarul total de erori de clasicare De obicei iesirile dorite sunt cu exceptia uneia care este si corespunde clasei din care face parte patternul respectiv O retea multistrat poate transformata ntrun clasicator dupainstruire prin nlocuirea perceptronilor de tip continuu cu perceptroni discreti

Clasicarea este o forma importanta a calculului neural nsa ea limiteazapotentialul de calcul al unei retele deoarece foloseste raspunsul binar O reteamultistrat poate utilizata si pentru aproximarea functiilor

Factori ai nvatarii

Algoritmul de instruire prin propagarea n urma a erorii poate interpretat cao problema de optimizare se minimizeaza eroarea medie cumulata Em mergandpe directia gradientului negativ

O dicultate tipica ar ca prin acest algoritm se poate sa obtinem doar unminim local pentru functia eroare Prin faptul ca impunem o valoare minimaacceptabila pentru Em putem controla acest lucru Se poate nsa sa nu avem oconvergenta a algoritmului daca ne ndreptam spre un minim local n loc de ane ndrepta spre un minim global Este de fapt un algoritm de tip greedy

Totusi problema minimelor locale nu este o problema majora a acestui algoritm Aceasta deoarece algoritmul are o natura stohastica exista o anumitarandomizare n instruire Cu cat reteaua este mai mare cu atat mai bine vafunctiona instruirea Natura stohastica este data atat de ponderile initiale catsi de patternurile de instruire Chiar cand patternurile de instruire au o naturadeterminista adaugarea unui zgomot cu medie zero poate duce al mbunatatireaecientei instruirii

Instruirea functioneaza cel mai bine n conditii de randomizare De aceeaponderile initiale se aleg cu valori aleatoare iar patternurile de instruire estebine sa e ntro secventa aleatoare


Sa studiem acum efectul lui asupra lui f net g Avem

f net enet

enet

pentru functia de activare continua bipolara

λ=2λ=1

λ=0,5

f’(net, )λ

net

Figura Efectul lui asupra lui f net

Deoarece ponderile sunt ajustate proportional cu f net nseamna ca ponderile corespunzatoare neuronilor pentru care net se modica cel mai multPonderile neuronilor cu raspunsuri incerte sunt cele mai afectate Deoarece semnalele de eroare ok si yj sunt de asemenea proportionale cu f net rezulta cacomponentele erorii care se propaga n urma sunt mari doar pentru neuronii curaspunsuri incerte

Se observa ca pentru o constanta de nvatare xata ajustarea ponderiloreste proportionala cu Folosirea functiilor de activare cu valoare mare pentru are acelasi efect cu utilizarea unei constante de nvatare mari De aceea esterecomandabil sa pastram si sa controlam viteza de nvatare doar prin

Valoarea optima pentru constanta de nvatare depinde de problema de rezolvat O valoare mare pentru duce al viteza mai mare de nvatare dar se poateca astfel sa trecem de solutie O valoare mai mica pentru duce la o ranarepasi mai mici care nsa nseamna si pasi mai multi deci timp de procesare maindelungat In concluzie trebuie ales n mod experimental pentru ecare problema Cel mai bine se porneste cu avand valoare mica si se ncearca marireaacestui parametru pentru a mari viteza algoritmului Sa observat ca n generalvalorile pentru sunt ntre si

Una dintre cele mai importante probleme este alegerea arhitecturii retelei Sapresupunem ca avem un singur strat ascuns de J neuroni ca stratul de iesire areK neuroni si ca avem I noduri de intrare n retea Evident I este dependent deproblema de rezolvat deci l consideram xat Cum i alegem pe J si pe K

Daca reteaua functioneaza ca un clasicator K poate egal cu numarul declase Dar K poate considerat si logC unde C este numarul claselor dacafolosim o reprezentare binara a claselor De exemplu pentru neuroni de iesireputem avea clasele corespunzatoare iesirilor Numarul

FACTORI AI INVAT ARII

de neuroni de iesire pentru un clasicator cu C clase poate deci un ntreg ntrelog C si C Pe de alta parte comprimarea stratului de iesire sub C neuronipoate afecta perioada de instruire si robustetea retelei nale De aceea n cazulunui clasicator se ia de obicei K C

Alegerea lui J este nca o problema n studiu Retelele cu un singur stratascuns pot forma regiuni arbitrare de decizie pentru patternuri ndimensionaleSa presupunem ca avem o colectie de patternuri ndimensionale liniar separabilen M regiuni disjuncte apartinand ecare la una dintre cele R clase R M Evident trebuie ca numarul de patternuri de instruire P sa e mai mare saucel mult egal cu M

Cu cat PM este mai mare cu atat instruirea este mai na Mirchandini siCao au aratat care este numarul maxim de regiuni liniar separabile folosind Jneuroni

nXk

Jk

unde

Jk

pentru k J

2

5

6

1

4

7

3

2-clasa 11,3,5,7-clasa 24,6-clasa 3

Figura Regiuni disjuncte care apartin la trei clase

In exemplul nostru g avem n si M Deci

J

J

J

J

J

De aici rezulta o estimare pentru marimea stratului ascuns J Daca avemn J atunci numarul maxim de regiuni este

J

J

JJ

J

si de aici l obtimem pe J

Mirchandini G W Cao On Hidden Nodes in Neural Nets IEEE Trans Circuits andSystems


Retele feedforward multistrat folosite

ca aproximatori universali

Ne propunem sa aproximam functia continua hx cu functia treapta Hw xg

x

H(w,x)h(x)

H(w,x)

2h

h1

0 1 2

∆ x

h(x)

bpxxxa

Figura Aproximarea functiei hx cu functia treapta Hw x

Presupunem ca se cunosc P esantioane adica valorile functiei hx n punctelex x xP Presupunem ca

xi xi $x b a

P i P

Denim functia

x

sgnx

pentru x nedenit pentru x pentru x

Scriem atunci

Hw x PXi

hi!x xi

$x

x xi $x

"

unde hi hxi

APROXIMATORI UNIVERSALI

Putem scrie

x xi

$x

x xi $x

sgn

x xi

$x

sgn

x xi $x

Acest termen este o fereastra de naltime unitara si latime $x g

x ix i −∆ x___________

2x i

x

1 -

0 +∆ x___________

2

perceptroni de tip discretimplementare cu

implementare cuperceptroni de tip continuu

Figura Fereastra de naltime unitara si latime x

Fereastra se poate implementa ca n gura

+

+

+

xi−∆x____

2

+∆ x____2

x

-1

1

-1

1-1

1/2

-1/2

o

comparator1

comparator2

Figura Retea neurala care implementeaza fereastra de naltime unitara si latime x

O retea cu P perceptroni discreti poate implementa functia Hw x Pentruun termen reteaua se poate descrie ca n gura

In general o functie hx unde x este un vector poate aproximata printroretea neurala cu un singur strat ascuns In ce masura reteaua este instruibila depilda prin regula delta generalizata ramane o problema deschisa

Fara a demonstra vom mentiona doua importante proprietati

O retea feedforward cu un singur strat ascuns poate aproxima oricat debine orice functie neliniara continua

O retea feedforward cu un singur strat ascuns poate implementa o functiebooleana arbitrara


+

+

+i

_______x + x∆2

i_______x - x∆

2 +

+

+

(a) (b)

1

1/2

-1/2

o

1

-1

x

comparator2

comparator1

x

-1

o

2

1

Figura Implementare folosind a perceptroni de tip discret si b perceptroni de tipcontinuu cu cat este mai mare cu atat mai mult forma ferestrei se apropie de cea rectangulara

Teorema lui Kolmogorov si retelele neurale

In loc de a aproxima o functie continua ne punem acum problema reprezentariiei exacte printro retea neurala

In David Hilbert a formulat urmatoarea ipoteza o functie continua demai multe variabile nu este n mod necesar decompozabila ntro suprapunere defunctii continue de un numar mai mic de variabile Aceasta presupunere a fostcontrazisa n de Kolmogorov printro teorema a carei aplicatii au aparutabia acum n contextul retelelor neurale

Teorema lui Kolmogorov arma ca orice functie f continua denita pe un cubndimensional este reprezentabila astfel

fx xn nXq

q

nXp

pqxp

A

unde q q n si pq p n sunt functii continue de o singuravariabila

... ...

1

2

2n+1

1

2

m

...

x1

x2

xn

y1

y

y

2

m

Figura Retea neurala care implementeaza o functie oarecare f

Interpretarea neurala este urmatoarea

T HechtNielsen Fie f ! "n n m fx yo functie continua oarecare Atunci f poate implementata exact

APLICAT II

de catre o retea neurala feedforward cu un singur strat ascuns avandarhitectura din gura

Denim acum functiile de activare pentru aceasta arhitectura

Fie zk iesirea din neuronul ascuns k Avem

zk nX

j

k xj k k

unde este o constanta reala este o functie monoton crescatoareindependenta de f este o constanta rationala unde este o constanta pozitiva arbitrar aleasa

Iesirile yi se calculeaza astfel

yi nXk

gizk

unde functiile gi i m sunt reale si continue depinzand de fsi

Aceasta teorema nu ne spune cum sa obtinem functia sau constanta Este o teorema existentiala Ea se poate extinde pentru orice functii continuepe un compact multime nchisa si marginita Acest rezultat a fost primul pasCybenco a aratat ca orice functie continua denita pe un compact dinn poate aproximata oricat de bine de o retea feedforward cun un singur stratascuns folosind functii de activare sigmoidale Uneori se pot obtine aproximarimai compacte folosind mai multe straturi ascunse

Sprecher a gasit algoritmul de constructie a functiei din teorema luiHechtNielsen astfel ncat este monoton crescatoare independent de f si n

Aplicatii

Retelele feedforward multistrat pot aplicate cu succes la multe probleme declasicare si de recunoastere Pentru aceasta nu este necesar sa e cunoscutun model formal pentru clasicare sau recunoastere Este sucient sa utilizamo arhitectura potrivita si o multime sucienta de patternuri de instruire apoiaplicam algoritmul de instruire prin propagarean urma a erorii Solutia se obtinedeci prin experimentare si simulare nu printro abordare formala riguroasa

Cu toate ca nu este foarte clar ce constituie o multime adecvata de patternuri de instruire sunt raportate o serie de aplicatii n recunoasterea vorbirii asemnalelor sonore etc

Sa notam ca iesirile cu mai mult de doua valori pentru un neuron pot modelaincertitudinea Modul conventional de a construi un sistem expert necesita unexpert uman care sa formuleze regulile cu ajutorul carora sa e analizate datelede intrare Numarul acestor reguli poate foarte mare Pe de alta parte de


1

2

I

1

2

J

1

K... ...

...simptome neuroni

ascunsiboli

Figura Sistem expert conexionist pentru diagnoza medicala

multe ori este dicil de formulat aceste reguli Deoarece retelele neurale pot instruite fara ca ele sa ncapsuleze cunostintele n reguli sa vedem n ce masuraele pot aplicate ca o alternativa la sistmele expert conventionale

Retelele neurale pentru diagnosticare defectoscopie predictie recunoastereaformelor rezolva n esenta probleme de clasicare asociere si generalizare Acesteretele pot achizitiona cunostinte fara sa extraga reguli de tip IFTHEN de la unexpert uman Dupa instruire ele pot functiona ca sisteme expert Ceea ceva lipsi este explicarea un sistem expert neural nu poate explica utilizatorului rationamentul deciziilor luate Numim aceste sistem expert sisteme expertconexioniste

Atunci cand o retea instruita este testata cu un pattern substantial diferitde cele folosite pentru instruire raspunsul obtinut se presupune ca rezolva oproblema de generalizare Exemple tipice de generalizare sunt diagnosticarea sipredictia Figura descrie functionarea unui sistem expert conexionist pentrudiagnostic medical

Intrun sistem expert conventional o dicultate este formularea si introducerea regulilor de catre expertul uman Sistemul expert conexionist poate nvatadin diagnosticul curent care a fost acceptat O atentie speciala trebuie dataalegerii lui J Daca J este prea mic apar dicultati de aplicare a celor I intrarin cele K iesiri Daca J este prea mare creste inutil timpul de instruire si dediagnosticare si ponderile sunt dicil de estimat corect

O serie de aplicatii folosesc patternuri temporale care se obtin prin esantionarea unor semnale de tip continuu g

Exemple

Exemplu de construire a unui clasicator multistrat pentrupatternuri liniar neseparabile

Fie functia de decizie XOR

EXEMPLE

∆ ∆

x0x1 x2 xn

...

...

x(t)∆ ...

strat de iesire

x(t- )∆ x(t- ) x(t- )2∆ n∆

strat ascuns

Figura Retea neurala cu ntarziere cu un singur canal de achizitie

x x iesirea

Punctele avand coordonatele x si x de mai sus sunt notate cu A B C D

2

1 o2

o

r3

x

1/2

1B

C

r

r

x

o=[-1 1]

1

2

A

clasa 1clasa 2

2

1 1

D

A,D

C

Bo = 0

(a) (b)

o=[1 -1]t

t

o=[-1 -1]t

3

1

- -1

Figura Suprafete de decizie n problema XOR

Alegem

x x

x x


n mod arbitrar g a Pentru aceste linii vectorii normali unitari sunt

r p

h

itr

p

h

it

+

+

+

x1

-1

1

x2

-2

1/2

1/2

-1

1

11

1

-1

-1o2

o1

o3comparator3

comparator1

comparator2

Figura Reteaua neurala care implementeaza problema XOR

Reteaua neurala din gura implementeaza aceste suprafete de decizieprin intermediul stratului ascuns Pentru acestea avem

o sgnx x

o sgn

x x

Arbitrar se alege linia de decizie g b

o o

si atuncio sgno o

Reteaua neurala implementata aici clasica patternurile A B C D astfel

Simbol x x o o o o o clasaA B C D

Exemplu de instruire prin propagarea n urma a erorii

Presupunem ca avem o retea cu trei neuroni cu un strat ascuns g Neuronii si sunt ctivi si ne simplica notatia Presupunem ca ponderile

au fost initializate si ca o si o sunt calculate conform unui pattern de intrareCalculam o o o si apoi

d oo o

f netX

k

kwk o ow

EXEMPLE

1

2

4

5

0

1

2o

o3

0o = -1

o5

Figura Retea neurala multistrat Functiile de activare sunt unipolare

o ow

$w $w o

$w o

Apoi$w $w $w o $w o$w o $w o

Putem astfel sa construim prin instruire un clasicator multistrat pentru patternurile liniar neseparabile din exemplul precedent problema XOR cu doua variabile Denim matricile

W hw w w

iV

w w w

w w w

Pentru se ajunge dupa instruire la

W h

i

V

Dorim ca reteaua sa functioneze ca un clasicator cu iesiri binare Inlocuimneuronii de tip continuu cu neuroni binari si pastram ponderile pe care leamcalculat pentru cazul continuu

Exemplu de alegere a marimii stratului ascuns

In gura avem un clasicator pentru problema XOR cu n Presupunand J n obtinem pentru J numarul maxim de regiuni


x2

1x

0

1

2

3

-1/2

1

1

1

1

-3/2

-1/2

1

-1

-1

x

x

o1

2

Figura Problema XOR pentru n

x1

-x 2

x3

1

1

0

21

1/2

3/2

1

-2

11

1

-1

1

2

x

x

o

Figura Problema XOR pentru n

Sa consideram acum aceeasi problema pentru n g unde x xx

Luand n si M obtinem J Am rezolvat deci aceeasi problemadar cu mai putini neuroni

Exercitii

Patternurile liniar neseparabile

x

x

x

x

x

x

x

x

x

x

EXERCIT II

trebuie clasicate astfel

clasa xxxx xclasa restul

Elaborati o retea neurala de perceptroni discreti cu un strat ascuns care safunctioneze ca un clasicator Nu instruiti reteaua de neuroni ci folositimetoda din primul exemplu

Fie prototipurile n forma extinsa

x

x

x

x

x

x

x

x

O masina multistrat cu doi perceptroni discreti bipolari n stratul ascunssi un singur perceptron discret bipolar de iesire trebuie sa clasice prototipurile astfel ncat

clasa xxxclasa restul

a Vericati daca vectorii pondere

w

w

asigura separarea liniara a patternurilor primul strat

b Completati elaborarea clasicatorului folosind rezultatul anterior sicalculati ponderile perceptronului de iesire

Demonstrati ca pentru n numarul J al neuronilor stratului ascunsnecesari pentru partitionarea prin hiperplane n M regiuni este

J

pM

Fie problema clasicarii n doua clase a unor patternuri planare n rezolvata printro arhitectura de retea neurala cu J si K Determinati o margine inferioara pentru P care este numarul vectorilor deinstruire Indicatie Acest numar este egal cu numarul regiunilor separabileM


1

-2

3

2

0

-1

1

0

-2

1

3

-1

1

1o

o 2

z1

2z

-1

Figura Retea neurala multistrat pentru exercitiul

Reteaua din gura daca a fost instruita corect trebuie sa raspundacu o si o la patternul de intrare

z

z

Ponderile au fost initializate ca n gura Se alege iar neuroniifolosesc functia de activare

fnet

enet

Analizati un pas al algoritmului de instruire prin propagarea n urma aerorii realizand urmatoarele operatii

a Gasiti matricile ponderilor V W

b Calculati netj y netk o

c Calculati f netj si f netk

d Calculati o si y

e Calculati $V si $W

f Gasiti noile valori pentru V si W

C Implementati algoritmul de instruire prin propagarea n urma a eroriipentru I J K si selectabile si un singur strat ascuns Folositi perceptronibipolari de tip continuu

C Elaborati clasicatorul pentru literele A I si O denite ca n gura cu ajutorul programului de la exercitiul Presupuneti doua tipuride reprezentari interne

EXERCIT II

Figura Literele A I si O pentru exercitiul

a n P I J K si

clasa A x ! "t

clasa I x ! "t

clasa O x ! "t

b n P I J K si

clasa A O x ! "t

clasa A I O x ! "t

clasa A O x ! "t

clasa A O x ! "t

clasa A O x ! "t

clasa I x ! "t

clasa A O x ! "t

clasa A O x ! "t

clasa A I x ! "t

clasa A x ! "t

clasa A O x ! "t

clasa A O x ! "t

clasa I O x ! "t

clasa O x ! "t

clasa A O x ! "t

Incercati diferite valori pentru Evaluati numarul de cicluri de instruirepentru ambele arhitecturi Iesirile trebuie sa e

pentru A ! "pentru I ! "pentru O ! "

C Elaborati o retea pentru patternurile liniar neseparabile din gura folosind programul scris la exercitiul

a Selectati un numar potrivit de neuroni n stratul ascuns Folositi K


||| |

-

-

-

-

0 1/4 1/2 3/4 1

1

3/4

1/2

1/4

x1

x 2

clasa 3

clasa 2

clasa 1

Figura Patternuri neseparabile pentru exercitiul

astfel ncat iesirile sa e

pentru clasa ! "t

pentru clasa ! "t

pentru clasa ! "t

b Instruiti reteaua pentru vectorii din gura si diferite valori pentru

C Fie hx sin x x si aproximarea ei printro reteaneurala ox Construiti o retea de perceptroni bipolari de tip continuu cuun strat ascuns care aproximeaza hx prin ox

C Realizati un sistem expert conexionist care sa va ajute la planicareatimpului vostru liber In functie de factorii de circumstanta sistemul expertva va spune ce activitate sa alegelti Activitatile posibile sunt

a vizita

b sport

c lm

d somn

e cumparaturi

Factorii care determina alegerea activitatii sunt

EXERCIT II

a resursele nanciare disponibile

b starea vremii

c durata de timp care poate afectata

d existenta unui prieten care poate vizitat

e starea de oboseala

f necesitatea de a face cumparaturi

g ultima activitate facuta n timpul liber

h existenta unui lm bun

Sistemul va realizat ca o retea de perceptroni Propuneti o secventa de de perechi de forma activitati factori de decizie ca secventa de instruirecu cel putin perechi pentru ecare activitate din lista Codicati intrarileca variabile mixte continue si binare din intervalul ! " si atribuiti intrarilor care nu au importanta Instruiti sistemul si apoi testatil cudate de intrare diferite de cele folosite pentru instruire

C Scrieti un program care implementeaza o retea de perceptroni capabilasa clasice cifrele n categoriile par impar Pentru instruirea reteleifolositi o secventa de instruire n care caracterele sunt codicate ca matricibinare de pixeli Dupa instruire utilizati reteaua pentru clasicareapatternurilor perturbate


Capitolul

Retele neurale feedback

monostrat

Retelele neurale pe care le vom studia n acest capitol sunt sisteme dinamice careevolueaza n timp ntrun spatiu discret sau continuu Evolutia unei astfel deretele este asa cum vom vedea disipativ n sensul ca are tendinta de scadere aenergiei Tranzitia ntro retea neurala dinamica este catre o solutie asimptoticstabila care este un minim local al unei functii a energiei disipate

Retelele discutaten acest capitol se bazeazan special pe lucrarile lui Hopeld

Sa mentionam cateva concepte fundamentale ale sistemelor dinamiceAm vazut ca un atractor este o stare catre care sistemul evolueaza n timp

pornind de la anumite conditii initiale Multimea acestor conditii formeaza bazinul de atractie al atractorului Daca atractorul este un punct unic n spatiulstarilor atunci el este un punct x Un atractor poate nsa consta si dintrosecventa de stari caz n care se numeste ciclu limita

O retea de acest tip este capabila sa tolereze anumite distorsiuni ale vectorilorde initializare si sa le elimine

Fundamentele matematice ale retelelor

Hopeld cu timp discret

Acest tip de retele au proprietati foarte interesante Utilizand tehnologii microelectronice si optoelectronice sau fabricat microsisteme care se bazeaza pe acesteretele

Conform postulatelor lui Hopeld o retea feedback monostrat este de formacelei din gura

Aceasta retea consta din n neuroni cu pragurile TTn Pentru ecare neuron se calculeaza

neti nX

jj i

wijvj ii Ti pentru i n

CAPITOLUL RETELE NEURALE FEEDBACK MONOSTRAT

1

2

n

v1

v2

vnvn

v2

v1

...

...

-1

-1

T

T2

T1

n

w2112w

wn1

w2n

n2w

i1

i2

in-1

Figura Retea feedback monostrat

unde ii este intrarea externa a neuronului i Vectorial putem scrie

neti wti ii Ti pentru i n

unde

wi

wi

win

v

vvn

Putem de asemenea sa rescriem relatia de mai sus astfel

net Wv iT

unde

net

net

netn

i

iin

T

TTn

W

wt

wt

n

w wn

w wn

wn wn

In acest model matricea W este simetricaSa presupunem pentru moment ca functia de activare este sgn Atunci

vi ramane neschimbat daca neti vi daca neti v daca neti

Adica

vki sgnwt

ivk ii Ti i n k

RETELE HOPFIELD CU TIMP DISCRET

Regula se aplica asincron adica pentru cate o singura valoare a lui i la un momentdat Se porneste de la v Pentru k avem n actualizari Pentru nceput seactualizeaza vi unde numarul neuronului i este aleator Pentru ceilalti neuroniiesirile raman aceleasi Se calculeaza apoi vj j i j aleator etc pana se completeaza v Apoi se calculeaza v etc Acest algoritm particular de actualizare aponderilor este cunoscut ca o recursivitate stohastica asincrona a retelelor Hopeld Trebuie sa facem distinctie ntre algoritmul asincron si cel sincron paraleldescris de formula

vk #!Wvk iT" k

Conform acestei formule toti neuronii si pot modica simultan iesirile In algoritmul asincron dupa ce se calculeaza vk

i aceasta valoare ia locul lui vkiparticipand la calculul celorlalte componente din vk Procesul continua panase calculeaza toate valorile din vk Pentru ecare k avem n actualizari aleatoare individuale la nivel de neuron Algoritmul se opreste candvk vk

Reprezentand vectorul de iesire n f gn acesta se misca dintrun varf alcubului ndimensional ntrun varf adiacent pana cand se stabilizeaza ntrunuldin varfuri Pozitia nala a lui vk pentru k este determinata de ponderileinitiale pragurile initiale intrari v dar si de ordinea tranzitiilor

Urmatoarele probleme sunt deschise daca sistemul are atractori si daca sistemul se stabilizeaza

Pentru a evalua proprietatea de stabilitate vom deni functia energiei computationale

E

vtWv itv Ttv

care este o forma patratica Adica

E

nXiij

nXj

wijvivj nXi

iivi nXi

Tivi

Fie vki vki $vi adica presupunem ca nodul i sa modicat la momentul k

Modicarea este asincrona deci se refera doar la neuronul i Calculam

rE Wv it Tt

n care am tinut cont ca W este simetrica Incrementul energiei este

$E rEt$v

unde

$v

$vi


Atunci

$E wtiv ii Ti$vi

$E nXj

wijvj ii Ti

A$vi pentru i j

$E neti$viPentru functia de activare sgn din relatia avem

daca neti $vi

daca neti $vi

daca net $vi

Adica avem mereu neti$vi si $E Aceasta nseamna ca energia reteleipoate doar sa scada sau sa ramana constanta Presupunand ca neti atunci$E daca si numai daca $vi Cu alte cuvinte E scade strict daca sinumai daca $vi si E ramane constanta daca si numai daca $vi Dacaneti atunci $vi deci $E

Pentru o stare stabila adica pentru un atractor n cazul unei scheme asincroneavem

vk limk

sgnWvk iT

Am aratat ca energia este necrescatoare Ea este n mod evident si marginitaceea ce nseamna ca E si atinge minimul

Daca algoritmul de actualizare a ponderilor este sincron se poate ntamplaca algoritmul sa cicleze ntre doua patternuri complementare Acest lucru esteilustrat de exemplul de mai jos

W

v

h

it

v #

sgnsgn

v

etc

Vom vedea ca patternurile complementare corespund unor nivele identice aleenergiei

Fundamentele matematice ale retelelor

Hopeld cu timp continuu

Retelele feedback monostrat cu timp continuu se numesc si retele de tip gradientO retea de tip gradient converge catre unul dintre minimele stabile din spatiul

RETELE HOPFIELD CU TIMP CONTINUU

starilor Evolutia sistemului este n directia generala a gradientului negativ alfunctiei de energie Cautarea unui minim energetic corespunde cautarii uneisolutii pentru o problema de optimizare Retelele de tip gradient sunt exemplede sisteme neliniare dinamice si asimptotic stabile

...1

1g

u1 u2 un

_ __

i1 i2 in

w

w

...

C

2g

C

g

v1 v2 vn

v1 v2 vn

1n w2n

wn1

n2

n

n

2C

Figura Retea neurala de tip gradient care foloseste componente electrice

Vom exemplica un model de retea neurala de tip gradient prin folosirea unorcomponente electrice g Pentru a pastra notatia originala a lui Hopeldtensiunile ui sunt de fapt neti Ponderile wij sunt conductante Iesirile inversate'vi sunt folosite pentru a modela conductante negative adica inhibitorii Avem

wij wji si wii pentru i j n

Neuronii pot interpretati ca amplicatori curentul prin conductanta gi esteamplicat de neuronul i g Ci i n sunt capacitati

Folosind acest model de neuron putem scrie legea lui Kirchho

ii nX

jj i

wijvj ui

BB nX

jj i

wij gi

CCA Ci

duidt

Partea stanga a acestei ecuatii reprezinta curentul total care intra n condensatorul de capacitate Ci Notam conductanta totala care este conectata la in


...

u i iv

inw

i1

i11 i

(v -u )w in

v

wv1

n i i-g u

ii

_idudtiC

f(u )ig

i Ci

in

(v -u )w

Figura Modelul unui neuron

trarea neuronului i cu

Gi nX

j

wij gi

Atunci ecuatia se poate scrie

ii nX

j

wijvj uiGi Ciduidt

Fie matricile

C diaghC C Cn

i G diag

hG G Gn

i

ut

ut

unt

vt

vt

vnt

i

iin

unde ut este vectorul starilor iar vt reprezinta vectorul iesirilor Avem

C dutdt

WvtGut i ecuatia starilor

vt fut ecuatia iesirilor

Sa studiem stabilitatea sistemului descris de aceste ecuatii Functia energieicare ne permite sa analizam modelul continuu este

Ev

vtWv itv

nXi

Gi

Z vi

fi zdz

unde fi z este inversa functiei de activare fi Aceasta formula contine termenulTtv din functia energiei discrete

vtWv itv Ttv

RETELE HOPFIELD CU TIMP CONTINUU

n termenul al doilea iar ultimul termen este specic cazului continuu si disparepentru Avem

d

dvi

Gi

Z vi

fi zdz

Giui

rEv Wv iGu

Atunci

dE!vt"

dt rEtv (v Wv iGut (v

Cdu

dt

tdv

dt

Xi

Cidfi vi

dvi

dvidt

deoareceduidt

dfi vi

dvi

dvidt

||

u=f (v)

-1 +1

-1

Figura Inversa functiei de activare

In gura functia fi este monoton crescatoare decidfi

vi

dvi Atunci

dE

dt pentru

dv

dt si

dE

dt pentru

dv

dt

Am gasit o functie Liapunov a sistemului deci sistemul este asimptotic stabilFunctia E este marginita n spatiul iesirilor deci tinde catre un minim

Modicarile n timp nu sunt exact pe directia gradientului functiei de energieadica pe directia scaderii cat mai rapide a energiei

Reteaua de tip gradient n cazul n care spatiul iesirilor este marginit converge catre unul dintre minimele lui Ev deci catre o stare stabila Acest minimeste n interiorul hipercubului iesirilor Daca atunci minimul este ntrunvarf al hipercubului


Faptul ca sistemul este asimptotic stabil n spatiul iesirilor este echivalent cufaptul ca sistemul este asimptotic stabil n spatiul starilor u Aceasta deoareceecuatia

vt fut

este monotona

Aplicatie problema comis voiajorului

Vom da o solutie a problemei comisvoiajorului pentru n orase folosind retele detip gradient Hopeld Tank Problema este NPcompleta

Reprezentand problema sub forma unui graf cu n varfuri trebuie sa gasimciclul de lungime minima care trece prin toate varfurile Numarul de astfel decicluri care trebuie evaluate este n

Se poate elabora o retea neurala de n neuroni unipolari de tip continuu caresa rezolve aceasta problema Aranjam neuronii ntrun tablou de nn elementeTabloul este reprezentat n gura n care Poz reprezinta pozitia n ciclu

B

AD

C

EPoz. 1

Poz. 2

Poz. 3

Poz. 4Poz. 5

Figura Reprezentarea cu ajutorul unui graf a problemei comisvoiajorului

Fie orasele A B E si e acest ciclu Il reprezentam prin tabelul undevxi este iesirea neuronului corespunzator orasului x si pozitiei i n ciclu

orasul

A B C D E

pozitia

Tabelul Reprezentarea ciclului din gura

Pentru un ciclu care viziteaza toate varfurile tabloul trebuie sa aiba un singur pe ecare coloana si un singur pe ecare linie Pozitionam neuronii n acesttablou de nn elemente n ecare element punand un neuron Vom avea exact n

APLICAT IE PROBLEMA COMISVOIAJORULUI

neuroni activi pentru solutie Presupunem pentru o valoare mare deci energiaeste trunchiata

E

nXxi

nXyj

wxiyjvxivyj nX

xi

ixivxi

unde wxiyj este ponderea de la neuronul yj la neuronul xi Observam ca domeniulvectorilor v unde se minimizeaza functia E este format din cele n

varfuri ale

hipercubului ndimensional ! "Scopul optimizarii este selectarea circuitelor minime Trebuie sa avem obli

gatoriu cate un neuron activ pe linie si pe coloana In plus trebuie sa eliminamsolutiile triviale pentru care avem n tablou linii sau coloane nule Sa exprimamaceste conditii de optimizare folosind patru functii de energie ecare ndeplinindun rol separat

E AnX

x

nXi

Xjj i

vxivxj

Produsul vxivxj se refera la acelasi oras x Relatia

nXi

nXjj i

vxivxj

se ndeplineste daca cel mult un vxi iar restul sunt adica daca orasul xapare cel mult o singura data pe circuit E nseamna ca ecare oras estevizitat cel mult o data Daca E atunci exista orase vizitate de mai multeori

E BnXi

nXx

nXyy x

vxivyi

E nseamna ca ecare pozitie din ciclu are cel mult un singur oras asociat eiDaca E atunci exista mai multe orase vizitate simultan Observam ca E

si E sunt de asemenea nule pentru solutii triviale n care avem linii sau coloanen tablou care nu contin nici un De aceea mai introducem

E C

nX

x

nXi

vxi n

pentru a ne asigura ca nu avem o solutie triviala deci o solutie cu mai putinde n de n tablou E nseamna ca avem exact n de n tablou DeciE E E are minimul pentru toate matricile care au exact un pe ecarelinie si pe ecare coloana Dorim sa minimizam lungimea ciclului Notam cu dxydistanta dintre x si y si dxy dyx Lungimea ciclului este

nXx

nXy

nXi

dxyvxivyi vyi


dar vom folosi urmatoarea functie de energie

E DnX

x

nXyy x

nXi

dxyvxivyi vyi

unde vxn vx si vx vxnDorim sa minimizam EEE E Prin identicarea termenilor acestei

sume cu cei din E obtinem

wxiyj Axy ij Bij xy C Ddxyji ji

unde ij este simbolul lui Kronecker ij pentru i j ii Constantelepozitive A B C D sunt selectate euristic pentru a construi o suma convenabila atermenilor E E Ele dau ponderea ecaruia dintre acesti termeni Obtinemde asemenea

ixi Cn

Am generat reteaua Mai trebuie acum sa gasim solutia prin simularea functionarii ei

Din formula generala a ecuatiei starilor

Ci

duidt

ii

nXj

wijvj uiGi

obtinem

duxidt

uxi A

nXjj i

vxj BnX

yy x

vyi

C nXx

nXj

vxj n

A D

nXyy x

dxyvyi vyi

unde este o constanta a timpuluiSau luat A B D C n si sa

rezolvat numeric acest sistem de ecuatii Nu se ajunge neaparat la solutia optimaPentru n ) din teste au produs cele mai scurte cicluri din desolutii posibile Pentru valori mari ale lui n apar nsa dicultati

Aceasta duce la ntrebarea fundamentala daca retelele neurale sunt mai adecvate decat calculatoarele clasice pentru rezolvarea problemelor nedeterminist polinomiale

Sa demonstrat Bruck Goodman ca nu exista nici o retea de marimepolinomiala n n care sa rezolve problema comisvoiajorului cu o precizie doritaAceasta atata timp cat NP P

Problema comisvoiajorului ilustreaza utilizarea retelelor Hopeldn problemede optimizare Sau obtinut rezultate n probleme de alocare a resurselor planicarea lucrarilor optimizarea tracului optimizarea conexiunilor n circuiteleintegrate programare liniara si neliniara

EXEMPLE

In concluzie putem spune ca una dintre limitarile retelelor Hopeld este faptulca ajungem de multe ori la un minim local si nu global Aceasta se datoreazaformei complexe a functiei Ev

Una din dicultati este si traducerea problemei de optimizare ntro problemade minimizare a energiei Singurele forme ale functiei de energie care se cunoscsunt cele date de Hopeld Daca este mare se poate lua energia trunchiataDaca intrarile externe sunt nule dispare si al doilea termen Schema de rezolvarea unei probleme de optimizare folosind retele feedback monostrat este cea dingura

punct de echilibrucare este solutie

STOP

se calculeaza W,iE (W,i,v)=E (v)

algoritmul de simularesau se elaboreazase construieste reteaua

reteaua cu conditiise initializeaza

se implementeaza

functia energiei generaleE (W,i,v)

problema de optimizareE (v)

tranzitiile dinamice

initial neutre

Figura Modul de rezolvare a unei probleme de optimizare folosind retele feedback monostrat

Exemple

Retea Hopeld cu timp discret

Fie

W


Presupunem pragurile si intrarile externe zero Calculam

Ev

hv v v v

iW

vvvv

vv v v vv v vv

Calculand expresia pentru toate varfurile hipercubuluih

ith

it

se ajunge la nivelele de energie Tranzitiile au loc pemuchiile hipercubului de la un varf la un alt varf cu energie mai scazuta Minimul

este atins n varfurileh

itsih

it unde avem stari

stabile Tranzitiile au loc asincron De aceea o tranzitie este doar dea lungulunei singure muchii se poate modica cel mult o componenta

Daca tranzitiile au loc sincron atunci ele nu minimizeaza energia si nu tind

catre o stare stabila De exemplu pornind din v h

it ajungem

la

v #hWv

i #

sgnsgnsgnsgn

Tranzitia nu mai este dea lungul unei muchii Se calculeaza ca

v v

deci oscileaza ntre v si v In v si v energia este Spre deosebire detranzitiile sincrone tranzitiile asincrone duc ntotdeauna la unul dintre minimeleenergetice Daca la tranzitiile asincrone pornim de la

h

isi scadem

energia atunci evolutia se poate desfasura ca n gura Minimul la care ajungem depinde de ordinea de actualizare a componentelor

Retea de tip gradient

Vom elabora un convertor AD Tank Hopeld pe biti Presupunem cafui este continua unipolara

Se poate arata ca o functie energiei totale aleasa convenabil poate

E

x

Xi

vii

Xi

ivivi

EXEMPLE

[1 1 1 1]

[-1 -1 -1 1]

[-1 -1 1 1]

[1 1 1 -1]

[-1 1 1 1](E = 2)

(E = 0) (E = 0)

(E = -6)(E = -6)

Figura Variante de evolutie a starilor pentru o serie de tranzitii asincrone

Dorim sa minimizam pe E ceea ce implica minimizarea lui

xP

i vii

care este eroarea de conversie AD unde v v este valoarea zecimala a vec

torului binarhv v

itsi corespunde valorii analogice x Calculand ajungem

la

E

x

Xi

Xjj i

ijvivj Xi

i ix

vi

Pentru x xat x este o constanta deci irelevanta atunci cand minimizam pe

E Expresia energiei n reteaua Hopeld este

Xi

Xj

wijvivjXi

iivi

Ultimul termen dispare deoarece minimele sunt n varfurile hipercubului Prinidenticarea termenilor din cele doua expresii ajungem la

w w i x

i x

Convertorul rezultat este un caz special al unei retele de tip gradient g Avem

Cdudt

x

v u g

Cdudt

x v u g

care sunt ecuatiile starilor De exemplu putem presupune ca folosim o tensiunede referinta avand valoarea de V g


i0i1

1_2x-

1

2x-2

0

1

g

C

g

-2

Ω

-2

Ω

1

1 0

C 0

1v v0

u0u

Figura Convertor AD pe doi biti implementat printro retea de tip gradient

Ecuatiile starilor devin

Cdudt

x

'v u g

Cdudt

x 'v u g

Conditia wij asigura realizabilitatea retelei folosind rezistente de valoare

Rij wij

Inlocuind ponderile si valorile curentilor externi n expresia energiei

obtinem pentru valori mari ale lui

E vv v

v xv v

Reprezentand grac functia E obtinem

Pentru x punctul stationar este punct de minim v v

Pentru x punctul stationar este punct de minim v v

Pentru x punctele stationare sunt punctul de minim dorit v v dar si punctul de minim nedorit v v precum si un punctsa undeva n interiorul patratului v v

In loc sa rezolvam sistemul de ecuatii diferentiale oare nu putem cauta minimele lui E

EXEMPLE

i0i1−+ −+−+

Ω1 Ω21_2Ω 1_

2Ω

1 0

-1V -1VxV

gg1 u1 0u 0

C1 C 0

_v1

_v0

Ω

2 2

Ω

Figura Convertor AD pe doi biti implementat printro retea de tip gradient si care folosesteo tensiune de referinta de V

Din relatia obtinem

rEv

v

x

v x

H rEv

Observam

det H

det H

Matricea H nu este pozitiv sau negativ denita E nu are deci minim sau maximdaca nu consideram alte restrictii Impunem restrictia ca spatiul de iesire sa e

patratul

Atunci minimele lui E sunt situate n varfurile patratului

daca aceste minime exista Se poate demonstra acest lucru pentru Dacav este o solutie pentru rEv si se a%a n interiorul patratului atunci esteun punct sa Rezulta ca pentru a gasi solutia avem doua posibilitati

Rezolvarea numerica a sistemului de ecuatii diferentiale

Simularea retelei printrun program de simulare a circuitelor electronice deexemplu SPICE


-2

Ω

-2

Ω

f1

f2

2 2RC

u

u

v1

v

1 1RC

1

2 2

Figura Reteaua neurala propusa pentru exercitiul

Exercitii

Simulati n SPICE convertorul AD Generalizatil pentru patru biti

Pentru reteaua neurala din gura cu mare gasiti

a Ecuatiile starilor

b Ponderile conductantele W

c Functia energiei Ev trunchiata

d rEv

f1

f2

RC

Ω

1

1

Ω

_

_

1A

1RC

u

u1

1

2

2

2

v1

v2


EXERCIT II

Pentru reteaua neurala din gura cu mare gasiti

a Ecuatiile starilor

b Ponderile conductantele W

c Vectorul i al intrarilor externe

d Functia energiei Ev trunchiata

e rEv

Fie o retea neurala cu trei neuroni a carei functie de energie trunchiataeste

Ev v v v vv vv v

Gasiti

a rEv

b rEv

c Minimele maximele si punctele sa ale lui Ev atunci cand nu avemalte restrictii

2

1

3

5-5

5

-15

-5-15

v

v1

2

3v


Fie reteaua neurala din gura cu mare Evaluand functia de energietrunchiata gasiti minimele maximele si punctele san ! " Calculatiapoi valorile energiei n toate varfurile cubului

O retea neurala este descrisa de ecuatiile

duidt

Ci

Pnjwijvj uiGi ii

pentru i n

vi fui

Rezolvati numeric acest sistem


Indicatie Alegem de exemplu o metoda foarte simpla cea a lui Euler

uki uki h

Ci

Pnjwijv

kj ukiGi ii

pentru i n

unde h tk tk

vki fuki

Implementati metoda din exercitiul pentru problema convertorului ADpe doi biti si gasiti vt iesirea stabila pentru

C C F g g * x

vi fui

eui i

Testati programul pentru

v ! "t

v ! "t

v ! "t

C Proiectati o memorie Hopeld recurenta autoasociativa care sa memoreze ca prototipuri caracterele A I si O codicate ca matrici binare de pixeli Implementati algoritmul de regasire si simulati convergentaasincrona a memoriei catre ecare din prototipurile memorate folosind capatternuri cheie caracterele A I si O perturbate

Capitolul

Memorii asociative

In capitolul precedent neam concentrat n special pe rezolvarea unor problemede optimizare In acest capitol vom interpreta evolutia unui sistem dinamic cao miscare a unui pattern de intrare catre un alt pattern care este memorat sise numeste prototip sau memorie stocata Retelele neurale din aceasta clasa senumesc memorii asociative

O memorie asociativa ecienta poate stoca un mare numar de patternuri Peparcursul apelului memoria este excitata cu un pattern cheie numit si argumental cautarii care contine o portiune de informatie despre un anumit pattern dintro multime de patternuri memorate Acest prototip anume poate regasit prinasocierea patternului cheie si a informatiei memorate

Sau elaborat mai multe modele de memorii asociative Ne vom concentraasupra retelelor feedback din capitolul precedent dar vom discuta si arhitecturifeedforward de memorie

In general memoriile asociative achizitioneaza informatie a priori Scrierea nmemorie provoaca modicari ale conexiunilor dintre neuroni Nu exista adresetoata informatia din memorie este distribuita spatial n retea

Care sunt cerintele pentru o astfel de memorie Ea trebuie sa aiba o capacitate mare de stocare a prototipurilor Ea trebuie sa e robusta astfel ncat odistrugere locala a structurii sa nu provoace caderea ntregului sistem In plus oastfel de memorie trebuie sa e capabila de a adaugaelimina asociatii pe masurace se modica cerintele de stocare

Memoriile asociative permit de obicei cautarea paralela Scopul cautarii estede a extrage unul sau toate patternurile care se potrivesc cu patternul cheie

Se presupune ca memoria biologica opereaza conform principiilor unei memoriiasociative nu exista locatii de memorie cu adrese stocarea este distribuita ntroretea densa de neuroni interconectati

Concepte de baza

Diagrama bloc a unei memorii asociative este reprezentata n gura

CAPITOLUL MEMORII ASOCIATIVE

... ...

vnxn

x2 v2

x1 v1

M

Figura Diagrama bloc a unei memorii asociative

In aceasta gura x este vectorul intrarilor v este vectorul iesirilor x nv m si v M !x" unde M este un operator neliniar matricial specic ecaruitip de memorie Structura lui M re%ecta o paradigma specica Pentru memoriidinamice M implica si variabila timp

Pentru un model de memorie dat forma operatorului M este exprimata deobicei n functie de vectorii prototip care trebuie stocati Algoritmul care permite calcularea lui M se numeste algoritm de nregistrare sau stocare De obiceineuronii sunt asezati pe unul sau doua straturi

Maparea v M !x" este numita regasire Notam prototipurile cu un indicesuperior n paranteza

Sa presupunem ca n memorie sunt stocati anumiti vectori prototip astfelncat daca se aplica un pattern cheie iesirea produsa de memorie si asociatacheii este raspunsul memoriei

Presupunand ca exista p perechi de asocieri stocate

xi vi pentru i p

sivi xi pentru i p

atunci reteaua este o memorie heteroasociativaDaca aplicatia este de forma

xi vivixi

pentru i p

atunci memoria este autoasociativaIn memoria heteroasociativa asocierile se fac ntre multimile ordonate de

vectori fxx xpg si fvv vpg Memoriile autoasociative asociaza vectori din cadrul unei singure multimi care este fxx xpg Evident proiectarea unui vector xi n el nsusi nu are nici o semnicatie O aplicatiemai realista a unei mapari autoasociative este asocierea unui pattern cheie perturbat cu prototipul sau stocat n memorie

Spre deosebire de memoriile calculatoarelor care sunt adresabile prin adresamemoriile asociative sunt adresabile prin continut

Prin retele neurale se pot realiza memorii statice instantanee nerecurente simemorii dinamice recurente Memoria din gura este una statica realizata

ASOCIATORI LINIARI

x0 v0

1M

Figura Memorie statica realizata printro retea feedforward

vk+1x0

2M

∆

xk

Figura Memorie dinamica autoasociativa realizata printro retea recurenta

printro retea feedforward si v M!x" care reprezinta un sistem de ecuatii

algebrice neliniare In gura este o memorie dinamica autoasociativa realizataprintro retea recurenta pentru care vk M!x

vk" reprezentand un sistemde ecuatii diferentiale neliniare

Un exemplu de memorie dinamica este reteaua Hopeld n care

vk M!vk"

adica n care avem un v dar nu avem intrari externe g

M

M

∆

vk+1

∆xk

vk+2

xk+1

x0

’

Figura Memorie dinamica heteroasociativa

Asociatori liniari

Memoriile asociative traditionale sunt de tip instantaneu feedforward Pentrumemoria asociativa liniara avem

v Wx


unde x este patternul de intrare iar v patternul de iesire Nu apar neuroniDaca totusi introducem formal neuroni atunci avem

v M!Wx"

unde M!" este un operator matricial liniar unitate Avem un strat de neuronide iesire pentru care

v fneti neti

Sa presupunem ca dorim sa stocamn acest asociator liniar p Se dau perechilede vectori fsi f ig i p Vectorii s reprezinta stimulii iar vectorii f suntraspunsurile fortate Avem

si hsi sin

itf i

hfi f i

m

it

Practic si pot patternuri iar f i informatii asupra apartenentei lor la o clasasau imagini ale lor

Obiectivul asociatorului liniar este sa implementeze maparea

v Wx

sub formaf i i Wsi

sau folosind simbolul de mapare

si f i i pentru i p

astfel ncat vectorul zgomot i sa e minimizatProblema se poate pune si astfel pentru un numar mare de observatii sa

se gaseasca W care minimizeazaP

i kik Este o problema tipica de statisticamatematica si nu o vom aborda aici

Dorim sa gasim W care permite stocarea ecienta a datelor n memorieAplicam regula de nvatare hebbiana pentru a instrui asociatorul

wij wij fisj pentru i m j n

unde vectorii f si s trebuie sa e membrii ai perechii de asociere

W W fst

Initializand ponderile din W cu zero avem

W f isit

Acesta este primul pas al instruirii Avem p perechi de nvatat deci

W pX

i

f isit

ASOCIATORI LINIARI

W FSt

unde W este o matrice de corelatie m n si

F hf f f p

i

S hs s sp

i

Sa presupunem ca dupa instruire aplicam vectorul cheie sj Atunci

v

pXi

f isitsj

f stsj f psptsj

Ideal ar sa avem v f j Aceasta se ntampla daca

sitsj pentru i j

sjtsj

Deci multimea de vectori ortonormali fs spg asigura maparea perfectaOrtonormalitatea este o conditie supusa intrarilor si ea nu este ntotdeauna respectata

Sa presupunem ca sjeste sj perturbat

sj

sj $j

unde termenul perturbatie $j se poate presupune statistic independent de sjPentru cazul cand vectorii stocati n memorie sunt ortonormali avem

v f jsjtsj f jsjt$j pXiij

f isit

$j

f j pX

iij

f isit

$j

Am tinut cont si de faptul ca $j este statistic independent de sj deci pot considerati ortogonali adica

sjt$j ksjtkk$jkcos

Observam ca raspunsul memoriei este asocierea dorita f j plus o componentaaditiva datorata perturbatiei $j Aceasta componenta contine n parantezaaproape toti termenii lui W ponderati de $j Chiar si n cazul n care vectoriimemorati sunt ortonormali la f j se adauga un zgomot foarte mare Metodaeste inecienta pentru a regasi un pattern perturbat


In nal sa notam o proprietate interesanta a asociatorului liniar n cazulautoasociativ In acest caz reteaua este un autocorelator Luam f i si siobtinem matricea de autocorelatie W

W pX

i

sisit SSt

tinand cont de faptul caW este simetrica Sa notamnsa caW nu are diagonalaegala cu zero Presupunand s sp ortonormali pentru vectorul de intrareperturbat sj

obtinem

v sj Xii j

sisit$j

sj p $j

unde termenul $j apare amplicat de p oriAsociatorii liniari si autoasociatorii pot folositi si atunci cand vectorii s

sp sunt liniar independenti o conditie mai slaba decat ortogonalitateaKohonen a aratat ca n acest caz avem

W FStSSt

Acest W minimizeaza eroarea patratica dintre f j si vjDeoarece vectorii prototip nu sunt n general liniar independenti nici aceasta

metoda nu poate aplicata oricand In plus apare problema zgomotuluiIn concluzie asociatorii liniari nu sunt n general utilizabili n practica

Concepte de baza ale memoriilor

autoasociative recurente

O astfel de memorie este n esenta o retea feedback monostrat cu timp discret detip Hopeld g

Recursivitatea este stohastic asincrona Fiecare feedback se produce cu ontarziere $ Neuronii sunt alcatuiti dintrun sumator si un comparator si suntbipolari discreti Iesirile sunt n multimea f gn Presupunem ca ii Ti pentru i n

Algoritmul de regasire

vki sgn

nXj

wijvkj

A

Presupunand ca pornim din v si ca se alege n mod aleator secventa m p q deneuroni avem

Prima actualizare v ! v v vm vp vq vn "t

A doua actualizare v ! v v vm vp vq vn "t

A treia actualizare v ! v v vm vp vq vn "t

MEMORII AUTOASOCIATIVE RECURENTE

... ...

v

v

v1k

2k

nk

w

w

w

12w

1n

w21

2n

n1

n2w

...

1

n

2

Figura Memorie Hop eld autoasociativa

Avem

Ev

vtWv

Am vazut ca energia este necrescatoare si reteaua se stabilizeaza ntrunul dinminimele locale energetice

Fie v complementul vectorului vSe observa ca Ev Ev Deci un minim pentru Ev are aceeasi

valoare cu un minim pentru Ev Cu alte cuvinte tranzitiile memoriei se pottermina n aceeasi masura atat n v cat si n v Factorul decisiv care determinaconvergenta este similaritatea dintre v si v respectiv v

Algoritmul de stocare

Fie s sp prototipurile bipolar binare care trebuie stocate Algoritmul destocare pentru calcularea matricii ponderilor este

W pX

m

smsmt pI

sau

wij ijpX

m

smi s

mj

unde ij pentru i j ii si I este matricea unitateMatricea W este foarte similara cu matricea de autocorelatie obtinuta prin

nvatare hebbiana n cazul asociatorului liniar autoasociativ Diferenta esteca wii Sistemul nu memoreaza vectorul sm ci doar ponderile wij carereprezinta corelatii ntre componentele acestui vector

Oricand se pot adauga noi autoasocieri aditionale la memoria existenta prinincrementarea ponderilor existente Oricand se pot elimina autoasociatori prindecrementarea ponderilor existente Regula de stocare este invarianta la ordinean care sunt stocate prototipurile


Daca avem vectorii unipolari s sm algoritmul de stocare trebuie modicat astfel ncat o componenta sa nlocuiasca elementul n vectorul unipolaroriginar

wij ijpX

m

smi s

mj

Sa observam ca regula de stocare este invarianta la operatia de complementarebinara Stocand vectorul s

m complementar lui sm obtinem

wij ij

pXm

smi sm

j

Substituind smi s

mi obtinem wij

wij Cu alte cuvinte este indiferentdaca stocam un pattern sau complementul sau binar

Algoritmul de stocare si regasire pentru o memorie autoasociativa recurentaeste urmatorul

Se dau vectorii binar bipolari s sp de cate n componenteVectorul initial care se cere regasit este v tot de n componente

Stocarea

Se initializeaza W m unde W este matricea n n aponderilor

Se stocheaza sm

WW smsmt I

if m p then m m go to

Regasirea

Se initializeaza k v v unde k este un contor de ciclu

Se initializeaza i contorul de actualizare n ciclu Seobtine o permutare aleatoare a ntregilor n nactualizare FALSE

Este actualizat neuronul i daca este cazulneti

Pnjwijvj vnew sgn neti

if vi vnew then actualizare TRUE vi vnew

if i n then i i goto

if actualizare FALSE then fnu a avut loc nici o actualizaren acest ciclu regasirea se terminag display k velse k k goto

MEMORII AUTOASOCIATIVE RECURENTE

Consideratii asupra modului de functionare

Memoria autoasociativa Hopeld este referita de multe ori ca un decodor corectorde erori Memoria lucreaza cel mai bine cu valori mari ale lui n

Sa presupunem ca n are o valoare mare Presupunem ca patternul sm este

unul din cele p patternuri stocate Acest pattern este acum la intrarea memorieiPentru neuronul i avem

neti nX

j

wijsmj

Aplicand formula

wij ijpX

m

smi s

mj

si neglijand pentru moment termenul ij obtinem

neti nX

j

pXm

smi s

mj s

mj

pX

m

smi

nXj

smj s

mj

Daca vectorii sm si sm sunt statistic independenti atunci termenul

nXj

smj s

mj

este n medie zero De altfel aceasta suma este produsul scalar smsm Daca

sm si sm sunt ortogonali deci statistic independenti acest produs devine zero

Daca sm si sm sunt ntro anumita masura identici atunci termenul devine

pozitiv Daca sm sm atunci termenul este n

Deci daca sm sm pentru un anumit m p atunci

neti smi n pentru i n

neti are acelasi semn ca si smi pentru i n In concluzie vectorul sm

este stabil si nu se mai poate modicaVom da acum o explicatie intuitiva a faptului ca patternurile perturbate pot

refacuteSa presupunem ca vectorul de la intrare este o versiune perturbata a proto

tipului sm care este stocat n memorie iar perturbatia afecteaza doar o mica

parte a componentelor majoritatea componentelor sunt neperturbate In acestcaz n multiplicatorul n va avea o valoare ceva mai mica egala cu numarul

de componente identice dintre sm si vectorul de intrare Semnul lui sm

i se

propaga asupra lui neti Componentele perturbate sunt actualizate una cateuna cu valorile lor neperturbate din sm

Evident este necesar ca majoritateacomponentelor vectorului initial sa e neperturbate si ca n sa e mare Componentele perturbate se conformeaza deci dorintei majoritatii


Aceasta explica intuitiv cum un pattern perturbat poate asociat celui maiapropiat prototip stocat Discutia este nsa valabila doar pentru valori mari alelui n

Sa presupunem acum ca prototipurile stocate sunt ortogonale Avem

net

pXm

smsmt pI

sm

Deoarece sitsj pentru i j si sitsj n obtinem

net n psm

Daca n p rezulta ca sm este stabil Functia de energie este

Ev

vtWv

vt pXm

smsmt

v

vtpIv

Pentru ecare prototip stocat sm avem

Esm

pXm

sm

tsm smtsm

sm

tpIsm

n pn

Memoria are o stare de echilibru la ecare prototip sm iar energia are valoarea

ei minima n pn n aceste stari

Pentru cazul mai general cand prototipurile nu sunt mutual ortogonale energia nu mai este n mod necesar minimizata pentru ecare prototip iar prototipurile nu mai sunt n mod necesar stari de echilibru In acest caz avem

net nsm psm

pX

mmm

smsmt

sm

n psm

pXmmm

smsmt

sm

Fata de situatia anterioara apare suplimentar ultimul temen

pXmmm

smsmt

sm

Acesta poate interpretat ca un vector zgomot Cu cat n p este mai marecu atat scade importanta zgomotului si prototipurile devin stari de echilibru

ANALIZA PERFORMANTEI

Analiza performantei memoriilor

autoasociative recurente

In aceasta sectiune vom stabili relatii ntre marimea n a memoriei si numarul depatternuri distincte care pot refacute n mod ecient Aceasta depinde si degradul de similaritate dintre vectorul cheie si cel mai apropiat prototip precumsi de gradul de similaritate dintre prototipuri

Pentru a masura similaritatea vom folosi distanta Hamming De fapt eaeste proportionala cu disimilaritatea Pentru vectorii bipolari de n componentex si y avem

DHxy

nXi

jxi yij

Aceasta nseamna ca DHxy reprezinta numarul de pozitii n care difera bitiiPrin actualizarea asincrona la ecare pas se modica vectorul de iesire cu DH

Fie de exemplu

s ! "t

s ! "t

Construim

W

Pornind din

v ! "t

obtinem prin actualizari asincrone ascendente

v ! "t

v ! "t v

Actualizarile au fost astfel descrise pas cu pas Convergenta este catre s sinu catre s sau s Avem

DHv s

DH

v s

deci v nu este atras catre s sau sFie acum

v ! "t

Avem

DHv s

DH

v s


Prin actualizari asincrone ascendente obtinem

v v

v ! "t v s

Pe de alta parte nsa daca actualizarile sunt n ordine descendenta obtinem sPentru acest exemplu avem pn deci memoria este suprancarcata

si sensibila la perturbatii De aceea refacerea patternurilor perturbate nu estentotdeauna ecienta Se observa si ca nu putem evita stocarea complementelorpatternurilor stocate

In astfel de memorii pot exista stari stabile care nu reprezinta patternurimemorate De asemenea convergenta nu este neaparat catre cel mai apropiatpattern memorat apropiere masurata prin DH Aceste doua deciente devinderanjante atunci cand memoria este suprancarcata deci cand pn este mare

Capacitatea memoriei autoasociative recurente

Vom mentiona aici rezultatele obtinute de McEliece et alUn vector stare vk al unei memorii este stabil daca

vk #hWvk

i vk

Aceasta denitie nu este legata de tipul de actualizare sincron sau asincronFie raza de atractie denita astfel orice vector la o DH mai mica decat n

distanta de atractie de starea stabila v este eventual atras de v Am vazut cadistanta de atractie este ntre si n deci este ntre n si

Pentru ca sistemul sa functioneze ca o memorie impunem ca ecare vectormemorat sm sa e stabil Mai putin restrictiv este sa cerem sa existe un vectorstabil la o distanta mica de sm n pentru toate cele p patternuri memorate

Capacitatea asimptotica a unei memorii autoasociative cu n neuroni este

c n

ln n

Daca p c atunci toate cele p patternuri stocate sunt stabile cu probabilitateaaproape Oricum ar valoarea capacitatea unei memorii Hopeldeste deci ntre

n ln n c n ln n

unde c depinde de fapt de toleranta la eroare adica de In loc de n patternuriputem stoca doar c patternuri

Studiul lui McEliece et al releva prezenta unor atractori n care nu au fostmemorate patternuri acestia au n general bazinele de atractie mai mici decatcele ale patternurilor stocate

Chiar daca numarul patternurilor ce pot stocate ntro memorie Hopeldeste destul de mic aceste memorii au o serie de aplicatii n procesarea vorbiriibaze de date prelucrarea imaginilor

McElice RJ Posner EC Rodemich ER Vankatesh SV The Capacity of the Hop eldAssociative Memory IEEE Trans on Information Theory

MEMORIA ASOCIATIVA BIDIRECT IONALA MAB

Memoria asociativa bidirectionala MAB

MAB g este o memorie heteroasociativa adresabila prin continut constanddin doua straturi Kosko

W

W

... ...

1

2

1

2

n m

stratul A stratul Bt

Figura Memorie asociativa bidirectionala

Fie p perechi de patternuri memorate

fab

ab

apbp

g

Presupunem ca avem vectorul b la intrarean stratul A al memoriei Presupunemca neuronii sunt binari bipolari

a #!Wb"

adica

ai sgn

mXj

wijbj

A i n

Procesarea are loc sincron Urmeaza

b #hWta

ibj sgn

nXi

wijai j m

Apoi

a # !Wb"

b #hWta

ietc


Procesul continua pana cand a si b nu se mai modicaIn mod ideal procesul se stabilizeaza ntro pereche

aibi

din multimea

perechilor memorate Putem opera asemanator pentru cazul unipolar Presupunem ca straturile sunt activate alternativ

Stabilitatea unei astfel de retele nu este afectata de procesarea sincrona ca ncazul memoriilor Hopeld deoarece oricum cele doua straturi lucreaza asincronDe aceea se prefera procesarea sincrona convergenta ind mai rapida decat ncazul n care am folosi procesarea asincrona

DacaW este patrata si simetrica atunciW Wt si avem de fapt o memorieautoasociativa cu un singur strat Stocarea are loc conform regulii hebbiene

W pX

m

ambmt

wij pX

m

ami b

mj

Presupunand ca unul din patternurile stocate am este prezentat la intrare

obtinem

b #

pXm

bmamt

am

#

nbm

pXmmm

bmamtam

Ultimul termen din relatia anterioara pe care l notam cu

pX

mmm

bmamtam

reprezinta zgomotulSa presupunem pentru moment ca patternurile a ap sunt ortogonale

Atunci si se obtine b bm dintrun singur pasDaca patternul de intrare este o versiune perturbata a lui am

stabilizareala bm nu mai este iminenta si depinde de mai multi factori DH dintre vectorulcheie si prototipuri ortogonalitatea sau DH dintre vectorii b bp etc

Consideratii asupra stabilitatii

Cand memoria MAB ajunge la o stare de echilibru astfel ncat ak bk ak ak spunem ca ea este bidirectional stabila

Fie functia de energie

Eab

atWb

btWta atWb

MEMORIA ASOCIATIVA BIDIRECT IONALA MAB

Vom evalua modicarile energiei pentru un pas

$aiin

pentru

Pmjwijbj

pentruPm

jwijbj pentru

Pmjwijbj

$bjjn

pentru

Pniwijaj

pentruPn

iwijaj pentru

Pniwijaj

Calculam

raEab Wb

rbEab Wta

Modicarile de energie cauzate de catre modicarea unei singure componentesunt

$Eaiab mXj

wijbj

A$ai pentru i n

$Ebj ab

nXi

wijai

$bj pentru j m

Rezulta ca $E daca tinem cont si de Deoarece E este inferior marginitaadica

Eab nXi

mXj

jwijj

rezulta ca memoria converge catre un punct stabil care este un minim local pentrufunctia de energie Deci memoria este bidirectional stabila

Sa observam ca nu este important daca procesareantrun strat se face sincronsau asincron

Kosko a aratat euristic ca numarul maxim de perechi p care pot stocate si regasite cu succes este minnm O masura mai stricta a capacitatiieste

p qminnm

Observatii

Formula de stocare a perechilor de patternuri nu garanteaza ca acesteacorespund unor minime locale

Am vazut ca daca patternurile stocate sunt ortogonale atunci zgomotuleste zero si toate patternurile stocate pot n mod garantat recuperateprintrun pas daca nu sunt perturbate Wang a propus crestereactiva a patternurilor de instruire pentru a obtine o ortogonalizare a lor


Perechileai aj

sibibj

sunt fara zgomot unde i j p

daca

HDai aj

n

HDbibj

m

acestea ind conditiile de ortogonalitate ntre ai si aj respectiv bi sibj Daca avem aceasta situatie atunci recuperarea datelor este imediatasi fara erori daca nu sunt perturbate Prin cresterea vectorilor ai si bii p cu componente aditionale obtinem aceasta ortogonalitate lanivel de perechi

Prin aceasta tehnica se mbunatateste si capacitatea MAB de a corectaerori

Utilizarea MAB pentru patternuri temporale

Fie secventa S ns s sp

ode vectori ndimensionali bipolari binari

reprezentand tranzitiile starilor patternuri temporale Reteaua MAB este capabila sa memoreze secventa S astfel ncat

si #hWsi

iunde i este modulo p

Pornind de la starea initiala x n vecinatatea lui si secventa S este apelataca un ciclu de tranzitii ale starilor Acest model este numit memorie asociativatemporala

Pentru stocarea secventei astfel ncat s sa e asociat cu s s cu s sp cu s procedam astfel

W pXi

sisit sspt

sau daca indicele este modulo p

W pX

i

sisit

Avand straturile A si B avem

a #!Wb"

b #!Wa"

Daca secventa s sp este aplicata la intrarea n stratul A avem

a #

nskz !sst skskt sspt z

W

sk"

EXERCIT II

Termenul

pX

iik

sisitsk

este zgomotul unde indicele de nsumare este modulo p Daca vectorii din Ssunt ortogonali atunci si a sk dintrun singur pas

Asadar daca la intrare avem sk obtinem n mod circular

sk sk sp

Daca vectorii din S nu sunt ortogonali presupunand nsa ca ei sunt stocati lao DH n n general ne putem astepta sa obtinem totusi secventa corecta Sdaca aplicam sk

Aceasta memorie poate stoca cel mult k secvente de lungimi p p pkunde

p kXi

pi p n

Exercitii

Asociatorul liniar trebuie sa asocieze urmatoarele perechi de vectori

s h

it f ! "t

s h

it f ! "t

s h

it f ! "t

a Vericati daca vectorii s s s sunt ortonormali

b Calculati matricea ponderilor

c Vericati asocierea produsa de retea pentru unul din vectorii si

d Perturbati si dandui unei componente valoarea si calculati vectorulrezultat perturbat

Asociatorul liniar din gura a fost instruit sa asocieze vectorilor deintrare

s h

p

p

p

its

hp

p

its

hp p

p

itvectorii f f f Gasiti matricea W si vectorii f f f care suntcodicati n retea


x1

x2

x3

+

+

v1

v2

-1/2+1/6

1/6

1/2+1/6

1/6

-2/6

-2/6

Figura Asociatorul liniar propus pentru exercitiul

Autoasociatorul liniar trebuie sa asocieze versiuni perturbate ale vectorilors s s cu prototipurile lor neperturbate din problema Calculati matricea W

Urmatorii vectori trebuie stocati ntro memorie autoasociativa recurenta

s ! "t

s ! "t

s ! "t

a Calculati matricea W

b Aplicati la intrare vectorul v ! "t si folositi actualizarea asincrona ascendenta

c Aplicati v prin actualizare asincrona descendenta

d Comentati daca memoria Hopeld ofera o solutie optima din punct devedere al DH Atentie memoria este suprancarcata Luati sgn n aceasta problema

O memorie asociativa temporala trebuie sa stocheze urmatoarea secventa

s ! "t

s ! "t

s ! "t

Calculati W si vericati regasirea patternurilor Incercati sa introducetila intrare patternuri perturbate

C Proiectati o memorie heteroasociativa bidirectioanla care asociaza caracterele A C I I si O T Reprezentati caracterele A I O ca matrici

EXERCIT II

binare de pixeli iar caracterele C I T ca matrici binare de pixeli Vericati memoria folosind la intrare patternuri neperturbate sipatternuri perturbate


Capitolul

Retele neurale cu autoorganizare

In acest capitol ne vom concentra pe retele neurale care trebuie sa descoperesingure relatiile interesante din cadrul patternurilor de intrare deci nu vomfolosi instruirea supervizata Obiectivul nostru este sa exploram algoritmii deinstruire nesupervizata ai retelelor neurale retele care au astfel capacitatea deautoorganizare adica de adaptare

Retelele Hamming si MAXNET

Vom considera un clasicator cu doua straturi pentru vectori binari bipolari g

[x ... t]1 xn yk+11 yk+1

p[ ... t]

∆

MAXNETReteaHamming

Figura Clasi cator cu doua straturi pentru vectori binari

Prima parte este o retea Hamming detaliata n gura Fie sm m p vectorul prototip pentru clasa m Presupunem ca

avem pentru ecare clasa un vector prototip si corespunzator un neuronFie x vectorul de intrare Folosim produsul scalar al vectorilor ca o masura

de matching potrivire ntre acesti vectori Ideea este sa luam

wm hwm wmn

itpentru m p

si sa avem xtwm maxim cand x sm Deoarece vectorii sunt binari bipolariprodusul xtsm reprezinta numarul de pozitii n care x si sm difera Numarul

CAPITOLUL RETELE NEURALE CU AUTOORGANIZARE

...

...

1

n w

w

w

w

1

1

n/2

n/2

y

y

1

p

1

p

11

1n

p1

pn

a)

netf( )

0 n

1

net

b)

Figura a Reteaua Hamming b Functia de activare a neuronilor retelei Hamming Zonelen care fnet si fnet sunt inactive pentru ca net n

de pozitii n care acesti doi vectori difera este nsa chiar distanta HammingDH

x sm

prin denitie Atunci

xtsm n DH

x sm

z

nr de pozitiin care sunt egali

DHx sm

Obtinem

xtsm

n

DH

x sm

Luam

WH

s sn

s sn

sp spn

unde factorul folosese la scalare La intrarea n nodul m m p avem

netm

xtsm

n

n DHx sm

Se observa ca am adaugat termenul n Luam f netm

nnetm m p

Deoarece netm n avem fnetm m pAvem

Daca x sm atunci DH x sm

si netm n deci f netm

RETELELE HAMMING SI MAXNET

Daca x este complementul lui sm atunci DHx sm

n netm si

f netm

In general numarul neuronului cu cea mai mare iesire indica numarul clasei careiai este atribuit x din punct de vedere al DH Reteaua Hamming este evident detip feedforward

Reteaua MAXNET g este recurenta si are rolul de a transforma iesiriledin reteaua Hamming astfel ncat toate aceste iesiri sa devina cu exceptia celeimaxime

∆

∆∆

y1

y2

yp

y1

y2

yp

k+1

k+1

k+1

k

k

k

−ε−ε

−ε

−ε

−ε−ε1

1

1

Figura Reteaua MAXNET

Matricea ponderilor retelei MAXNET este matricea p p

WM

unde p ind coecientul de interactie lateralaLuand g

fnet

net net net

yk #hWMy

ki

si presupunand yi i p valorile de init ializare obtinemurmatorul proces


netf( )

0

1

net1

Figura Functia de activare a neuronilor retelei MAXNET Zona n care avem net esteinactiva

La ecare recurenta ecare componenta a vectorului yk scadepana devine Componentele lui yk devin n ordinea inversa amarimii lor Procesul se stabilizeaza cand o singura componenta ceamaxima ramane nenula Aceasta componenta scade cel mai lent Pemasura ce sunt anulate componente descresterea este mai lenta

Sa comparam aceasta retea cu asociatorul Hopeld Presupunem ca trebuiesa clasicam n clase posibile un vector cu de componente

Reteaua Hamming necesita de conexiuni pentru cei neuroni

Reteaua Hopeld necesita de conexiuni pentru cei de neuroni Inplus capacitatea de stocare este limitata

Reteaua Hamming pare mai ecienta Totusi ea nu regaseste patternul prototipci doar indicele clasei din care face parte patternul de intrare Deci reteaua Hamming nu poate restaura un pattern perturbat ci gaseste doar distanta minima aacestui pattern fata de prototipuri

Reteaua Hamming este un clasicator propriuzis nu o memorie autoasociativa

Instruirea nesupervizata a clusterelor

Clusteringnseamna gruparea patternurilor similare si separarea celor nesimilareExista tehnici clasice de clustering kmeans ISODATA etc dar noi ne vomconcentra pe metodele conexioniste

INSTRUIREA NESUPERVIZATA A CLUSTERELOR

Instruirea castigatorul ia tot

Presupunem ca avem secventa de instruire fx xNg care reprezinta p clusterePentru reteaua Kohonen g despre care vom discuta n continuare avem

y #!Wx"

W

wt

wtwt

p

unde wi

wi

win

i p

.........

...

wm1

m2

wmn

y

y

1

m

p

1

w

y

n

2

Figura Reteaua Kohonen

Algoritmul de instruire este de tip castigatorul ia tot Vectorii wi i psunt variabili si trebuie nvatati Inainte de instruire se normalizeaza vectoriiponderilor

wi wi

kwik i p

Se calculeaza indicele m pentru care

kx wmk minip

fkx wikg

unde x este vectorul de intrare Deoarece

kx wmk xtx wt

mx

avemwtmx max

ip wt

ix

Neuronul almlea cu cea mai mare valoare pentru intrare este declarat castigatorIn general avem

cos xtxi

kxkkxik


In loc de kx xik putem folosi cos ca si criteriu de similaritate ntre x si xiastfel ncat x este mai aproape de xi daca este mai mic Este necesar nsasa normalizam vectorii x si xi pentru ca altfel criteriul nu mai functioneaza sepoate ca kx xik sa e mare dar sa e mic

Reducem acum kxwmk n directia gradientului negativ al distantei

rwmkxwmk xwm

$ wm x wm

unde este de obicei ntre si Celelalte ponderi nu se schimba Avematunci

wkm wk

m kx wk

m

wki wk

i i m

Procesul continua pentru un nou pattern x Parametrul se reduce monotonsi instruirea ncetineste pe parcurs Vectorul modicat wk

m este normalizat siintra n pasul urmator In nal ecare wi va reprezenta centrul de greutate alunei regiuni de decizie deci a unui cluster

Functiile de activare ale neuronilor nu au relevanta dar n general sunt de tipcontinuu

Obtinem n nal un clasicator n care patternul de intrare x este asociatgruparii m unde ym maxy yp

Dupa instruire reteaua Kohonen poate folosita ca si clasicator Pentruaceasta trebuie sa o calibram supervizat se aleg p reprezentanti ai celor p clusteresi se aplica etichetand corespunzator cele p noduri cu iesirile respective Astfeletichetam de fapt clusterele

Ponderile initiale sunt luate n general n mod aleator astfel ncat sa acopereuniform spatiul patternurilor

Reteaua Kohonen are limitari legate de arhitectura monostrat nu poate manipula ecient patternuri liniar neseparabile Chiar si pentru patternuri liniarseparabile ponderile pot sa se blocheze n regiuni izolate fara sa formeze clusterele adecvate In astfel de situatii se reinitializeaza ponderile cu valori noi sause adauga zgomot la vectorii pondere n timpul instruirii

Daca numarul gruparilor este a priori necunoscut se ia un p sucient demare Pe parcursul instruirii unii neuroni se vor comporta haotic ponderilecatre ei nestabilizanduse Acesti neuroni nu reprezinta clustere deci pot omisin faza de utilizare a retelei

Harti Kohonen

Centrii anumitor activitati vorbire vedere auz functii motoare sunt localizatin anumite arii specice ale cortexului Mai mult aceste arii prezinta o ordonarelogica a functionalitatii lor Putem da ca exemplu harta tonotopica a regiunilorauditive unde neuronii vecini raspund unor frecvente similare ale sunetului dela frecvente nalte la frecvente joase Un alt exemplu este harta somatotopica

H ARTI KOHONEN

Astfel de regiuni cum este harta tonotopica se numesc harti de trasaturi ordonateordered feature maps Vom studia n aceasta sectiune mecanismul prin careaceste harti de trasaturi ordonate se pot dezvolta natural

Cortexul este o suprafata de mm grosime avand aproximativ m siconstand din straturi de neuroni de tip si densitate variabile El are formape care o cunoastem pentru a maximiza densitatea n craniu

Vom studia un model al cortexului care este o suprafata bidimensionala deelemente de procesare Vectorii de intrare vor proiectati prin reducerea dimensionalitatii pe aceasta suprafata mentinanduse nsa ordinea ntre ei Aceastasuprafata este o harta care conserva topologia datelor de intrare topology preserving map O astfel de harta este o harta cu autoorganizare si este instruitanesupervizat Neuronii biologici de pe suprafata mentionata au conexiuni lateralea caror tarie depinde de distanta dintre neuronii respectivi g

γ

0

puterea conexiunii

distanta laterala de la al i-lea neuron

Figura Palaria mexicana descrie puterea conexiunii laterale a neuronilor biologici

In vecinatatea cu raza de m conexiunile sunt excitatoare Deciautofeedbackul ecarui neuron este pozitiv exprimat de coecientul g

Aria excitatoare este nconjurata de un inel de conexiuni mai slabe inhibitoare cu raza de m

Autoorganizarea unei astfel de harti poate exemplicata pe un model liniarde neuroni reprezentand o sectiune arbitrara a unei harti bidimensionale g

Calculam

yit f

xit

kXkk

yiktk

A

Semnalele yt sunt ntarziate cu o unitate nainte de a deveni feedbackuri


xi

γ

i+1xi+1

γ

i

i-1xi-1

γ

yi

Figura Modelarea interactiunilor dintre neuronii biologici

Coecientii de feedback k depind de distanta dintre neuroni Luand

xit sini

i

fnet

net net net net

b c

se obtin iesirile din gura Un algoritm de proiectie a trasaturilor converteste un pattern de dimensi

une arbitrara n raspunsurile unui tablou unidimensional sau bidimensional deneuroni

Rezultatele urmatoare apartin lui Kohonen Presupunem ca vectorii de intrare cu un numar arbitrar dar xat de compo

nente sunt proiectati pe un tablou de neuroni avand o topologie hexagonala g In aceasta gura m este neuronul castigator iar Nmt este vecinatatealui m la momentul t

Dupa instruire ecare intrare x produce un raspuns n retea pozitia locala araspunsului ind semnicativa ea re%ecta caracteristica trasaturii dominante alui x Aceasta proiectie a trasaturilor este o proiectie neliniara a spatiului patternurilor pe tabloul neuronilor Proiectia face ca relatiile de vecinatate topologicasa expliciteze relatiile de ordine dintre datele de intrare aceste relatii din urmaind nsa ntrun spatiu de dimensiune mult mai mare

Sa vedem cum are loc instruireaIntrarea x este aplicata simultan tuturor neuronilor Fie

kxwmk minifkxwikg

H ARTI KOHONEN

y1 y2

y10

x1x2 x10

a)

...

distantab)

k

γk

b

-3 -2

-1 12 3

-c

Figura a Sectiune arbitrara a unei harti bidimensionale b Feedbackul lateral

unde wi este vectorul ponderilor catre neuronul iDaca neuronul m este castigator deci raspunde maxim pentru x aceasta

antreneaza ca n exemplul precedent neuronii vecini Nu avem un neuroncastigator ci o vecinatate Nm castigatoare Se ajusteaza doar ponderile catreneuronii din Nm

Raza lui Nm trebuie sa scada pe masura ce instruirea progreseaza

Nmt Nmt Nmt pentru t t t

Se ncepe cu o raza foarte mare si se termina cu vecinatatea care include doarneuronul castigator Mecanismul interactiilor laterale tip palarie mexicanaeste ncadrat n denitia acestor vecinatati locale si a modului de adaptare aponderilor

Adaptarea ponderilor pentru hartile cu autoorganizare se face astfel

$wi Ni t !xtwit" pentru i Nmt

unde Ni t este constanta de nvatare De exemplu Kohonen a folosit

Ni t t ekrirmk

t

unde rm este vectorul pozitiei neuronului m ri este vectorul pozitiei neuronuluii iar t si t sunt functii descrescatoare n timp

Ca rezultat al instruirii ponderilor se obtine o harta de neuroni n care ponderile codica functiile de densitate px ale probabilitatilor patternurilor deinstruire Raspunsul neuronilor unei arii sentareste daca apar mai multe patternuri similare corespunzatoare acelei arii

Fie de exemplu de vectori dimensionali diferiti etichetati cu A tab


iesirea y

2

1/2

1 8 103

i

i = nr. neuronului

0 pasi

4 pasi

15 pasi

Figura Evolutia iesirilor celor neuroni

m

N (t )

N (t )

m

m 2

1

Figura Tablou de neuroni avand o topologie hexagonala

Proiectia se face pe un tablou de de neuroni conectati ecare prin ponderi cu componentele x x Tabloul se instruieste folosind cei de vectoriselectati n ordine aleatoare Dupa de pasi de instruire ponderile se stabilizeaza si reteaua obtinuta este calibrata Calibrarea se face prin etichetaresupervizata De exemplu avand vectorul B la intrare observam unde apareraspunsul maxim n tabloul de neuroni si etichetam acel neuron cu B Obtinemharta din g

de neuroni vor etichetati si nu Inspectam similaritatile dintre vectorii de instruire Reprezentam vectorii ca varfuri ntrun graf Fiecarei muchiii atasam distanta dintre cele doua patternuri corespunzatoare varfurilor Deexemplu distanta dintre A si C este egala cu

kA Ck

Construim n continuare arborele partial de lungime minima g Se

H ARTI KOHONEN

A B C D E F G H I J K L M N O P Q R S T U V WX Y Z x x x x x

Tabelul Vectori dimensionali

A

*

*

*

B

H

*

*

G

I

F

C

K

J

*

*

*

*

M

*

*

D

L

*

N

E

*

S

O

*

T

*

*

*

*

P

*

*

*

*

*

*

*

*

*

Q

U

*

W

R

*

V

*

3

*

*

X

2

4

*

*

*

*

Y

*

5

1

Z

*

6

Figura Harta obtinuta n urma instruirii

poate observa ca harta trasaturilor produsa prin autoorganizare are aceeasi structura ca si acest arbore Inseamna ca am reusit sa pastram topologia dintrunspatiu dimensional ntrun plan Distanta dintre vectorii xi si xj din spatiulpatternurilor

kxi xjk vuut X

k

xik xjk

se mentine si n spatiul trasaturilor unde devine o simpla distanta n planAlgoritmul de instruire tine cont atat de relatiile topologice dintre datele de

intrare cat si de istoricul datelor de intrare adica de frecventa de aparitie apatternurilor similare sau identice

Acest algoritm are numeroase aplicatii n controlul robotilor recunoastereavorbirii etc

Un exemplu celebru este masina de scris fonetica Kohonen folositan recunoasterea vorbirii

La intrare avem un vector dimensional Semnalul vocal este convertit prinFFT n semnal n frecventa acoperind pe canale frecventele dintre Hzsi kHz Fiecare fonem tinde sa ocupe un segment al spectrului dimensionalFourier Cu toate ca spectrele unor foneme diferite se suprapun partial un tabloude neuroni este capabil dupa instruire sa extraga trasaturile fonemelor si sa leproiecteze pe o harta plana Reteaua neurala a fost instruita cu semnale spectralegenerate la ecare ms de vorbirea continua Esantioanele spectrului FFT aufost folosite n ordinea lor naturala

Dupa instruire anumiti neuroni devin sensibili la spectrul diferitelor fonemeg

Harta a fost calibrata folosind foneme standard Majoritatea celulelor au


A B C D E

F

G

H

I

J

K L M

S

N

U

V

T

O P

W

X

Y

Z

Q R

1 2 3 4 5 6

Figura Arborele partial de lungime minima construit pe baza distantelor dintre vectori

a a a ah h oe

o a a h r

o o a h r

......

...

Figura Harta fonemelor dupa instruire n limba nlandeza

nvatat un singur fonem Exista cateva celule care indica raspunsul a doua fonemediferite necesitand o discriminare suplimentara Pe aceasta harta un cuvantgenereaza o traiectorie

Exercitii

C Proiectati reteaua Hammimg si reteaua MAXNET asociata care realizeaza clasicarea optima a vectorilor binari bipolari care reprezinta caracterele A I si O din problema capitolul n termenii distantei Hammingminime

C Implementati algoritmul de instruire castigatorul ia tot pentru gruparea caracterelor C I si T afectate de zgomot n mod similar reprezentariifolosite n problema anterioara Presupuneti ca aceste caractere afectate de

EXERCIT II

zgomot au DH fata de prototipurile neafectate de zgomot Calculativectorii nali de ponderi wC wI si wT In timpul operatiei de testarecalculati raspunsurile fnetC fnetI si fnetT ecarui neuron cu functiede activare unipolar continua Intrarile sunt vectori bipolari binari obtinutidin literele reprezentate matriceal Folositi

C Fie multimea de patternuri

x

x

x

x

x

Implementati harta Kohonen pentru a proiecta acesti vectori pe o retea de neuroni Folositi vecinatati hexagonale Descresteti pe de la la pentru primii de pasi apoi descrestetil de la la pentruurmatorii de pasi Descresteti raza vecinatatii de la la pe parcursulprimilor de pasi Calibrati apoi harta si desenati arborele partial delungime minima produs pe harta pentru intrarile x x x x x


Capitolul

Retele neurale cu functie de

activare radiala

Aceste retele neurale au un timp de instruire mult mai rapid decat retelele neuralefeedforward cu propagare n urma a erorii evitand si problema minimului localDezavantajul este ca dupa instruire necesita un timp de calcul mai mare nexploatare In sa demostrat ca aceste retele sunt aproximatori universalica si retelele feedforward cu functie de activare continua Aceasta nseamna capot aproxima orice functie continua oricat de bine

O astfel de retea este o retea feedforward n care functia de activare este ofunctie de tip gaussiana Deoarece gaussiana este simetric radiala vom numiaceste retele cu functie de activare radiala Gaussiana nu este nsa decat ofunctie particulara de acest tip

Spre deosebire de retelele feedforward ponderile conexiunilor catre straturileascunse nu sunt initializate aleator Ele sunt initializate cu valorile care producraspunsul dorit

Functii radiale

Fie cazul unei singure intrari ntrun neuron ascuns g

h(x)x u σ

−σ u +σ

h(x)

1

x

Figura Neuron cu functie de activare radiala

CAPITOLUL RETELE NEURALE RBF

Pentru neuronii de acest tip avem

hx exu

hu

unde este un parametru iar u este o pondere hx scade foarte rapid daca xeste diferit de u

De aceasta data nu mai exista analogia cu potentialul membranei cum estecazul functiei de activare de forma fxtw De aceea retelele de acest tip senumesc radial basis function neural networks Ponderile nu se mai nmultesccu intrarile Le vom numi totusi astfel fara a crea confuzie

Iesirea hx are un raspuns semnicativ doar pentru un interval de valoriale lui x acest interval ind domeniul receptiv al neuronului Marimea acestuidomeniu este determinata de Prin analogie cu distributia normala u poate valoarea medie iar dispersia functiei de activare a neuronului

Forma generala a unei retele neurale bazata pe acest tip de neuron este ceadin gura

...

Σ

x

x

x

h

h

h

y

y

y

out

out

out

w

w

1

2

p

1

2

m

11

nm

1

2

n

1

2

n

u11

ump

strat de intrari

strat ascuns

strat de iesiri

strat de normalizari

Σ y /s

y /sΣ

Σ

s

1σ

σ2

σm y /s

1

2

n

Figura Retea neurala cu functie de activare radiala

Avem

hi e xui

txui

i

undex ! x xp "t

i este parametrul pentru al ilea neuron ascuns si

ui ! ui uim "t

este vectorul ponderilor dintre intrari si al ilea neuron ascunsFiecarui pattern nvatat i corespunde un neuron ascuns

FUNCTII RADIALE

In stratul de iesire se calculeaza

yj mXi

hiwji

iar pe ultimul strat cel al normalizarilor se calculeaza iesirile nale

s nX

j

yj

outi yis

Aceste din urma normalizari sunt optionaleDomeniul receptiv al celui deal ilea neuron ascuns este determinat de centrul

sau ui si de marimea sa data de i La neuronii studiati pana acum acestdomeniu era determinat de conexiunile neurale nu de forma functiei de activareSe pot folosi si alte functii de activare Esential este ca ele sa tinda rapid catrezero atunci cand distanta dintre vectorii x si u creste iar raspunsul maxim sa laiba cand x u

Reteaua trebuie instruita prin xarea parametrilor i si a ponderilor de tip usi w Instruirea se face n doua faze La nceput se atribuie valori pentru ui sii i m Apoi se instruieste matricea W prin nvatare supervizata

Fixarea centrilor domeniilor receptive

Trebuie sa xam centrii domeniilor receptive Fixarea ponderilor ui se poate facen mai multe feluri Putem atribui ecarui vector din secventa de instruire cateun neuron ascuns cu centrul corespunzator Deoarece vectorii sunt n generaldispusi n grupari clustere aceasta metoda duce la un numar prea mare deneuroni ascunsi Mai bine este sa gasim centrul ecarui cluster de vectori dinsecventa de instruire si sa atribuim ecarui astfel de centru cate un neuron ascuns

Fixarea diametrelor domeniilor receptive

Diametrul domeniului receptiv determinat de valoarea lui poate avea un efectfoarte profund asupra retelei Obiectivul este sa acoperim spatiul patternurilorde intrare cat mai uniform cu domenii receptive Daca distanta dintre centrii domeniilor receptive nu este uniforma este necesar ca ecare neuron ascuns sa aiba o valoare specica pentru Daca centrii domeniilor receptivesunt la distanta mare atunci trebuie sa e sucient de mare pentru a acoperigolurile daca centrii sunt apropiati atunci neuronii respectivi trebuie sa aiba mic Aceasta este ca o egalizare de histograma procedeu cunoscut n procesareaimaginilor

De exemplu putem xa astfel

Pentru ecare neuron ascuns gaseste distanta medie dintre centrul sau uisi centrii celor N vecini ai sai cei mai apropiati

Atribuie aceasta valoare lui i


Instruirea matricii W

Se aplica vectorul x la intrare unde x este din secventa de instruire

Se calculeaza iesirile h din stratul ascuns

Se calculeaza iesirile y si se compara cu vectorul t al iesirilor dorite Seajusteaza W astfel

wijk wijk ti yixj

unde este coecientul de nvatare De obicei iar aceasta estede fapt regule WindrowHo Se pot folosi si alte reguli de exemplu regulaperceptronului

Repeta pentru ecare pattern de instruire

Repeta pana cand eroarea este sucient de mica

Deoarece domeniile receptive sunt limitate ajustarile apar destul de rar ceeace conduce la o viteza mare

Algoritmul de instruire a lui W se refera la un singur strat iar patternurilecorespunzatoare neuronilor din stratul ascuns sunt liniar separabile deoareceecare clasa este formata dintrun pattern Rezulta ca algoritmul de instruire alui W converge catre minimul global conform teoremei perceptronului Practicconvergenta este de aproximativ de ori mai rapida decat n cazul instruiriiprin propagarea n urma a erorii

O tehnica de grupare clustering

Am vazut ca este avantajos sa obtinem cate un reprezentant pentru ecare cluster si sa instruim apoi reteaua doar cu acesti reprezentanti Putem ponderareprezentantii cu numarul de patternuri pe care i reprezinta

yj

PnimihiwjiPnimihi

unde mi este numarul de patternuri din clusterul iIata o tehnica de clustering Specht simpla si ecienta Se deneste

o raza r Primul pattern de instruire devine centrul primului cluster Fiecarepattern din secventa de instruire este considerat pe rand Daca distanta dintrepatternul considerat si cel mai apropiat cluster este mai mica sau egala decat ratunci patternul este atribuit acelui cluster daca distanta este mai mare decatr patternul devine primul membru al unui nou cluster

Procedeul de clustering este folositor atunci cand exista un exces de instruirecu date care formeaza clustere dense

DISCUT IE

Discutie

Retelele cu functie de activare radiala sunt foarte rapide la instruire dar lente lautilizare Procedeul de clustering poate util Foarte importanta este alegereacorecta a lui


Capitolul

Retele neurale fuzzy

Logica fuzzy

De ce logica fuzzy

In Hitachi a instalat n Japonia un metrou controlat prin logica fuzzyTrenurile accelereaza mai rapid si uniform economisind ) energie comparativcu solutia conventionala

In Vest interesul este ceva mai mic Explicatia este probabil si traditia logiciiaristotelice binare care spune ca ceva exista sau nu exista Filosoa si religiaorientale se bazeaza pe principiul ca ceva exista si n acelasi timp nu exista deexemplu YIN si YANG

Atunci cand nu au putut converti binar o informatie conform principiuluitruefalse occidentalii au apelat la statistica Astfel probabilitatea ca o masinasa e lenta sau rapida se exprima printrun numar ntre si Logica fuzzyproduce acelasi rezultat etichetand masinile n functie de viteza cu numere ntre si Aceasta a produs o mare confuzie nenteleganduse diferenta dintre celedoua demersuri Vom vedea nsa ca diferenta este fundamentala

Initiatorul logicii fuzzy este paradoxal un occidental Zadeh n

Controlere fuzzy

Sistemele fuzzy au fost folosite foarte des n controlere Aceste controlere suntusor de proiectat uneori n cateva ore Performantele lor sunt mai bune decat ncazul controlerelor clasice Proiectarea unui sistem fuzzy nu necesita cunostintede logica fuzzy Vom demonstra aceasta proiectand un controler fuzzy pentru unlift

Primul pas n proiectarea unui sistem fuzzy este sa decidem asupra uneimultimi de reguli fuzzy In cazul nostru ele sunt

Daca liftul se ridica lent si pozitia sa este departe de pozitia dorita atuncimareste viteza

CAPITOLUL RETELE NEURALE FUZZY

Daca liftul se ridica cu o viteza medie si este aproape de pozitia doritaatunci micsoreaza viteza

Exprimam acelasi lucru prin reguli IFTHEN

IF viteza este SP small positive AND pozitia este LN large negativeTHEN tensiunea motorului este LP large positive

IF viteza este MP medium positive AND pozitia este SN small negativeTHEN tensiunea motorului este SP small positive

Sarcina controlerului fuzzy este sa proceseze aceste doua reguli eventual sialtele dupa ce a determinat pozitia si acceleratia

O regula are doua parti partea antecedenta si cea consecventa Partea antecedenta poate contine mai multe clauze legate prin AND OR si NOT O clauzaeste de exemplu viteza este SP Clauzele pot descompuse n variabile si adjective De exemplu variabile sunt viteza si pozitia iar adjective sunt SPLN si LP

Gradul n care o regula este relevanta ntro situatie masurata este acelasicu gradul n care antecedentul regulii este adevarat n sens fuzzy Valoarea deadevar fuzzy a unui antecedent depinde de valoarea de adevar fuzzy a ecareiclauze ale sale si de operatiile logice care leaga aceste clauze

In logica fuzzy ecarui adjectiv cum este si SP i se atribuie o functie deapartenenta Valoarea functiei de apartenenta este ntre si Data ind valoarea unei variabile functia de apartenenta este folosita pentru a calcula valoareade adevar a acelei variabile

Exemplu Un barbat de m n mod cert nu este nalt deci functia deapartenenta la multimea barbatilor nalti a acestuia are valoarea Pentru mavem o valoare ntre si

Folosind functiile de apartenenta fuzzy ecarei clauze dintrun antecedent i sepoate atribui o valoare de adevar fuzzy Mai trebuie acum sa atribuim o valoarede adevar ntregului antecedent

Exemplu Functia de apartenenta a vitezei la SP are valoarea si functia deapartenenta a pozitiei la LN are valoarea deci valoarea de adevar a ntreguluiantecedent este pentru ca se considera valoarea minima

Pasul nal consta n combinarea valorilor de iesire pentru cele doua reguliAcest proces se numeste defuzzicare La acest proces nu exista un consensasupra modului de operare

Tipul de defuzzicare ilustrat n gura se numeste defuzzicare minmaxIntrun sistem fuzzy toate regulile actioneaza simultan asupra iesirii La

iesire avem tensiunea corespunzatoare centrului de greutate al sumei regiunilor

LOGICA FUZZY

0 00

0 0 0

0

0,20,3

0,60,8SP LN LP

MP SN SP

regula 2

regula 1

viteza(functia de apartenenta) (functia de apartenenta) (functia de apartenenta)

tensiunea motoruluipozitie

tensiunilorsuma

(se ia max.)

centrul degreutate

iesire (tensiunea motorului)

0,1 m/sviteza(intrare)

-10 mpozitia(intrare)

x

Figura Defuzzi care minmax

hasurate Trebue sa facem observatia ca forma functiei de apartenenta este datade proiectant De obicei se alege o functie triunghiulara sau trapezoidala

Logica fuzzy generalizeaza logica binara permitand valori reale ntre si

Logica fuzzy logica conventionalasi teoria multimilor

Ca si teoria multimilor logica fuzzy se ocupa de conceptul apartenentei la omultime In teoria clasica a multimilor un element poate sau nu poate sa apartinaunei multimi ceea ce este nenatural

Exemplu Un barbat de m poate avea un grad de apartenenta de la multimea barbatilor nalti Aceasta nseamna si ca acest barbat are un gradde apartenenta de la multimea barbatilor care nu sunt nalti Acest barbatapartine deci simultan celor doua multimi complementare ceea ce ar imposibiln teoria conventionala

Logica conventionala deneste o functie de apartenenta la o multime A astfelfAx f g unde nseamna x A iar nseamna x A In logica fuzzyfunctia de apartenenta devine fAx ! "

Ideea de a vedea o multime ca o functie capabila sa deneasca grade deapartenenta sta la baza teoriei multimilor fuzzy Evident este nevoie de o nouamatematica cea introdusa de Zadeh


Logica conventionala si logica fuzzy

Logica conventionala foloseste AND OR si NOT Orice relatie poate descrisaprin combinarea acestor operatori Functiile logice fuzzy opereaza asupra unorvalori de adevar n ! " Pentru valorile si o astfel de functie trebuie sadea acelasi rezultat ca si n logica conventionala Evident exista o innitate defunctii care sa satisfaca aceste cerinte Trebuie alese cele mai avantajoase

Functia AND poate implementata astfel

andX Y minX Y

unde X Y ! "Functia OR orX Y maxX Y Functia NOT notX X

Teoria clasica si fuzzy a multimilor

FiemAx valoarea functiei de apartenenta a punctului x la multimeaA si mBxvaloarea functiei de apartenenta a punctului x la multimea B Denim

mABx min!mAx mBx"

Este o denitie compatibila cu denitia functiei AND Este relatia pe care amfolosito n exemplul cu controlerul Similar

mABx max!mA mB"

mAcx mAx

unde Ac este complementul lui ACa exercitiu calculati intersectia si reuniunea multimilor A si Ac

Multimi fuzzy si paradoxuri logice

Bertrand Russell a dat urmatorul paradox al barbierului Intrun oras exista unbarbier care barbiereste pe oricine nu se barbiereste singur Problema este dacabarbierul se barbiereste singur Apare o contradictie logica un paradox Dacapropozitia P se barbiereste singur are valoarea de adevarat truthP atuncitruthP truthnotP deoarece barbierul se barbiereste si n acelasi timp nuse barbiereste singur Folosind complementul fuzzy

truthnotP truthP

AtuncitruthP truthP

decitruthP

RETELE NEURALE FUZZY

In logica fuzzy propozitiile pot avea valori de adevarat oriunde ntre si deci paradoxul lui Russell nu mai exista

Desigur eliminand toate restrictiile asupra imaginatiei putem practic explica orice De exemplu sa consideram superstitiile popoarelor primitive careexplica fenomenele naturale cu ajutorul entitatilor supranaturale Logicieniiconventionali acuza teoreticienii fuzzy de constructie articala Teoriile matematice trebuie nsa judecate prin consistenta frumusetea si utilitatea lor Teoriafuzzy satisface toate aceste cerinte

Observatii matematice

Fie X o multime oarecare Fie fA X ! " o functie Functia fA deneste omultime fuzzy n X adica multimea A fx fAxjx Xg Functia fA estefunctia de apartenenta la multimea A

Apare un abuz de limbajntre multimea fuzzyA si functia de apartenentala A Acest abuz se datoreaza faptului ca denim o multime prin gradul deapartenenta la aceasta multime nu prin enumerarea multimii cum suntem obisnuiti

Retele neurale fuzzy

Neuroni fuzzy

Un neuron nonfuzzy are N intrari ponderate si o iesire Iesirea se calculeazaastfel

y f

NXi

wixi T

unde f este functia de activare n general neliniara Un neuron fuzzy NF g are N intrari ponderate si M iesiri

...

...

x

x

x

1

2

N

w

w

w

1

2

N

h f

gg

g

...

1

2

M

y

y

y

1

2

M

T

intrari ponderi iesiri

Figura Neuronul fuzzy


Toate intrarile si ponderile sunt valori reale iar iesirile sunt valori reale nintervalul ! " Fiecare iesire poate asociata gradului de apartenenta n sensul fuzzy adica exprima n ce masura patternul cu intrarile fx x xNgapartine unei multimi fuzzy Avem

z hwx wx wNxN

unde z este intrarea n NF iar h este functia de agregare

s fz T

unde s este starea NF f este functia de activare iar T este pragul

yj gjs j M

unde gj j M sunt functiile de iesire ale NF reprezentand gradele de

apartenenta ale lui fx xNg la cele M multimi fuzzy In general ponderilepragul si functiile de iesire sunt modicabile n timpul procesului de instruireFunctia de agregare si functia de activare sunt xe Se pot deni multe tipuri deNF prin schimbarea functiilor f si h

Denim acum patru tipuri de NF

un NF de intrare este un NF folosit n stratul de intrare a unei RNF retelede neuroni fuzzy avand doar o singura intrare x astfel ncat z x

un MAXNF are functia de agregare

z maxiNwixi

un MINNF are functia de agregare

z miniNwixi

un COMPNF NF competitiv are pragul variabil si o singura iesire astfelncat

y gs T

daca s T daca s T

T tc c cK

unde s este starea NF t este functia prag iar ck k K sunt variabilecompetitive ale NF


Structura unei RNF

RNF propusa este pe patru straturi Primul strat de intrare foloseste neuronifuzzy de intrare Presupunand ca dorim sa recunoastem caractere ecare NF dinacest strat corespunde unui pixel din patternul de intrare Daca ecare patternde intrare are N N pixeli atunci primul strat are N N NF de intrarePentru al i jlea NF de intrare din primul strat avem

sij z

ij xij pentru i N j N

yij

sij

Pvmaxpentru i N j N

unde xij este valoarea pixelului i j xij iar Pvmax este valoarea maxima apixelilor pentru toate patternurile de intrare

Al doilea strat consta din N N MAXNF Acest al doilea strat realizeazafuzzicarea patternurilor de intrare prin functia pondere wmn Starea celuideal p qlea MAXNF din al doilea strat este

spq maxiNmaxjNwp i q jyij

pentru p N si q N unde wpi qj este ponderea conexiuniidintre al i jlea NF de intrare din primul strat si al p qlea MAXNF din aldoilea strat

wmn emn

pentru m N N si n N N Prin aceastafunctie pondere care are o forma de gaussiana ecare NF din al doilea strateste ca o lentila astfel ncat ecare NF focalizeaza pe un pixel din patternul deintrare dar vede si pixelii vecini Parametrul determina cati pixeli vedeun NF aceasta ind decis prin algoritmul de instruire Functia w se numeste sifunctie de fuzzicare Fiecare MAXNF din acest strat are M iesiri diferite cateuna pentru ecare NF din al treilea strat Iesirile celui deal p qlea MAXNFdin al doilea strat sunt

ypqm gpqmspq

pentru p N q N m M unde ypqm este a ma iesire acelui deal p qlea MAXNF catre al mlea MINNF din stratul trei Functia deiesire gpqm se determina prin algoritmul de instruire Pentru simplitate putemalege triunghiuri isoscele de naltime si baza g

Avem

ypqm gpqmspq

jspqpqmj

pentru jspq pqmj

n rest

Kwan HK CaiY A Fuzzy Neural Network and its Application to Pattern RecognitionIEEE Trans on Fuzzy Systems


1

0

gpqm(s )pq

Θpqm

α

pq

[2]

[2]

[2]s

Figura Functia de iesire gpqm

pentru p N q N m M unde pqm estemijlocul bazei triunghiului Prin algoritmul de instruire se determina pentruecare p q m valorile corespunzatoare pentru si pqm

Al treilea strat consta din M neuroni de tip MINNF Fiecare din acestineuroni reprezinta un pattern nvatat Deci M poate determinat doar lancheierea procesului de instruire Iesirea celui deal mlea MINNF este

ym sm minpNminqNypqm

pentru m M Al patrulea strat este stratul de iesire si consta din M neuroni de tip COMP

NF cate unul pentru ecare pattern nvatat Daca un pattern de intrare estecel mai asemanator cu al mlea pattern nvatat atunci iesirea celui deal mleaCOMPNF este iar celelalte iesiri sunt Avem

sm zm ym pentru m M

ym g!sm T "

daca sm T daca sm T

pentru m M

T maxmMym pentru m M

unde T este pragul de activare pentru toti neuronii din cel deal patrulea strat

Algoritmul de instruire a unei RNF

Prin instruire trebuie sa determinam urmatorii parametri pqm si M Denim Tf Tf ca toleranta la eroare a RNF Fie K numarul total depatternuri de instruire

Pasul Creeaza NN neuroni de tip NF de intrare n primul strat si NN

neuroni de tip MAXNF n al doilea strat Alege o valoare pentru si o valoare pentru


Pasul M k

Pasul M M Creeaza al M lea MINNF n al treilea strat si al M leaCOMPNF n al patrulea strat

pqM spq maxiNmaxjNwp i q jxijk

pentru p N si q N unde pqM este mijlocul bazei triunghiului pentru cea deaM a functie de iesire a celui deal p qlea MAXNF n stratul Xk fxijkg i N j N este al kleapattern de instruire Presupunem ca valorile xijk sunt deja normalizate

Pasul k k Daca k K algoritmul de instruire se terminaAltfel accepta la intrarea n retea al klea pattern si calculeaza iesirea RNFcurente cu M neuroni n straturile si

maxjMyjk

unde yjk este iesirea celui deal jlea MINNF din stratul pentru al klea

pattern de instruire XkDaca Tf goto Pasul Tf goto Pasul

Analiza RNF

Primul strat de neuroni accepta datele de intrare si transforma valoarea pixelilorn valori normalizate n intervalul ! "

Al doilea strat fuzzica patternul de intrare Valoarea unui pixel n patternul de intrare va afecta starile mai multor NF din stratul Cu cat este mai miccu atat mai multi NF din stratul vor afectati de un pixel din patternul deintrare Deci controleaza gradul de fuzzicare Daca este prea mic RNF nuva putea separa patternurile distincte Daca este prea mare RNF si pierdeabilitatea de a recunoaste patternuri perturbate Valoarea lui trebuie aleasaastfel ncat toate patternurile distincte sa poata separate iar RNF sa aiba orata de recunoastere acceptabila

Valoarea ypqm exprima conceptul fuzzy cu privire la gradul n care valoareapixelilor n jurul pixelului p q din patternul de intrare sunt similare cu valoareapixelilor n jurul pixelului p q din cel deal mlea pattern nvatat Functiade iesire gpqm pentru neuronii din cel deal doilea strat este de fapt o functiede apartenenta fuzzy gpqms

pq arata gradul de apartenenta al patternului de

intrare la clasa reprezentata de almlea pattern nvatat apartenenta referindusela vecinatatile corespunzatoare ale pixelului p q

Neuronii din al treilea strat determina similaritatile dintre patternul de intrare si patternurile nvatate Avem de fapt

ym

minpq

jspq pqmj pentru maxpqjspq pqmj

n rest


pentru m M Valoarea ym masoara similaritatea patternului de intrarecu al mlea pattern nvatat Daca patternul de intrare a fost deja nvatat vaexista un m pentru care ym Daca patternul de intrare nu a fost nvatattoate valorile ym m M vor mai mici decat Valoarea lui trebuiesa acopere toate valorile posibile la nivel de pixel

Stratul de iesire este folosit pentru defuzzicare Deci procedura de recunoastere prin RNF consta din

datele de intrare stratul

fuzzicare stratul

deductie fuzzy stratul

defuzzicare stratul

Straturile si sunt construire prin instruirea retelei Daca un pattern deintrare este similar cu un pattern deja nvatat el este tratat ca acel pattern faraa mai nvatat si el In caz contrar patternul de intrare este nvatat Procesulde instruire poate continuu RNF nu trebuie n mod necesar instruita completnainte de a folosita ea poate si instruita si pe parcursul folosirii

Parametrii si Tf trebuie xati convenabil

Rezultatele simularii

In implementarea autorilor literele si cifrele au fost construite ca patternuri de pixeli pixelii avand doar valori binare Patternurile au fost apoi miscateprin deplasari n cele opt directii cu unul si doi pixeli Cele de patternuricorecte si cateva din patternurile obtinute prin deplasari au fost folosite pentrua instrui reteaua

Pentru a testa performantele retelei sau folosit patternuri perturbate prinmariremicsorare subtierengrosare adaugareaextragerea unor mici portiunietc

Sau folosit diferite valori pentru Tf la instruire

Tf

Dupa instruire sa testat RNF la recunoasterea unor patternuri perturbaterezultatele ind foarte bune


Concluzii

Timpul de instruire a RNF este mai mic decat n cazul instruirii prin propagarean urma a erorii Recunoasterea este si ea mai rapida Sa observam ca aceastaRNF nvata nesupervizat ind n esenta un algoritm de clustering Ulteriorinstruirii RNF este folosita ca un clasicator Exista variante ale acestei RNFcare nvata n mod supervizat

Cai Y HK Kwan Fuzzy Classi cation Using Fuzzy Inference Networks IEEE TransSyst Man and Cyb Part B Cybernetics


Capitolul

Algoritmi genetici

Natura a demonstrat puterea geneticii Cei ce vor sa multiplice performantelesistemelor biologice chiar partial nu pot ignora modul n care acestea sau dezvoltat cum au evoluat

Algoritmii genetici sunt mijloace prin care masinile pot emula mecanismeleselectiei naturale Acesti algoritmi sunt simpli robusti si generali Cu reteleleneurale au n comun urmatoarele

nu sunt necesare cunostinte asupra spatiului de cautare

consuma uneori mult timp

sunt paraleli prin natura lor

ambele metode se aplica unor probleme similare

De aceea de multe ori algoritmii genetici si retelele neurale se aplica mpreunaDe exemplu algoritmii genetici se pot aplica pentru accelerarea procesului deinstruire a retelelor neurale In mod ciudat printrun algoritm genetic se poateobtine algoritmul genetic care rezolva o problema data

Introducere

Metodele conventionale de optimizare se bazeaza pe ajustarea parametrilor unuimodel pentru a produce un rezultat dorit La retelele neurale prin instruire semodica iterativ ponderile conexiunilor astfel ncat sa se produca relatia doritantre intrari si iesiri De remarcat ca este mentinuta o singura solutie care esteoptimizata n mod iterativ

Algoritmii genetici opereaza optimizari conform tehnicilor cunoscute n genetica biologica se modica si se mentin caracteristicile unei populatii de solutiiindivizi pe parcursul unui mare numar de generatii Acest proces producepopulatii succesive avand un numar din ce n ce mai mare de indivizi cu caracteristicile dorite Ca si n natura procesul este probabilistic dar nu completaleator Dupa cum vom vedea regulile geneticii retin caracteristicile dorite prin

CAPITOLUL ALGORITMI GENETICI

maximizarea probabilitatii de proliferare a solutiilor indivizilor care au acestecaracterisitci

Genetica nu optimizeaza ci mbunatateste Un individ nu trebuie sa e optim pentru a supravietui el trebuie sa e superior altor indivizi din populatiarespectiva

Algoritmii genetici opereaza asupra unor codicari de parametri nu directasupra parametrilor Codicarile sunt siruri de lungime nita de obicei binareFiind data o populatie initiala de siruri un algoritm genetic produce o nouapopulatie de siruri folosind o multime de reguli genetice Regulile sunt astfelconstruite ncat aceasta noua generatie tinde sa aiba siruri superioare celor dingeneratia precedenta din punct de vedere al unei functii obiectiv

Exemplu

Dorim sa minimizam valoarea unui sir binar considerat aici ca un numar binarVom efectua urmatorii pasii

initializare

reproducere

ncrucisare

mutatie

repeta pasii

Initializare

Fiecare sir este generat ca un numar binar aleator Pornim cu urmatoarele sasesiruri

i sirul Ai val zecimala fi pi

Total

Ca functie obiectiv se alege val zecimala

Reproducere prin selectie

Se obtine o a doua generatie de siruri care au n medie functia obiectiv maimare Fiecare sir Ai este copiat n generatia urmatoare de un numar de ori care

EXEMPLU

este proportional cu pi unde

pi fiPj fj

fi ind functia obiectiv iar pi este functia obiectiv relativa Discul noroculuig este reprezentarea graca a acestor functii

001011

011010

010110

100111

010011

110110

Figura Discul norocului Sectiunile sunt proportionale cu pi

Pentru ecare copiere n generatia urmatoare se copiaza sirul la care sa opritdiscul Se fac sase copieri pentru ca a doua generatie sa e la fel de mare

Primul sir se reproduce n medie de ori deci prin rotunjire odata

Incrucisare

Se simuleaza schimbul de material genetic care are loc n timpul reproduceriibiologice In mod aleator se obtin perechi de siruri Pentru simplitate vomncrucisa perechile adiacente Pentru ecare pereche se obtine un numar ntregaleator ntre si Acesta arata cati biti din dreapta se schimba ntre cele douasiruri De exemplu ncrucisam sirurile A si A avand ntregul aleator


Procesul continua pentru sirurile A si A avand ntregul aleator si pentrusirurile A si A avand ntregul aleator Obtinem sirurile

Mutatie

Biologic ea perturba caracteristicile populatiei n mod aleator prevenind degenerarile Cele mai multe mutatii mai mult distrug decat sa e benece Deaceea mutatia trebuie sa e rara pentru a nu distruge specia Pe de alta parteea e necesara In simularea noastra vom presupune o rata a mutatiei de biti mutatia nsemnand aici o inversare de bit Deoarece avem de biti npopulatie probabilitatea unei mutatii este Presupunem ca nu are loc nicio mutatie la acest pas Obtinem astfel a doua generatie

i sirul Ai val zecimala fi pi

Total

Observam ca totalul functiei obiectiv a crescut vizibilIntregul proces se reia obtinand urmatoarele generatiiIn general populatia poate sa creasca sau sa scada de la o generatie la altaAcest proces continua pana cand functia obiectiv atinge o valoare acceptabila

pentru o anumita generatie Convergenta este n general rapidaSe poatentampla sa ajungem la o degenerare de exemplu daca cele sase siruri

sunt De aici putem iesi doar asteptand o mutatie favorabila Aceastapoate avea loc doar dupa multe generatii Astfel se poate ntampla si n naturaunde o specie poate suferi o adaptare neoptima pentru milenii pana cand apareun organism mai bine adaptat care ajuta la perfectionarea speciei

Fundamente matematice

O schema este o submultime de siruri cu similaritati n anumite pozitii Vom considera siruri peste alfabetul V f g Un sir va notat astfel A aaa alunde ai poate sau iar l este lungimea sirului O schema H peste alfabetul

FUNDAMENTE MATEMATICE

V f g este de exemplu H Schema H este de pildareprezentata de sirul

Daca V are k siruri atunci se pot forma k l scheme Fiecare sir estecontinut n l scheme deoarece ecare caracter din sir poate avea e valoarea pecare o are e

Deci ntro populatie de n siruri exista cel mult n l scheme si cel putin l

scheme reprezentate efectiv n populatie acest numar depinzand de diversitateapopulatiei Ordinul unei scheme H oH este numarul pozitiilor xate din HDe exemplu o

Lungimea de denitie a unei scheme H h este distanta dintre prima siultima pozitie xata De exemplu

Vom considera efectele operatiilor de reproducere ncrucisare si mutatie asupra schemelor reprezentate ntro populatie de siruri

Reproductie

Presupunem ca la momentul t exista m reprezentanti m siruri ai schemei H ngeneratia At Vom scrie m mH t Conform algoritmului de reproductieun sir Ai este copiat n generatia urmatoare cu probabilitatea pi

fiPfj Pre

supunem ca selectam n siruri distincte din At pentru urmatoarea generatieAt cu reintroducere Avem

mH t mH t n fHPfj

unde fH este valoarea medie a functiei obiectiv pentru sirurile care reprezintaschema H la momentul t

Fie 'f P

fjn

valoarea medie a functiei obiectiv pentru ntreaga populatieAt are n siruri Atunci

mH t mH tfH

'f

O schema H creste deci direct proportional cu raportul

valoarea medie a functiei obiectiv pentru schema H

valoarea medie a functiei obiectiv pentru ntreaga populatie

Efectul reproducerii este clar din punct de vedere al numarului de reprezentantio schema H cu fH 'f creste iar o schema H cu fH 'f scade

Sa presupunem acum ca pentru o schema H avem fH 'f c 'f unde c esteo constanta Atunci

mH t mH t'f c 'f

'f c mH t

Pornind din t obtinem

mH t mH ct

adica obtinem o progresie geometrica Cresterea scaderea unei scheme prinreproductie este exponentiala


Incrucisare

Fie l si e

A

H

H

Sirul A reprezinta schemele H si H Taietura dupa care se executa ncrucisarea se alege aleator echiprobabil ntre cele posibilitati De exemplu

A

H

H

Incrucisarea are loc prin schimbarea primelor caractere din A Observamca H este distrusa deoarece si vor plasate n siruri diferite H

supravietuieste nsa Probabilitatea ca H sa e distrusa este mai mare deoareceH H Probabilitatea ca H sa e distrusa este

pd H

l

Probabilitatea ca H sa supravietuiasca este

ps pd

Similar pentru H pd

Nu am considerat deocamdata situatia n care prin operatia de ncrucisarepozitiile xate din schema nu se modica

In general

ps H

l

Fie pc probabilitatea ca sa efectuam operatia de ncrucisare Avem

ps pcH

l

Se foloseste semnul pentru ca acum tinem cont si de situatia n care prinoperatia de ncrucisare pozitiile xate nu se modica

Consideram acum efectul combinat al reproductiei si ncrucisarii Presupunand ca aceste doua operatii sunt independente obtinem

mH t mH tfH

'f

pc

H

l

Observam ca schemele cu lungime mica sunt favorizate

EXERCIT II

Mutatie

Alteram o pozitie xata cu probabilitatea pm deci supravietuieste cu probabilitatea pm O schema H supravietuieste daca ecare dintre cele oH pozitii xate supravietuieste Rezulta ca probabilitatea ca o schema H sa supravietuiascaeste pm

oH Pentru valori mici ale lui pm aceasta probabilitate se poateaproxima cu oHpm conform inegalitatii Bernoulli Oricare ar a sin natural avem

an na

T inand cont de toate operatiile genetice obtinem rotunjit

mH t mH tfH

'f

pc

H

l oHpm

Observam ca schemele cu ordin mic sunt favorizateIn nal putem formula urmatoarea teorema

Teorema Fundamentala a Algoritmilor Genetici Holland Schemele cu valoare a functiei obiectiv peste medie cu lungimea de denitie si ordinul mici cresc exponential n generatiileurmatoare

Am vazut ca ntro populatie de n siruri de lungime l sunt procesate ntre l

si nl scheme Nu toate aceste scheme sunt procesate cu o probabililitate maredatorita operatiilor de ncrucisare si mutatie schemele lungi sunt distruse

Se poate demonstra ca numarul de scheme efectiv procesate este n ordinullui n tinand cont si de operatiile de ncrucisare si mutatie

Cu alte cuvinte cu toate ca se proceseaza n siruri la ecare generatie unalgoritm genetic proceseaza de fapt n ordinul lui n scheme Aceasta proprietatedeneste paralelismul implicit al unui algoritm genetic Manipuland n elementeprocesam de fapt aproximativ n similaritati

Acestui paralelism implicit i se datoreaza faptul ca spatiul cautarilor estesucient de mare pentru ca algoritmul sa nu duca n general la un optim localci la unul global

Fiind data o populatie de siruri cu valorile respective ale functiei obiectiv nepunem problema de ce informatie dispunem pentru a ghida cautarea unor sirurimai bune Raspunsul este similaritatile dintre siruri Aceste similaritati suntdescrise de schemele populatiei

Exercitii

C Minimizati functia fx y z xyz x y z ! " Folositisiruri binare de lungime


Capitolul

Puterea si complexitatea de

calcul a retelelor neurale

Masina Turing

Masina Turing este un model abstract de calculabilitate O masina Turing esteformata dintro banda divizata n celule innita la dreapta si dintrun cap decitirescriere care la un moment dat este pozitionat exact asupra unei celuleFiecare celula poate contine cel mult un simbol In plus exista o multime nitade stari care controleaza mutarile masinii La o mutare masina Turing n functiede simbolul din celula de banda pe care este pozitionat capul de citirescriere side starea n care se a%a masina efectueaza urmatoarele

Trece ntro noua stare

Scrie un simbol n celula pe care masina se a%a pozitionata nlocuind ceeace era scris nainte eventual poate tipari acelasi simbol

Deplaseaza capul de citire o celula la dreapta sau stanga sau lasa capul decitirescriere pozitionat asupra aceleiasi celule

Initial capul de citirescriere este pozitionat asupra celei mai din stanga celulePrimele n celule din stanga pentru un n contin simboluri care reprezintadatele de intrare iar restul de celule n numar innit contin un simbol specialce nu poate folosit pentru reprezentarea datelor de intrare de obicei blank

Masina porneste dintro stare precis determinata numita stare initiala Unelestari din multimea nita a starilor se numesc stari nale Starile nale sunt dedoua tipuri de acceptare si de respingere

Multimea simbolurilor formeaza un alfabet nit Secventele nite de simboluri se numesc cuvinte O masina M accepta un cuvant w daca pornind dinstarea initiala cu w ca data de intrare ajunge dupa un numar nit de pasintro stare nala de acceptare

Limbajul acceptat de o masina M este multimea nita sau innita

LM fwjM accepta wg

CAPITOLUL PUTEREA SI COMPLEXITATEA DE CALCUL

Multimea limbajelor acceptate de masini Turing formeaza clasa limbajelor recursiv enumerabile L

In cazul n care numarul de pasi efectuati este nit modul de operare al uneimasini Turing este descris de catre un algoritm

In afara de imaginea masinii Turing ca si o procedura algoritm daca estenit de recunoastere a unei multimi putem considera ca un astfel de dispozitivcalculeaza o functie adaugand o banda de scriere O astfel de masina calculeazao functie naturala f daca pornind cu data de intrare x se opreste cu fx pebanda de scriere Functia f se numeste n acest caz Turingcalculabila

Calculabilitatea intuitiva este un concept prematematic care nu permite nicio restrictie inevitabil impusa de o denitie riguroasa

Orice functie Turingcalculabila este si intuitiv calculabila Reciproca acesteiarmatii este mai dicil de formulat deoarece identica doua obiecte din careunul este matematic iar unul prematematic

Teza lui ChurchTuring Orice functie intuitiv calculabila este Turingcalculabila

Teza lui ChurchTuring nu poate demonstrata ci doar justicata prematematic Cu alte cuvinte este greu de acceptat existenta unor functii naturale intuitivcalculabile care sa nu e Turingcalculabile

In conformitate cu teza lui ChurchTuring clasa multimilor L coincide cuclasa multimilor algoritmic calculabile

Teorema Turing Problema opririi masinii Turing estenerezolvabila

Cu alte cuvinte nu exista un algoritm care sa determine daca o masina Turingarbitrara actionata dintro conguratie arbitrara q w i se va opri sau nu q estestarea w este data de intrare iar i este pozitia capului

Puterea de calcula a masinilor Turing este foarte mare orice algoritm chiar siNP poate implementat pe o masina Turing corespunzatoare O masina Turingpoate rezolva orice problema rezolvabila pe un calculator de uz general avandavantajul ca poate descrisa matematic foarte concis

Masinile Turing pot deterministe sau nedeterministe Multimea limbajeloracceptate de masinile nedeterministe este nsa egala cu multimea limbajeloracceptate de masinile deterministe

Un algoritm NP poate rezolvat ntrun timp polinomial pe o masina Turingnedeterminista Daca se doreste rezolvarea pe o masina determinista timpul numai ramane polinomial

Un algoritm P poate rezolvat ntrun timp polinomial pe o masina Turingdeterminista

PUTEREA DE CALCUL A RETELELOR NEURALE

Puterea de calcul a retelelor neurale

Un model masiv paralel MMP este o multime de celule interconectate printroretea de comunicatie Fiecarei celule i corespunde o vecinatate din care provinconexiunile care intra n celula Numarul de celule poate innit numarul deconexiuni este la nivel local nit iar conexiunile sunt orientate

In particular modele masiv paralele sunt retelele neurale automatele celularesi retelele de automate

In cadrul masinilor Turing o problema este rezolvabila algoritmic daca exista un algoritm avand la intrare un cuvand nit w si la iesire un cuvant carereprezinta informatia determinata de w Spre deosebire de aceasta un MMPrezolva probleme de conguratie avand la intrare o conguratie x a modelului sila iesire o conguratie a modelului care reprezinta informatia determinata de x

Generalizam acum notiunea de rezolvabilitate pentru MMP

Denitie O problema de conguratie este prezolvabila printrunmodel masiv paralel M daca indiferent de conguratia de intrare xexista un moment t astfel ncat avem

stabilitate T t x T t x pentru t tcorectitudine T t x este exact iesirea dorita

Prin T am notat functia care deneste dinamica globala a modelului

Cateva rezultate fundamentale

McCulloch si Pitts armaun ca retelele neurale sunt calculatoare universale

Franklin si Garzon au aratat ca orice problema rezolvabila algoritmic printromasina Turing poate efectiv formulata sub forma unei probleme de conguratieprezolvabila pe o retea neurala Asadar retelele neurale sunt ce putin la fel deputernice ca si masinile Turing

Conguratiile unui MMP pot nsa innite deci prezolvabilitatea este onotiune mai complexa decat calculabilitatea Franklin si Garzon au demonstrat caproblema opririi este prezolvabila pe o retea neurala innita Aceasta problemanu estensa rezolvabila pe o masina Turing dupa cum am vazut Conform acestuirezultat dar si al altor rezultate de acest fel sau demonstrat de catre Garzon siFranklin urmatoarele relatii

masini Turing automate celulare retele neurale retele de automate

Garzon M S Franklin NeuralComputability II Report of Memphis State UniversityMSUTR


Reprezentarea functiilor booleene prin

retele feedforward

Orice functie nita poate implementata exact printro retea neurala feedforward cu un strat ascuns de perceptroni de tip continuu Ito

Prin denitie o functie nita este de forma f Q R unde Q Rd Qnita

Orice functie continua poate aproximata oricat de bine de o retea neuralafeedforward cu un singur strat ascuns de perceptroni de tip continuu FunahashiHechtNielsen

Sa consideram cazul functiilor booleene Domeniul de denitie al unei functiibooleene cu N argumente contine N elemente Pentru ecare din aceste N

elemente exista valori posibile ale functiei Deci exista N

functii booleenediferite cu N argumente Vom reprezenta o functie booleeana arbitrara printroretea feedforward cu un strat ascuns Aceasta nu surprinde o functie booleeanaind un caz particular de functie nita Primul strat va format din N perceptroni discreti N reprezentand argumentele functiei Ultimul stratconsta dintrun neuron discret S reprezentand valoarea functiei F NValorile logice sunt reprezentate de In stratul ascuns sunt N neuronidiscreti q qN Ponderea wjk dintre k si qj este w calculata astfele N reprezentarea binara a lui j Luam wjk w daca k siwjk w daca k Adica wjk k w unde w este o constantapozitiva Alegem pragul pentru neuronii ascunsi N w Potentialul pentruun neuron ascuns este

hj Xk

wjkk N w

w!Xk

k k N "

Avem hj daca si numai daca

k k pentru k N

unde k si k Deci conditia este

k k pentru k N

Cu alte cuvinte pentru o intrare exact un neuron din stratul ascuns va deveniactiv Acest neuron este qj unde j este reprezentat binar ca

N

Ito Y Finite Mapping by Neural Networks and Truth Functions Math Scientist

Funahashi K On the Approximate Realization of Continuous Mapping by Neural Networks Neural Networks

HechtNielsen R Theory of the Backpropagation Neural Network In Neural Networksfor Perception H Wechsler Ed Academic Press

REPREZENTAREA FUNCT IILOR BOOLEENE

Avem deci urmatoarele iesiri din neuronii ascunsi

sj

pentru j j pentru j j

Ponderea vj dintre sj si neuronul S va

vj

daca F N true daca F N false

unde N corespunde lui sj Luam pragul

Xj

vj

Potentialul pentru neuronul S este

k Xj

vjsj Xj

vj Xj

vjsj vj

Iesirea din retea va sgnh F N g

σN

σ1

2 -1N

2 -1N2 -1N

σ1σ

N... ...

+/-1

+/-1 w01 q0

q

s0v0 S

sv

sgn(h) = F ( ,..., )

Figura Retea neurala care implementeaza functia F N

Se observa ca numarul de neuroni ascunsi este N deci foarte mare Pe dealta parte problema reprezentarii unei functii booleene SATI este NPcompletateorema lui Cook Deci este explicabil De fapt am folosit forma normaladisjunctiva cu o poarta OR si N porti AND

In cazuri particulare reprezentarea se poare face nsa mult mai ecient cumai putini neuroni De exemplu XOR su argumente se poate reprezenta cu nu neuroni ascunsi

Apare problema minimizarii retelei neurale care reprezinta o functie booleanadata Pentru retelele cu un strat ascuns corespunzand functiilor booleene nforma normala conjunctiva problema minimizarii este cunoscuta se minimizeazafunctia booleana printrunul din algoritmii uzuali Karnaugh sau Quine McCluskey Minimizarea se refera aici la numarul de neuroni adica numarul deporti O problema cu totul diferita este daca o functie booleana cu N argumentepoate nvatata de catre o retea neurala ntrun timp polinomial Valiant a

Valiant LG A Theory of the Learnable Commun ACM


aratat ca functiile logice sub forma normala conjunctiva pot instruite folosinddoar un numar polinomial de exemple pozitive In cazul functiilor n forma normala disjunctiva mai este nevoie n plus de nca un nivel de nvatare

O problema interesanta este daca functia poate nvatata folosind doar putineexemple si lasando apoi sa generalizeze

Complexitatea instruirii retelelor neurale

feedforward

Fie cazul retelelor feedforward multistrat cu perceptroni de tip continuu sau discret nu are importanta si e cazul nvatarii supervizate

Teorema Judd Problema generala a instruirii unei astfel de reteleeste NPcompleta

Cu alte cuvinte presupunand PNP nu exista un algoritm cu timp polinomialcare sa instruiasca o retea n conditiile n care

Arhitectura retelei neuronii si conexiunile fara ponderi este arbitrara

Numarul de patternuri care trebuie memorate n retea este arbitrar

Marimea unui caz este aici proportionala cu marimea retelei numarul de perceptroni conexiuni plus numarul patternurilor de memorat

Daca de exemplu pentru a accelera instruirea marim numarul de neuronin retea timpul de executie creste foarte mult deoarece timpul poate cresteexponential fata de numarul de neuroni

Teorema ramane valabila indiferent de functia de activare folosita De asemenea teorema ramane valabila chiar daca arhitectura retelelor considerate vericarestrictia

nr de straturi ascunse

Observatii

Aceasta teorema se refera la instruire n general Exista clase mari de retelesi secvente de instruire care duc la o instruire n timp polinomial Problemagenerala a instruirii unei retele cu o functie booleana oarecare este nsa NPcompleta

Se observa empiric faptul ca algoritmul de instruire prin propagarea nurma a erorii este foarte lent daca numarul de straturi este mare Sarputea deduce ca aceasta ar o proprietate generala retelele cu straturiputine se instruiesc mai ecient Teorema lui Judd ne arata ca nu esteneaparat asa Importanta este marimea retelei complexitatea ei

Judd JS Neural Network Design and the Complexity of Learning The MIT PressCambridge

COMPLEXITATEA INSTRUIRII

Instruirea este de fapt memorare Memorarea unor perechi asociate desiruri se face n timp liniar pe o masina von Neumann adica mult mairapid Este nsa adevarat ca astfel se pierd avantajele procesarii neuralede exemplu invarianta la perturbatii

Ramane ca subiect de cercetare din punct de vedere al NPcompletitudiniiproblema instruirii retelelor recurente


Capitolul

Consideratii epistemologice

asupra calculului neural

Scopul unei retele neurale

Formele superioare de viata inclusiv cele bazate pe sisteme nervoase centraletind sa faciliteze supravietuirea speciei respective n conditii de mediu care devindin ce n ce mai dicile

Natura nu si foloseste niciodata n mod inutil resursele ci actioneaza conform unui principiu de optimalitate De aceea putem arma ca mecanismelecreierului tind sa asigure n mod optim supravietuirea De exemplu somnuln interpretarea lui Freud tinde sa integreze zgomotele pastrand homeostaziasistemului

Din aceasta perspectiva analogiile dintre calculatoarele digitale si reteleleneurale biologice sunt nerezonabile Problemele aritmetice sunt rareori rezolvatecu scopuri biologice poate ca pasarile nvata sasi numere ouale nsa chiar siaceasta abilitate poate explicata pana la un anumit nivel prin functii elementare de recunoastere a formelor Necesitatea de a numara sclavi si soldatifolosind semne este de origine mai tarzie n dezvoltarea omului si este realizatape baza unor mijloace nebiologice Orice ncercare de a construi modele neuralepentru sumatoare multiplicatoare convertoare AD si alte circuite de calcul estede aceea din acest punct de vedere irationala

Cea mai importanta functie a sistemului nervos este monitorizarea si controlul conditiilor n care organismul traieste n mediul respectiv Aceasta functiese realizeaza prin modicarea starilor organismului sisau a mediului Cele maielementare stari controlabile ale organismului sunt globale nestructurate de exemplu temperatura Cele mai evoluate astfel de stari sunt legate de comportament social care implica planicarea anticipativa si interactiunile sociale Chiarsi acestea sunt nsa motivate biologic

Diferenta dintre calculatoare si creier rezulta din scopurile lor diferite Calcu

Kohonen T SelfOrganization and Associative Memory Springer Berlin rd ed chap

CAPITOLUL CONSIDERAT II EPISTEMOLOGICE

latoarele au fost dezvoltate initial pentru a rezolva probleme matematice mai alesaritmetice Ulterior sa descoperit ca instructiunile folosite pentru calculul simbolic pot utilizate si pentru procesarea limbajului natural Aceasta descoperirea fost un efect secundar n istoria dezvoltarii calculatoarelor Inca nu sa observatca o anumita generatie de calculatoare sasi doreasca sa supravietuiasca

Pentru a modela cat mai bine sistemele neurale biologice retelele neurale articiale trebuie sa interactioneze cu lumea reala cu obiectele naturale Statisticasemnalelor naturale de exemplu vorbirea sunt complet diferite de statistica presupusa n teoria matematica a probabilitatilor Natura gaussiana a zgomotuluisi distributia normala a datelor sunt ipoteze foarte proaste n acest context

Functiile neurale biologice sunt localizate

sau distribuite

Este unul dintre subiectele de dezbatere continua Circuitele neurale trebuiesa proceseze functiile local n timp ce distribuirea globala a activitatilor este ofunctie colectiva a activitatilor tuturor partilor

De fapt dihotomia distribuire localizare poate urmarita si la nivelul neuronului

putem localiza cu acuratete de microni corpul si axonul neuronului

ramurile dendritelor aceleiasi celule sunt nsa distribuite pe o arie cu undiametru de cativa milimetri

Cu alte cuvinte raspunsul poate localizat cu toate ca functiile adaptive pot distribuite spatial pe o arie mare

Este neliniaritatea esentiala n

calculul neural

Semnalele procesate n retelele neurale sunt de obicei continue In electronicacu toate ca de fapt caracteristicile componentelor sunt neliniare prin folosireafeedbackurilor negative si a altor metode de stabilizare se organizeaza componentele si circuitele n module integrate care se comporta liniar

Neuronii biologici au caracteristici si mai neregulate decat componentele electronice Faptul ca neuronii au raspunsuri neliniare nu nseamna nsa ca sistemul integrat nu poate sa se comporte liniar Iata un exemplu de astfel deintegrare cand creierul recunoaste o situatie importanta sistemul reticular deactivare adauga n circuitul cortical o excitatie care face ca neuronii sa opereze nmijlocul plajei lor dinamice Se adauga deci un semnal pentru a modica plajan care opereaza neuronii Acest lucru se face doar pentru un timp scurt Inplaja lor dinamica neuronii pot apoi sa functioneze liniar In ansambul sistemulfunctioneaza n acest caz temporar liniar Daca sistemul reticular de activare

DEOSEBIRI ESENT IALE

nu recunoaste o situatie ca ind importanta neuronii raman inactivi sub pragulde saturatie

Exista si cazuri de neliniaritate De exemplu n cazul perceptiei vizuale lainsecte Ochiul insectei este format din multe lentile ecare captand un sectoral campului vizual Semnalele rezultate din fotoreceptoarele acestor lentile suntprelucrate n cativa centri nervosi numiti ganglia situati langa organele senzoriale Acesti centri combina semnalele receptate ntrun mod neliniar formandproduse de perechi de semnale unul obtinut din gura si unul din fundal Corelarea perechilor de semnale este diferita n cazurile cand gura este respectiv nueste n miscare

Deosebirile esentiale dintre calculatoarele

neurale si cele digitale

Gradul de paralelism al retelelor neurale este mai mare decat cel al oricaruicalculator digital masiv paralel

Calculatoarele masiv paralele sunt retele de procesoare care lucreaza asincron Aceste calculatoare sunt totusi digitale si au circuite digitale nnodurile lor Deosebirea lor esentiala fata de calculatoarele von Neumannconsta n faptul ca este imposibil de prezis ordinea operatiilor realizate ntimpul calculului

Retelele neurale lucreaza tot asincron Semnalele neurale nu aunsa o formaexacta deci nu este posibil sa combinam nici o informatie de control coduride control biti de paritate adrese cu datele De exemplu multiplexareanu mai este din aceasta cauza posibila

Calculatoarele neurale sunt calculatoare analogice Ele nu pot executa programe memorate Operatiile implementate pe ele nu pot denite algoritmic

De ce semnalele neurale nu pot aproximate de variabile booleene

Impulsurile neurale au un aspect binar amplitudinea nu conteaza Dardurata unui impuls nu este variabila nu este posibil sa denim semnalelogice statice similare cu cele folosite n calculatoarele digitale Mai multimpulsurile neurale nu sunt nici sincronizate deci semnalele neurale diferade cele digitale

Circuitele neurale nu implementeaza automate nite

Filosoa calculului digital dar si a inteligentei articiale se bazeaza peteoria automatelor nite Prin feedback g un automat nit poateimplementa orice secventa de stari ind capabil de a deni recursiv functiilecalculabile


automatfinit

intrare iesire

Figura Automat nit

Toate calculatoarele digitale aplica principiul recursivitatii la diferite nivelede la hardware la procedurile denite n limbaje de programare Aplicarearecursivitatii este posibila din doua motive tehnologice

valorile semnalelor sunt stabile

toate combinatiile de semnale si stari sunt accesibile

O retea neurala biologica nu poate implementa un automat nit Functiilefeedback din retelele neurale servesc altor scopuri Procesul de calcul neuralarticial este mai apropiat unei aproximari stohastice

Cum pot programate calculatoarele

neurale

Este greu de imaginat cum ar putea programati pasii individuali de procesaren creier si cum sa e programat un calculator neural ca un calculator digital

Structurile anatomice n sine constituie un program incluzand si codulgenetic In acest sens creierul este programat Similar arhitectura reteleineurale articiale reprezinta programul ei

In natura biologica structurile par atat de semnicative ca si cum ar createconform unui plan a priori Explicatia stiintica este ca mutatiile pe parcursulunei lungi evolutii duc prin selectie la solutia optima Solutiile optime la care seajunge sunt nsa foarte greu de nteles datorita faptului ca sunt denite implicitprin codurile genetice Este imposibil sa adoptam aceasta tehnica n calcululretelelor neurale articiale

Problema principala este cum sa obtinem raspunsuri corecte din partea mediului fara interventia si interpretarea programatorului si sa le prezentam sistemului

Din toate aceste motive putem arma ca o retea neurala veritabila nu poate programata Cele mai utile aplicatii ale retelelor neurale sunt cele pentru carestructurile sau mecanismele sunt deja familiare

Poate creierul sa se autoperceapa

Numim complexitate a unui sistem numarul de bucle feedbackuri care potaparea n sistemul respectiv Astfel complexitatea unei singure bucle este

POATE CREIERUL SA SE AUTOPERCEAPA

Creierul care poate sa perceapa comportamentul unui alt creier mai mic trebuie sa aiba o complexitate de cel putin ori mai mare decat complexitateacreierului investigat Stakermann

In mod ironic cunostintele deja achizitionate sunt pierdute n mod continuuprin moartea indivizilor si trebuie restabilite de catre cei tineri

In concluzie o identitate nu se poate autopercepe Creierul biologic nu sepoate autontelege

Starkermann R The Functional Intricacy of Neural Networks A Mathematical StudyProceedings Insbruck


Anexa A

Complemente matematice

A Vectori si matrici

Vector coloana x

xxxn

Vector linie x !x xn"

t

Fie vectorii ndimensionali x x xn Vectorul x este o combinatie liniaraa vectorilor x x xn daca exista scalarii c cm astfel ncat

x mXi

cixi

Multimea de vectori x x xn este liniar dependenta daca exista c cm nu toti nuli astfel ncat

mXi

cixi

In caz contrar vectorii x x xn sunt liniar independenti

Norma euclidiana a unui vector kxk xtx qPn

i xi

Produsul scalar a doi vectori x si y xty Pn

i xiyi kxk kyk cos unde este unghiul dintre cei doi vectori

Proprietate xty kxkkykcos unde este unghiul dintre x si y

Se observa ca xty ytx deci produsul scalar este comutativ

Vectorii x si y sunt ortogonali daca si numai daca produsul lor scalar este

Daca vectorii nenuli x x xn sunt doi cate doi ortogonali atunci suntliniar independenti

ANEXA A COMPLEMENTE MATEMATICE

Exemplu Vectorii x

x

x

sunt doi cate doi

ortogonali si sunt independenti

Exemplu Gasiti produsul scalar dintre vectorii x si y lungimea lor si unghiuldintre ei unde

x

y

Solutie xty kxk kyk p cos xty

kxkkyk p deci o

A Forme patratice

O forma patratica FP este o functie Ex xtAx unde x este un vectorndimensional iar A o matrice simetrica de n n elemente

Daca A aijijn atunci

Ex x xn ax axx axx anxxn

ax axx anxxn annx

n

nXi

nXj

aijxixj

Proprietati ale formelor patratice

Ex este o FP pozitiv semidenita iar A este o matrice pozitiv semidenitadaca !x Ex "

Ex este o FP pozitiv denita iar A este o matrice pozitiv denita daca!x Ex "

Ex este o FP negativ semidenita iar A este o matrice negativ semidenita daca !x Ex "

Ex este o FP negativ denita iar A este o matrice negativ denita daca!x Ex "

Ex este pozitiv denita daca si numai daca pentru A aijijn avem

det A kak

det A

a aa a

det Ann det A

Conditii suciente pentru ca Ex sa e

A ELEMENTE DE GEOMETRIE ANALITICA

a FP pozitiv semidenita

detA detA detAnn

b FP pozitiv denita

detA detA detAnn

c FP negativ semidenita

detA detA detA

d FP negativ denita

detA detA detA

e In toate celelalte cazuri FP este nedenita

Sa notam ca o forma patratica Ex este nedenita daca este pozitiva pentruanumite valori ale lui x si negativa pentru alte valori deci depinde de x

A Elemente de geometrie analitica

Ecuatia unei drepte n plan este

a x b y c cu a b

Vectorul

n

ab

este un vector normal la dreapta data Acesta este ndreptat spre semiplanulpozitiv adica pentru care a x b y c

Ecuatia unei drepte a carei vector normal este n !n n"t si trece prin

punctul reprezentat de vectorul x este

nt x x

Avand doua puncte x si x n plan si vectorii asociati lor x si x ecuatiamediatoarei segmentului dintre x si x este

x xt x x

unde x este mijlocul segmentului respectivDin relatia anterioara rezulta

x xtx

x x

tx x


si obtinem

x xtx

xtx xtx

Dinxtx kxk

obtinem urmatoarea ecuatie a mediatoarei

x xtx

kxk kxk

Ecuatia planului care trece prin trei puncte necoliniare estex y z x y z x y z x y z

Ecuatia planului care trece printrun punct xx y z si este perpendicularpe vectorul n !a b c"t este

a x x b y y c z z

Ecuatia planului care trece prin mijlocul segmentului xyz xyz si esteperpendicular pe vectorul x x unde x !xyz"

t x !xyz"t este

x xtx

jjxjj jjxjj

A Operatia XOR

XOR este o operatie binara asupra argumentelor logice x x Avem

x x x x x x x x x

Putem extinde operatia XOR pentru n argumente logice

XORx x xn x x xn

Aceasta functie se numeste si functia de paritate deoarece are valoarea daca sinumai daca numarul argumentelor care au valoarea este impar

A Iacobianul si hessianul

Un vector xt dependent de timp se deneste astfel

xt

xt

xnt

dxt

dt

dxdt

dxndt

(xt

(xt

(xnt

A IACOBIANUL SI HESSIANUL

Fie functia Ex unde x este un vector cu n componente Gradientul sedeneste astfel

rxEx

ExExn

Proprietati

a rxxt y y

b rxxtAy Ay

c rxxtAy AxAt x

d Cand lucram cu forme patratice A este simetrica si avem A At Rezultarxx

tAx Ax

Gradientulntrun punct x al unei functii reprezinta directia cresterii maximea lui Ex Gradientul reprezinta tangenta la curba pe directia de crestere si estenul n punctele de maxim si minim

Daca avem o functie E!xt" nu neaparat o forma patratica unde x este unvector de n componente dependente de timp atunci

dE!xt"

dt

E

x xt

E

xn xnt

nXi

E

xi(xit

Observam cadE!xt"

dt !rxEx"t xt

Exemplu Fie

xt

xtxt

et

t

Forma patratica a lui xt cu matricea

A

este

E!xt" het t

i

et

t

rxEx

ddx

x xx xddx

x xx x

x xx x

(xt

et


Atunci

dE!xt"

dthet t et t

i et

et t et t

Fie m functii

Ex Ex x xn

Emx Emx x xn

Matricea iacobiana se deneste n felul urmator

Ix dE

dx

E

x E

xn

Emx

Emxn

Exemplu Pentru

x h

itEx x xx

Ex xx x

avem

Ix

x x x

x x x

Matricea hessiana a functiei Ex Ex xn se deneste astfel

Hx rxEx rx!rxEx"

Ex

xx

xxn

E

xxnE

xxn E

xn

Matricea hessiana este simetricaExemplu Pentru

Ex x x x

avem

rxEx

x x x x

rxEx

Deoarece determinantii principali sunt si matricea hessiana este pozitivdenita

A PROBLEME DE OPTIMIZARE

A Probleme de optimizare

Presupunem ca avem o functie obiectiv Ex unde x este o variabila scalaraAceasta functie si atinge minimul n punctul x x pentru care se ndeplinescurmatoarele conditii

dEx

dx

dEx

dx

Daca x este un vector generalizarea se face astfel rxEx rxEx pozitiv denita

Pentru a ntelege aceste conditii sa consideram de exemplu

x

xx

Dezvoltam n serie Taylor n punctul x x si retinem primii termeni ai dezvoltarii

Ex Ex x xExx

x xExx

x x

Exx

x x

Exx

x xx xExxx

Pentru $x x x $x x x obtinem

Ex Ex h

Exx

Exx

i $x$x

$x$x

t Exx

Exxx

Exxx

Exx

$x

$x

Luand

$x

$x$x

obtinem

Ex Ex !rxEx"t$x

$xt!r

xEx"$x A

Daca Ex are un minim n x orice schimbare innitezimala $x n x trebuiesa rezulte n Ex $x Ex Pentru aceasta trebuie ca

Gradientul n x sa scada si sa faca termenul liniar din A sa e zero

Hessiana n x sa e pozitiv denita ceea ce va face forma patratica dinA pozitiva independent de $x


Solutia analitica a unei probleme de optimizare speciale

Fie functia

Ex

xtAx btx

unde x este un vector ndimensional A este o matrice n n simetrica pozitivdenita b este un vector ndimensional constant Ex este una dintre putinelefunctii pentru care exista o solutie analitica pentru minimul fara restrinctii

Calculam

rxEx Ax b

rxEx A

Prin ipoteza A este pozitiv denita Impunem conditia Ax b Solutiaeste x Ab Rezulta ca x este un minim

A Metoda lui Euler metoda tangentei

Fie ecuatia diferentiala de ordinul ntai

y fx y unde y yx

cu conditia initialay yx

Daca f este complicata nu putem integra directDorim o aproximare a lui y +x care se demonstreaza ca este solutia

unica g A Scriem

y y $y

+x $y

$x $y +x$x

y y +xx x y fx yx x

Apoi y y yx x y fx yx x

In general

yn yn hfxn yn yn hyn daca xn xn h n

Aceasta relatie este formula lui Euler

Exemplu y x yy

A METODA LUI EULER METODA TANGENTEI

y*=Φ(x)y

xx0 x1 x2

y0

y1

y2

y*=Φ(x)y

xx0 x1 x2

y0

y1y2

∆x∆y

Figura A Ne deplasam pe tangenta la y pana la x

Se stie ca solutia exacta a acestui sistem are urmatoarea expresie analitica

y +x

x

ex

Aproximati pe + presupunand ca nu aveti expresia analitica a lui +

Avem

h

y f

y y hf

y y hfx y

Eroarea este

j + j

Luand o valoare mai mica pentru h obtinem o eroare mai mica

Fie acum un sistem de doua ecuatii diferentiale de ordinul I

x ft x yy ft x yxt x yt y

Cautam valorile aproximative x x xn y y yn ale solutiei exactex +t y ,t n punctele tn t nh Avem

x hft x y

y hgt x y

In general

xn xn hftn xn yn xn hxn

yn yn hgtn xn yn yn hyn


Exemplu Determinati valorile aproximative ale lui x +t y ,t npunctele t si t pentru sistemul

x x yy x yx y

Pentru h avem

x

x x

x

y

y y

y

Fie sistemul

x Ft x xn

x Ft x xn

xn

Fnt x xn

cu conditiile initialext xxnt xn

Acest sistem are o solutie n intervalul t daca exista functiile x +t xn +ny diferentiabile n t si care satisfac conditiile initiale

Teorema de existenta si unicitate Daca F Fn si Fx

Fxn

Fnx

Fnxn

sunt continue n regiunea R care contine punctul

t x x

n atunci exista un interval jt tj R n care exista o

solutie unica x +t xn +nt a sistemului care satisface

conditiile initiale

Observam ca nu se spune nimic despre derivatele Fit

A Stabilitatea sistemelor dinamice neliniare

La sfarsitul secolului XIX Liapunov a dezvoltat o metoda pentru analiza stabilitatii sistemelor dinamice Aceasta metoda se bazeaza pe conceptul de energiegeneralizata si presupune evaluarea functiei lui Liapunov

Fie un sistem autonom descris de sistemul de ecuatii diferentiale liniare sauneliniare

(x fx

(x fx

A VARIABILE ALEATOARE

(xn fnx

care este echivalent cu x fx unde x este vectorul starilor sistemului Presupunem ca f adica x este un punct de echilibru Vom formula oconditie pentru ca x sa e asimptotic stabil adica vectorul starilor sa tindacatre zero cand timpul tinde catre innit Fie Ex energia acumulata n sistem

Teorema lui Liapunov Daca E este o functie pozitiv denita pentru care

E este continua fata de toate componentele xi i n

dExt

dt adica functia energiei descreste n timp

atunci originea este asimptotic stabila

Functia E care satisface aceste conditii se numeste functia lui Liapunov Ingeneral ea nu este unica

0

x2

x1

traiectorie

dE/dt>0

instabila

0

x2

x1

t=0

dE/dt<0

traiectoriestabila

t=0

Figura A Functia lui Liapunov

Daca cel putin o astfel de functie satisface conditiile teoremei atunci sistemuleste asimptotic stabil Uneori nu este foarte clar despre ce energie este vorbaConsideratiile sunt mai curand matematice decat zice In cazul retelelor neuralevorbim de functia energiei computationale ea neavand legatura cu energia dinzica

A Variabile aleatoare

Fie o variabila aleatoare discreta

a anp pn

X

pi


DenimValoarea medie m

Paipi E

Varianta dispersia E E E E Pai p

i

Paipi

Deviatia standard Functia de repartitie a unei variabile aleatoare normale cu media m si dis

persia este

F x P x

p

Z x

e

um

du pentru x

si este notata cu Nm Distributia N este standard Functia de densitate a lui Nm este

fx F x

p

exm

pentru x

Anexa B

Subiectetip pentru examen

Clasicatorul liniar functia discriminant liniara

Regula hebbiana

Regula WindrowHo

Deduceti regula delta pentru un neuron din conditia de minimizare a erorii

Demonstrati ca functia energiei computationale

E

vtWv itv

nXi

Gi

Z vi

fi zdz

ntro retea Hopeld cu timp continuu este necrescatoare

Principiul de functionare a unui convertor AD pe biti implementat printro retea de tip gradient

Teorema perceptronului

Algoritmul de stocare a patternurilor prototip ntro memorie autoasociativa recurenta unipolara

Aproximarea unei functii continue prin retele neurale feedforward

Alegerea arhitecturii unei retele neurale feedforward cu un strat ascuns

Teorema lui Liapunov

Problema zgomotului ntrun asociator liniar

Reprezentarea unei functii booleene printro retea neurala feedforward

Adaugarea eliminarea unui pattern la o dintro memorie autoasociativarecurenta

In%uenta factorilor si n algoritmul backpropagation

ANEXA B SUBIECTETIP PENTRU EXAMEN

Demonstrati ca functia energiei computationale

E

vtWv itv Ttv

ntro retea Hopeld cu timp discret este necrescatoare

Perioada refractara a unui neuron biologic

Perioada de nsumare latenta a unui neuron biologic

Algoritmul backpropagation este convergent

Care este numarul maxim de regiuni liniar separabile folosind J neuroniascunsi

Intro retea Hopeld cu timp continuu energia scade cat mai rapid

De ce algoritmul de actualizare la retelele Hopeld trebuie sa e stochasticasincron

Cum putem gasi punctele de stabilitate ale unei retele Hopeld de tip gradient

Ce este un asociator liniar

Teorema fundamentala a geneticii

Paralelismul implicit al algoritmilor genetici

Multime fuzzy

Logica fuzzy

Rolul intrarii xe n algoritmul de instruire a unei retele feedforward deperceptroni discreti

Teza ChurchTuring

Masina Turing

Adaugati relatiile de incluziune corespunzatoare ntre urmatoarele multimimasini Turing automate celulare retele neurale retele de automate

Teorema lui Judd referitoare la complexitatea instruirii retelelor neuralefeedforward multistrat

Capacitatea memoriei autoasociative recurente

De ce n cazul memoriei asociative bidirectionale se prefera procesarea sincrona

Principiul de functionare al retelei Hamming

Principiul de functionare al retelei MAXNET

Care este scopul calibrarii supervizate a unui clasicator neural

Principiul de functionare a retelei Kohonen

Ce este o harta Kohonen

Principiul de functionare a retelei neurale fuzzy

Principiul de functionare a retelei neurale cu functie de activare radiala

Teorema lui Judd

Teorema lui HechtNielsen

Teorema lui Kolmogorov

ANEXA B SUBIECTETIP PENTRU EXAMEN

Anexa C

Linkuri

Neural Networks Commercial Software Toolshttpwwwemslpnlgov projneuronneuralsystemssoftwarehtml

SNNS Stuttgart Neural Network SimulatorhttpwwwrainformatikunituebingendeSNNS

OFAI Library Information System Biblio Neural Networkshttpwwwaiunivieacatoefainnconn bibliohtml

An Introduction to Genetic AlgorithmshttpwwwcsqubacukMSullivangaga indexhtml

The Genetic Algorithms Archivehttpwwwaicnrlnavymilgalist

David W Aha Machine Learning Pagehttpwwwaicnrlnavymilaharesearchmachinelearninghtml

ANEXA C LINKURI

Bibliograe

!" Davis L Handbook of Genetic Algorithms Van Nostrand Reinhold

!" Dumitrescu D H Costin Retele neuronale teorie si aplicatii TeoraBucuresti

!" Freeman JA DM Skapura Neural Networks Algorithms Applicationsand Programming Techniques AddisonWesley Reading Mass

!" Goldberg DE Genetic Algorithms in Search Optimization and MachineLearning AddisonWesley

!" Hagan M T HB Demuth M Beale Neural Network Design PWSPublishing Co Boston

!" Hassoun MH Fundamentals of Articial Neural Networks The MITPress Cambridge Mass

!" Haykin S Neural Networks A Comprehensive Foundation MacmillanCollege Publishing Company New York second edition

!" HechtNielsen R Neurocomputing AddisonWesley Reading MA

!" Kosko B Neural Networks and Fuzzy Systems Prentice Hall EnglewoodClis

! " Masters T Practical Neural Network Recipes in C Academic PressBoston

!" Michalewicz Z Genetic Algorithms Data Structures Evolution Programs SpringerVerlag Berlin second edition

!" Muller B J Reinhardt Neural Networks An Introduction SpringerVerlag Berlin

!" Negoita CV DA Ralescu Multimi vagi si aplicatii ale lor Ed TehnicaBucuresti

!" Stefan Gh Functie si structura n sistemele digitale Ed Academiei Bucuresti

BIBLIOGRAFIE

!" Tou JT RC Gonzales Pattern Recognition Principles ReadingAddisonWesley

!" Tsoukalas LH RE Uhrig Fuzzy and Neural Approaches in EngineeringJohn Wiley Sons New York

!" Wasserman PD Advanced Methods in Neural Computing Van NostrandReinhold Inc Computer Science Press NY

!" Zurada J Introduction to Articial Neural Systems West PublishingCompany St Paul

Documents

Prefat - vega.unitbv.rovega.unitbv.ro/~cataron/Publications/curs_rn.pdfdin San An tonio SUA n an ul univ ersitar Angel Cat aron a f acut parte din prima generat ie de absolv ent