Maszyny Boltzmann a

Embed Size (px)

DESCRIPTION

Maszyny Boltzmann a. Inteligentne Systemy Autonomiczne. W oparciu o wyklad Prof. Geoffrey Hinton University of Toronto and http://en.wikipedia.org/wiki/Boltzmann_machine oraz Prof. Włodzisław a Duch a Uniwersytet Mikołaja Kopernika. - PowerPoint PPT Presentation

Text of Maszyny Boltzmann a

  • Maszyny BoltzmannaJanusz A. Starzyk Wyzsza Szkola Informatyki i Zarzadzania w Rzeszowie W oparciu o wyklad Prof. Geoffrey HintonUniversity of Toronto andhttp://en.wikipedia.org/wiki/Boltzmann_machineoraz Prof. Wodzisawa DuchaUniwersytet Mikoaja Kopernika

    Inteligentne Systemy Autonomiczne

  • Maszyna BoltzmannaMaszyna Boltzmana jest typem stochastycznej rekurencyjnej sieci neuronowej symulowanego wyarzania. Maszyny Boltzmana mona traktowa jako stochastyczny, generujcy odpowiednik sieci Hopfielda. Maszyna Boltzmana jest sieci jednostek majcych jednostki energii, ktre s binarnie stochastyczne.Byy one jednymi z pierwszych przykadw sieci neuronowej zdolnej do uczenia wewntrznych reprezentacji i s w stanie rozwizywa trudne problemy kombinatoryczne.

  • WejciaWyjciaMaszyna BoltzmanaStochastyczna siec atraktorowa Podobna do modelu HopfieldaBinarne neuronySymetryczne poczeniaUkryte neurony.Asynchroniczna dynamika.Neurony stochastyczne i stopniowe chodzenie:

  • Dziaanie Maszyn BoltzmanaUczenie: sie modeluje rodowisko. Znale zbir wag pozwalajcych odtworzy obserwowane czstoci sygnaw wejciowych- model maksymalnego prawdopodobiestwa.

    Zaoenia: sygnay wejciowe wolnozmiennesie dochodzi do rwnowagibrak korelacji pomidzy strukturami danych wejciowych:prawdopodobienstwo p+(Va) kadego z 2n wektorw binarnych wystarczy.Rnice midzy dziaaniem swobodnym i wymuszonym pozwalaj obliczy korelacje wzbudze neuronw i podan zmian wag:

  • Zajmowanie si strukturami zoonymiRozwa zestaw danych, w ktrym kady obraz zawiera N rnych rzeczy:Rozproszona reprezentacja wymaga pewnej liczby neuronw, ktra jest liniow funkcj N. Lokalna reprezentacja (np. model mieszany) wymaga liczby neuronw, ktra jest wykadnicz funkcj N. Mieszanki wymagaj jeden model dla kadej moliwej kombinacji.Reprezentacje rozproszone s generalnie trudniejsze w dopasowaniu do danych, ale s jedynym sensownym rozwizaniem.Maszyny Boltzmana wykorzystuj reprezentacje rozproszone do modelowania binarnych danych.

  • Jednostki stochastyczne Zastp binarne jednostki progowe przez jednostki stochastyczne, ktre podejmuj przypadkowe decyzje.Temperatura kontroluje poziom szumu.Prawdopodobiestwo wczenia jednostek wynosi:

    temperatura

  • Jak maszyny Boltzmana modeluj dane?To nie jest przyczynowy model generatywny (jak model mieszany) w ktrym najpierw wybieramy stany ukryte a nastpnie wybieramy stany widoczne przy tych stanach ukrytych.Zamiast tego, wszystko jest zdefiniowane poprzez energie konfiguracji cznych jednostek widzialnych i ukrytych. Jednostki widzialne V s tymi, ktre otrzymuj informacj ze rodowiska, np. zbir treningowy jest grup wektorw binarnych okreslonych na zbiorze V

  • Energia konfiguracji cznej prog iwaga pomidzy i oraz jEnergia z konfiguracj alfa w widzialnych jednostkach i beta w niewidzialnych.binarny stan jednostki i w konfiguracji cznej alfa, betaindeksy wszystkich roznych par i oraz j

  • Wykorzystanie energii do zdefiniowania prawdopodobiestwaPrawdopodobiestwo konfiguracji cznej jednostek widzialnych i ukrytych zaley od energii tej konfiguracji cznej w porwnaniu z energiami wszystkich innych konfiguracji cznych.

    Prawdopodobiestwo konfiguracji widzialnych jednostek jest sum prawdopodobiestw wszystkich konfiguracji cznych, ktre je zawieraj.konfig. alfa na widzialnych jednostkachfunkcja podziau

  • Wykorzystanie energii do zdefiniowania prawdopodobiestwaNaszym celem jest aproksymacja realnego" rozkadu p(v) wykorzystujc p(v,h) dostarczane (ewentualnie) przez maszyn.Aby okreli podobiestwo dwch rozkadw wykorzystujemy odlego Kullback-Leiblerga,

    S dwie fazy trenowania maszyny.Faza Pozytywna jest gdy stany jednostek widzialnych s przypisane do konkretnego binarnego wektora stanu pobranego ze zbioru treningowego.Faza Negatywna wystpuje gdy adne jednostki nie maj stanw zdeterminowanych przez dane zewntrzne.

  • Wykorzystanie energii do zdefiniowania prawdopodobiestwa

    Gradient odlegoci G w stosunku do danej wagi, wij, jest przedstawiony za pomoc bardzo prostego rwnania:

    jest prawdopodobiestwem ze obie jednostki i oraz j, sa aktywne gdy maszyna jest w rwnowadze w fazie pozytywnej. jest prawdopodobiestwem ze obie jednostki i oraz j, sa aktywne gdy maszyna jest w rwnowadze w fazie negatywnej.

  • Wykorzystanie energii do zdefiniowania prawdopodobiestwa

    W rwnowadze cieplnej prawdopodobiestwo dowolnego globalnego stanu s gdy sie dziaa swobodnie jest dane przez rozkad Boltzmana (std nazwa Maszyna Boltzmana). Ta regua uczenia si jest biologicznie wiarygodna poniewa wykorzystuje tylko lokalne informacje. Aby zaistnie, poczenie potrzebuje tylko informacji o dwch czonych neuronach.

  • Sieci zaszumione znajduj lepsze minima energii

    Sie Hopfielda zawsze wykonuje decyzje, ktre redukuj energi.To uniemoliwia wyjscie z lokalnego minimum.Moemy uy przypadkowego szumu aby unikn mao znaczcego minimum.- Wystartowanie z duym poziomem szumu uatwia przekroczy bariery energii. Powolna redukcja szumu pozostawia systemw gbokim minimum-To jest symulowane wyarzanie

  • Przykad jak wagi definiuj rozkad. 1 1 1 1 2 7.39 .186 1 1 1 0 2 7.39 .186 1 1 0 1 1 2.72 .069 1 1 0 0 0 1 18.5 .0251 0 1 1 1 2.72 .0691 0 1 0 2 7.39 .1861 0 0 1 0 1 .0251 0 0 0 0 1 12.11 .0250 1 1 1 0 1 .0250 1 1 0 0 1 .0250 1 0 1 1 2.72 .0690 1 0 0 0 1 5.72 .0250 0 1 1 -1 0.37 .0090 0 1 0 0 1 .0250 0 0 1 0 1 .0250 0 0 0 0 1 3.37 .025 suma =39.70

    0.4660.3050.1440.084

  • Uzyskanie prbki z modelu.Jeli jest wicej ni kilka ukrytych jednostek, uywamy metod Monte Carlo acuchw Markowa (ang. Markov Chain Monte Carlo, MCMC) aby uzyska prbki z modelu:Zacznij w przypadkowej konfiguracji globalnej.Wybieraj jednostki przypadkowo, dopuszczajc do stochastycznego uaktualnienia ich stanw w oparciu o przyrosty energii (ang. energy gap)

    Uyj symulowanego wyarzania by zredukowa czas potrzebny do otrzymania rwnowagi cieplnej.W rwnowadze cieplnej, prawdopodobiestwo konfiguracji globalnej jest okrelone rozkadem Boltzmana.

  • Cel naukiMaksymalizacja wyniku prawdopodobiestwa, ktre maszyna Boltzmana przypisuje do wektorw w zbiorze treningowym.Jest to rwnoznaczne z maksymalizacj sumy logarytmw prawdopodobiestw wektorw treningowych .Jest to rwnie rwnoznaczne z maksymalizacj prawdopodobiestw, e zaobserwujemy te wektory w jednostkach widzialnych jeli wemiemy przypadkowe prbki po uzyskaniu przez ca sie rwnowagi cieplnej bez udziau sygnau zewntrznego.

  • Bardzo dziwny wynikWszystko co jedna waga musi wiedzie o innych wagach i o danych jest zawarte w rnicy dwch korelacji.Pochodna logarytmu prawdopodob. jednego wektora treningowegowarto oczekiwana iloczynu stanw w rwnowadze cieplnej gdy wektor treningowy jest wymuszony na jednostkach widocznych warto oczekiwana iloczynu stanw w rwnowadze cieplnej gdy nic nie jest wymuszone

  • Wsadowy algorytm uczenia. Faza pozytywnaWymu wektor danych na jednostkach widocznych. Pozwl jednostkom ukrytym uzyska rwnowag ciepln o temperaturze 1 (mona uy wyarzania, by to przyspieszy)Policz dla wszystkich par jednostekPowtrz dla wszystkich wektorw danych w zbiorze treningowymFaza negatywnaNie wymuszaj adnej z jednostek Pozwl caej sieci osign rwnowag ciepln o temperaturze 1 (gdzie zaczynamy?)Policz dla wszystkich par jednostek.Powtrz wielokrotnie aby dobrze oszacowa wynikiAktualizacja wagUaktualnij kad wag proporcjonalnie do rnicy w w dwch fazach

  • Ograniczone Maszyny Boltzmana (ang. Restricted Boltzmann Machines)Ograniczamy spjno aby uatwi wnioskowanie i uczenie.Tylko jedna warstwa jednostek ukrytych.Brak pocze midzy jednostkami ukrytymi.W RBM wystarczy jeden krok aby uzyska rwnowag ciepln gdy jednostki widzialne s wymuszone.Moemy wic szybko otrzyma dokadn warto :ukryte

    widoczneij

  • Algorytm uczenia ograniczonej maszyny Boltzmanaijijt = 0 t = 1 Zacznij od wektora treningowego na jednostkach widocznych.Uaktualnij rwnolegle wszystkie jednostki ukryte.Uaktualnij rwnolegle wszystkie jednostki widoczne by uzyska rekonstrukcj Uaktualnij jednostki ukryte jeszcze raz. Nie postpuje to z gradientem logarytmu prawdopodobiestwa (likelihood). Ale funkcjonuje bardzo dobrze.rekonstrukcjadane

  • Pytania?

  • Boltzmann MachinesPelna wersja

  • Modeling binary dataGiven a training set of binary vectors, fit a model that will assign a probability to other binary vectors.Useful for deciding if other binary vectors come from the same distribution.This can be used for monitoring complex systems to detect unusual behavior.If we have models of several different distributions it can be used to compute the posterior probability that a particular distribution produced the observed data.

  • Limitations of mixture modelsMixture models assume that the whole of each data vector was generated by exactly one of the models in the mixture. This makes is easy to compute the posterior distribution over models when given a data vector.But it cannot deal with data in which there are several things going on at once.mixture of 10 modelsmixture of 100 models

  • Boltzmann MachineA Boltzmann machine is the name given to a type of simulated annealing stochastic recurrent neural network by Geoffrey Hinton and Terry Sejnowski. Boltzmann machines can be seen