Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 94 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
2.4. Neuronale Netze: Modellierung von Lernen undKlassifizieren
2.4.1. Einführung
• neuronale Netze (konnektionistische Modelle): Systeme, die einige derim menschlichen Gehirn bekannten oder vermuteten Organisationsprinzipi-en ausnutzen
• bestehen aus Vielzahl einfacher unabhängiger Prozessoren (Neuronen),die über gewichtete Verbindungen (synaptische Gewichte) kommunizieren
• Arbeiten zunächst stark neurobiologisch motiviert (z.B. Frank RosenblattsPerzeptron (1958) als erstes lernfähiges künstliches neuronales Netz)
• ein Hauptthema: Modellierung des Lernens über Lernregeln
– feste Lernaufgaben: Datensatz von Eingabemustern samt gewünsch-ten Ausgaben liegen vor; Zusammenhang soll erlernt werden (zur spä-teren Bearbeitung von – auch leicht modifizierten – Eingaben)
– freie Lernaufgaben: Ähnlichkeiten von Daten sollen gefunden werden,Strukturierung durch Klassenbildung (wobei Klassen nicht vorgegebensind)
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 95 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
• unterschiedliche Forschungsinteressen bei künstlichen neuronalen Netzen:
– Aufbau und Funktionsweise von Gehirnen verstehen
– kognitive Prozesse simulieren
– Datenbestände analysieren (Muster erkennen und vervollständigen, Ähn-lichkeiten erkennen, Daten klassifizieren)
– komplexe Systeme regeln und steuern
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 96 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Das Neuronale Netz als Black Box
• Lernalgorithmen verändern typischerweise die mit den Verbindungen asso-ziierten Gewichte.
• Die Struktur des Netzes (Anzahl der Neuronen, Verbindungen) bleibt in derRegel erhalten.
• Erlerntes Wissen ist also implizit in den Gewichten kodiert.
• Konsequenzen:
– explizite Extraktion von Wissen i.A. nicht möglich
– explizite Integration von Vorwissen i.A. nicht möglich
– Wissen ist nicht symbolisch repräsentiert (als Regelbasis etwa), son-dern über das ganze Netz verteilt
• neuronales Netz als Black Box
• gilt als einer der wesentlichen Nachteile neuronaler Netze
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 97 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Ein paar historische Bemerkungen
• Beginn der Erforschung künstlicher neuronaler Netze um 1940
• Motivation zunächst: Verständnis der neurophysiologischen Grundlagen desmenschlichen Gehirns
• Struktur aus Nervenzellen (Neuronen) und Kopplungsstellen (Synapsen) warfrüh bekannt
• erstes vereinfachendes Modell eines Neurons von McCulloch und Pitts(1943):
– Neuron als binäres Schaltelement – aktiv oder inaktiv– Neuron hat festen Schwellenwert– Neuron empfängt Eingaben von anregenden Synapsen gleichen Ge-
wichts– Neuron empfängt Eingaben von hemmenden Synapsen (eine aktive
hemmende Synapse verhindert die Aktivierung des Neurons)– Zeitfenster: falls keine hemmende Synapse aktiv ist, werden die Einga-
ben von den anregenden aktiven Synapsen addiert; bei Überschreitungseines Schwellwerts wird das Neuron aktiviert („Feuern“, Nervenzellekann das nicht öfter als etwa 200 Mal pro Sekunde)
• erste Beschreibung des Lernens in der Hebbschen Lernregel (1949): einLernvorgang verstärkt die Verbindung zwischen zwei Neuronen, wenn beidegleichzeitig aktiv sind
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 98 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
• dadurch sind AND und OR und somit endliche logische Ausdrücke darstell-bar
• weitere Meilensteine:
– Perzeptron von Rosenblatt (1958): erstes lernfähiges künstliches neu-ronales Netz, i.W. aufgebaut aus McCulloch-Pitts-Neuronen
– ADALINE (adaptive linear neuron) von Widrow und Hoff (1960): Delta-Regel als effiziente Weiterentwicklung des Perzeptron-Lernverfahrens
– Krise in der Folge von Arbeiten von Minsky und Papert (1969)
– Multilayer-Perzeptron von Rumelhart et al. (1986): Backpropagationals neues Lernverfahren
– . . .
• im Folgenden weit gehende Vernachlässigung der neurobiologischen Aspek-te
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 99 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
2.4.2. Ein generisches Modell für neuronale Netze
Definition• neuronales Netz als formale Struktur
• Definition generisch, umfasst alle wesentlichen Netzmodelle
• neuronales Netz ist ein Tupel (U, W, A, O, NET, ex), wobei gilt
– U ist endliche Menge von Verarbeitungseinheiten (Neuronen)
– W : U × U → IR gibt die Netzstruktur an
– A : U �→ Au, Au : IR3 → IR, ordnet jedem Neuron u seine Aktivie-rungsfunktion Au zu
– O : U �→ Ou, Ou : IR → IR, ordnet jedem Neuron u seine Ausgabe-funktion Ou zu
– NET : U �→ NETu, NETu : (IR × IR)|U | → IR, ordnet jedem Neuron useine interne oder Netzeingabefunktion zu
– ex : U → IR ist eine externe Eingabefunktion, die jedem Neuron ueine externe Eingabe in Form einer reellen Zahl zuordnet
• dies beschreibt die statischen Eigenschaften neuronaler Netze – keine Aus-sagen über ihre Dynamik!
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 100 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
U : Verarbeitungseinheiten
• vorstellbar als (einfache) Prozessoren oder Automaten
• haben aktuellen Zustand (Aktivierung)
• erhalten aktuelle Eingabe (aus dem Netz oder von außerhalb)
• berechnen neuen Zustand
• generieren Ausgabe
• arbeiten unabhängig voneinander und parallel
• oft wird unterschieden zwischen
– Eingabeeinheiten UI
– versteckten oder inneren Einheiten UH
– Ausgabeeinheiten UO
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 101 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
W : Netzstruktur
• Darstellung als gewichteter gerichteter Graph:
– Neuronen als Knoten– Synapsen als Kanten– synaptische Gewichte als Kantengewichte
• alternative Darstellung: Konnektionsmatrix
• Grundlage für Kommunikation der Neuronen
• Ausgabe eines Neurons wird zur Eingabe der mit ihm durch ausgehendeKanten verbundenen Neuronen
• Bedeutung der Gewichte:
– W (u1, u2) = 0: keine Verbindung– W (u1, u2) > 0: anregende Verbindung– W (u1, u2) < 0: hemmende Verbindung– W (u1, u2) = W (u2, u1) ∀u1, u2: symmetrisches Netz– W (u, u) = 0 ∀u: irreflexives Netz– Nullsetzen von Gewichten erlaubt geschichtete Netze wie das Multilayer-
Perzeptron
• W (d.h. die Gewichte) während der Lernphase veränderbar
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 102 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
A: Aktivierungsfunktionen
• im Prinzip individuell für jedes Neuron festlegbar
• in der Regel jedoch einheitlich für alle Neuronen (oder zumindest für alleNeuronen einer Schicht in geschichteten Netzen)
• Ausschlag geben können potenziell der aktuelle Zustand, die interne Einga-be sowie die externe Eingabe (daher der dreidimensionale Urbildraum)
• meistens wird jedoch nur die interne Eingabe herangezogen(dann Au : IR → IR)
• Beispiele:
– Schwellwertfunktion
– stückweise lineare Funktion
– lineare Funktion
– sigmoide Funktion
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 103 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
1
netu
au
θu
Schwellwertfunktion
au ={
1 falls netu > θu
0 sonst
1
netu
au
θ’u θu
Stückweise lineare Funktion
au =
⎧⎪⎨⎪⎩
1 falls netu > θu
0 falls netu < θ′unetu−θ′
u
θu−θ′u
sonst
1
netu
au
Lineare Funktion
au = cu · netu
1
netu
au
½
Sigmoide Funktion
au =1
1 + e−netu
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 104 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
O: Ausgabefunktionen
• führt Aktivierung eines Neurons in seine Ausgabe über
• wie bei A meist einheitlich für alle Neuronen
NET : interne / Netzeingabefunktionen
• wie zuvor in der Regel einheitlich für alle Neuronen
• meist wird hier sogar immer dieselbe Funktion eingesetzt:
netu :=∑v∈U
W (v, u) · ov,
wobei das Auftreten negativer Gewichte (hemmend!) i.A. nicht gesondertbehandelt wird
• d.h.: Netzeingabe für u ist gewichtete Summe aller Ausgaben im Netz
ex: externe Eingabefunktionen
• stellen Verbindung eines neuronalen Netzes mit der Außenwelt dar
• oft ist nur eine Teilmenge von Neuronen für externe Eingaben erreichbar (dieso genannten Eingabeeinheiten)
• steht i.A. nur während einer Eingabephase zur Verfügung, nicht mehr jedochwährend der Arbeitsphase
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 105 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Schematischer Überblick
W(u1,u)
W(u2,u)
W(un,u)
W(u3,u)
Σ netu au ouAu Ou
ex(u)
ou1
ou2
ou3
oun
Eine Verarbeitungseinheit u eines Neuronalen Netzes
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 106 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Arbeitsweise neuronaler Netze
• zunächst ohne Dynamik/Lernprozess (also nur Abbildung Eingabe �→ Aus-gabe)
• es gelteUI , UO �= ∅, UH ∩ (UI ∪ UO) = ∅
• drei Phasen:
– Ruhephase: konstante Aktivierungen, stabiler Zustand (muss sich kei-nesfalls immer automatisch einstellen)
– Eingabephase: an Ruhephase anschließend und durch externe Ein-gaben initiiert; abgeschlossen, wenn alle Eingabeeinheiten die externeEingabe ausgewertet und ihre Aktivierung bzw. Ausgabe entsprechendneu berechnet haben
– Arbeitsphase: an Eingabephase anschließend und durch neu berech-nete Ausgaben der Eingabeeinheiten initiiert; alle Neuronen führen nununabhängig Updates durch; abgeschlossen, wenn wieder eine Ruhe-phase erreicht ist (nicht sicher)
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 107 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
• Anmerkungen zur Auswertereihenfolge:
– meistens nicht in kontinuierlicher Zeit, sondern getaktet
– entweder Auswertung für alle Neuronen parallel in einem Takt (bzw. inmehreren Takten bei mehreren Schritten, vgl. das nachfolgende Bei-spiel)
– oder für (nacheinander auszuwertende) Teilmengen parallel in einemTakt
– oder seriell (bei fester oder variabler Reihenfolge)
– bei Zyklen kann die Reihenfolge Auswirkungen auf das automatischeErreichen eines stabilen Zustands haben (u.U. können durch geschick-te Wahl der Reihenfolge bei Parallelauswertung auftretende Oszillatio-nen vermieden werden)
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 108 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Ein Beispiel
• U = x, y, z, UI = x, y, UO = z
• W gegeben durch Konnektionsmatrix:
x y zx 0 1 2y 0 0 3z 4 5 0
• einheitliche Aktivierungsfunktion A für alle drei Neuronen:
A(netu, ex(u)) =
{1, falls netu > 0 oder ex(u) = 10 sonst
• für alle Neuronen ist die Ausgabe gleich der Aktivierung
• Netzeingabe ist die oben eingeführte gewichtete Summe über alle Ausgabender Vorgänger
• ex(x) = ex(y) = 1, ex(z) ist nicht definiert
• Startzustand: alle Knoten weisen Aktivierung 0 auf
• ausgehend vom Startzustand und der anliegenden externen Eingabe, wirdnach drei Update-Schritten wieder ein stabiler Zustand erreicht
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 109 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
x y
z
ex(x) ex(y)
1
24
53
Ein einfaches Neuronales Netz
0 0
0
1 1
1
24
53
Eingabephase
1 1
0
1
24
53
Update 1
0 1
1
1
24
53
Update 2
1 1
1
1
24
53
Update 3 / stabiler Zustand
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 110 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Dynamik – Lernen
• Lernvorgang: adaptive Veränderung der Netzgewichte W
• Ziele dieses Lernvorgangs: bestimme W so, dass das Netz
– auf bestimmte vorgegebene Eingaben in der gewollten Weise antwortet(also die erfolgreiche Bewältigung der Lernaufgabe im engeren Sinne)
– auf weitere Eingaben auf geeignete Art antwortet (Generalisierung,Strukturen und Muster erkennen)
– damit auch die passende Reaktion auf gestörte oder unvollständigeMuster zeigt (Fehlertoleranz)
• Vorgehen:
– propagiere verfügbare Eingabemuster durch das Netz
– vergleiche die erzielten Ausgaben mit den gewollten
– passe W geeignet so an, dass sich beim nächsten Versuch eine ver-besserte Approximation einstellt
• erforderlich: Metrik (d.h. Ähnlichkeits- oder Fehlermaß)
• Eingabe(muster): erlaubte Belegung von ex an allen Eingabeeinheiten
• Ausgabe(muster): erlaubte Belegung aller Ou in allen Ausgabeeinheiten
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 111 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
• freie Lernaufgabe:
– zu einer gegebenen Menge von Eingabemustern sind die Ausgaben zubestimmen
– die Lernaufgabe ist erfüllt, wenn im Sinne einer geeigneten Metrik ähn-liche Eingaben zu ähnlichen Ausgaben führen
• feste Lernaufgabe:
– gegeben sei eine Menge von Paaren von Ein- und Ausgabemustern;zu den Eingabemustern sind die Ausgaben zu bestimmen (Annahme:widerspruchsfrei!)
– die Lernaufgabe ist erfüllt, wenn die vorgegebenen Ausgaben erzeugtwerden
• Lernalgorithmus: Verfahren, das anhand einer gegebenen Lernaufgabe dieNetzgewichte W verändert
– überwachter Lernalgorithmus: Algorithmus zu fester Lernaufgabe
– nicht überwachter Lernalgorithmus: Algorithmus zu freier Lernaufga-be
– Erfolgsfall: Erfüllen der Lernaufgabe bzw. Unterschreiten einer Fehler-schranke in endlicher Zeit
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 112 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Fehlermaße
• erforderlich für die Steuerung des Lernvorgangs in neuronalen Netzen:
– Erfolgskriterium: ist der Lernvorgang erfolgreich abgeschlossen?
– Modifikationsregel: wie ist W ggf. geeignet zu verändern?
– Misserfolgskriterium: ist ein Fortsetzen des Lernvorgangs überhauptsinnvoll?
• überwachte Lernalgorithmen verwenden hierzu i.A. ein Fehlermaß:
e : IR|UO| × IR|UO| → IR+0 , e(a, b) = 0 ⇔ a = b
• Fehler, den ein neuronales Netz bei der Verarbeitung einer Eingabe i mitSoll-Ausgabe t und Ist-Ausgabe o macht: e(t, o)
• typische Festlegung für eine einzelne Ausgabeeinheit u ∈ UO:
eu := tu − ou
• typische Festlegung für das gesamte neuronale Netz:
e :=∑
u∈UO
(tu − ou)2
(jeweils für eine feste Eingabe i mit Soll-Ausgabe t und Ist-Ausgabe o)
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 113 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
• Aufgabe eines überwachten Lernalgorithmus somit:
– ändere W so ab, dass für jedes Musterpaar (i, t) der festen Lernaufga-be der Fehlerwert e minimiert wird
– Abbruch, falls die (eventuell gewichtete) Summe der Einzelfehler fürdie verschiedenen Eingaben unter eine vorgegebene Toleranz fällt (Er-folgsfall) oder falls ein Weiterarbeiten als sinnlos erkannt wird (Diver-genz, Oszillationen)
– Update dieses Gesamtfehlers nach jeder Epoche, d.h. nach jedemvollständigen Durchlauf durch die Lernaufgabe (jede Eingabe einmalbehandelt)
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 114 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Grundstruktur überwachter Lernalgorithmen
Algorithm 1 für alle Eingaben der Lernaufgabe:
(1) wähle Musterpaar (i, t) der Lernaufgabe aus
(2) propagiere die Eingabe, bis das Netz seine Ruhephase erreicht hat
(3) vergleiche die ermittelte Ausgabe o mit der Zielvorgabe t und füge den resultieren-den (lokalen) Fehler e zum Gesamtfehler (über die ganze Epoche) E hinzu
(4) falls lokaler Fehler nicht Null: ändere die Gewichte geeignet (d.h. so, dass beimnächsten Mal für diese Eingabe ein kleinerer Fehler zu erwarten ist)
(5) am Ende der Epoche (alle Eingaben einmal verarbeitet):falls E < ε: Abbruch wegen Erfolg; andernfalls: falls Fortsetzung sinnvoll, starteneue Epoche mit E := 0; andernfalls: Abbruch wegen Misserfolg
• Herzstück jedes überwachten Lernalgorithmus’ ist der Schritt (4)
• typisch: definiere E in Abhängigkeit von W und verwende ein Minimierungs-verfahren (z.B. Gradienten-basiert)
• oft heuristisch – Erfolg nicht garantiert!
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 115 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Grundstruktur nicht überwachter Lernalgorithmen
• verarbeiten freie Lernaufgaben, die nur aus Eingaben bestehen (ohne Soll-Ausgaben)
• Fehlermaß, das die Veränderung von W steuert, somit nicht angebbar
• Klassifizierung als Ziel – konkrete Ausgaben interessieren i.d.R. nicht
• typisch: konkurrierende Einheiten, größte Aktivierung setzt sich durch
Algorithm 2 für alle Eingaben der Lernaufgabe:
(1) wähle Eingabe i der Lernaufgabe aus
(2) propagiere die Eingabe, bis das Netz seine Ruhephase erreicht hat
(3) verändere Netzstruktur W anhand eines Modifikationskriteriums
(4) am Ende der Epoche (alle Eingaben einmal verarbeitet):Abbruch, falls Endekriterium erfüllt; ansonsten starte neue Epoche
• durch Weglassen des Endekriteriums kann fortwährendes Lernen erreichtwerden
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 116 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Lernparadigmen
Einsatz neuronaler Netze für verschiedene Aufgabengebiete, charakterisiert durchdie folgenden Lernparadigmen:
• Musterassoziation:
– Assoziation von Ein- und Ausgaben
– Eingabe dient später als Schlüssel für den Zugriff auf die Ausgabe
– Einsatz: Simulation von Assoziativspeichern
• Autoassoziation:
– Spezialfall der Musterassoziation, bei dem Ein- und Ausgabe dasselbeMuster repräsentieren
– Netz dient zur Mustervervollständigung
– Einsatz: Rekonstruktion gestörter oder unvollständiger Eingaben
• Mustererkennung:
– Spezialfall der Musterassoziation, bei dem mehrere Eingaben mit einerAusgabe assoziiert werden
– Ausgaben als disjunkte Klassen
– Einsatz: Klassifikation
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 117 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
• Ähnlichkeitserkennung:
– bilde aus Eingaben Regeln zur Klassifikation
– typischerweise mittels nicht überwachter Lernverfahren
– Einsatz: Mustererkennung
• Optimierung:
– nutze Minimierung des Fehlermaßes aus
– Einsatz: Lösung von Optimierungsproblemen (z.B. travelling salesman)
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 118 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Einordnung neuronaler Netze
• Vorteile gegenüber alternativen Ansätzen:
– Lösung von Problemen hoher Komplexität mit relativ einfachen Mitteln
– Analyse und Modellierung des gegebenen Problems nicht erforderlich
– Angabe eines bestimmten Algorithmus nicht erforderlich
– vielmehr Konstruktion von Problemlösungsfähigkeit
• Nachteile:
– Lernerfolg nicht vorhersagbar
– Ergebnis nicht nachzuvollziehen
– gespeicherte Werte (z.B. die Gewichte) tragen keine erkennbare Be-deutung
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 119 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
2.4.3. Perzeptronen
• Perzeptron ist einfaches neuronales Netz ohne innere Einheiten bzw. Schich-ten
• es besteht sogar nur aus einer einzigen Verarbeitungseinheit
• Einsatz v.a. zur Musterklassifikation
• zugrunde liegende Modellvorstellung:
– auf einer imaginären Netzhaut sitzen viele optische Rezeptoren
– im Falle eines Reizes senden diese Rezeptoren Impulse an die Verar-beitungseinheit
– Impulse werden aufgrund der Verbindungsgewichte in ihrer Stärke mo-difiziert
– Verarbeitungseinheit ist lineare Schwellwerteinheit: Addition der ein-gehenden Impulse und Aktivierung der Einheit bei Überschreiten desSchwellwerts θ
– Perzeptron trifft also binäre Entscheidung (zwei Zustände)
– Entscheidungsfindung entspricht der Berechnung eines Prädikats
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 120 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Formales Modell des Perzeptrons
• im Folgenden leicht verallgemeinerte Deutung mit mehreren Eingabeeinhei-ten (keine Verarbeitung, lediglich Aufnahme der Eingabe) und einer einzigenAusgabeeinheit
• in diesem Sinne zweischichtiges bzw. einstufiges neuronales Netz
• Perzeptron ist neuronales Netz (U, W, A, O, NET, ex) mit
1. U = UI ∪ UO mit nichtleeren und disjunkten UI , UO, wobei die Ausga-beschicht UO = {v} einelementig ist
2. Netzwerkstruktur gegeben durch W : UI × UO → IR, es gibt also nurVerbindungen von der Eingabeschicht zur Ausgabeeinheit v
3. A ordnet jeder Eingabeeinheit u ∈ UI die einheitliche Aktivierungsfunk-tion
Au : {0, 1} → {0, 1}, Au : ex(u) �→ ex(u),
und der Ausgabeeinheit die lineare Schwellwertfunktion
Av : IR → {0, 1}, Av : netv �→{
0 falls netv ≤ θ1 sonst
zu
4. O: alle Ausgabefunktionen übernehmen den Wert der Aktivierung au
als Ausgabe ou
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 121 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
5. NET ordnet der Ausgabeeinheit v die Netzeingabefunktion NETv zu,die die Netzeingabe berechnet als
netv :=∑
u∈UI
W (u, v) · ou
6. ex ordnet jeder Eingabeeinheit u ∈ UI ihre externe Eingabe (0 oder 1)als Wert zu
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 122 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Merkmale, Merkmalsraum, Klassifikation
• eine (eindimensionale) Eigenschaft X wird auch Merkmal genannt, die Men-ge der möglichen Ausprägungen (i.A. reellwertig, beim Perzeptron binär)Merkmalsraum, eine konkrete Ausprägung x ∈ X Muster
• Merkmalsraum oder Universum ist oft höherdimensional, also X = X1 ×. . . × Xn mit Vektoren von Merkmalen bzw. Ausprägungen als Muster
• die Ausgabe eines Perzeptrons klassifiziert (n-dimensionale) Muster bzgl.einer (eindimensionalen) Ausgabeeigenschaft – somit wird also ein Prädikatentschieden (auf der Netzeingabefunktion)
• ein solches Prädikat heißt linear separabel, wenn es ein θ ∈ IR sowie füralle Merkmale i = 1, ..., n Gewichte wi ∈ IR gibt, sodass die Auswertung dergewichteten Summe bzw. der linearen Schwellwertfunktion
n∑i=1
wi · xi > θ
das Prädikat für alle möglichen konkreten Ausprägungen entscheidet
• im Perzeptron stellen die W (u, v) die Gewichte und die Aktivierungen au dieAusprägungen dar
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 123 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Beispiele
• Sei X := {0, 1}2; das Prädikat AND (logisches UND) lässt sich offensichtlichdurch die Auswertung der linearen Schwellwertfunktion
x1 + x2 > 1
berechnen.
• Sei X := {0, 1}3; das Prädikat ZWEI (mindestens zwei von drei Merkmalenmüssen ausgeprägt sein) kann durch die lineare Schwellwertfunktion
x1 + x2 + x3 > 1
dargestellt werden.
• Sei X := {0, 1}2; das Prädikat XOR (ausschließliches ODER) ist dagegennicht als lineare Schwellwertfunktion darstellbar; die übliche Darstellung bei-spielsweise
x1(1 − x2) + (1 − x1)x2 > 0
ist nichtlinear! Die Unmöglichkeit der linearen Darstellung kann formal ge-zeigt werden.
• Das letzte Beispiel beendete seinerzeit die frühe Phase der Euphorie überneuronale Netze.
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 124 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Lineare Separabilität
• jetzt: geometrische Anschauung für die lineare Separabilität
• dazu: Verallgemeinerung der Definition des Perzeptrons zum Perzeptronmit reellwertigen Eingabeinheiten; hierbei wird das Interval [0, 1] anstellevon {0, 1} als Bildbereich der externen Eingabefunktion zugelassen
• wie zuvor gilt:
– ein Prädikat ist zu entscheiden– ein einzelnes Perzeptron kann Wahrheitswert dieses Prädikats nur be-
rechnen, wenn es sich als lineare Schwellwertfunktion darstellen lässt
• neu ist:
– das Eingabemuster kann Merkmale mit kontinuierlichen Ausprägungenaufweisen
– das Prädikat kann daher nicht mehr als Boolescher Ausdruck darge-stellt werden
• geometrische Deutung der Entscheidung:
– Trennung des Universums an einer Geraden (2D), Ebene (3D) oder Hy-perebene (JA bzw. 1 auf der einen Seite, NEIN bzw. 0 auf der anderen)
– damit ist auch der Grund des Scheiterns bei XOR klar: hier sind zweiGeraden zur Entscheidung erforderlich (geht nur mit Hilfe mehrerer Per-zeptronen)
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 125 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Der Lernalgorithmus des Perzeptrons
• Perzeptron kann nur feste Lernaufgabe mit überwachtem Lernalgorithmusbewältigen
• Perzeptron-Lernregel (jetzt wieder originales (binäres) Perzeptron):
– entspricht der Delta-Regel oder Widrow-Hoff-Regel (siehe Abschnitt2.4.4.)
– korrigiert Gewichte der Verbindungen zur Ausgabeeinheit anhand desdort aufgetretenen Fehlers
– Fehler wie zuvor definiert als Differenz von vorgegebener und tatsäch-licher Ausgabe
– mögliche Fehlerwerte sind 0, 1 oder −1
• Algorithmus:
– Änderung ΔW (u, v) der Gewichte nach Propagation der Eingabe i ei-nes Musterpaares (i, t) der Lernaufgabe:
ΔW (u, v) :=
⎧⎪⎨⎪⎩
0 falls av = t
+σau falls av = 0, t = 1−σau falls av = 1, t = 0
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 126 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
– Änderung Δθ des Schwellwerts nach Propagation der Eingabe i einesMusterpaares (i, t) der Lernaufgabe:
Δθ :=
⎧⎪⎨⎪⎩
0 falls av = t
−σ falls av = 0, t = 1+σ falls av = 1, t = 0
– Faktor σ wird Lernrate genannt
– Änderungen also nur für aktivierte vorgeschaltete Eingabeeinheiten
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 127 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Beispiel: Lernen des AND-Prädikats
• Eingabeeinheiten u1, u2, Ausgabeeinheit v, zu lernen ist das logische UND
• Lernrate σ := 1, Startwerte W (u1, v) = W (u2, v) = θ := 0
• nachfolgend dargestellte Lösung (Gewichte) nur eine von vielen (abhängigvon σ oder der Reihenfolge der Musterpropagation innerhalb der einzelnenEpochen)
i t av e ΔW (u1, v) ΔW (u2, v) Δθ W (u1, v) W (u2, v) θ
1. Epoche
0 0 0 0 0 0 0 0 0 0 00 1 0 0 0 0 0 0 0 0 01 0 0 0 0 0 0 0 0 0 01 1 1 0 1 1 1 -1 1 1 -1
2. Epoche
0 0 0 1 -1 0 0 1 1 1 00 1 0 1 -1 0 -1 1 1 0 11 0 0 0 0 0 0 0 1 0 11 1 1 0 1 1 1 -1 2 1 0
3. Epoche
0 0 0 0 0 0 0 0 2 1 00 1 0 1 -1 0 -1 1 2 0 11 0 0 1 -1 -1 0 1 1 0 21 1 1 0 1 1 1 -1 2 1 1
4. Epoche
0 0 0 0 0 0 0 0 2 1 10 1 0 0 0 0 0 0 2 1 11 0 0 1 -1 -1 0 1 1 1 21 1 1 0 1 1 1 -1 2 2 1
5. Epoche
0 0 0 0 0 0 0 0 2 2 10 1 0 1 -1 0 -1 1 2 1 21 0 0 0 0 0 0 0 2 1 21 1 1 1 0 0 0 0 2 1 2
6. Epoche
0 0 0 0 0 0 0 0 2 1 20 1 0 0 0 0 0 0 2 1 21 0 0 0 0 0 0 0 2 1 21 1 1 1 0 0 0 0 2 1 2
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 128 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Konvergenz
• gegeben: linear separable Lernaufgabe
• dann gilt: Perzeptron-Lernalgorithmus konvergiert garantiert zu einer geeig-neten Gewichtskonfiguration mit verschwindendem Gesamtfehler
• bewiesen im so genannten Perzeptron-Konvergenztheorem
• cave: dies sagt nichts aus über die Konvergenzgeschwindigkeit (also die An-zahl der erforderlichen Epochen bis um Erreichen des stationären Zustands)
• Konvergenzgeschwindigkeit hängt ab von
– Zusammensetzung der Lernaufgabe (also die (i, t)-Paare)
– Reihenfolge der Musterpropagation
– Lernrate
– Initialgewichte
• optimale Einstellung dieser Parameter i.A. aufgrund von Heuristiken
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 129 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
2.4.4. Einfache lineare Modelle
• Einfache lineare neuronale Netze sind – wie das Perzeptron – zweischich-tige bzw. einstufige Systeme.
• hier jedoch oft anderes Lernparadigma:
– Musterassoziation statt Musterklassifikation (Eingabemuster als Schlüs-sel für vom Netz zu erzeugendes Ausgabemuster)
– impliziert i.d.R. mehrere Ausgabeeinheiten
• hohe Verwandtschaft zum Perzeptron, aber einige zentrale Unterschiede
– Anzahl der Ausgabeeinheiten
– Wahl der Aktivierungsfunktion(en)
– i.A. alles reellwertig (d.h. keine Einschränkung auf binäre Werte)
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 130 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Formales Modell linearer neuronaler Netze
• Name aufgrund der Verwendung linearer Aktivierungsfunktionen
• lineares neuronales Netz ist neuronales Netz (U, W, A, O, NET, ex) mit
1. U = UI ∪ UO mit nichtleeren und disjunkten UI (Eingabeschicht) undUO (Ausgabeschicht)
2. Netzwerkstruktur gegeben durch W : UI × UO → IR, es gibt also nurVerbindungen von der Eingabeschicht zur Ausgabeschicht
3. A ordnet jeder Eingabeeinheit u ∈ UI die einheitliche Aktivierungsfunk-tion
Au : IR → IR, Au : ex(u) �→ ex(u),
und jeder Ausgabeeinheit die lineare Aktivierungsfunktion
Av : IR → IR, Av : netv �→ netv + θv
zu; θv wird reeller Schwellwert oder Bias von v genannt4. O: alle Ausgabefunktionen übernehmen den Wert der Aktivierung au
als Ausgabe ou
5. NET ordnet jeder Ausgabeeinheit v ∈ UO eine lineare Netzeingabe-funktion NETv zu, die die Netzeingabe berechnet als
netv :=∑
u∈UI
W (u, v) · ou
6. ex : UI → IR ordnet jeder Eingabeeinheit u ∈ UI ihre externe Eingabeals Wert zu
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 131 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Das ADALINE
• ADALINE (ADAptive LInear NEuron):
– eines der ersten linearen neuronalen Netze– zunächst als adaptives Neuron eingeführt– 1960 von Widrow und Hoff vorgestellt
• Ähnlichkeit zum Perzeptron, aber
– lineare Aktivierungsfunktion– Erzeugung von Ausgaben aus {−1, +1}
• es gilt die Definition der vorigen Folie, bis auf
– ov := 1 falls av > 0 und ov := −1 falls av ≤ 0 für alle v ∈ UO
– ex : UI → {−1, 1}• Lernalgorithmus: Delta-Regel bzw. Widrow-Hoff-Regel
– überwachte Lernregel– Fehler einer Ausgabeeinheit als Differenz von erhaltener Aktivierung
und geforderter Aktivierung– ermöglicht Lernen auch bei bereits korrekter Ausgabe– Idee der Gewichtsänderung: passe Gewichte so an, dass Ausgabe bei
sofortiger erneuter Propagation derselben Eingabe korrekt (vgl. Rela-xation bei iterativen Verfahren zum Lösen linearer Gleichungssysteme)
– ermöglicht schnelleres Lernen als beim Perzeptron
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 132 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Die Delta-Regel
• ADALINE-Lernalgorithmus: Delta-Regel bzw. Widrow-Hoff-Regel
• gegeben seien ein ADALINE und eine feste Lernaufgabe
• Änderung ΔW (u, v) der Gewichte nach Propagation der Eingabe i des Mu-sters p der Lernaufgabe:
ΔpW (u, v) := σ ·(t(p)v − a(p)
v
)· a(p)
u
• Änderung Δθv der Bias-Werte nach Propagation der Eingabe i eines Mu-sters p der Lernaufgabe:
Δpθv := σ ·(t(p)v − a(p)
v
)• Bedeutung der Parameter:
– t(p)v : für die Ausgabeeinheit v vorgesehene Aktivierung
– a(p)v : erhaltene Aktivierung der Ausgabeeinheit v
– a(p)u : Aktivierung der Eingabeeinheit u
– σ: Lernrate, σ ∈ IR+
• Die so berechneten Werte werden über alle Eingaben der Lernaufgabe auf-summiert. Die Änderung von W und θ findet erst am Ende einer Epochestatt:
ΔW (u, v) :=∑
p
ΔpW (u, v), Δθv :=∑
p
Δpθv
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 133 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Fehler und Konvergenz
• Ziel: sukzessive Minimierung des Fehlers aller Einheiten durch Minimierungeines globalen Fehlermaßes E:
E :=12
∑v∈UO
∑p
(t(p)v − a(p)
v
)2
• Man kann i.d.T. zeigen, dass die Delta-Regel E tatsächlich minimiert; sieapproximiert also einen Gradientenabstieg bzgl. E.
• praktisches Problem: Wahl von σ
– zu groß: verhindert genaues Verfolgen des Gradienten und verhindertdeshalb u.U. Lernerfolg
– zu klein: Verfahren wird langsam
– typische Wahl: 0 ≤ σ ≤ 1
– vgl. Relaxationsparameter bei Relaxationsverfahren!
• Konvergenz?
– E hat nur ein Minimum
– allerdings muss im Minimum nicht immer E = 0 gelten
– bei nicht linear separablen Lernaufgaben (z.B. XOR) stellt sich Konver-genz ein, der Fehlerwert ist aber positiv
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 134 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
• ergo: auch lineare Netze eignen sich nicht zur Lösung nicht linear separablerLernaufgaben
• im Falle von Musterassoziation interessant: Anzahl der korrekt speicherba-ren Musterpaare
– es gilt: ADALINE mit n Eingabe- und m Ausgabeeinheiten kann maxi-mal n linear unabhängige Vektoren (Muster) fehlerfrei speichern
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 135 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
2.4.5. Multilayer-Perzeptronen
• Einschränkung der Einsetzbarkeit der bisher diskutierten Netzmodelle auf-grund der erforderlichen Eigenschaft der linearen Separabilität
– Gegenbeispiel 1: XOR– Gegenbeispiel 2: Klassifizierung binärer Eingabemuster nach gerader
bzw. ungerader Anzahl auftretender Einsen
• früh klar: innere Verarbeitungseinheiten bzw. Schichten können Abhilfe schaf-fen
• unklar jedoch zunächst:
– wie können geeignete Lernalgorithmen aussehen?– wie können Verbindungen trainiert werden, die zu inneren Einheiten
führen?
• Lösung (wie so oft mehrfach unabhängig erfunden: 1974, 1985, 1986):
– verallgemeinerte Delta-Regel als Verallgemeinerung der bereits ein-geführten Delta-Regel für mehrschichtige neuronale Netze
– üblichere Bezeichnung heute: (Error-)Backpropagation
• prominentes Beispiel mehrschichtiger neuronaler Netze: Multilayer-Perzeptron
– vorwärts betriebenes neuronales Netz– besteht aus einer Eingabeschicht, mindestens einer inneren Schicht
sowie einer Ausgabeschicht (auch mehrelementig)– bei n − 2 inneren Schichten: n-schichtig bzw. n − 1-stufig
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 136 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Formales Modell des Multilayer-Perzeptrons
• Multilayer-Perzeptron ist neuronales Netz (U, W, A, O, NET, ex) mit folgen-den Charakteristika:
1. U = U1∪. . .∪Un mit nichtleeren und paarweise disjunkten Ui, wobei U1
Eingabeschicht, Un Ausgabeschicht und die restlichen Ui, 1 < i < n,innere (versteckte) Schichten heißen
2. Netzwerkstruktur gegeben durch W : U × U → IR, wobei es nur Ver-bindungen zwischen direkt aufeinander folgenden Schichten gibt (alsovon Ui nach Ui+1, i = 1, . . . , n − 1)
3. A ordnet jeder Eingabeeinheit u ∈ U1 die einheitliche Aktivierungsfunk-tion
Au : IR → [0, 1], Au : ex(u) �→ ex(u),
und allen anderen Einheiten v ∈ U \ U1 die Aktivierungsfunktion
Av : IR → [0, 1], Av : netv �→ f(netv)
mit einheitlichem, fest gewähltem und nichtlinearem f zu
4. O: alle Ausgabefunktionen übernehmen den Wert der Aktivierung au
als Ausgabe ou
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 137 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
5. NET ordnet jeder Einheit v ∈ Ui, 2 ≤ i ≤ n, die NetzeingabefunktionNETv zu, die die Netzeingabe berechnet als
netv :=∑
u∈Ui−1
W (u, v) · ou + θv,
wobei θv Bias von v genannt wird
6. ex : U1 → [0, 1] ordnet jeder Eingabeeinheit u ∈ U1 ihre externe Einga-be als Wert zu
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 138 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Nichtlineare Aktivierungsfunktionen
• Funktion f muss nichtlinear sein: mehrschichtige Netze aus linearen Einhei-ten bringen nichts qualitativ Neues
• Aktivierungen der Neuronen liegen i.d.R. im Intervall [0, 1], wobei jedochauch andere Intervalle oder Binärwerte möglich sind
• für Lernfähigkeit ist stetiges und differenzierbares f erforderlich
• häufig getroffene Wahl für f : sigmoide (S-förmige) Gestalt, quasi als Annä-herung an eine lineare Schwellwertfunktion
– logistische Funktion (nähert sich asymptotisch 0 bzw. 1):
f1(x) :=1
1 + e−βx, β > 0
– tangens hyperbolicus (nähert sich asymptotisch −1 bzw. 1):
f2(x) := tanh(βx)
– arcustangens (nähert sich asymptotisch 0 bzw. 1):
f3(x) :=1π
(π
2+ arctan(βx)
)
– Parameter β bestimmt stets Steilheit
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 139 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Backpropagation – verallgemeinerte Delta-Regel
• zugrunde liegende Idee: rückwärtige Ausbreitung eines Fehlersignals durchdas Netzwerk
– propagiere Eingabemuster durch das Netz
– vergleiche das erhaltene Ausgabemuster mit der Vorgabe und ermittledaraus den Fehler der Ausgabeeinheiten
– propagiere diesen Fehler nun rückwärts durch das Netz (also in Rich-tung der Eingabeschicht)
– daraus können nun die inneren Einheiten ihren eigenen lokalen Fehlerermitteln
– Fehler in allen Einheiten bildet dann Grundlage für die Modifikation derGewichte (d.h. von W )
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 140 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
• verallgemeinerte Delta-Regel (überwachter Lernalgorithmus):
– gegeben Multilayer-Perzeptron mit nichtlinearem, monoton wachsen-dem und differenzierbarem f sowie feste Lernaufgabe
– Veränderung der Netzstruktur W nach Propagation der Eingabe i einesMusters p der Lernaufgabe:
ΔpW (u, v) := η · δ(p)v · a(p)
u
mit u ∈ Ui−1, v ∈ Ui, 2 ≤ i ≤ n, η > 0 und
δ(p)u :=
⎧⎨⎩
f ′(net
(p)u
)·(t(p)u − a
(p)u
)falls u ∈ Un,
f ′(net
(p)u
)· ∑v∈Uj+1
δ(p)v W (u, v) falls u ∈ Uj , 2 ≤ j < n
– dabei bezeichnen a(p)u und t
(p)u die erhaltene bzw. vorgegebene Aktivie-
rung/Ausgabe der Einheit u; η > 0 heißt Lernrate
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 141 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Fehler und Fehlertransport
• verwendetes Fehlermaß analog zur Delta-Regel:
E :=∑
p
E(p) :=12·∑
p
∑v∈Un
(t(p)v − a(p)
v
)2
• Ziel des Lernalgorithmus’ wie zuvor: Minimierung des Fehlers E durch Ver-änderungen der Gewichte des Netzes, folglich
ΔpW (u, v) ∼ − ∂E(p)∂W (u, v)
• daraus kann – mit etwas Analysis – die Berechnungsformel für die lokalenFehler δ
(p)u aus der verallgemeinerten Delta-Regel hergeleitet werden
• insgesamt somit rekursive Berechnungsvorschrift für den Fehler von derAusgabeschicht rückwärts durch das Netz
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 142 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Anwendung des Backpropagation-Algorithmus
• zwei Phasen:
– Phase 1: propagiere eine Eingabe vorwärts durch das Netz, um so dieAusgabe jeder Einheit zu bestimmen
– Phase 2: Backpropagation der Fehlersignale
• Phase 2 im Detail:
– bestimme Fehlersignale für die Ausgabeschicht durch Vergleich der er-reichten mit den erwünschten Ausgaben
– ermittle daraus die Gewichtsänderungen aller zur Ausgabeschicht füh-renden Verbindungen
– danach beginnt die eigentliche Rückwärtspropagation: transportiere Feh-ler, gewichtet mit den Verbindungsstärken der eingehenden Verbindun-gen, in die Vorgängerschicht und bestimme daraus die Gewichtsände-rungen der zu dieser Schicht führenden Verbindungen, etc.
• in der Praxis leichte Modifikation der Update-Formel:
ΔpW (u, v) := η · δ(p)v · a(p)
u + βΔqW (u, v),
wobei das Muster q das unmittelbar zuvor propagierte sei und β > 0 Mo-ment genannt wird
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 143 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
• Modifikation verleiht dem Lernverfahren eine gewisse Trägheit, die sich alshilfreich zur Vermeidung lokaler E-Minima, zur Vermeidung von Oszillatio-nen sowie allgemein zur Konvergenzbeschleunigung erweist
• oft günstig: ändere Gewichte nicht nach jeder Musterpropagation, sondernerst am Ende einer ganzen Epoche (dann summierte Änderungen)
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 144 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Wahl der Parameter
• Wahl der Parameter kann starken Einfluss auf Lernerfolg haben
• typische Werte für Lernrate: η ∈ [0, 1], η ≈ 0.05
• typische Werte für Moment: β ∈ [0, 1], β ≈ 0.9
• selbst bestmögliche Wahl garantiert jedoch Lernerfolg nicht: E sehr kom-pliziert, wir haben es mit einer Heuristik zu tun (vgl. Methode des steilstenAbstiegs in der Optimierung)
• Initialisierung von W : i.d.R. zufällige kleine Werte, z.B. aus [−0.1, 0.1] (nichtalle identisch!)
• passende Anzahl der inneren Schichten?
– eine innere Schicht prinzipiell ausreichend
• passende Zahl innerer Einheiten?
– notwendige Zahl kann nicht vorab bestimmt werden– Risiko, falls zu wenige: Netz kann Lernaufgabe nicht lösen– Risiko, falls zu viele: Problem der Übergeneralisierung (Netz kann es
sich leisten, innere Einheiten speziell für einzelne Eingaben zu reser-vieren – und vernachlässigt dadurch die Konstruktion der allgemeinenAbbildungsvorschrift)
• dennoch ist Backpropagation weit verbreitet
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 145 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Einmal mehr: das Beispiel XOR
• XOR-Problem gilt als klassisches Beispiel einer Lernaufgabe für das Multilayer-Perzeptron bzw. den Backpropagation-Algorithmus
• betrachte folgendes Multilayer-Perzeptron:
– U = U1 ∪ U2 ∪ U3 mit Eingabeschicht U1 = {u11, u12}, innerer SchichtU2 = {u21, u22} und Ausgabeschicht U3 = {u31}
– XOR-Problem als feste Lernaufgabe:
{((0, 0), 0), ((0, 1), 1), ((1, 0), 1), ((1, 1), 0)}– Aktivierungsfunktion sei die logistische Funktion– Initialisierung:
0.00
0.00
0.00XOR(x,y)
x
y
u11 u21
u12 u22
u31
-0.50
-0.09
-0.44 0.05
-0.220.16
– Lernrate η := 0.5, Moment β := 0.9– Updates von Gewichten und Bias-Werten erst am Epochenende
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 146 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Das Beispiel XOR (2)
• Abbruch des Lernvorgangs nach 272 Epochen mit einem Gesamtfehler E <0.01
• Ausgaben zu Beginn und nach Abschluss des Lernvorgangs:
AusgabeEingabe Ziel vor nach
(0,0) 0 0.53 0.04(0,1) 1 0.52 0.95(1,0) 1 0.52 0.95(1,1) 0 0.52 0.06
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 147 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
• Gewichte und Bias-Werte am Ende:
2.35
5.90
-3.64XOR(x,y)
x
y
u11 u21
u12 u22
u31
-6.07
-3.98
-3.99-7.98
-6.047.84
• ideale Ausgaben 0 bzw. 1 nicht erreicht (liegt an Gestalt der Aktivierungs-funktion, die 0 und 1 im endlichen Bereich nicht annimmt)
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 148 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Mächtigkeit des Multilayer-Perzeptrons
• großer Vorteil: Einschränkung auf linear separable Probleme entfällt
• Man kann sogar zeigen, dass mit Multilayer-Perzeptronen im Prinzip jedestetige Funktion g : [0, 1]n → [0, 1] beliebig genau approximiert werden kann.Deshalb werden Multilayer-Perzeptronen auch als universelle Approxima-toren bezeichnet.
• großer Nachteil: kein allgemeines Konvergenztheorem (Verfangen in lokalenMinima ist möglich) – Lösung der Lernaufgabe ist nicht sichergestellt
• außerdem problematisch: Wahl der Parameter und der Netzstruktur
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 149 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
Anwendungen
• Multilayer-Perzeptronen weit verbreitet unter den praktisch eingesetzten neu-ronalen Netzen
• bekannte frühe Implementierung: System NETtalk (1987)
– liest geschriebenen englischen Text laut vor
– dreischichtiges Netz mit 203 Eingabeeinheiten, 80 inneren Einheitenund 29 Ausgabeeinheiten
– Eingabe: sieben Zeichen breites Fenster, jedes durch 29 Neuronen dar-gestellt (Buchstaben des Alphabets plus Interpunktion und Zwischen-raum), von denen jeweils genau eines aktiviert wird
– Ausgabeschicht: 26 Einheiten zur Repräsentation artikulatorischer Merk-male, 3 Einheiten für Betonung und Silbengrenzen
– geeignete Kombination aktivierter Ausgabeeinheiten gestattet die Dar-stellung von Phonemen (unteilbare Laute der menschlichen Sprache)
– Ziel: gebe das korrekte Phonem für den mittleren der sieben Eingabe-buchstaben wieder (restliche sechs Zeichen für Kontextinformation)
– Trainingsdaten: Paare aus Text und Phoneminformation zu 1024 Wör-tern
– häufige Fehlerquelle: Verwechslung ähnlicher Phoneme
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 150 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
• Beispiele modernerer Anwendungen:
– komplexe Mustererkennung
– Finanzmathematik (ein mit Daten aus 1984-1986 trainiertes Systembspw. erwirtschaftete 1986-1992 einen durchschnittlichen jährlichen Pro-fit von 18 Prozent und schlug damals verbreitete stochastische Metho-den klar)
Entscheidungsmodelle: . . .
Reihenfolgeprobleme: . . .
Diskrete . . .
Neuronale Netze: . . .
Page 151 of 151
Modellbildung und Simulation
2. Diskrete Modellierung undSimulation
Hans-Joachim Bungartz
2.4.6. Ausblick
Wen’s interessiert – spannende weiterführende (und hier nicht behandelte) The-men:
• neuronale Netze für freie Lernaufgaben:
– Wettbewerbslernen
– Selbstorganisierende Karten
• rückgekoppelte neuronale Netze:
– Hopfield-Netze
– Simulated Annealing
– Boltzmann-Maschinen
• spannende Anwendung: neuronale Regler
– stellt Beziehung von Abschnitt 2.4 zu Abschnitt 3.2 her
• . . .