2.4. Neuronale Netze: Modellierung von Lernen und ...Neuronale Netze:... Page 99 of 151 Modellbildung und Simulation 2. Diskrete Modellierung und Simulation Hans-Joachim Bungartz 2.4.2

Entscheidungsmodelle: . . .

Reihenfolgeprobleme: . . .

Diskrete . . .

Neuronale Netze: . . .

Page 94 of 151

Modellbildung und Simulation

2. Diskrete Modellierung undSimulation

Hans-Joachim Bungartz

2.4. Neuronale Netze: Modellierung von Lernen undKlassifizieren

2.4.1. Einführung

• neuronale Netze (konnektionistische Modelle): Systeme, die einige derim menschlichen Gehirn bekannten oder vermuteten Organisationsprinzipi-en ausnutzen

• bestehen aus Vielzahl einfacher unabhängiger Prozessoren (Neuronen),die über gewichtete Verbindungen (synaptische Gewichte) kommunizieren

• Arbeiten zunächst stark neurobiologisch motiviert (z.B. Frank RosenblattsPerzeptron (1958) als erstes lernfähiges künstliches neuronales Netz)

• ein Hauptthema: Modellierung des Lernens über Lernregeln

– feste Lernaufgaben: Datensatz von Eingabemustern samt gewünsch-ten Ausgaben liegen vor; Zusammenhang soll erlernt werden (zur spä-teren Bearbeitung von – auch leicht modifizierten – Eingaben)

– freie Lernaufgaben: Ähnlichkeiten von Daten sollen gefunden werden,Strukturierung durch Klassenbildung (wobei Klassen nicht vorgegebensind)



Diskrete . . .


Page 95 of 151




• unterschiedliche Forschungsinteressen bei künstlichen neuronalen Netzen:

– Aufbau und Funktionsweise von Gehirnen verstehen

– kognitive Prozesse simulieren

– Datenbestände analysieren (Muster erkennen und vervollständigen, Ähn-lichkeiten erkennen, Daten klassifizieren)

– komplexe Systeme regeln und steuern



Diskrete . . .


Page 96 of 151




Das Neuronale Netz als Black Box

• Lernalgorithmen verändern typischerweise die mit den Verbindungen asso-ziierten Gewichte.

• Die Struktur des Netzes (Anzahl der Neuronen, Verbindungen) bleibt in derRegel erhalten.

• Erlerntes Wissen ist also implizit in den Gewichten kodiert.

• Konsequenzen:

– explizite Extraktion von Wissen i.A. nicht möglich

– explizite Integration von Vorwissen i.A. nicht möglich

– Wissen ist nicht symbolisch repräsentiert (als Regelbasis etwa), son-dern über das ganze Netz verteilt

• neuronales Netz als Black Box

• gilt als einer der wesentlichen Nachteile neuronaler Netze



Diskrete . . .


Page 97 of 151




Ein paar historische Bemerkungen

• Beginn der Erforschung künstlicher neuronaler Netze um 1940

• Motivation zunächst: Verständnis der neurophysiologischen Grundlagen desmenschlichen Gehirns

• Struktur aus Nervenzellen (Neuronen) und Kopplungsstellen (Synapsen) warfrüh bekannt

• erstes vereinfachendes Modell eines Neurons von McCulloch und Pitts(1943):

– Neuron als binäres Schaltelement – aktiv oder inaktiv– Neuron hat festen Schwellenwert– Neuron empfängt Eingaben von anregenden Synapsen gleichen Ge-

wichts– Neuron empfängt Eingaben von hemmenden Synapsen (eine aktive

hemmende Synapse verhindert die Aktivierung des Neurons)– Zeitfenster: falls keine hemmende Synapse aktiv ist, werden die Einga-

ben von den anregenden aktiven Synapsen addiert; bei Überschreitungseines Schwellwerts wird das Neuron aktiviert („Feuern“, Nervenzellekann das nicht öfter als etwa 200 Mal pro Sekunde)

• erste Beschreibung des Lernens in der Hebbschen Lernregel (1949): einLernvorgang verstärkt die Verbindung zwischen zwei Neuronen, wenn beidegleichzeitig aktiv sind



Diskrete . . .


Page 98 of 151




• dadurch sind AND und OR und somit endliche logische Ausdrücke darstell-bar

• weitere Meilensteine:

– Perzeptron von Rosenblatt (1958): erstes lernfähiges künstliches neu-ronales Netz, i.W. aufgebaut aus McCulloch-Pitts-Neuronen

– ADALINE (adaptive linear neuron) von Widrow und Hoff (1960): Delta-Regel als effiziente Weiterentwicklung des Perzeptron-Lernverfahrens

– Krise in der Folge von Arbeiten von Minsky und Papert (1969)

– Multilayer-Perzeptron von Rumelhart et al. (1986): Backpropagationals neues Lernverfahren

– . . .

• im Folgenden weit gehende Vernachlässigung der neurobiologischen Aspek-te



Diskrete . . .


Page 99 of 151




2.4.2. Ein generisches Modell für neuronale Netze

Definition• neuronales Netz als formale Struktur

• Definition generisch, umfasst alle wesentlichen Netzmodelle

• neuronales Netz ist ein Tupel (U, W, A, O, NET, ex), wobei gilt

– U ist endliche Menge von Verarbeitungseinheiten (Neuronen)

– W : U × U → IR gibt die Netzstruktur an

– A : U �→ Au, Au : IR3 → IR, ordnet jedem Neuron u seine Aktivie-rungsfunktion Au zu

– O : U �→ Ou, Ou : IR → IR, ordnet jedem Neuron u seine Ausgabe-funktion Ou zu

– NET : U �→ NETu, NETu : (IR × IR)|U | → IR, ordnet jedem Neuron useine interne oder Netzeingabefunktion zu

– ex : U → IR ist eine externe Eingabefunktion, die jedem Neuron ueine externe Eingabe in Form einer reellen Zahl zuordnet

• dies beschreibt die statischen Eigenschaften neuronaler Netze – keine Aus-sagen über ihre Dynamik!



Diskrete . . .


Page 100 of 151




U : Verarbeitungseinheiten

• vorstellbar als (einfache) Prozessoren oder Automaten

• haben aktuellen Zustand (Aktivierung)

• erhalten aktuelle Eingabe (aus dem Netz oder von außerhalb)

• berechnen neuen Zustand

• generieren Ausgabe

• arbeiten unabhängig voneinander und parallel

• oft wird unterschieden zwischen

– Eingabeeinheiten UI

– versteckten oder inneren Einheiten UH

– Ausgabeeinheiten UO



Diskrete . . .


Page 101 of 151




W : Netzstruktur

• Darstellung als gewichteter gerichteter Graph:

– Neuronen als Knoten– Synapsen als Kanten– synaptische Gewichte als Kantengewichte

• alternative Darstellung: Konnektionsmatrix

• Grundlage für Kommunikation der Neuronen

• Ausgabe eines Neurons wird zur Eingabe der mit ihm durch ausgehendeKanten verbundenen Neuronen

• Bedeutung der Gewichte:

– W (u1, u2) = 0: keine Verbindung– W (u1, u2) > 0: anregende Verbindung– W (u1, u2) < 0: hemmende Verbindung– W (u1, u2) = W (u2, u1) ∀u1, u2: symmetrisches Netz– W (u, u) = 0 ∀u: irreflexives Netz– Nullsetzen von Gewichten erlaubt geschichtete Netze wie das Multilayer-

Perzeptron

• W (d.h. die Gewichte) während der Lernphase veränderbar



Diskrete . . .


Page 102 of 151




A: Aktivierungsfunktionen

• im Prinzip individuell für jedes Neuron festlegbar

• in der Regel jedoch einheitlich für alle Neuronen (oder zumindest für alleNeuronen einer Schicht in geschichteten Netzen)

• Ausschlag geben können potenziell der aktuelle Zustand, die interne Einga-be sowie die externe Eingabe (daher der dreidimensionale Urbildraum)

• meistens wird jedoch nur die interne Eingabe herangezogen(dann Au : IR → IR)

• Beispiele:

– Schwellwertfunktion

– stückweise lineare Funktion

– lineare Funktion

– sigmoide Funktion



Diskrete . . .


Page 103 of 151




1

netu

au

θu

Schwellwertfunktion

au ={

1 falls netu > θu

0 sonst

1

netu

au

θ’u θu

Stückweise lineare Funktion

au =

⎧⎪⎨⎪⎩

1 falls netu > θu

0 falls netu < θ′unetu−θ′

u

θu−θ′u

sonst

1

netu

au

Lineare Funktion

au = cu · netu

1

netu

au

½

Sigmoide Funktion

au =1

1 + e−netu



Diskrete . . .


Page 104 of 151




O: Ausgabefunktionen

• führt Aktivierung eines Neurons in seine Ausgabe über

• wie bei A meist einheitlich für alle Neuronen

NET : interne / Netzeingabefunktionen

• wie zuvor in der Regel einheitlich für alle Neuronen

• meist wird hier sogar immer dieselbe Funktion eingesetzt:

netu :=∑v∈U

W (v, u) · ov,

wobei das Auftreten negativer Gewichte (hemmend!) i.A. nicht gesondertbehandelt wird

• d.h.: Netzeingabe für u ist gewichtete Summe aller Ausgaben im Netz

ex: externe Eingabefunktionen

• stellen Verbindung eines neuronalen Netzes mit der Außenwelt dar

• oft ist nur eine Teilmenge von Neuronen für externe Eingaben erreichbar (dieso genannten Eingabeeinheiten)

• steht i.A. nur während einer Eingabephase zur Verfügung, nicht mehr jedochwährend der Arbeitsphase



Diskrete . . .


Page 105 of 151




Schematischer Überblick

W(u1,u)

W(u2,u)

W(un,u)

W(u3,u)

Σ netu au ouAu Ou

ex(u)

ou1

ou2

ou3

oun

Eine Verarbeitungseinheit u eines Neuronalen Netzes



Diskrete . . .


Page 106 of 151




Arbeitsweise neuronaler Netze

• zunächst ohne Dynamik/Lernprozess (also nur Abbildung Eingabe �→ Aus-gabe)

• es gelteUI , UO �= ∅, UH ∩ (UI ∪ UO) = ∅

• drei Phasen:

– Ruhephase: konstante Aktivierungen, stabiler Zustand (muss sich kei-nesfalls immer automatisch einstellen)

– Eingabephase: an Ruhephase anschließend und durch externe Ein-gaben initiiert; abgeschlossen, wenn alle Eingabeeinheiten die externeEingabe ausgewertet und ihre Aktivierung bzw. Ausgabe entsprechendneu berechnet haben

– Arbeitsphase: an Eingabephase anschließend und durch neu berech-nete Ausgaben der Eingabeeinheiten initiiert; alle Neuronen führen nununabhängig Updates durch; abgeschlossen, wenn wieder eine Ruhe-phase erreicht ist (nicht sicher)



Diskrete . . .


Page 107 of 151




• Anmerkungen zur Auswertereihenfolge:

– meistens nicht in kontinuierlicher Zeit, sondern getaktet

– entweder Auswertung für alle Neuronen parallel in einem Takt (bzw. inmehreren Takten bei mehreren Schritten, vgl. das nachfolgende Bei-spiel)

– oder für (nacheinander auszuwertende) Teilmengen parallel in einemTakt

– oder seriell (bei fester oder variabler Reihenfolge)

– bei Zyklen kann die Reihenfolge Auswirkungen auf das automatischeErreichen eines stabilen Zustands haben (u.U. können durch geschick-te Wahl der Reihenfolge bei Parallelauswertung auftretende Oszillatio-nen vermieden werden)



Diskrete . . .


Page 108 of 151




Ein Beispiel

• U = x, y, z, UI = x, y, UO = z

• W gegeben durch Konnektionsmatrix:

x y zx 0 1 2y 0 0 3z 4 5 0

• einheitliche Aktivierungsfunktion A für alle drei Neuronen:

A(netu, ex(u)) =

{1, falls netu > 0 oder ex(u) = 10 sonst

• für alle Neuronen ist die Ausgabe gleich der Aktivierung

• Netzeingabe ist die oben eingeführte gewichtete Summe über alle Ausgabender Vorgänger

• ex(x) = ex(y) = 1, ex(z) ist nicht definiert

• Startzustand: alle Knoten weisen Aktivierung 0 auf

• ausgehend vom Startzustand und der anliegenden externen Eingabe, wirdnach drei Update-Schritten wieder ein stabiler Zustand erreicht



Diskrete . . .


Page 109 of 151




x y

z

ex(x) ex(y)

1

24

53

Ein einfaches Neuronales Netz

0 0

0

1 1

1

24

53

Eingabephase

1 1

0

1

24

53

Update 1

0 1

1

1

24

53

Update 2

1 1

1

1

24

53

Update 3 / stabiler Zustand



Diskrete . . .


Page 110 of 151




Dynamik – Lernen

• Lernvorgang: adaptive Veränderung der Netzgewichte W

• Ziele dieses Lernvorgangs: bestimme W so, dass das Netz

– auf bestimmte vorgegebene Eingaben in der gewollten Weise antwortet(also die erfolgreiche Bewältigung der Lernaufgabe im engeren Sinne)

– auf weitere Eingaben auf geeignete Art antwortet (Generalisierung,Strukturen und Muster erkennen)

– damit auch die passende Reaktion auf gestörte oder unvollständigeMuster zeigt (Fehlertoleranz)

• Vorgehen:

– propagiere verfügbare Eingabemuster durch das Netz

– vergleiche die erzielten Ausgaben mit den gewollten

– passe W geeignet so an, dass sich beim nächsten Versuch eine ver-besserte Approximation einstellt

• erforderlich: Metrik (d.h. Ähnlichkeits- oder Fehlermaß)

• Eingabe(muster): erlaubte Belegung von ex an allen Eingabeeinheiten

• Ausgabe(muster): erlaubte Belegung aller Ou in allen Ausgabeeinheiten



Diskrete . . .


Page 111 of 151




• freie Lernaufgabe:

– zu einer gegebenen Menge von Eingabemustern sind die Ausgaben zubestimmen

– die Lernaufgabe ist erfüllt, wenn im Sinne einer geeigneten Metrik ähn-liche Eingaben zu ähnlichen Ausgaben führen

• feste Lernaufgabe:

– gegeben sei eine Menge von Paaren von Ein- und Ausgabemustern;zu den Eingabemustern sind die Ausgaben zu bestimmen (Annahme:widerspruchsfrei!)

– die Lernaufgabe ist erfüllt, wenn die vorgegebenen Ausgaben erzeugtwerden

• Lernalgorithmus: Verfahren, das anhand einer gegebenen Lernaufgabe dieNetzgewichte W verändert

– überwachter Lernalgorithmus: Algorithmus zu fester Lernaufgabe

– nicht überwachter Lernalgorithmus: Algorithmus zu freier Lernaufga-be

– Erfolgsfall: Erfüllen der Lernaufgabe bzw. Unterschreiten einer Fehler-schranke in endlicher Zeit



Diskrete . . .


Page 112 of 151




Fehlermaße

• erforderlich für die Steuerung des Lernvorgangs in neuronalen Netzen:

– Erfolgskriterium: ist der Lernvorgang erfolgreich abgeschlossen?

– Modifikationsregel: wie ist W ggf. geeignet zu verändern?

– Misserfolgskriterium: ist ein Fortsetzen des Lernvorgangs überhauptsinnvoll?

• überwachte Lernalgorithmen verwenden hierzu i.A. ein Fehlermaß:

e : IR|UO| × IR|UO| → IR+0 , e(a, b) = 0 ⇔ a = b

• Fehler, den ein neuronales Netz bei der Verarbeitung einer Eingabe i mitSoll-Ausgabe t und Ist-Ausgabe o macht: e(t, o)

• typische Festlegung für eine einzelne Ausgabeeinheit u ∈ UO:

eu := tu − ou

• typische Festlegung für das gesamte neuronale Netz:

e :=∑

u∈UO

(tu − ou)2

(jeweils für eine feste Eingabe i mit Soll-Ausgabe t und Ist-Ausgabe o)



Diskrete . . .


Page 113 of 151




• Aufgabe eines überwachten Lernalgorithmus somit:

– ändere W so ab, dass für jedes Musterpaar (i, t) der festen Lernaufga-be der Fehlerwert e minimiert wird

– Abbruch, falls die (eventuell gewichtete) Summe der Einzelfehler fürdie verschiedenen Eingaben unter eine vorgegebene Toleranz fällt (Er-folgsfall) oder falls ein Weiterarbeiten als sinnlos erkannt wird (Diver-genz, Oszillationen)

– Update dieses Gesamtfehlers nach jeder Epoche, d.h. nach jedemvollständigen Durchlauf durch die Lernaufgabe (jede Eingabe einmalbehandelt)



Diskrete . . .


Page 114 of 151




Grundstruktur überwachter Lernalgorithmen

Algorithm 1 für alle Eingaben der Lernaufgabe:

(1) wähle Musterpaar (i, t) der Lernaufgabe aus

(2) propagiere die Eingabe, bis das Netz seine Ruhephase erreicht hat

(3) vergleiche die ermittelte Ausgabe o mit der Zielvorgabe t und füge den resultieren-den (lokalen) Fehler e zum Gesamtfehler (über die ganze Epoche) E hinzu

(4) falls lokaler Fehler nicht Null: ändere die Gewichte geeignet (d.h. so, dass beimnächsten Mal für diese Eingabe ein kleinerer Fehler zu erwarten ist)

(5) am Ende der Epoche (alle Eingaben einmal verarbeitet):falls E < ε: Abbruch wegen Erfolg; andernfalls: falls Fortsetzung sinnvoll, starteneue Epoche mit E := 0; andernfalls: Abbruch wegen Misserfolg

• Herzstück jedes überwachten Lernalgorithmus’ ist der Schritt (4)

• typisch: definiere E in Abhängigkeit von W und verwende ein Minimierungs-verfahren (z.B. Gradienten-basiert)

• oft heuristisch – Erfolg nicht garantiert!



Diskrete . . .


Page 115 of 151




Grundstruktur nicht überwachter Lernalgorithmen

• verarbeiten freie Lernaufgaben, die nur aus Eingaben bestehen (ohne Soll-Ausgaben)

• Fehlermaß, das die Veränderung von W steuert, somit nicht angebbar

• Klassifizierung als Ziel – konkrete Ausgaben interessieren i.d.R. nicht

• typisch: konkurrierende Einheiten, größte Aktivierung setzt sich durch

Algorithm 2 für alle Eingaben der Lernaufgabe:

(1) wähle Eingabe i der Lernaufgabe aus

(2) propagiere die Eingabe, bis das Netz seine Ruhephase erreicht hat

(3) verändere Netzstruktur W anhand eines Modifikationskriteriums

(4) am Ende der Epoche (alle Eingaben einmal verarbeitet):Abbruch, falls Endekriterium erfüllt; ansonsten starte neue Epoche

• durch Weglassen des Endekriteriums kann fortwährendes Lernen erreichtwerden



Diskrete . . .


Page 116 of 151




Lernparadigmen

Einsatz neuronaler Netze für verschiedene Aufgabengebiete, charakterisiert durchdie folgenden Lernparadigmen:

• Musterassoziation:

– Assoziation von Ein- und Ausgaben

– Eingabe dient später als Schlüssel für den Zugriff auf die Ausgabe

– Einsatz: Simulation von Assoziativspeichern

• Autoassoziation:

– Spezialfall der Musterassoziation, bei dem Ein- und Ausgabe dasselbeMuster repräsentieren

– Netz dient zur Mustervervollständigung

– Einsatz: Rekonstruktion gestörter oder unvollständiger Eingaben

• Mustererkennung:

– Spezialfall der Musterassoziation, bei dem mehrere Eingaben mit einerAusgabe assoziiert werden

– Ausgaben als disjunkte Klassen

– Einsatz: Klassifikation



Diskrete . . .


Page 117 of 151




• Ähnlichkeitserkennung:

– bilde aus Eingaben Regeln zur Klassifikation

– typischerweise mittels nicht überwachter Lernverfahren

– Einsatz: Mustererkennung

• Optimierung:

– nutze Minimierung des Fehlermaßes aus

– Einsatz: Lösung von Optimierungsproblemen (z.B. travelling salesman)



Diskrete . . .


Page 118 of 151




Einordnung neuronaler Netze

• Vorteile gegenüber alternativen Ansätzen:

– Lösung von Problemen hoher Komplexität mit relativ einfachen Mitteln

– Analyse und Modellierung des gegebenen Problems nicht erforderlich

– Angabe eines bestimmten Algorithmus nicht erforderlich

– vielmehr Konstruktion von Problemlösungsfähigkeit

• Nachteile:

– Lernerfolg nicht vorhersagbar

– Ergebnis nicht nachzuvollziehen

– gespeicherte Werte (z.B. die Gewichte) tragen keine erkennbare Be-deutung



Diskrete . . .


Page 119 of 151




2.4.3. Perzeptronen

• Perzeptron ist einfaches neuronales Netz ohne innere Einheiten bzw. Schich-ten

• es besteht sogar nur aus einer einzigen Verarbeitungseinheit

• Einsatz v.a. zur Musterklassifikation

• zugrunde liegende Modellvorstellung:

– auf einer imaginären Netzhaut sitzen viele optische Rezeptoren

– im Falle eines Reizes senden diese Rezeptoren Impulse an die Verar-beitungseinheit

– Impulse werden aufgrund der Verbindungsgewichte in ihrer Stärke mo-difiziert

– Verarbeitungseinheit ist lineare Schwellwerteinheit: Addition der ein-gehenden Impulse und Aktivierung der Einheit bei Überschreiten desSchwellwerts θ

– Perzeptron trifft also binäre Entscheidung (zwei Zustände)

– Entscheidungsfindung entspricht der Berechnung eines Prädikats



Diskrete . . .


Page 120 of 151




Formales Modell des Perzeptrons

• im Folgenden leicht verallgemeinerte Deutung mit mehreren Eingabeeinhei-ten (keine Verarbeitung, lediglich Aufnahme der Eingabe) und einer einzigenAusgabeeinheit

• in diesem Sinne zweischichtiges bzw. einstufiges neuronales Netz

• Perzeptron ist neuronales Netz (U, W, A, O, NET, ex) mit

1. U = UI ∪ UO mit nichtleeren und disjunkten UI , UO, wobei die Ausga-beschicht UO = {v} einelementig ist

2. Netzwerkstruktur gegeben durch W : UI × UO → IR, es gibt also nurVerbindungen von der Eingabeschicht zur Ausgabeeinheit v

3. A ordnet jeder Eingabeeinheit u ∈ UI die einheitliche Aktivierungsfunk-tion

Au : {0, 1} → {0, 1}, Au : ex(u) �→ ex(u),

und der Ausgabeeinheit die lineare Schwellwertfunktion

Av : IR → {0, 1}, Av : netv �→{

0 falls netv ≤ θ1 sonst

zu

4. O: alle Ausgabefunktionen übernehmen den Wert der Aktivierung au

als Ausgabe ou



Diskrete . . .


Page 121 of 151




5. NET ordnet der Ausgabeeinheit v die Netzeingabefunktion NETv zu,die die Netzeingabe berechnet als

netv :=∑

u∈UI

W (u, v) · ou

6. ex ordnet jeder Eingabeeinheit u ∈ UI ihre externe Eingabe (0 oder 1)als Wert zu



Diskrete . . .


Page 122 of 151




Merkmale, Merkmalsraum, Klassifikation

• eine (eindimensionale) Eigenschaft X wird auch Merkmal genannt, die Men-ge der möglichen Ausprägungen (i.A. reellwertig, beim Perzeptron binär)Merkmalsraum, eine konkrete Ausprägung x ∈ X Muster

• Merkmalsraum oder Universum ist oft höherdimensional, also X = X1 ×. . . × Xn mit Vektoren von Merkmalen bzw. Ausprägungen als Muster

• die Ausgabe eines Perzeptrons klassifiziert (n-dimensionale) Muster bzgl.einer (eindimensionalen) Ausgabeeigenschaft – somit wird also ein Prädikatentschieden (auf der Netzeingabefunktion)

• ein solches Prädikat heißt linear separabel, wenn es ein θ ∈ IR sowie füralle Merkmale i = 1, ..., n Gewichte wi ∈ IR gibt, sodass die Auswertung dergewichteten Summe bzw. der linearen Schwellwertfunktion

n∑i=1

wi · xi > θ

das Prädikat für alle möglichen konkreten Ausprägungen entscheidet

• im Perzeptron stellen die W (u, v) die Gewichte und die Aktivierungen au dieAusprägungen dar



Diskrete . . .


Page 123 of 151




Beispiele

• Sei X := {0, 1}2; das Prädikat AND (logisches UND) lässt sich offensichtlichdurch die Auswertung der linearen Schwellwertfunktion

x1 + x2 > 1

berechnen.

• Sei X := {0, 1}3; das Prädikat ZWEI (mindestens zwei von drei Merkmalenmüssen ausgeprägt sein) kann durch die lineare Schwellwertfunktion

x1 + x2 + x3 > 1

dargestellt werden.

• Sei X := {0, 1}2; das Prädikat XOR (ausschließliches ODER) ist dagegennicht als lineare Schwellwertfunktion darstellbar; die übliche Darstellung bei-spielsweise

x1(1 − x2) + (1 − x1)x2 > 0

ist nichtlinear! Die Unmöglichkeit der linearen Darstellung kann formal ge-zeigt werden.

• Das letzte Beispiel beendete seinerzeit die frühe Phase der Euphorie überneuronale Netze.



Diskrete . . .


Page 124 of 151




Lineare Separabilität

• jetzt: geometrische Anschauung für die lineare Separabilität

• dazu: Verallgemeinerung der Definition des Perzeptrons zum Perzeptronmit reellwertigen Eingabeinheiten; hierbei wird das Interval [0, 1] anstellevon {0, 1} als Bildbereich der externen Eingabefunktion zugelassen

• wie zuvor gilt:

– ein Prädikat ist zu entscheiden– ein einzelnes Perzeptron kann Wahrheitswert dieses Prädikats nur be-

rechnen, wenn es sich als lineare Schwellwertfunktion darstellen lässt

• neu ist:

– das Eingabemuster kann Merkmale mit kontinuierlichen Ausprägungenaufweisen

– das Prädikat kann daher nicht mehr als Boolescher Ausdruck darge-stellt werden

• geometrische Deutung der Entscheidung:

– Trennung des Universums an einer Geraden (2D), Ebene (3D) oder Hy-perebene (JA bzw. 1 auf der einen Seite, NEIN bzw. 0 auf der anderen)

– damit ist auch der Grund des Scheiterns bei XOR klar: hier sind zweiGeraden zur Entscheidung erforderlich (geht nur mit Hilfe mehrerer Per-zeptronen)



Diskrete . . .


Page 125 of 151




Der Lernalgorithmus des Perzeptrons

• Perzeptron kann nur feste Lernaufgabe mit überwachtem Lernalgorithmusbewältigen

• Perzeptron-Lernregel (jetzt wieder originales (binäres) Perzeptron):

– entspricht der Delta-Regel oder Widrow-Hoff-Regel (siehe Abschnitt2.4.4.)

– korrigiert Gewichte der Verbindungen zur Ausgabeeinheit anhand desdort aufgetretenen Fehlers

– Fehler wie zuvor definiert als Differenz von vorgegebener und tatsäch-licher Ausgabe

– mögliche Fehlerwerte sind 0, 1 oder −1

• Algorithmus:

– Änderung ΔW (u, v) der Gewichte nach Propagation der Eingabe i ei-nes Musterpaares (i, t) der Lernaufgabe:

ΔW (u, v) :=

⎧⎪⎨⎪⎩

0 falls av = t

+σau falls av = 0, t = 1−σau falls av = 1, t = 0



Diskrete . . .


Page 126 of 151




– Änderung Δθ des Schwellwerts nach Propagation der Eingabe i einesMusterpaares (i, t) der Lernaufgabe:

Δθ :=

⎧⎪⎨⎪⎩

0 falls av = t

−σ falls av = 0, t = 1+σ falls av = 1, t = 0

– Faktor σ wird Lernrate genannt

– Änderungen also nur für aktivierte vorgeschaltete Eingabeeinheiten



Diskrete . . .


Page 127 of 151




Beispiel: Lernen des AND-Prädikats

• Eingabeeinheiten u1, u2, Ausgabeeinheit v, zu lernen ist das logische UND

• Lernrate σ := 1, Startwerte W (u1, v) = W (u2, v) = θ := 0

• nachfolgend dargestellte Lösung (Gewichte) nur eine von vielen (abhängigvon σ oder der Reihenfolge der Musterpropagation innerhalb der einzelnenEpochen)

i t av e ΔW (u1, v) ΔW (u2, v) Δθ W (u1, v) W (u2, v) θ

1. Epoche

0 0 0 0 0 0 0 0 0 0 00 1 0 0 0 0 0 0 0 0 01 0 0 0 0 0 0 0 0 0 01 1 1 0 1 1 1 -1 1 1 -1

2. Epoche

0 0 0 1 -1 0 0 1 1 1 00 1 0 1 -1 0 -1 1 1 0 11 0 0 0 0 0 0 0 1 0 11 1 1 0 1 1 1 -1 2 1 0

3. Epoche

0 0 0 0 0 0 0 0 2 1 00 1 0 1 -1 0 -1 1 2 0 11 0 0 1 -1 -1 0 1 1 0 21 1 1 0 1 1 1 -1 2 1 1

4. Epoche

0 0 0 0 0 0 0 0 2 1 10 1 0 0 0 0 0 0 2 1 11 0 0 1 -1 -1 0 1 1 1 21 1 1 0 1 1 1 -1 2 2 1

5. Epoche

0 0 0 0 0 0 0 0 2 2 10 1 0 1 -1 0 -1 1 2 1 21 0 0 0 0 0 0 0 2 1 21 1 1 1 0 0 0 0 2 1 2

6. Epoche

0 0 0 0 0 0 0 0 2 1 20 1 0 0 0 0 0 0 2 1 21 0 0 0 0 0 0 0 2 1 21 1 1 1 0 0 0 0 2 1 2



Diskrete . . .


Page 128 of 151




Konvergenz

• gegeben: linear separable Lernaufgabe

• dann gilt: Perzeptron-Lernalgorithmus konvergiert garantiert zu einer geeig-neten Gewichtskonfiguration mit verschwindendem Gesamtfehler

• bewiesen im so genannten Perzeptron-Konvergenztheorem

• cave: dies sagt nichts aus über die Konvergenzgeschwindigkeit (also die An-zahl der erforderlichen Epochen bis um Erreichen des stationären Zustands)

• Konvergenzgeschwindigkeit hängt ab von

– Zusammensetzung der Lernaufgabe (also die (i, t)-Paare)

– Reihenfolge der Musterpropagation

– Lernrate

– Initialgewichte

• optimale Einstellung dieser Parameter i.A. aufgrund von Heuristiken



Diskrete . . .


Page 129 of 151




2.4.4. Einfache lineare Modelle

• Einfache lineare neuronale Netze sind – wie das Perzeptron – zweischich-tige bzw. einstufige Systeme.

• hier jedoch oft anderes Lernparadigma:

– Musterassoziation statt Musterklassifikation (Eingabemuster als Schlüs-sel für vom Netz zu erzeugendes Ausgabemuster)

– impliziert i.d.R. mehrere Ausgabeeinheiten

• hohe Verwandtschaft zum Perzeptron, aber einige zentrale Unterschiede

– Anzahl der Ausgabeeinheiten

– Wahl der Aktivierungsfunktion(en)

– i.A. alles reellwertig (d.h. keine Einschränkung auf binäre Werte)



Diskrete . . .


Page 130 of 151




Formales Modell linearer neuronaler Netze

• Name aufgrund der Verwendung linearer Aktivierungsfunktionen

• lineares neuronales Netz ist neuronales Netz (U, W, A, O, NET, ex) mit

1. U = UI ∪ UO mit nichtleeren und disjunkten UI (Eingabeschicht) undUO (Ausgabeschicht)

2. Netzwerkstruktur gegeben durch W : UI × UO → IR, es gibt also nurVerbindungen von der Eingabeschicht zur Ausgabeschicht

3. A ordnet jeder Eingabeeinheit u ∈ UI die einheitliche Aktivierungsfunk-tion

Au : IR → IR, Au : ex(u) �→ ex(u),

und jeder Ausgabeeinheit die lineare Aktivierungsfunktion

Av : IR → IR, Av : netv �→ netv + θv

zu; θv wird reeller Schwellwert oder Bias von v genannt4. O: alle Ausgabefunktionen übernehmen den Wert der Aktivierung au

als Ausgabe ou

5. NET ordnet jeder Ausgabeeinheit v ∈ UO eine lineare Netzeingabe-funktion NETv zu, die die Netzeingabe berechnet als

netv :=∑

u∈UI

W (u, v) · ou

6. ex : UI → IR ordnet jeder Eingabeeinheit u ∈ UI ihre externe Eingabeals Wert zu



Diskrete . . .


Page 131 of 151




Das ADALINE

• ADALINE (ADAptive LInear NEuron):

– eines der ersten linearen neuronalen Netze– zunächst als adaptives Neuron eingeführt– 1960 von Widrow und Hoff vorgestellt

• Ähnlichkeit zum Perzeptron, aber

– lineare Aktivierungsfunktion– Erzeugung von Ausgaben aus {−1, +1}

• es gilt die Definition der vorigen Folie, bis auf

– ov := 1 falls av > 0 und ov := −1 falls av ≤ 0 für alle v ∈ UO

– ex : UI → {−1, 1}• Lernalgorithmus: Delta-Regel bzw. Widrow-Hoff-Regel

– überwachte Lernregel– Fehler einer Ausgabeeinheit als Differenz von erhaltener Aktivierung

und geforderter Aktivierung– ermöglicht Lernen auch bei bereits korrekter Ausgabe– Idee der Gewichtsänderung: passe Gewichte so an, dass Ausgabe bei

sofortiger erneuter Propagation derselben Eingabe korrekt (vgl. Rela-xation bei iterativen Verfahren zum Lösen linearer Gleichungssysteme)

– ermöglicht schnelleres Lernen als beim Perzeptron



Diskrete . . .


Page 132 of 151




Die Delta-Regel

• ADALINE-Lernalgorithmus: Delta-Regel bzw. Widrow-Hoff-Regel

• gegeben seien ein ADALINE und eine feste Lernaufgabe

• Änderung ΔW (u, v) der Gewichte nach Propagation der Eingabe i des Mu-sters p der Lernaufgabe:

ΔpW (u, v) := σ ·(t(p)v − a(p)

v

)· a(p)

u

• Änderung Δθv der Bias-Werte nach Propagation der Eingabe i eines Mu-sters p der Lernaufgabe:

Δpθv := σ ·(t(p)v − a(p)

v

)• Bedeutung der Parameter:

– t(p)v : für die Ausgabeeinheit v vorgesehene Aktivierung

– a(p)v : erhaltene Aktivierung der Ausgabeeinheit v

– a(p)u : Aktivierung der Eingabeeinheit u

– σ: Lernrate, σ ∈ IR+

• Die so berechneten Werte werden über alle Eingaben der Lernaufgabe auf-summiert. Die Änderung von W und θ findet erst am Ende einer Epochestatt:

ΔW (u, v) :=∑

p

ΔpW (u, v), Δθv :=∑

p

Δpθv



Diskrete . . .


Page 133 of 151




Fehler und Konvergenz

• Ziel: sukzessive Minimierung des Fehlers aller Einheiten durch Minimierungeines globalen Fehlermaßes E:

E :=12

∑v∈UO

∑p

(t(p)v − a(p)

v

)2

• Man kann i.d.T. zeigen, dass die Delta-Regel E tatsächlich minimiert; sieapproximiert also einen Gradientenabstieg bzgl. E.

• praktisches Problem: Wahl von σ

– zu groß: verhindert genaues Verfolgen des Gradienten und verhindertdeshalb u.U. Lernerfolg

– zu klein: Verfahren wird langsam

– typische Wahl: 0 ≤ σ ≤ 1

– vgl. Relaxationsparameter bei Relaxationsverfahren!

• Konvergenz?

– E hat nur ein Minimum

– allerdings muss im Minimum nicht immer E = 0 gelten

– bei nicht linear separablen Lernaufgaben (z.B. XOR) stellt sich Konver-genz ein, der Fehlerwert ist aber positiv



Diskrete . . .


Page 134 of 151




• ergo: auch lineare Netze eignen sich nicht zur Lösung nicht linear separablerLernaufgaben

• im Falle von Musterassoziation interessant: Anzahl der korrekt speicherba-ren Musterpaare

– es gilt: ADALINE mit n Eingabe- und m Ausgabeeinheiten kann maxi-mal n linear unabhängige Vektoren (Muster) fehlerfrei speichern



Diskrete . . .


Page 135 of 151




2.4.5. Multilayer-Perzeptronen

• Einschränkung der Einsetzbarkeit der bisher diskutierten Netzmodelle auf-grund der erforderlichen Eigenschaft der linearen Separabilität

– Gegenbeispiel 1: XOR– Gegenbeispiel 2: Klassifizierung binärer Eingabemuster nach gerader

bzw. ungerader Anzahl auftretender Einsen

• früh klar: innere Verarbeitungseinheiten bzw. Schichten können Abhilfe schaf-fen

• unklar jedoch zunächst:

– wie können geeignete Lernalgorithmen aussehen?– wie können Verbindungen trainiert werden, die zu inneren Einheiten

führen?

• Lösung (wie so oft mehrfach unabhängig erfunden: 1974, 1985, 1986):

– verallgemeinerte Delta-Regel als Verallgemeinerung der bereits ein-geführten Delta-Regel für mehrschichtige neuronale Netze

– üblichere Bezeichnung heute: (Error-)Backpropagation

• prominentes Beispiel mehrschichtiger neuronaler Netze: Multilayer-Perzeptron

– vorwärts betriebenes neuronales Netz– besteht aus einer Eingabeschicht, mindestens einer inneren Schicht

sowie einer Ausgabeschicht (auch mehrelementig)– bei n − 2 inneren Schichten: n-schichtig bzw. n − 1-stufig



Diskrete . . .


Page 136 of 151




Formales Modell des Multilayer-Perzeptrons

• Multilayer-Perzeptron ist neuronales Netz (U, W, A, O, NET, ex) mit folgen-den Charakteristika:

1. U = U1∪. . .∪Un mit nichtleeren und paarweise disjunkten Ui, wobei U1

Eingabeschicht, Un Ausgabeschicht und die restlichen Ui, 1 < i < n,innere (versteckte) Schichten heißen

2. Netzwerkstruktur gegeben durch W : U × U → IR, wobei es nur Ver-bindungen zwischen direkt aufeinander folgenden Schichten gibt (alsovon Ui nach Ui+1, i = 1, . . . , n − 1)

3. A ordnet jeder Eingabeeinheit u ∈ U1 die einheitliche Aktivierungsfunk-tion

Au : IR → [0, 1], Au : ex(u) �→ ex(u),

und allen anderen Einheiten v ∈ U \ U1 die Aktivierungsfunktion

Av : IR → [0, 1], Av : netv �→ f(netv)

mit einheitlichem, fest gewähltem und nichtlinearem f zu

4. O: alle Ausgabefunktionen übernehmen den Wert der Aktivierung au

als Ausgabe ou



Diskrete . . .


Page 137 of 151




5. NET ordnet jeder Einheit v ∈ Ui, 2 ≤ i ≤ n, die NetzeingabefunktionNETv zu, die die Netzeingabe berechnet als

netv :=∑

u∈Ui−1

W (u, v) · ou + θv,

wobei θv Bias von v genannt wird

6. ex : U1 → [0, 1] ordnet jeder Eingabeeinheit u ∈ U1 ihre externe Einga-be als Wert zu



Diskrete . . .


Page 138 of 151




Nichtlineare Aktivierungsfunktionen

• Funktion f muss nichtlinear sein: mehrschichtige Netze aus linearen Einhei-ten bringen nichts qualitativ Neues

• Aktivierungen der Neuronen liegen i.d.R. im Intervall [0, 1], wobei jedochauch andere Intervalle oder Binärwerte möglich sind

• für Lernfähigkeit ist stetiges und differenzierbares f erforderlich

• häufig getroffene Wahl für f : sigmoide (S-förmige) Gestalt, quasi als Annä-herung an eine lineare Schwellwertfunktion

– logistische Funktion (nähert sich asymptotisch 0 bzw. 1):

f1(x) :=1

1 + e−βx, β > 0

– tangens hyperbolicus (nähert sich asymptotisch −1 bzw. 1):

f2(x) := tanh(βx)

– arcustangens (nähert sich asymptotisch 0 bzw. 1):

f3(x) :=1π

(π

2+ arctan(βx)

)

– Parameter β bestimmt stets Steilheit



Diskrete . . .


Page 139 of 151




Backpropagation – verallgemeinerte Delta-Regel

• zugrunde liegende Idee: rückwärtige Ausbreitung eines Fehlersignals durchdas Netzwerk

– propagiere Eingabemuster durch das Netz

– vergleiche das erhaltene Ausgabemuster mit der Vorgabe und ermittledaraus den Fehler der Ausgabeeinheiten

– propagiere diesen Fehler nun rückwärts durch das Netz (also in Rich-tung der Eingabeschicht)

– daraus können nun die inneren Einheiten ihren eigenen lokalen Fehlerermitteln

– Fehler in allen Einheiten bildet dann Grundlage für die Modifikation derGewichte (d.h. von W )



Diskrete . . .


Page 140 of 151




• verallgemeinerte Delta-Regel (überwachter Lernalgorithmus):

– gegeben Multilayer-Perzeptron mit nichtlinearem, monoton wachsen-dem und differenzierbarem f sowie feste Lernaufgabe

– Veränderung der Netzstruktur W nach Propagation der Eingabe i einesMusters p der Lernaufgabe:

ΔpW (u, v) := η · δ(p)v · a(p)

u

mit u ∈ Ui−1, v ∈ Ui, 2 ≤ i ≤ n, η > 0 und

δ(p)u :=

⎧⎨⎩

f ′(net

(p)u

)·(t(p)u − a

(p)u

)falls u ∈ Un,

f ′(net

(p)u

)· ∑v∈Uj+1

δ(p)v W (u, v) falls u ∈ Uj , 2 ≤ j < n

– dabei bezeichnen a(p)u und t

(p)u die erhaltene bzw. vorgegebene Aktivie-

rung/Ausgabe der Einheit u; η > 0 heißt Lernrate



Diskrete . . .


Page 141 of 151




Fehler und Fehlertransport

• verwendetes Fehlermaß analog zur Delta-Regel:

E :=∑

p

E(p) :=12·∑

p

∑v∈Un

(t(p)v − a(p)

v

)2

• Ziel des Lernalgorithmus’ wie zuvor: Minimierung des Fehlers E durch Ver-änderungen der Gewichte des Netzes, folglich

ΔpW (u, v) ∼ − ∂E(p)∂W (u, v)

• daraus kann – mit etwas Analysis – die Berechnungsformel für die lokalenFehler δ

(p)u aus der verallgemeinerten Delta-Regel hergeleitet werden

• insgesamt somit rekursive Berechnungsvorschrift für den Fehler von derAusgabeschicht rückwärts durch das Netz



Diskrete . . .


Page 142 of 151




Anwendung des Backpropagation-Algorithmus

• zwei Phasen:

– Phase 1: propagiere eine Eingabe vorwärts durch das Netz, um so dieAusgabe jeder Einheit zu bestimmen

– Phase 2: Backpropagation der Fehlersignale

• Phase 2 im Detail:

– bestimme Fehlersignale für die Ausgabeschicht durch Vergleich der er-reichten mit den erwünschten Ausgaben

– ermittle daraus die Gewichtsänderungen aller zur Ausgabeschicht füh-renden Verbindungen

– danach beginnt die eigentliche Rückwärtspropagation: transportiere Feh-ler, gewichtet mit den Verbindungsstärken der eingehenden Verbindun-gen, in die Vorgängerschicht und bestimme daraus die Gewichtsände-rungen der zu dieser Schicht führenden Verbindungen, etc.

• in der Praxis leichte Modifikation der Update-Formel:

ΔpW (u, v) := η · δ(p)v · a(p)

u + βΔqW (u, v),

wobei das Muster q das unmittelbar zuvor propagierte sei und β > 0 Mo-ment genannt wird



Diskrete . . .


Page 143 of 151




• Modifikation verleiht dem Lernverfahren eine gewisse Trägheit, die sich alshilfreich zur Vermeidung lokaler E-Minima, zur Vermeidung von Oszillatio-nen sowie allgemein zur Konvergenzbeschleunigung erweist

• oft günstig: ändere Gewichte nicht nach jeder Musterpropagation, sondernerst am Ende einer ganzen Epoche (dann summierte Änderungen)



Diskrete . . .


Page 144 of 151




Wahl der Parameter

• Wahl der Parameter kann starken Einfluss auf Lernerfolg haben

• typische Werte für Lernrate: η ∈ [0, 1], η ≈ 0.05

• typische Werte für Moment: β ∈ [0, 1], β ≈ 0.9

• selbst bestmögliche Wahl garantiert jedoch Lernerfolg nicht: E sehr kom-pliziert, wir haben es mit einer Heuristik zu tun (vgl. Methode des steilstenAbstiegs in der Optimierung)

• Initialisierung von W : i.d.R. zufällige kleine Werte, z.B. aus [−0.1, 0.1] (nichtalle identisch!)

• passende Anzahl der inneren Schichten?

– eine innere Schicht prinzipiell ausreichend

• passende Zahl innerer Einheiten?

– notwendige Zahl kann nicht vorab bestimmt werden– Risiko, falls zu wenige: Netz kann Lernaufgabe nicht lösen– Risiko, falls zu viele: Problem der Übergeneralisierung (Netz kann es

sich leisten, innere Einheiten speziell für einzelne Eingaben zu reser-vieren – und vernachlässigt dadurch die Konstruktion der allgemeinenAbbildungsvorschrift)

• dennoch ist Backpropagation weit verbreitet



Diskrete . . .


Page 145 of 151




Einmal mehr: das Beispiel XOR

• XOR-Problem gilt als klassisches Beispiel einer Lernaufgabe für das Multilayer-Perzeptron bzw. den Backpropagation-Algorithmus

• betrachte folgendes Multilayer-Perzeptron:

– U = U1 ∪ U2 ∪ U3 mit Eingabeschicht U1 = {u11, u12}, innerer SchichtU2 = {u21, u22} und Ausgabeschicht U3 = {u31}

– XOR-Problem als feste Lernaufgabe:

{((0, 0), 0), ((0, 1), 1), ((1, 0), 1), ((1, 1), 0)}– Aktivierungsfunktion sei die logistische Funktion– Initialisierung:

0.00

0.00

0.00XOR(x,y)

x

y

u11 u21

u12 u22

u31

-0.50

-0.09

-0.44 0.05

-0.220.16

– Lernrate η := 0.5, Moment β := 0.9– Updates von Gewichten und Bias-Werten erst am Epochenende



Diskrete . . .


Page 146 of 151




Das Beispiel XOR (2)

• Abbruch des Lernvorgangs nach 272 Epochen mit einem Gesamtfehler E <0.01

• Ausgaben zu Beginn und nach Abschluss des Lernvorgangs:

AusgabeEingabe Ziel vor nach

(0,0) 0 0.53 0.04(0,1) 1 0.52 0.95(1,0) 1 0.52 0.95(1,1) 0 0.52 0.06



Diskrete . . .


Page 147 of 151




• Gewichte und Bias-Werte am Ende:

2.35

5.90

-3.64XOR(x,y)

x

y

u11 u21

u12 u22

u31

-6.07

-3.98

-3.99-7.98

-6.047.84

• ideale Ausgaben 0 bzw. 1 nicht erreicht (liegt an Gestalt der Aktivierungs-funktion, die 0 und 1 im endlichen Bereich nicht annimmt)



Diskrete . . .


Page 148 of 151




Mächtigkeit des Multilayer-Perzeptrons

• großer Vorteil: Einschränkung auf linear separable Probleme entfällt

• Man kann sogar zeigen, dass mit Multilayer-Perzeptronen im Prinzip jedestetige Funktion g : [0, 1]n → [0, 1] beliebig genau approximiert werden kann.Deshalb werden Multilayer-Perzeptronen auch als universelle Approxima-toren bezeichnet.

• großer Nachteil: kein allgemeines Konvergenztheorem (Verfangen in lokalenMinima ist möglich) – Lösung der Lernaufgabe ist nicht sichergestellt

• außerdem problematisch: Wahl der Parameter und der Netzstruktur



Diskrete . . .


Page 149 of 151




Anwendungen

• Multilayer-Perzeptronen weit verbreitet unter den praktisch eingesetzten neu-ronalen Netzen

• bekannte frühe Implementierung: System NETtalk (1987)

– liest geschriebenen englischen Text laut vor

– dreischichtiges Netz mit 203 Eingabeeinheiten, 80 inneren Einheitenund 29 Ausgabeeinheiten

– Eingabe: sieben Zeichen breites Fenster, jedes durch 29 Neuronen dar-gestellt (Buchstaben des Alphabets plus Interpunktion und Zwischen-raum), von denen jeweils genau eines aktiviert wird

– Ausgabeschicht: 26 Einheiten zur Repräsentation artikulatorischer Merk-male, 3 Einheiten für Betonung und Silbengrenzen

– geeignete Kombination aktivierter Ausgabeeinheiten gestattet die Dar-stellung von Phonemen (unteilbare Laute der menschlichen Sprache)

– Ziel: gebe das korrekte Phonem für den mittleren der sieben Eingabe-buchstaben wieder (restliche sechs Zeichen für Kontextinformation)

– Trainingsdaten: Paare aus Text und Phoneminformation zu 1024 Wör-tern

– häufige Fehlerquelle: Verwechslung ähnlicher Phoneme



Diskrete . . .


Page 150 of 151




• Beispiele modernerer Anwendungen:

– komplexe Mustererkennung

– Finanzmathematik (ein mit Daten aus 1984-1986 trainiertes Systembspw. erwirtschaftete 1986-1992 einen durchschnittlichen jährlichen Pro-fit von 18 Prozent und schlug damals verbreitete stochastische Metho-den klar)



Diskrete . . .


Page 151 of 151




2.4.6. Ausblick

Wen’s interessiert – spannende weiterführende (und hier nicht behandelte) The-men:

• neuronale Netze für freie Lernaufgaben:

– Wettbewerbslernen

– Selbstorganisierende Karten

• rückgekoppelte neuronale Netze:

– Hopfield-Netze

– Simulated Annealing

– Boltzmann-Maschinen

• spannende Anwendung: neuronale Regler

– stellt Beziehung von Abschnitt 2.4 zu Abschnitt 3.2 her

• . . .

Documents

2.4. Neuronale Netze: Modellierung von Lernen und ...Neuronale Netze:... Page 99 of 151 Modellbildung und Simulation 2. Diskrete Modellierung und Simulation Hans-Joachim Bungartz 2.4.2