Upload
nami
View
38
Download
0
Tags:
Embed Size (px)
DESCRIPTION
Robust Optimal On-Board Reentry Guidance of an European Space Shuttle. Seminar Differentialspiele Stephan Schmidt. Gliederung. Der Wiedereintritt Zielsetzung Was macht einen Wiedereintritt aus? Die Probleme an eine Steuerung Das Differentialspiel als Lösung Das robuste Differentialspiel - PowerPoint PPT Presentation
Citation preview
Robust Optimal On-Board Reentry Guidance of an European Space Shuttle
Seminar Differentialspiele
Stephan Schmidt
Gliederung
Der Wiedereintritt– Zielsetzung– Was macht einen Wiedereintritt aus?– Die Probleme an eine Steuerung– Das Differentialspiel als Lösung
Das robuste Differentialspiel– Der Kontrollprozess (Kinematik Equation)– Die Nebenbedingungen– Robust-Optimalität– Die Isaacs Gleichung (Main Equation II)– Neue Lösungsverfahren– „Open-Loop“-Verfahren– Bessere Verfahren
Gliederung
Neuronales Netz– Was ist ein künstliches neuronales Netz?– Das künstliche Neuron– Ideen für Funktionen eines Neurons– Approximierbarkeit– Praktische Realisierung– Gewichtselimination– Sigmoide Aktivierungsfunktionen– Praktische Approximation– Approximationsfehler– Gradient des Fehlers– Der Backpropagationsalgorithmus
Zusammenfassung
Teil 1: Der Wiedereintritt
Zielsetzung
Finde eine automatische Steuerung,die einen Space Shuttle ähnlichen Gleitertrotz Auftretens von unvorhergesehen Ereignissen auf dem optimalen Weg sicher zurück zur Erde bringt.
Die Steuerung muss mit den an Bord zur Verfügung stehenden Mitteln in Echtzeit berechenbar sein.
Was macht einen Wiedereintritt aus?
Ziele:– Kontrollierter Abbau von hoher Bewegungs- und
Lageenergie– Beibehalten der Flugstabilität und Steuerbarkeit– Alleinige Umwandelbarkeit der überschüssigen Energie
durch Reibung, kein Antrieb
Randbedingungen:– Hitze außen und innen– Druck auf den Shuttlerahmen– Tragflächenbelastung– Fluglage bei hoher Geschwindigkeit
Die Probleme an eine Steuerung
„Robust-Optimalität“:– Ungenauigkeiten bei der Modellierung– Unvorhersehbare bzw. nicht-messbare Einflüsse
Berechenbarkeit– Ionisierung der Luft verhindert Funkkontakt zur
Bodenstation
Echtzeit– Die Daten werden sofort benötigt
Zufall– Alle Größen sind abhängig vom Luftdruck, welcher in sehr
großer Höhe unvorhersehbar schwankt und nicht messbar ist
Das Differentialspiel als Lösung
Problem:Finde Wiedereintrittsflugbahn trotz stark schwankender Größe des Luftdrucks p(h)
Idee:Betrachte „worst case“: Wenn selbst bei einem „planmäßig bösartig“ handelnden Luftdruck eine Steuerung zum Wiedereintritt gefunden werden kann, so sollte dies bei einem zufällig handelnden Luftdruck erst recht möglich sein
Lösung:Betrachte Luftdruck und Shuttle als zwei Spieler in einem Differentialspiel
Teil 2: Das robuste Differentialspiel
Der Kontrollprozess
Dem Differentialspiel soll folgende Mechanik zugrunde liegen:
mit:
z: Spielzustand, State Variable
u: Kontrollvariable Spieler I, Control Variable
w: Unbekannt, nicht messbar, Schwankung, Modellfehler oder Kontrollvariable Spieler II
))(),(),(()( twtutzftzdt
d
pmn IRwIRuIRz , ,
Die Nebenbedingungen
Folgende Bedingungen sollen zusätzlich erfüllt werden:
nIRzsenabgeschloszUu )()1
nIRzsenabgeschloszWw )()2
0Zeit endlicher nach endet ProzessDer 3) tt f
Eine Steuerung u(z) heißt genau dann zulässig, wenn
3) und 1)erfüllt :)(, u(z)zWwIRz n
Eine Steuerung w(z) heißt genau dann zulässig, wenn
3) und 2)erfüllt :)(, w(z)zUuIRz n
Robust-Optimalität
Menge aller kontrollierbaren Zustände:
} )( |{ SteuerungzulässigezuIRzS nc
Performance-Index zur Leistungsmessung des Spielers:
IRIRz n :)(
Eine zulässige Steuerung u*(z) heißt robust-optimal genau dann, wenn:
))((maxmin:löst )()(
*f
zWwzUuc tzuSz
Für z aus Sc sei unter Benutzung eines robust-optimalen u* die Auszahlung (Value) definiert als:
))(()( ftzzV
Die Isaacs Gleichung
Optimalitätskriterium:An differenzierbaren Stellen des Values ergibt sich für u* die Optimalitätsbedingung:
cSzzVz
wzVz
uzfVz
0)),(),,(,( **
Dies wird bei Isaacs als Main Equation II bezeichnet
Herkömmliches Differentialspiel dadurch nach Betrachten der singulären Hyperebenen lösbar durch multiple Shooting und Rückwärtsdifferentieren
Robustes Differentialspiel:
w: Schwankung, Unbekannt oder Modellfehler
Neue Lösungsverfahren
Problem:w wird nicht optimal, sondern zufällig gewählt
Ansatz:Diskretisiere die Zeit
Lösung: Rückkopplungssteuerung1. Bestimme derzeitigen Spielzustand z
2. Löse Isaacs-Gleichung für z und benutze so gewonnenes u als Steuerung
3. Verbleibe bei u als Steuerung für selbst gewähltes Zeitintervall
4. Gehe zu 1.
„Open-Loop“-Verfahren
Bessere Verfahren
Problem:– In jedem Schritt muss das RWP der Isaacs-Gleichung neu
gelöst werden
– Bei realistischer Mechanik nicht in Echtzeit zu bewerkstelligen
Idee:– Berechne so viel wie möglich im Voraus
– Interpolation der Pfadfunktion
Neuronales Netz
Teil 3: Das Neuronale Netz
Was ist ein künstliches neuronales Netz?
Abbildung eines Eingabevektors x unter Berücksichtigung eines Gewichtsvektors () auf Ausgabevektor y
Gerichteter, gewichteter Graph
Knoten: künstliche Neuronen, Funktionen
Funktionskomposition
Nicht-linear
yxf NN ),,(:
Das künstliche Neuron
Gewichten und Aggregieren aller Eingaben:
Eingabewert netj (t):
Grad der Aktivierung aj (t):
Ausgabe oj (t):
IRIRfcon 2:
IRIRf kjinp :,
IRIRf jact 3, :
IRIRf jout :,
Ideen für Funktionen eines Neurons
Eingabefunktion:
Aktivierungsfunktion:
Ausgabefunktion
k
iiijconjinp owff
1,
sonst
ff jjinp
jact ,0
,1 ,,
idf jout ,
Approximierbarkeit, Behauptung
Jede stetige, nicht konstante Funktion f ist durch ein (mehrschichtiges) neuronales Netz beliebig genau approximierbar
),,()(max
:,,0,,],[
],[xfxf
fNetzneuronalesconstfbaCfNN
bax
NNd
d
Approximierbarkeit, Beweisskizze
Stetige, nicht konstante Funktionen sind beliebig genau durch Treppenfunktionen approximierbar (WT1)
)()(max:],[
0,,],[:
],[xfxfmitbaTRf
stetigIRbafSeiTR
bax
dTR
md
d
IifconstIifürSetze
baaufconstfINiIgiltDann
dii ba
TRi
dii
TR
,::
],[::
],[
Approximierbarkeit, Beweisskizze
Definiere Neuronen der ersten Schicht als:
Definiere Neuronen der zweiten Schicht als:
Mit 1-Matrix und 0-Vektor gilt dann:
Damit gilt die Behauptung
Iixconstxn ii ,),()(1
IixIndconstxconstn dii baiii ,)(),(],[
2
dNNTR baxxfxf ],[),,()(
Praktische Realisierung
Beweis liefert nur begrenzten Bezug zur Anwendbarkeit:– I im Allgemeinen sehr groß– Bei Steigerung der Genauigkeit müssen Schichten neu
gestaltet werden– Gewichte werden kaum beachtet
Für Anwendung in Praxis:– Netzarchitektur vereinfachen– Netz differenzierbar gestalten
Gewichtselimination
Gilt für die Aktivierungsfunktion:
So können die Schwellwerte als Gewichte aufgefasst werden:
)0,(),( ,, jjjactjjjact netfnetf
nj
o1
o2
o3
1j
2j
3j
nj
o1
o2
o3
1j
2j
3j
1
),(),,( xfxf NNNN
Sigmoide Aktivierungsfunktionen
Problem:Indikatorfunktion macht das Netz nicht-differenzierbar
Substituiere Indikatorfunktion durch sigmoide Funktion fsig:
– fsig ist streng monoton steigend
– Grenzwert ist +/- 1– Üblich:
tanh oder 2/ arctan
-1
-0,8
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0,8
1
-5 -4 -3 -2 -1 0 1 2 3 4 5
Praktische Approximation
Sei I Menge mit den zu approximierenden Punktepaaren
Zufälliges Aufteilen von I in Trainings- und Validierungsmenge
)(,,...,)(,,)(, 222211 kk xfxxfxxfxI
)(,,...,)(,,)(, 2211 kkT xfxxfxxfxI
)(,,...,)(,,)(, 222211 kkkkkkV xfxxfxxfxI
Approximationsfehler
Für beliebige differenzierbare Metrik definiere:
Lernproblem mit Gradientenabstiegsverfahren:
TIk
kkNN
T xfxf )(),()(
VIk
kkNN
V xfxf )(),()(
kleinmöglichstunter V
T
)(
)(min
Gradient des Fehlers
Bei Verwendung der 2-Norm ergibt sich:
Idee zur Berechnung der Ableitung des neuronalen Netzes:
:),()(),(2
)(),()(2
kNN
Ikkk
NN
Ikkk
NNT
xfxfxf
xfxf
T
T
Der Backpropagationsalgorithmus
1. Initialisierung: Wähle wij zufällig
2. Feedforward: wähle z aus IT zufällig, berechne Ausgabewerte yi schichtweise und speichere die Ableitung j der Neuronen
3. Backpropagation: Traversiere das Netz rückwärts mit der Eingabe zi-yi. Berechne rückwärtigen Fehler in Ausgabeschicht und verdeckten Schichten:
4. Korrigiere Netzgewichte:
5. Gehe zu 2.
)( iiii yz i
ijijj w
0, jiij yw
Zusammenfassung
physikalische und technische Gegebenheiten verlangen die Berücksichtigung zufälliger Luftdruckschwankungen.
Dem Luftdruck wird planmäßiges Handeln zu Grunde gelegt und als Gegenspieler eines Differentialspieles aufgefasst
Lösung als Open-Loop ist nicht echtzeitfähig.
Das Neuronale Netz zur Approximation
Anlernen des Netzes mit Backpropagation