View
230
Download
0
Category
Preview:
Citation preview
Viskositatslosungen vonHamilton–Jacobi–Bellman Gleichungen
— eine Einfuhrung
Lars Grune
Seminar “Numerische Dynamik von Kontrollsystemen”
Wintersemester ’04/05
Viskositatslosungen
• Anfang der 1980er Jahre von Michael G. Crandall
und Pierre–Louis Lions eingefuhrt
• Verallgemeinerter Losungsbegriff fur partielle Differential-
gleichungen, die keine differenzierbaren Losungen besitzen
• Motivation: Hamilton–Jacobi–Bellman Gleichungen aus der
optimalen Steuerung
• In diesem Vortrag geben wir eine Einfuhrung am Beispiel des
diskontierten optimalen Steuerungsproblems
Diskontierte optimale Steuerung
Bestimme die optimale Wertefunktion v(x) = supu∈U J(x, u) fur
J(x, u) :=∫ ∞
0e−δtg(Φ(t, x, u), u(t)) dt,
δ > 0 und Φ(t, x, u) Losung des Kontrollsystems
x(t) = f(x(t), u(t))
mit Anfangswert Φ(0, x, u) = x ∈ Rd und Kontrollfunktion
u ∈ U = {u : R → U |messbar}, U ⊂ Rl kompakt
Das Bellman‘sche Optimalitatsprinzip
Fur alle T > 0 gilt
v(x) = supu∈U
{∫ T
0e−δtg(Φ(t, x, u), u(t)) dt + e−δTv(Φ(T, x, u))
}.
• hierdurch ist v eindeutig bestimmt (Kontraktionsargument)
• ist Ausgangspunkt fur numerische Approximation
(dynamische Programmierung)
• liefert die Basis fur die Hamilton–Jacobi–Bellman Gleichung
Die Hamilton–Jacobi–Bellman Gleichung
Wenn v in x ∈ Rd differenzierbar ist, so gilt die Hamilton–Jacobi–
Bellman (HJB) Gleichung
δv(x) + infu∈U
{−Dv(x) · f(x, u)− g(x, u)} = 0
Die Hamilton–Jacobi–Bellmanas Gleichung
Beweisskizze: Aus dem Optimalitatsprinzip erhalt man
infu∈U
{v(x)− e−δTv(Φ(T, x, u))
T−
1
T
∫ T
0e−δtg(Φ(t, x, u), u(t)) dt
}= 0.︸ ︷︷ ︸
→ δv(x)−Dv(x) · f(x, u)︸ ︷︷ ︸
→ g(x, u)
fur T → 0
⇒ δv(x) + infu∈U
{−Dv(x) · f(x, u)− g(x, u)} = 0
(HJB) = infinitesimale Version des Optimalitatsprinzips
Die Hamilton–Jacobi–Bellman Gleichung
δv(x) + infu∈U
{−Dv(x) · f(x, u)− g(x, u)} = 0
Wir schreiben diese partielle Differentialgleichung kurz als
δv(x) + H(x, Dv(x)) = 0
mit
H(x, p) := infu∈U
{−p · f(x, u)− g(x, u)}
Problem: Im Allgemeinen sind optimale Wertefunktionen
nicht differenzierbar
Beispiel
Optimales Investment Problem
[Haunschmied/Kort/Hartl/Feichtinger 2003]
K = I − σK
I = u
Ziel: maximiere den diskontierten Cashflow∫ ∞
0e−δtg(k(t), I(t), u(t))dt,
mit
g(k, I, u) = k1√
K −K
1 + k2K4+ c1I +
c22
I2 −α
2u2
Optimale Wertefunktion
0 1 2 3 4 5 60
0.20.4
0.60.81
1.21.4
1.6
0.50.60.70.80.9
11.11.21.3
Verallgemeinerte Losungen
Ziel: Definiere Losungen der Gleichung (HJB)
δv(x) + H(x, Dv(x)) = 0
fur nicht differenzierbare v
Erste Idee: verlange die Erfullung von (HJB) nur fur solche
x ∈ Rd, in denen Dv(x) existiert die optimale Wertefunktion
erfullt (HJB)
Problem: es gibt i.A. noch viele weitere Funktionen, die (HJB)
in diesem Sinne erfullen keine Eindeutigkeit der Losung
Verallgemeinerte Losungen
Ziel: Definiere Losungen der Gleichung (HJB)
δv(x) + H(x, Dv(x)) = 0
fur nicht differenzierbare v
Zweite Idee: verlange die Erfullung von (HJB) nur fur solche
x ∈ Rd, in denen Dv(x) existiert
und
modifiziere (HJB) geeignet fur die sonstigen x
Super– und Subdifferential
Erinnerung: w : Rd → R heißt differenzierbar in x ∈ Rd, wenn
Dw(x) := p ∈ Rd existiert, so dass gilt
limy→x
w(y)− w(x)− p · (y − x)
‖y − x‖= 0
Def.: Das Superdifferential von w in x ∈ Rd ist definiert durch
D+w(x) :=
{p ∈ Rd
∣∣∣∣∣lim infy→x
w(y)− w(x)− p · (y − x)
‖y − x‖≥ 0
}
Das Subdifferential von w in x ∈ Rd ist definiert durch
D−w(x) :=
{p ∈ Rd
∣∣∣∣∣lim supy→x
w(y)− w(x)− p · (y − x)
‖y − x‖≤ 0
}
Super– und Subdifferential
w
x
w
x
Elemente des Super– und Subdifferentials
Beobachtung: falls w in x differenzierbar ist, gilt
D+w(x) = D−w(x) = {Dw(x)}
Viskositatslosungen, Definition 1
Eine stetige Funktion w : Rd → R heißt Viskositatslosung von
(HJB), falls gilt:
δw(x) + H(x, p) ≤ 0 fur alle x ∈ Rd und alle p ∈ D+w(x)
und δw(x) + H(x, p) ≥ 0 fur alle x ∈ Rd und alle p ∈ D−w(x)
w heißt Viskositats–Unterlosung, wenn die erste Bedingung gilt
w heißt Viskositats–Oberlosung, wenn die zweite Bedingung gilt
Viskositatslosungen und klassische Losungen
Satz: Eine differenzierbare Funktion w : Rd → R ist genau dann
eine klassische Losung von (HJB) wenn sie eine Viskositatslosung
ist
Beweisskizze: Im differenzierbaren Fall gilt
D+w(x) = D−w(x) = {Dw(x)}
und damit
δw(x) + H(x, Dw(x)) = 0 ⇔{
δw(x) + H(x, p) ≥ 0 ∀p ∈ D−w(x)δw(x) + H(x, p) ≤ 0 ∀p ∈ D+w(x)
Viskositatslosungen, aquivalente Definition
Dies ist recht anschauliche Verallgemeinerung des klassischen
Losungsbegriffe. Besser geeignet fur Beweise ist aber eine aqui-
valente Definition, die auf der folgenden Beobachtung beruht:
Sei w : Rd → R stetig, x ∈ Rd und p ∈ Rd. Dann sind aquivalent:
(i) p ∈ D+w(x) [bzw. p ∈ D−w(x)].
(ii) Es existiert ein ϕ ∈ C1(Rd, R) mit Dϕ(x) = p, so dass w − ϕ
ein (nicht notwendigerweise striktes) lokales Maximum
[bzw. Minimum] in x annimmt.
Viskositatslosungen, Definition 2
Eine stetige Funktion w : Rd → R heißt Viskositatslosung von
(HJB), wenn fur alle Testfunktionen ϕ ∈ C1(Rd, R) gilt:
w − ϕ nimmt in x ∈ Rd ein lokales Maximum an
⇒ δw(x) + H(x, Dϕ(x)) ≤ 0
w − ϕ nimmt in x ∈ Rd ein lokales Minimum an
⇒ δw(x) + H(x, Dϕ(x)) ≥ 0.
w heißt Viskositats–Unterlosung, wenn die erste Bedingung gilt
w heißt Viskositats–Oberlosung, wenn die zweite Bedingung gilt
Der Name “Viskositatslosungen”
Die HJB Gleichung kann approximiert werden durch
δvε(x) + H(x, Dvε(x))− ε∆vε(x) = 0,
mit dem Laplace–Operator ∆v = TrD2v =d∑
i=1
∂2
∂x2iv
Diese (gleichmaßig elliptische) PDGL hat eine klassische Losung
vε ∈ C2(Rd, R) fur die vε → v fur ε → 0 gilt
“ε∆vε(x)” wird in der Physik Viskositat genannt, die Approxi-
mation vε → v heißt Methode der verschwindenden Viskositat
Dies ist der Grund fur den Namen Viskositatslosung
Existenzsatz
Satz: Die optimale Wertefunktion v des diskontierten optimalen
Steuerungsproblems ist eine Viskositatslosung von (HJB).
Beweisskizze: Wir mussen zeigen, dass v sowohl Viskositats–
Unterlosung als auch –Oberlosung ist.
Wir skizzieren die Oberlosungseigenschaft, fur die Unterlosung
argumentiert man ahnlich.
Beweisskizze des Existenzsatzes
Wir wahlen ϕ ∈ C1(Rd, R), so dass w−ϕ in x ein lokales Minimum
besitzt. O.B.d.A. konnen wir v(x) = ϕ(x) annehmen, womit fur
y nahe x die Ungleichung v(y) ≥ ϕ(y) folgt.
Aus dem Optimalitatsprinzip folgt dann fur hinreichend kleine
T > 0
ϕ(x) = v(x) = supu∈U
T∫0
e−δtg(Φ(t, x, u), u(t))dt + e−δTv(Φ(T, x, u))
≥ supu∈U
T∫0
e−δtg(Φ(t, x, u), u(t))dt + e−δTϕ(Φ(T, x, u))
Beweisskizze des Existenzsatzes
Umstellen der Terme liefert
infu∈U
{ϕ(x)− e−δTϕ(Φ(T, x, u))
T−
1
T
∫ T
0e−δtg(Φ(t, x, u), u(t)) dt
}≥ 0.
Grenzubergang T → 0 ergibt dann
δϕ(x) + infu∈U
{−Dϕ(x) · f(x, u)− g(x, u)} ≥ 0,
was wegen v(x) = ϕ(x) gerade die Oberlosungseigenschaft
δv(x) + H(x, Dϕ(x)) ≥ 0
ist.
Existenzsatz
Dies zeigt, dass die optimale Wertefunktion tatsachich eine Vis-
kositatslosung von (HJB) ist
Insbesondere wissen wir damit, dass eine Viskositatslosung von
(HJB) existiert
Allerdings konnten weitere Viskositatslosungen existieren, die mit
unserem optimalen Steuerungsproblem nichts zu tun haben. Um
dies auszuschließen, benotigen wir ein Eindeutigkeitsresultat
In der Theorie der Viskositatslosungen wird ein solches Resul-
tat typischerweise als soganntes “Vergleichsprinzip” formuliert,
in dem Unter– und Oberlosungen verglichen werden.
Vergleichsprinzip
Satz: Es seien f und g beschrankt und Lipschitz stetig in x glm.
in u. Weiterhin sei v1 eine stetige und beschrankte Viskositats–
Unterlosung von (HJB) und v2 eine stetige und beschrankte Vis-
kositats–Oberlosung von (HJB). Dann gilt
v1(x) ≤ v2(x) fur alle x ∈ Rd.
Korollar: Die optimale Wertefunktion v ist die eindeutige stetige
und beschrankte Viskositatslosung von (HJB).
Beweis des Korollars: Jede Viskositatslosung ist per Definition
Ober– und Unterlosung. Fur jede weitere Losung v gilt also nach
dem Vergleichsprinzip v ≤ v und v ≤ v und damit Gleichheit.
Beweisskizze des Vergleichsprinzip
Zu zeigen: supx∈Rd v1(x)− v2(x) ≤ 0
Ansatz “Verdopplung der Variablen”: Fur festes η > 0 und varia-
bles ε > 0 konstruiere Ψε(x, y) = v1(x)− v2(y)− Fε(x, y) mit
(i) supx∈Rd v1(x)− v2(x) ≤ supx,y∈Rd Ψε(x, y) + η
(ii) das Supremum uber Ψε ist ein Maximum, das im Punkt (xε, yε)
angenommen wird die Funktionen
ϕ1(x) := v1(x)−Ψε(x, yε), ϕ2(y) := v2(y) + Ψε(xε, y)
sind Vergleichsfunktionen fur v1 bzw. v2 in x = xε bzw. y = yε
δv1(xε)+H(xε, Dϕ1(xε)) ≤ 0, δv2(yε)+H(yε, Dϕ1(yε)) ≥ 0
(iii) aus diesen Ungleichungen folgt lim supε→0 Ψε(xε, yε) ≤ η
Beweisskizze des Vergleichsprinzip
Dies funktioniert mit
Ψε(x, y) = v1(x)− v2(y)−‖x− y‖2
2ε− β(h(x) + h(y))
mit
h ∈ C1(Rd, R), h(x) →∞ fur ‖x‖ → ∞.
Fur hinreichend kleines β erhalten wir
(i) supx∈Rd v1(x)− v2(x) ≤ supx,y∈Rd Ψε(x, y) + η
Beweisskizze des Vergleichsprinzip
Ψε(x, y) = v1(x)− v2(y)−‖x− y‖2
2ε− β(h(x) + h(y))
Wegen der unbeschrankten Negativitat von −β(h(x) + h(y)) nimmt
Ψε sein Maximum in einem Punkt (xε, yε) an, also gilt (ii).
Die Maximalstelle (xε, yε) liegt dabei in einer unabhangig von ε
beschrankten Menge (dafur sorgt −β(h(x) + h(y)))
Wegen des Terms ‖x− y‖2/(2ε) gilt damit
‖xε − yε‖ ≤√
Cε und limε→0
‖x− y‖2
2ε= 0
Beweisskizze des Vergleichsprinzip
Mit diesen Ungleichungen und den Vergleichsfunktionen
ϕ1(x) := v1(x)−Ψε(x, yε), ϕ2(y) := v2(y) + Ψε(xε, y)
erhalt man aus den Viskositatslosungs–Ungleichungen
δv1(xε) + H(xε, Dϕ1(xε)) ≤ 0, δv2(yε) + H(yε, Dϕ1(yε)) ≥ 0
fur hinreichend kleines β > 0 die gewunschte Eigenschaft (iii)
lim supε→0 Ψε(xε, yε) ≤ η
⇒ supx∈Rd
v1(x)− v2(x) ≤ 2η ⇒ Behauptung, da η > 0 beliebig
Stochastische optimale Steuerung
Bestimme die optimale Wertefunktion v(x) = supu∈U J(x, u) fur
J(x, u) := E
[∫ ∞
0e−δtg(X(t, x, u), u(t)) dt
],
δ > 0 und X(t, x, u) Losung des stochastischen Kontrollsystems
dX(t) = a(X(t), u(t))dt + b(X(t), u(t))dWt
mit X(0, x, u) = x ∈ Rd, Wt = m–dim. Wiener Prozess und
u ∈ U = {u : R → U |messbarer stoch. Prozess}, U ⊂ Rl kompakt
Das Bellman‘sche Optimalitatsprinzip
Fur alle T > 0 gilt
v(x) = supu∈U
E
[∫ T
0e−δtg(X(t, x, u), u(t)) dt + e−δTv(X(T, x, u))
].
Dieses Prinzip ist vollig analog zum deterministischen Fall, es
kommt lediglich der Erwartungswert hinzu
Die daraus resultierende Hamilton–Jacobi–Bellman Gleichung sieht
allerdings anders aus
Die Hamilton–Jacobi–Bellmanas Gleichung
Herleitung: Aus dem Optimalitatsprinzip erhalt man
infu∈U
E
[v(x)− e−δTv(X(T, x, u))
T−
1
T
∫ T
0e−δtg(X(t, x, u), u(t)) dt
]= 0.︸ ︷︷ ︸
→δv(x)−Dv(x)·a(x,u)−12Tr(b(x,u)b(x,u)T D2v(x))
︸ ︷︷ ︸→ g(x, u)
fur T → 0, da bei der Ableitung entlang X das Ito–Lemma
berucksichtigt werden muss
⇒ δv(x)+infu∈U{−12Tr(b(x,u)b(x,u)T D2v(x))−Dv(x)·a(x,u)−g(x,u)}=0
Die Hamilton–Jacobi–Bellman Gleichung
δv(x)+infu∈U{−12Tr(b(x,u)b(x,u)T D2v(x))−Dv(x)·a(x,u)−g(x,u)}=0
Wir schreiben diese partielle Differentialgleichung kurz als
δv(x) + H(x, Dv(x), D2v(x)) = 0
mit
H(x, p, Q) := infu∈U
{−1
2Tr(b(x, u)b(x, u)TQ)− p · a(x, u)− g(x, u)}
Viskositatslosungen
Das Viskositatslosungsdefinition mittels Testfunktionen lasst sich
leicht auf (sHJB) verallgemeinern:
Eine stetige Funktion w : Rd → R heißt Viskositatslosung von
(sHJB), wenn fur alle Testfunktionen ϕ ∈ C2(Rd, R) gilt:
w − ϕ nimmt in x ∈ Rd ein lokales Maximum an
⇒ δw(x) + H(x, Dϕ(x), D2ϕ(x)) ≤ 0
w − ϕ nimmt in x ∈ Rd ein lokales Minimum an
⇒ δw(x) + H(x, Dϕ(x), D2ϕ(x)) ≥ 0.
Existenz– und Eindeutigkeit wie im deterministischen Fall
Anwendungen
Abgesehen von ihrer mathematischen Eleganz, hat die Visko-
sitatslosungstheorie eine ganze Reihe praktischer Anwendungen:
• Verifikation optimaler Wertefunktionen
• Großerer Vorrat an mathematischen Techniken zur Analyse
optimaler Steuerungsprobleme, aber auch umgekehrt zur
Analyse partieller Differentialgleichungen
• Analyse und Konstruktion numerischer Schemata
Literatur
M. Bardi and I. Capuzzo Dolcetta, Optimal Control and Viscosity Solutionsof Hamilton-Jacobi-Bellman equations, Birkhauser, Boston, 1997.Sehr ausfuhrliche Monographie uber deterministische Probleme
W. H. Fleming and M. H. Soner, Controlled Markov processes and viscositysolutions, Springer–Verlag, New York, 1993.Monographie uber stochastische Probleme, mit einer ausfuhrlichen Einfuhrungin deterministische Probleme
M. G. Crandall, H. Ishii, and P.-L. Lions, User’s guide to viscosity solutionsof second order partial differential equations, Bull. Amer. Math. Soc. (N.S.),27 (1992), pp. 1–67.Uberblicksartikel uber stochastische HJB Gleichungen
M. G. Crandall and P.-L. Lions, Viscosity solutions of Hamilton–Jacobi equa-tions, Trans. Amer. Math. Soc., 277 (1983), pp. 1–42.Die ursprungliche Arbeit, in der Viskositatslosungen eingefuhrt wurden.
Recommended