Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
2005年度数学 IA演習第 7回解説:その 1
多変数関数の微分理 I 26, 27, 28, 29, 30組
7月 13日 清野和彦
目 次
1 多変数関数の微分たち 2
1.1 偏微分 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 方向微分 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 接平面 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 全微分:一次近似としての微分 . . . . . . . . . . . . . . . . . . . . 13
1.5 C1-級関数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 合成関数の微分法と写像の微分 19
2.1 合成関数の微分法をとにかく証明する . . . . . . . . . . . . . . . . 20
2.1.1 1変数関数の連鎖律の証明 . . . . . . . . . . . . . . . . . . . 21
2.1.2 1変数関数に 2変数関数を合成した場合 . . . . . . . . . . . . 22
2.1.3 2変数関数に 1変数関数を合成した場合 . . . . . . . . . . . . 23
2.1.4 一般の場合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 1次近似で考える . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.1 1次近似の視点から合成関数の微分法へ(1変数) . . . . . . 28
2.2.2 1次近似の視点から合成関数の微分法へ(多変数) . . . . . 29
2.3 写像の微分、そして連鎖律へ . . . . . . . . . . . . . . . . . . . . . 31
2.3.1 ヤコビ行列と合成関数の微分法 . . . . . . . . . . . . . . . . 32
2.3.2 逆写像の微分法 . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.3 変数変換 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
第 7回解説:その 1 2
1 多変数関数の微分たち
1.1 偏微分
1変数関数が自然に現れる状況、例えば石を放り投げたときの時刻 t での石の高さ、などについて、我々は微分を使ってその変化の具合をかなり調べられます。ここで、放り投げたものが石でなくて例えば紐だったとすると、その運動は、時刻 t
と紐の中の点 x との関数として表されます。このとき、時刻 t での紐の形を調べるには t を一つ固定して x だけの関数として分析すればよいし、紐の中の 1点 x
が時刻に伴ってどう変わるかを調べるには、x を一つ固定して t だけの関数として分析すれば良いので、結局既に身につけている 1変数関数の微分で事は済んでしまいます。多変数関数をこのように安直に考えたときに自然にでてくる「多変数関数の微分」が偏微分です。
定義. f を n 変数 x1, . . . , xn の関数、(a1, . . . , an) を f の定義域に含まれる点とする、1以上 n 以下のある自然数 j に対し
limxj→aj
f(a1, . . . , aj−1, xj, aj+1, . . . , an) − f(a1, . . . , aj−1, aj, aj+1, . . . , an)
xj − aj
が存在するとき、f は (a1, . . . , a�) において x� で偏微分可能であると言い、この極限を偏導値、偏微分係数、偏微分の値などと呼んで、
∂f
∂xj
(a1, . . . , an) とか fxj(a1, . . . , an) とか ∂xjf(a1, . . . , an)
とかと書く。 ◇
定義域内のすべての点においてすべての変数で偏微分可能な関数のことを、単に偏微分可能な関数と言います。この場合、各点に偏微分の値 fxj(a1, . . . , an) を対応させることで偏導関数という関数が出来上がることも 1変数関数のときと同じです。偏微分の計算は 1変数の微分の計算と全く同じですので例を見せるまでもないでしょう。つまり、例えば 2変数関数 f(x, y) の (a, b) における x での偏微分とは、f の変数 y に b を代入してできる 1変数関数
ϕ(x) = f(x, b)
の a における微分だからです。
∂f
∂x(a, b) =
dϕ
dx(a)
ということです。幾何学的には、fx(a, b) とは z = f(x, y) というグラフを y = b
という平面(つまり、(a, b, f(a, b)
)をとおり xz 平面に平行な平面)で切った切り
口に現れる曲線の(a, b, f(a, b)
)での傾きのことです。
第 7回解説:その 1 3
注意. 時刻 t と位置 x に対して与えられる量 f(t, x) と質点の運動 x(t) があったとき、質点の運動に伴って変わる f の値を分析したい場合に考える関数は、f(t, x) の x に x(t) を代入した t のみによる 1変数関数です。そこでいちいち ϕ(t) = f
(t, x(t)
)と記号を変えれ
ば誤解は起きないのですが、記号が増えたり f との関連が見えなくなったりするのを嫌って、f
(t, x(t)
)と書いたままで議論することがよくあります。しかも x が t に依っている
ことが前提になっているので、x(t) のことを x とだけ書いてしまうことがしばしばです。このような状況のとき、
df
dt(t, x)
という記号で ϕ′(t) のことを言っているつもりになりがちなので、t と x に何の関係もない 2変数関数としての t による偏微分は、
∂f
∂t(t, x)
と「丸いディー」を使って書きます。これが偏微分と 1変数関数の微分の記号が違う理由です、多分。★
1.2 方向微分
f(t) という関数を時刻 t における何かの値を与える関数としましょう。(問題にしたいのは変数の方だけですので、値の方は何を考えても結構です。)「時刻」というからにはある基準時刻 t = 0 からどれほどの時間が経ったかを表しているわけですが、このとき「t 秒」なのか「t 分」なのかで当然関数は変わってきます。具体的には、例えば t の単位が「分」だったとすると、それを「秒」に換算した関数 g(s) は
g(s) = f( s
60
)で与えられます。「何の話をしてるんだ」と思われるでしょう。言いたいことは、変数 t の単位をどう決めようと、関数が微分可能かどうかには関係がないということです。多変数関数に目を移してみましょう。例えば 2変数関数の場合、前節の「時刻
t と位置 x」のように二つの変数が「別な次元」のものということもありますが、「平面の座標 (x, y)」ということもあります。例えば、地図上の各点にそこの海抜を与える「地面の起伏関数」とか、気圧を与える関数などです。この場合の (x, y) は、ある基準点を決めて、例えばそこから「東に x m、北に
y m」かも知れませんが、古い日本の町並みなら「東に ξ 間、北に η 間」の方が便利かも知れません。さて、もし f(x, y) が x でも y でも偏微分可能なら、このような「単位の換算」をしてできた関数 g(ξ, η) も偏微分可能であることは偏微分の定義が 1変数関数の微分の定義と同じであることから明らかでしょう。しかし、平面の場合の「単位の換算」はこのようなものに留まりません。「東にいくら、北にいくら」という座標付けではなく「北東にいくら、北西にいくら」と
第 7回解説:その 1 4
いう座標付けの方が(家や道の配置から)自然だという場合もあるでしょう。もしかすると、すべての道が南北方向と「北東・南西方向」を向いているという奇妙な町もあるかも知れません。その場合には「北にいくら、北東にいくら」という 45◦ 傾いたいわゆる「斜交座標」で考えた方が便利です。要するに、(x, y)が平面の点を表す座標なら、1変数関数の「単位の換算」に当たるものは
x = u1ξ + u2η, y = v1ξ + v2η
という線型変換(で ξ と η について解けるもの)のことだと言えるでしょう。問題は f(x, y)が偏微分可能なとき、f に「単位の換算」つまり座標変換をしてできる関数
g(ξ, η) = f(u1ξ + u2η, v1ξ + v2η)
も偏微分可能になるかどうか、ということです。どちらでも同じですので、(ξ, η) =
(α, β)における g の ξ による偏微分を計算してみましょう。すると、(ξ, η) = (α, β)
に対応する (x, y) 座標を (a, b) として、つまり a = u1α + u2β, b = v1α + v2β として、
g(α+ h, β) = f(u1(α+ h) + u2β, v1(α + h) + v2β) = f(a + u1h, b+ v1h)
なので、
∂g
∂ξ(α, β) = lim
h→0
g(α + h, β)− g(α, β)
h= lim
h→0
f(a + u1h, b+ v1h) − f(a, b)
h
となります。結局、2変数関数 f がどのように座標変換しても偏微分可能であるための必要
十分条件は、任意のベクトル
(u
v
)に対して
limh→0
f(x+ uh, y + vh) − f(x, y)
h
が存在することです。これを方向微分といいます。キチンと定義しましょう。
定義. n 変数関数 f が点 (a1, . . . , an) でベクトル u =
u1
...
un
方向に方向微分可
能であるとは、
limh→0
f(a1 + u1h, . . . , an + unh) − f(a1, . . . , an)
h
が存在することを言い、この値を (a1, . . . , an)における u 方向の導値、微分係数、微分の値などと言う。 ◇
第 7回解説:その 1 5
つまり、
g(t) = f(a1 + u1t, . . . , an + unt)
としたときの g′(0) のことです。2変数で幾何学的に考えてみると、これは z =
f(x, y) のグラフを (a + ut, b + vt, z) という平面で切った切り口に現れる曲線の(a, b, f(a, b)
)における傾きです。ただしベクトル
(u
v
)の大きさを単位として使
います。つまり、(a + ut, b+ vt, z) という平面を tz 平面と見るということです。
当然
(1
0
)方向微分とは x による偏微分、
(0
1
)方向微分とは y による偏微分
のことです。方向微分は偏微分の拡張概念になっています。u 方向微分の値を
∂f
∂u(a1, . . . , an), f�(a1, . . . , an), ∂�f(a1, . . . , an)
などと書いたりすることもあるようですが、あまり見かけません(けどここではどんどん使います)。
注意. 上の方向微分の定義に違和感を感じる人もいるでしょう。どういう「違和感」かと言うと、
ベクトル u としては大きさが 1のものに限るべきではないのか?
あるいは、同じことですが、
f(x, y) の(
uv
)方向微分は
limh→0
f(x + uh, y + vh)− f(x, y)√u2 + v2h
とするべきではないのか?
という気持ちです。この感覚は、
xy 平面には(
10
)および
(01
)という長さ 1の標準的なベクトルがある
のだから、(
uv
)ベクトルの長さは
√u2 + v2 だ
という至極もっともな感覚に基づいています。しかし、例えば y 方向には非常に短い、幅の狭い帯のようなものの上で議論していて、x 方向の単位は m なのに y 方向の単位はmm だったりするかも知れません。あるいは、二つの変数が時刻と位置のように「次元」の違うものだけれども、その二つを混ぜた座標変換をすると調べやすくなるということもあり得ます。このような場合には、もはや
√u2 + v2 という値には何の意味もありません。
やはり、定義としてはできるだけどんな場合にも対応できるようなものを採用しておく方が良いでしょう。この場合には
第 7回解説:その 1 6
u 方向の微分を考えるときには u 自身が「単位」である
としておくのが柔軟性があって良いということです。後の話を先取りすると、実は「微分」を「ベクトル空間 R
n からベクトル空間 R への線形写像」と思うのが一番「まっとう」なのです。そのとき、方向微分は u ∈ R
n に R の値を具体的に与える役割を担います。だから、任意の実数 r に対して ru 方向の微分の値は u 方向の微分の値の r 倍になって然るべきなのです。★
さて、方向微分の定義をし、それがいつでも可能なことがどのような座標変換に対しても偏微分可能なことと同値であることを説明しましたが、実際に偏微分可能なら方向微分可能なのかどうかを説明していませんでした。偏微分は座標方向の方向微分なので、方向微分可能なら偏微分可能であることは当然ですが、実は、偏微分可能でも方向微分は可能でない関数がいくらでもあります。
例 1. 2変数関数 f を、
f(x, y) =xy
x2 + y2, ただし f(0, 0) = 0
とします。すると、この f は任意の点で偏微分可能です。実際に計算してみましょう。f は xと yを入れ替えても変わりませんので、(a, b)
における x での偏微分の値と (b, a) における y での偏微分の値とは一致します。よって x による偏微分だけ計算すれば O.K. です。(a, b) �= (0, 0) なら分母が 0にならないので、1変数関数の商の微分を使って
∂f
∂x(a, b) =
b(b2 − a2)
(a2 + b2)2
となり、(0, 0) では定義通り計算して
∂f
∂x(0, 0) = lim
x→0
f(x, 0) − f(0, 0)
x= lim
x→0
0
x= 0
となります。
一方、
(u
0
)でも
(0
v
)でも(当然 0 でも)ない任意のベクトル u =
(u
v
)
に対して、f は (0, 0) で u 方向微分できません。実際、uv �= 0 なので、
f(uh, vh) − f(0, 0)
h=
1
h
uvh2
(u2 + v2)h2=
uv
(u2 + v2)hh→0−−→ ±∞
と発散してしまいます。 ■
こんな状況で偏微分が多変数関数の微分という話の中心になれるのでしょうか?
その答えはグラフという幾何学的なものを持ち出すことで見えてきます。
第 7回解説:その 1 7
1.3 接平面
1変数関数の場合、なんだかんだと理屈をこねてみても、微分の値はグラフの接線の傾きだと思うのが一番理解しやすいでしょう。多変数関数で「1変数関数のグラフの接線」に当たるものとは何でしょうか? 一般の多変数で考えるとイメージできないので、2変数で考えることにします。すると、z = f(x, y) のグラフとは地面の起伏のような「曲面」です。よって、1変数関数の場合の「接線」に当たるものは「曲面の接平面」でしょう。接平面というと、「接点の近くでは曲面との共有点が接点のみの平面」と一瞬思ってしまうかも知れませんが、例えば z = x2 − y2 という曲面は原点を通るどのような平面とも少なくとも 1直線は共有してしまうけれども、想像していただければわかるように、原点におけるこの曲面の接平面は xy 平面としか思えません。
1変数のときにどう考えたかを参考にしたらどうか、と思うかも知れません。1変数関数のグラフの接線とは「割線の極限」であると考えました。つまり、y = f(x)
のグラフに(a, f(a)
)で接する接線とは、
(a, f(a)
)の近くに別の点
(b, f(b)
)を取り、
その 2点を通る直線(これを割線と言います)の b → a のときの「極限」のことだとしました。これを 2変数関数のグラフでまねするとどうなるでしょうか。つまり、z = f(x, y)のグラフの
(a, b, f(a, b)
)における接平面とは、
(a, b, f(a, b)
)以外のグ
ラフ上の 2点で 3点が一直線上に並ばないものを取り、その 2点を(a, b, f(a, b)
)に近づけたときの、3点が決める平面の「極限」としてみるわけです。しかし、「二つの点をある点に近づけたときの極限」なんてとてもじゃないけど手に負えません。というのは、平面上で点を別の点に近づける近づけ方がいろいろありすぎるからです。直線的に近づくだけでなく、放物線を描いて近づくとか、渦を巻きながら近づくとか…。1変数の場合には、x を a に近づける近づけ方が大きい方からと小さい方からの実質上二つしかなかったので接線を割線の極限としても平気だったわけで、2変数になるともうダメです。視点を変える必要があります。そこで、幾何学的にキチンと接平面を定義するのはあきらめて、我々のイメージする接平面はどんなものでなければならないか、という必要条件を式だけから追求してみることにしましょう。
1変数関数 f(x) = 3√x に対し、y = f(x) のグラフの (x, y) = (0, 0) における接
線は何でしょうか?図形的には x = 0 すなわち y 軸が接線だと思えますが、グラフの接線としては存在しないというのが答です。なぜならば、x = 0 という直線は xの関数 g(x) によって y = g(x) のグラフとして表すことができないからです。つまり、
関数のグラフの接線や接平面は、その関数と同じ変数を持つある関数のグラフで表されなければならない
という要請をおいているわけです。本当に調べたいのはグラフという図形ではなく関数の方なのですから、この要請は自然でしょう。そこで、まずどのような 2変
第 7回解説:その 1 8
数関数のグラフが平面を表すのかを明らかにしておきましょう。空間内の平面を 2つのパラメタを使って表示する方法を高校で学びました。平面内に一直線上にない三点 (a, b, c), (x0, y0, z0), (x1, y1, z1) を取ると、平面上の点(x, y, z) は
x
y
z
=
a
b
c
+ s
x0 − a
y0 − b
z0 − c
+ t
x1 − a
y1 − b
z1 − c
というふうに、二つのパラメタ s, t を使って表すことができるというものでした。ところが、我々の目指している平面の表示方法は「関数のグラフ」ですので、これからパラメタを消去しなければなりません。このパラメタ表示の式の右辺の点 (a, b, c) を左辺に移項すると、
x− a
y − b
z − c
= s
x0 − a
y0 − b
z0 − c
+ t
x1 − a
y1 − b
z1 − c
となりますが、これは x− a
y − b
z − c
というベクトルが、
x0 − a
y0 − b
z0 − c
と
x1 − a
y1 − b
z1 − c
という二
つのベクトルの一次結合で表される
ということを意味しています。一方、 p
q
r
という 0 でないベクトルで
x0 − a
y0 − b
z0 − c
と
x1 − a
y1 − b
z1 − c
の両方に直交するものを
一つ選ぶと1、 x0 − a
y0 − b
z0 − c
と
x1 − a
y1 − b
z1 − c
の一次結合である ⇐⇒
p
q
r
と直交する
1例えば
x0 − a
y0 − bz0 − c
と
x1 − a
y1 − bz1 − c
のベクトル積
(y0 − b)(z1 − c) − (z0 − c)(y1 − b)
(z0 − c)(x1 − a) − (x0 − a)(z1 − c)(x0 − a)(y1 − b) − (y0 − b)(x1 − a)
が条件を満たします。
第 7回解説:その 1 9
が成り立ちます。さらに、
直交する ⇐⇒ 内積 = 0
でもあります。以上をまとめると、
点 (x, y, z) が (a, b, c), (x0, y0, z0), (x1, y1, z1) の決める平面上の点�
p(x − a) + q(y − b) + r(z − c) = 0
とパラメタなしで表せることがわかりました。逆に、座標が
p(x − a) + q(y − b) + r(z − c) = 0 (1)
という式を満たす点 (x, y, z)の全体は点 (a, b, c)を通りベクトル
p
q
r
と直交す
る平面を定めます。さて、我々が欲しかったのは「z = g(x, y)のグラフとして表せる平面」でした。つまり、
式(1)で z について解けるもの
です。そのための条件はもちろん r �= 0 です。というわけで、結局
グラフが平面になる関数 ⇐⇒ 一次関数 px+ qy + c
であることがわかりました。次に、グラフで表せる平面が z = f(x, y) のグラフの点
(a, b, f(a, b)
)における
接平面だとすると、その平面を表す式 g(x, y)がどのような一次関数でなければならないかを考えてみましょう。まず、点
(a, b, f(a, b)
)を通らなければなりません。
式(1)が (a, b, c) を通ということから、
g(x, y) = p(x− a) + q(y − b) + f(a, b)
とか書けることがわかります。残るは x, y の係数 p, q です。それを調べるためにz = f(x, y) のグラフと z = g(x, y) のグラフを平面 y = b で切断してみましょう。要するに y = b を代入すればよいだけで、切断面には z = f(x, b) と z = g(x, b)
という曲線と直線が現れます。ここで、z = g(x, y) のグラフが z = f(x, y) の点(a, b, f(a, b)
)における「接平面である」ということのイメージから、直線 z = g(x, b)
は曲線 z = f(x, b) の (x, z) =(a, f(a, b)
)における接線になっていなければならな
いといって良いでしょう。一変数関数のグラフ同士が接するということは高校のときに学んだように、
第 7回解説:その 1 10
共有点での微係数が等しい
と言い表せます。よって、今の場合、
1変数 x の関数 f(x, b) の x = a における微係数が 1変数 x の関数g(x, b) の x = a における微係数と等しくなければならない
ということになります。ところが、「f(x, b)の x = aにおける微係数」とは f(x, y)
の (a, b) における x での偏微分の値であり、「g(x, b) の x = a における微係数」とは x の係数 p のことです。よって、
p =∂f
∂x(a, b)
でなければならないことがわかりました。同様に
q =∂f
∂y(a, b)
です。以上より、
接平面があるとすれば、f は点 (a, b) で x でも y でも偏微分可能で、接平面は
z =∂f
∂x(a, b)(x− a) +
∂f
∂y(a, b)(y − b) + f(a, b) (2)
でなければならない
ということがわかりました。ところで、グラフを切る平面として y = b や x = a だけを考える意味は図形的には全くないといって良いでしょう。
(a, b.f(a, b)
)を通り z 軸に平行な平面であ
れば何で切っても、その切り口には z = f(x, y)の定める曲線と、z = g(x, y)の定める直線の接している姿が現れるはずです。このことを具体的に式で書いてみましょう。(
a, b, f(a, b))を通り z 軸に平行な平面を(
x
y
)=
(a
b
)+ t
(u
v
), z は任意
と表しましょう。すると、z = f(x, y) をこの平面で切った切り口の曲線は
z = f(a + tu, b+ tv), t ∈ R
であり、
z = g(x, y) =∂f
∂x(a, b)(x− a) +
∂f
∂y(a, b)(y − b) + f(a, b)
第 7回解説:その 1 11
を切った切り口は
z =∂f
∂x(a, b)tu+
∂f
∂y(a, b)tv + f(a, b)
です。この二つが(a, b, f(a, b)
)、すなわち t = 0 で接しているのですから、t = 0
における微係数が等しくなります。つまり、
limt→0
f(a + tu, b+ tv)− f(a, b)
t= lim
t→0
g(a + tu, b+ tv)− g(a, b)
t
となります。これの左辺はまさに f(x, y) の (a, b) における (u, v) 方向微分であり、右辺は t の係数です。結局、
接平面があるとすれば、f は点 (a, b) であらゆる方向に方向微分可能
で、ベクトル u =
(u
v
)に対し、
∂f
∂u(a, b) = u
∂f
∂x(a, b) + v
∂f
∂y(a, b) (3)
が成り立つ
ということがわかりました。このことは、「たとえあらゆる方向に方向微分可能だとしても、式(3)が成り立たなければ接平面はない」ということを主張しています。そのような例を二つ見ておきましょう。
例 2. 2変数関数
f(x, y) =x2y
x4 + y2, ただし f(0, 0) = 0
は(原点以外では当然のことながら、)原点でもあらゆる方向に方向微分可能です。が、原点では接平面が存在しません。
定義に従って (0, 0) での u =
(u
v
)方向微分を計算してみましょう。
∂f
∂u(0, 0) = lim
h→0
f(hu, hv)− f(0, 0)
h
= limh→0
1
h
h3u2v
h2(h2u4 + v2)
= limh→0
u2v
h2u4 + v2=
u2
v(v �= 0)
0 (v = 0)
第 7回解説:その 1 12
となって、任意の u に対して存在します。上の計算から fx(0, 0) = fy(0, 0) = 0ですので、接平面はあるとすれば z = 0、すなわち xy 平面で、すべての方向微分は 0とならなければなりません。しかし、上で見たように uv �= 0 のとき u方向微分は 0ではありません。よって、z = f(x, y)
は原点で接平面を持ちません。 ■
この関数は (0, 0) で不連続です。つまり、不連続な点でもあらゆる方向に方向微分できてしまう例なのです。すると、「あらゆる方向に方向微分可能でしかも連続なら接平面があるのではないか?」と思われるかも知れませんが、そうではありません。次の例がそれです。
例 3. 2変数関数
g(x, y) =y(3x2 − y2)
x2 + y2ただし g(0, 0) = 0
は原点でも連続であらゆる方向に微分可能ですが、接平面は持ちません。まず、原点で連続であることから示しましょう。g(0, 0) = 0 ですから g が原点で連続であることは
∀ε > 0, ∃δ > 0, ∀(x, y)[√
x2 + y2 < δ ⇒ |g(x, y)| < ε]
ということです。勝手に与えられた ε に対するこの δ を見つけるために、g を極座標で標示してみましょう。すると、
g(r cos θ, r sin θ) =r3 sin θ(3 cos2 θ − sin2 θ)
r2
= r sin θ(cos2 θ − sin2 θ) + r2 sin θ cos2 θ
= r sin θ cos 2θ + r sin 2θ cos θ
= r sin 3θ
となりますので、δ = ε とすれば、√x2 + y2 = r < δ = ε ⇒ |g(x, y)| = r| sin 3θ| ≤ r < ε
となります。
次に、任意の方向 u =
(u
v
)に方向微分可能であることを示しましょう。定
義に従って計算すると、
∂g
∂u(0, 0) = lim
h→0
g(hu, hv)− g(0, 0)
h
= limh→0
1
h
h3v(u2 − v2)
h2(u2 + v2)
=v(u2 − v2)
u2 + v2
第 7回解説:その 1 13
となって存在します。この計算から gx(0, 0) = 0, gy(0, 0) = −1 です。よって、もし原点で接平面があるなら、定理の関係式により
∂g
∂u(0, 0) = ugx(0, 0) + vgy(0, 0) = −v
でなければなりません。これは上の計算と合わないので、z = g(x, y) は原点で接平面を持ちません。 ■
極表示 g = r sin 3θ からグラフを想像して、原点には接平面がないことを納得してください。
1.4 全微分:一次近似としての微分
前節で幾何学的に接平面を定義することはあきらめました。しかし、式(3)さえ成り立てば接平面と言っても良いのではないか、と思わせる視点があります。それは 1次近似です。
1変数関数の微分の定義は
limx→a
f(x) − f(a)
x− a
でした。つまり、この極限が存在するとき f(x) は x = a で微分可能と言い、極限の値を微係数とか微分の値とか導値とかと言って f ′(a) とか df
dx(a) と書くので
した。つまり、
limx→a
f(x) − f(a)
x− a= p
となる p が存在するとき微分可能と言い、p をその値と言うというわけです。この式で右辺の p を左辺に移項して分子に載っけてやると
limx→a
f(x) − f(a) − p(x− a)
x− a= 0
となります。分子の後半 f(a) + p(x− a) は x = a のときの値が f(a) であるような 1次関数ですので、結局、f ′(a) とは
x = a のときの値が f(a) であるような 1次関数 P (x) のうち、
limx→a
f(x) − P (x)
x− a= 0 (4)
をみたすものの傾きのことである。
第 7回解説:その 1 14
と言い換えられます2。そして、この 1次関数 P (x) のことを、
x = a における f(x) の 1次近似
と言います。これのまねを多変数関数でしてみましょう。記号が煩雑になるのを避けるため
2変数関数で説明します。1変数関数の場合の x → a を「点 xが点 aに近づく」と読めば、2変数関数の場合「点 (x, y)が点 (a, b)に近づく」ということ、つまり、「(x, y)と (a, b)との距離が0に近づく」と考えれば良いことになります。つまり、
√(x− a)2 + (y − b)2 → 0
です。もちろん 2変数でも 1次関数という概念はありますので、これでとりあえず偏微分とはなんの関係もなく 2変数関数の 1次近似を定義できることになりました。式が長くなるのを避けるために、以下
‖(x, y)− (a, b)‖ =√
(x− a)2 + (y − b)2
と書くことにします。
定義. 2変数関数 f(x, y) に対して P (a, b) = f(a, b) をみたす 1次関数で
f(x, y) − P (x, y)
‖(x, y)− (a, b)‖‖(x,y)−(a,b)‖→0−−−−−−−−−−→ 0 (5)
をみたすものが存在するとき、f は (a, b) で微分可能、あるいは全微分可能であると言い、P のことを f の (a, b) における 1次近似と言う。 ◇
1変数関数の場合、元々ひとつしかないものの定義を言い換えたにすぎないので、1次近似があるとしてもひとつであることは分かり切っていますが、多変数の場合のこの定義では 1次近似 P がひとつしかあり得ないことはにわかには分かりません。しかし、「1変数関数のテイラー展開の一意性」の証明と同様にすれば簡単に示せます。
証明. P1(x, y) = p1(x − a) + q1(y − b) + f(a, b) と P2(x, y) = p2(x − a) +q2(y− b) + f(a, b)がともに (a, b)における f の 1次近似だったとすると、どちらも性質(5)を満たすので、
P1(x, y)− P2(x, y)‖(x, y)− (a, b)‖
‖(x,y)−(a,b)‖→0−−−−−−−−−−−→ 0
となります。‖(x, y)− (a, b)‖ → 0 とは (x, y) がどのように (a, b)に近づくときも同じ値に収束するという意味ですので、まず y → b としてから x → a
とすれば、
limx→a
limy→b
P1(x, y)− P2(x, y)‖(x, y)− (a, b)‖ = lim
x→a
p1(x− a) − p2(x− a)|x − a| = ±(p1 − p2)
2これはテイラー展開の n = 1 の場合に当たっていることがおわかりになるでしょう。詳しくは、第 4回の解説を読んでみてください。
第 7回解説:その 1 15
となります。これが 0なのですから p1 = p2 です。同様に x → a としてから y → b としてやれば q1 = q2 がでます。以上より、P1 = P2 となり、f の (a, b) における 1次近似はあるとしても
ひとつだけであることが示せました。 □
1次近似は 1次関数ですので、前節で説明したようにそのグラフは平面です。つまり、f が (a, b)で全微分可能なとき、z = f(x, y)というグラフは点
(a, b, f(a, b)
)をとおるある特別な平面をたった 1枚だけ持つということになります。これが接平面であることは大いに期待されるでしょう。実際、次が成り立ちます。
定理 1. P が f の (a, b) における 1次近似ならば、f は (a, b) であらゆる方向に方向微分可能で、
P (x, y) =∂f
∂x(a, b)(x− a) +
∂f
∂y(a, b)(y − b) + f(a, b)
であり、関係式(3)が成り立つ。
証明. 記号がゴチャゴチャして見にくくなるので、平行移動して (a, b) =(0, 0), f(0, 0) = 0 の場合で示します。
f が点 (0, 0) で 1次近次 P を持つとしましょう。P は P (0, 0) = 0 を満たす 1次関数ですので、
P (x, y) = px + qy
とおけます。すると、1次近似の定義より、
f(x, y)− px − qy
‖(x, y)‖‖(x,y)‖→0−−−−−−−→ 0
です。ここで、‖(x, y)‖ → 0 での極限が存在するとは、(x, y) がどのように(0, 0)に近づこうとも同じ値に収束するということですから、勝手なベクトル(a, b) をとって、h → 0 にともなって (x, y) = (ah, bh) → (0, 0) となる場合を考えてみましょう。すると、
limh→0
f(ah, bh)− pah − qbh
|h| = 0
となります。分母の絶対値を取り除いても、h → +0 の場合にはこのままだし、h → −0 の場合には全体の符号が変わるだけで極限が 0であることに変わりはないので、結局
limh→0
f(ah, bh)− pah − qbh
h= 0
となります。分子の後ろの 2項を右辺に移項すれば、左辺には (a, b) 方向微分の定義式が残って
∂f
∂(a, b)(0, 0) = lim
h→0
f(ah, bh) − f(0, 0)h
= ap + qb
第 7回解説:その 1 16
となります。特に、(a, b) として (1, 0) と (0, 1) をとることにより
∂f
∂x(0, 0) = p,
∂f
∂y(0, 0) = q
となります。つまり、
P (x, y) =∂f
∂x(0, 0)x +
∂f
∂y(0, 0)y
で、関係式(3)の成り立つことがわかりました。 □
前節の最初に考えた幾何学的な接平面についての悩みは忘れてしまって、改めて 1次近似の定める平面のことを接平面と呼んでしまっても異論はないでしょう。以下では「接平面」という言葉はその意味で使うことにします。よって、以降は
f が (a, b)で全微分可能であることと f のグラフが点(a, b, f(a, b)
)に
おいて接平面を持つこととは同値
ということになります。さて、全微分可能なとき、その接平面を決める係数は偏微分の値でした。つまり、全微分可能なことが分かっているときには、そのことから導かれる性質などはすべて偏微分によって記述されることになります。ここに至って偏微分がとうとう主役の座に座ったように見えます。しかし、具体的に関数が与えられても、それが全微分可能であるかどうかを定義に従って判定するのはかなり大変そうです。そこを克服しないと「多変数関数の微分は偏微分で十分」というステージにはたどり着けません。そこのところを気にとめて次節に進んでください。
1.5 C1-級関数
1変数関数の場合でも、導関数は連続になるとは限りませんでした。ましてや、多変数関数では偏微分可能でも元々の関数が不連続ということさえあります(例1,2など)。導関数が連続な関数は、例えば導関数が有界閉区間で最大値を持つことからあまり急激な増減をしないといった、微分可能なだけよりも扱いやすい性質を持ちました。多変数関数の場合には、偏導関数が連続という条件は 1変数関数の場合とは比べものにならないくらい「ありがたい性質」です。この節ではそれについて述べます。なお、あらゆる点で偏微分可能で、すべての偏導関数が連続であるような関数のことを C1-級関数といいます。C1-級関数が持つ「ありがたい性質」を印象づけるために、今まで調べてきた多変数関数の微分たちについてまとめておきましょう。微分が本当に役に立つ関数は、やはり定義域全体で微分可能な関数ですし、「C1-
級」とは元々そういう関数に対してしか意味を持たない言葉ですので、以下、「ある 1点で云々」と考えるのはやめて、定義域全体での性質を問題にしましょう。
第 7回解説:その 1 17
多変数関数の「微分」には、偏微分、方向微分、全微分の 3種類がありました。これらの関係はどうなっているかと言うと、
全微分可能=⇒�⇐=方向微分可能
=⇒�⇐=偏微分可能
でした。しかも、全微分可能なら方向微分は偏微分のいわば「一次結合」になるという関係(3)が成り立ちます。また、微分とは別に連続性という概念が当然あって、全微分可能なら連続ですが、方向微分可能なだけでは連続とは限りません。ましてや偏微分可能なだけならなおさらです。つまり、一口で言ってしまえば、「偏微分は全微分可能なときには役に立つものだけれど、全微分可能かどうかなんて簡単にはわからなそうだから、結局偏微分だけ計算できてもあんまり嬉しくない」というように見えます。ところが、偏導関数だけ見れば調べられる C1-級という性質については、次の定理が成り立ってしまうのです。
定理 2. C1-級関数は全微分可能である。
証明. f が C1-級なら原点で全微分可能であることを示しましょう。平行移動によって任意の点 (a, b) を原点に持ってくることができるので、これだけ示せば十分です。
f は偏微分可能なので、1次関数 P を
P (x, y) =∂f
∂x(0, 0)x +
∂f
∂y(0, 0)y + f(0, 0)
とおきます。もし f が原点で全微分可能なら、そこでの 1次近似式はこの Pでなければならないので、この P が全微分可能性の定義 1.4の中の性質(5)を満たすことを示せばよいことになります。つまり、示すべきことは
f(x, y)− P (x, y)√x2 + y2
√x2+y2→0−−−−−−−−→ 0
です。まず
f(x, y)− P (x, y)√x2 + y2
=f(x, y)− fx(0, 0)x − fy(0, 0)y − f(0, 0)√
x2 + y2
=f(x, y)− f(0, y)− fx(0, 0)x√
x2 + y2+
f(0, y)− f(0, 0)− fy(0, 0)y√x2 + y2
と分解してみます。|y| ≤√
x2 + y2 から (x, y) によらずに
|y|√x2 + y2
≤ 1
第 7回解説:その 1 18
となるので、第 2項は∣∣∣∣∣f(0, y)− f(0, 0)− fy(0, 0)y√x2 + y2
∣∣∣∣∣ =∣∣∣∣f(0, y)− f(0, 0)
y− fy(0, 0)
∣∣∣∣ |y|√x2 + y2
≤∣∣∣∣f(0, y)− f(0, 0)
y− fy(0, 0)
∣∣∣∣√
x2+y2→0−−−−−−−−→ |fy(0, 0)− fy(0, 0)|= 0
となります。第 1項もよく似ているのですが、同じように整理すると、
f(x, y)− f(0, y)x
− fx(0, 0)
で√
x2 + y2 → 0 としなければならなくなります。はじめから y = 0 なら第2項と全く同じなのでですが、そうではないので、これが 0に収束することは明らかではありません。しかし、偏微分可能なのですから、y を定数だと思って x の関数 f(x, y) に平均値の定理を使うと、
f(x, y)− f(0, y) = fx(hx, y)x, 0 < h < 1
となる h が存在します。ただし h は x と y に依存します。ここで f が C1-級であることの登場です。fx は 2変数関数として連続ですから、どんな正実数 ε が与えられても√
x2 + y2 < δ =⇒ |fx(x, y)− fx(0, 0)| < ε
となる δ があります。0 < h < 1 ですので、√
x2 + y2 < δ を満たしているなら√
(hx)2 + y2 < δ です。よって、√
x2 + y2 < δ のとき、∣∣∣∣f(x, y)− f(0, y)x
− fx(0, 0)∣∣∣∣ = |fx(hx, y)− fx(0, 0)| < ε
となります。つまり、
f(x, y)− f(0, y)x
√x2+y2→0−−−−−−−−→ ∂f
∂x(0, 0)
です。これで第 1項も第 2項と全く同じ計算で 0に収束することが分かりました。 □
簡単に計算できる偏導関数というものが連続であれば、それだけで全微分可能なことが保証されてしまうのです。ビバ C1-級!!
細かいことですが・・・ 証明をよく読むと分かるように、使ったのは fx が(0, 0) で連続なことだけです。よって、
偏微分可能な f が、点 (a, b) で fx または fy が連続なら、f は(a, b) で全微分可能である。
が成り立ちます。☆
第 7回解説:その 1 19
2 合成関数の微分法と写像の微分まず、この章の目標をはっきりさせておきましょう。一般の多変数で書くとゴチャゴチャして見にくくなるので、2変数でまとめます。
2変数関数 f(x, y) に x = x(ξ, η), y = y(ξ, η) という 2つの 2変数関数を合成してできる関数を g(ξ, η) と書くことにしましょう。つまり、
g(ξ, η) = f(x(ξ, η), y(ξ, η)
)です。このとき、(α, β) における g(ξ, η) の ξ による偏微分は
∂g
∂ξ(α, β) =
∂f
∂x(a, b)
∂x
∂ξ(α, β) +
∂f
∂y(a, b)
∂y
∂ξ(α, β)
となることを証明するのがこの章の第一の目標です。(η での偏微分も当然同様の式になります。)ここで a = x(α, β), b = (α, β) です。「どこでの微分か」ということを省略して書くともっと印象的に
∂g
∂ξ=∂f
∂x
∂x
∂ξ+∂f
∂y
∂y
∂ξ(6)
となります。さて、1変数関数の場合、合成関数の微分法の公式のことを連鎖律と呼びました。それは、f(x) に x = x(ξ) を合成した関数も同じ記号で f(ξ) と書いてしまったとき、
df
dξ=df
dx
dx
dξ
と分母を払うように計算できるから、なのかもしれませんが、それよりも、f1, f2, . . .
とたくさんの関数があったとき、
f ′1 = f ′
1
(f2 ◦ f1)′ = (f ′
2 ◦ f1) · f ′1
(f3 ◦ f2 ◦ f1)′ = (f ′
3 ◦ f2 ◦ f1) · (f ′2 ◦ f1) · f ′
1
(f4 ◦ f3 ◦ f2 ◦ f1)′ = (f ′
4 ◦ f3 ◦ f2 ◦ f1) · (f ′3 ◦ f2 ◦ f1) · (f ′
2 ◦ f1) · f ′1
...
となるからではないでしょうか。(◦ は合成の記号、つまり f ◦ g(x) = f(g(x)
)で、
· は積です。)少なくとも私はそう思います。どちらにせよ、多変数関数の合成関数の微分法の公式(6)は連鎖律の名に値しないように見えます。しかし、二つの 2変数関数 x(ξ, η), y(ξ, η) をバラバラに扱わずにまとめて R
2 から R2 への写像と思うことで、やはり連鎖律と呼ぶにふさわしい
ものだということが納得できる、ということを示すのが第二の目標です3。3ただし、講義は「第二の目標」までは扱わなかったようです。
第 7回解説:その 1 20
この「R2 から R
2 への写像と思ったときの微分」の意味を調べてゆくと、5ページの注意の最後に述べた「微分を線形写像と思うのがまっとう」ということが明らかになります。この章は 3つの節から成り立っています。第 2.1節では「多変数関数の微分とは何か」ということをいっさい考えずに、偏微分の定義に従ってとにかく公式(6)を証明します。第 2.2節では、全微分可能な関数においては偏微分は 1次近似の係数だということを利用して公式(6)を証明します4。第 2.3節では、二つの 2変数関数を R
2 から R2 への写像と見ることで、公式(6)が「連鎖律」と呼ぶにふさわしい
形になることを示します。
2.1 合成関数の微分法をとにかく証明する
前章で、偏微分には定義式からすぐには分からない隠された側面があることを説明しましたが、この節では、そのような意味をいっさい使わずに、1変数関数のときの微分のテクニックを偏微分だけを使って多変数の場合に拡張しておきましょう。ここで言う「テクニック」とは
• 積の微分法(ライプニッツの法則)(fg)′ = f ′g + fg′
• 合成関数の微分法(連鎖律)(f ◦ g)′ = (f ′ ◦ g)g′
• 逆関数の微分法 (f−1)′ =1
f ′
の三つです。ただし、これらの式は印象的なようにちょっといい加減に書いてあります。例えば、逆関数の微分法の式は正確には
(f−1)′(x) =1
f ′(f−1(x)) (7)
あるいは
df−1
dx(x) =
1dfdy
(y)(y = f−1(x))
です。この 3つのうち、積の微分法は多変数関数の偏微分になってもなにも変わりません。実際、例えば f(x, y) と g(x, y) の y に定数 b を代入してできる x の 1変数関数を ϕ(x) = f(x, b), ψ(x) = g(x, b) と書くことにすれば、f(x, y) と g(x, y) の
4講義で扱ったのはここまでだろうと思います。
第 7回解説:その 1 21
積の x による偏微分は、偏微分の定義から
∂(fg)
∂x(x, b) =
d(ϕψ)
dx(x)
=dϕ
dx(x)ψ(x) + ϕ(x)
dψ
dx(x)
=∂f
∂x(x, b)g(x, b) + f(x, b)
∂g
∂x(x, b)
となります。x での偏微分を下付添え字で fx, gx などと表せば、1変数関数の積の微分法の式にもっと似た形で、
(fg)x = fxg + fgx
と表されます。一方、1変数関数の逆関数の微分法をどうやって導いたかを思い出すと、合成関数の微分法(連鎖律)から、
d(f ◦ f−1)
dx(x) =
df
dx
(f−1(x)
)d(f−1)
dx(x)
で、任意の x に対して f ◦ f−1(x) = x となっているので左辺は恒等的に 1ですから、両辺を f ′(f−1(x)
)でわって式(7)を得るのでした。つまり、合成関数の微分法
(連鎖律)の特別な場合が逆関数の微分法だと言えます。よって、多変数関数の場合にもまず合成関数の微分法を明らかにしてから逆関数の微分法を追求すべきだと考えるのが自然でしょう。結局、合成関数の微分法を多変数の場合に拡張することだけが目標となります。この節では、結論の式(6)を知らないものとして、簡単な場合での計算をくり返すことでゆっくりとそれを導いてみましょう。
2.1.1 1変数関数の連鎖律の証明
偏微分は基本的に 1変数関数の微分なのですから、まず、1変数関数において合成関数の微分法はどのように証明されたのかをしっかりと復習しておきましょう。f(x)に x = g(ξ)を合成することにします。記号は (f ◦g)(ξ)で、意味は f
(g(ξ)
)です。
f ◦ g : Rg−−−−→ R
f−−−−→ R
というふうに g を先に施してから f を施すことに注意してください。関数の記号と矢印を使った図とで順番が逆になります。a = g(α) とし、f(x) と g(ξ) はそれぞれ a と α で微分可能であるとします。
f(g(ξ)) − f(g(α))
ξ − α=f(g(ξ)) − f(g(α))
g(ξ) − g(α)
g(ξ) − g(α)
ξ − α
第 7回解説:その 1 22
と変形すると、右辺の右側の因子は ξ → αのとき g′(α)に収束します。また、g′(α)
が存在するのですから g(ξ) は ξ = α で連続、つまり ξ → α のとき g(ξ) → g(α)
なので、f(g(ξ)) − f(g(α))
g(ξ) − g(α)
ξ→α−−−→ f ′(g(α)) = f ′(a)
です。以上より、
(f ◦ g)′(α) = limξ→α
f(g(ξ)) − f(g(α))
ξ − α= f ′(a)g′(α)
が証明されました。
注意. これでほとんど良いのですが、一つだけ問題があります。それは g(ξ) が α のどんなに近くでも g(α) と同じ値を取ってしまう場合、例えば g(ξ) が α の近くで定数関数の場合です。この場合には g′(α) = 0 である一方 f(g(ξ)) も ξ = α のどんなに近くでもf(g(a)) = g(a) と同じ値を取るので、やはり (f ◦ g)′(α) = 0 となり、結局公式は成り立っています。以下、このような「別に議論しなければならないがあまり重要でない場合」はいちいち議論しないことにします。流れ重視で行きましょう。★
2.1.2 1変数関数に 2変数関数を合成した場合
多変数関数のでてくるもののうち最も簡単な場合として、f は 1変数のままでg のみ 2変数の関数としてみましょう。x = g(ξ, η) を f(x) に合成する場合です。
f ◦ g : R2 g−−−−→ R
f−−−−→ R
です。出来上がった関数 f ◦ g はもちろん 2変数 (ξ, η) の関数になります。g(ξ, η)は (α, β) において ξ で偏微分可能で、f(x) は a = g(α, β) で微分可能とします。すると、
f(g(ξ, β) − f(g(α, β))
ξ − α=f(g(ξ, β) − f(g(α, β))
g(ξ, β) − g(α, β)
g(ξ, β) − g(α, β)
ξ − α
ξ→α−−−→ df
dx(g(α, β))
∂g
∂ξ(α, β)
となります。わかりにくければ、例によって f(ξ, η) に η = β を代入してできる ξ
の 1変数関数 f(ξ, β) を ϕ(ξ) と書いて、上の式を
f(ϕ(ξ)) − f(ϕ(α))
ξ − α=f(ϕ(ξ) − f(ϕ(α))
ϕ(ξ) − ϕ(α)
ϕ(ξ) − ϕ(α)
ξ − αξ→α−−−→ f ′(ϕ(α))ϕ′(α)
と書き直してみるとよいでしょう。これは、前小節「1変数の場合」と全く同じですね。偏微分というものが「注目する変数以外は定数と思って 1変数の微分をする」というものである以上、先に施す方の関数 g が多変数でも、あとの関数 f が 1変数なら結局 1変数関数の合成を考えているのと同じことだというわけです。
第 7回解説:その 1 23
2.1.3 2変数関数に 1変数関数を合成した場合
次に簡単な場合として、f の方を 2変数 (x, y) の関数とし、1変数 ξ の関数をg(ξ), h(ξ) と二つ用意して f(x, y) に合成してみましょう。つまり f
(g(ξ), h(ξ)
)と
いう 1変数関数を考えるということです。合成を「◦」で書く書き方だとうまく書けないので、F (ξ) = f
(g(ξ), h(ξ)
)と新しい記号を使って書くことにしましょう。
F :
R
×R
R
g
h
fR
です。ただし、真ん中のところで、上の R は x を、下の R は y を表します。すると
F (ξ) − F (α)
ξ − α=f(g(ξ), h(ξ)
) − f(g(α), h(α)
)ξ − α
(8)
となり、このあとどう式変形をすればよいかは前小節のように簡単にはわかりません。しかし、この式(8)をぼんやりと眺めていると、1変数関数の積の微分を導いたときの式を思い出しませんか? 実際、f(x, y) = xy なら F (ξ) = g(ξ)h(ξ) となってF (ξ) の微分は単なる積の微分になります。
dF
dξ(ξ) =
d
dξ
(g(ξ)h(ξ)
)=dg
dξ(ξ)h(ξ) + g(ξ)
dh
dξ(ξ)
です。もう少し一般に、f(x, y) = ϕ(x)ψ(y)というふうに f(x, y)が x だけの関数と y だけの関数の積に分かれていたとすると、合成関数 F (ξ) の微分は 1変数関数の積の微分と合成関数の微分になります。実際、
dF
dξ(ξ) =
d
dξ
{ϕ(g(ξ)
)ψ(h(ξ)
)}
=d(ϕ ◦ g)dξ
(ξ)(ψ ◦ h)(ξ) +
(ϕ ◦ g)(ξ)d
(ψ ◦ h)dξ
(ξ)
=dϕ
dx
(g(ξ)
)dgdξ
(ξ)ψ(h(ξ)
)+ ϕ
(g(ξ)
)dψdy
(h(ξ)
)dhdξ
(ξ)
(9)
となります。ところで、我々の目標は F ′(ξ) を f(x, y) の偏微分と g(ξ), h(ξ) の微分の組み合わせで書くことでした。そこで f(x, y) = ϕ(x)ψ(y) の場合で偏微分を計算してみると、
∂f
∂x(x, y) =
dϕ
dx(x)ψ(y),
∂f
∂z(y, z) = ϕ(x)
dψ
dy(y)
第 7回解説:その 1 24
です。よって、式(9)は
dF
dξ(ξ) =
∂f
∂x(g(ξ), h(ξ))
dg
dξ(ξ) +
∂f
∂y(g(x), h(x))
dh
dξ(ξ)
と書き直せます。もっと印象深いように「どこでの微分か」を表している部分を省き、g(ξ), h(ξ) を x(ξ), y(ξ) と書いてしまえば、
dF
dξ=∂f
∂x
dx
dξ+∂f
∂y
dy
dξ(10)
となります。これは f(x, y) が x の関数と y の関数の積に分かれていなくても(正しいかどうかは今のところ別として)意味を持つ式です。そこで一般にこれが成り立つのではないかと予想して、立ち往生していた式(8)をこの形を目指して変形してみましょう。式(10)は 1変数の合成関数の微分法と積の微分法から導きました。合成関数の微分法の復習はしたので、積の微分法の証明を振り返ってみましょう。
g(x)h(x) − g(a)h(a)
x− a=g(x)h(x) − g(a)h(x) + g(a)h(x) − g(a)h(a)
x− a
=g(x) − g(a)
x− ah(x) + g(a)
h(x) − h(a)
x− a
というふうに、分子にわざと g(a)h(x)− g(a)h(x) という項を水増しするところがミソでした。そこで、式(8)でも同じことをしてみましょう。すると、
F (ξ) − F (α)
ξ − α
=f(g(ξ), h(ξ)
) − f(g(α), h(α)
)ξ − α
=f(g(ξ), h(ξ)
) − f(g(α), h(ξ)
)+ f(g(α), h(ξ)
)− f(g(α), h(α)
)ξ − α
=f(g(ξ), h(ξ)
) − f(g(α), h(ξ)
)g(ξ) − g(α)
g(ξ) − g(α)
ξ − α(11)
+f(g(α), h(ξ)
) − f(g(α), h(α))
h(ξ) − h(α)
h(ξ) − h(α)
ξ − α(12)
となります。最後の式で ξ → α とすると、最後の式の第 1項(11)、第 2項(12)とも第2の因子はそれぞれ g′(α), h′(α)になり、また式(12)の第 1因子は fy(g(α), h(α))
になります。わかりにくければ g(α) = a, h(α) = b, h(ξ) − h(α) = k おいて
limx→a
f(g(α), h(ξ)
) − (g(α), h(α))
h(ξ) − h(α)= lim
k→0
f(a, b+ k) − f(a, b)
k
=∂f
∂y(a, b)
第 7回解説:その 1 25
としてみれば見易くなります。問題は(11)の第 1因子です。もしもそれの分子が f
(g(ξ), h(α)
)− f(g(α), h(α)
)であれば、つまり h の中身が ξ でなく α なら、式(12)の第 1因子と全く同様の計算で ξ → α のとき fx(g(α), h(α)) という目標のものになってくれるのですが、hの中身が ξ なのでナイーブに ξ → α の極限を取ることができません。「そんなことないんじゃない? ξ → α のとき h(ξ) → h(α)なんだから、h(ξ) を最初から h(α)
に取り替えておいても問題ないのでは?」と思われるかも知れません。つまり
f(g(ξ), h(ξ)
) − f(g(α), h(ξ)
)g(ξ) − g(α)
�= f(g(ξ), h(α)
) − f(g(α), h(α)
)g(ξ) − g(α)
だけれど、ξ → αの極限を取ってしまえばそんな「小さな違い」はなくなって、めでたく fx(g(α), h(α)) に収束するのではないかと。ところが、これは一般には成り立ちません。例を見ておきましょう。
例 4. f(x, y) を
f(x, y) =
3x2y − y3
x2 + y2(x, y) �= (0, 0)
0 (x, y) = (0, 0)
とすると、
∂f
∂x(0, 0) = lim
x→0
f(x, 0) − f(0, 0)
x= lim
x→0
0 − 0
x= 0
となって fx(0, 0) = 0 です。ところが、例えば g(ξ) = h(ξ) = ξ として合成関数F (ξ) = f
(g(ξ), h(ξ)
)を考えた場合、
limξ→0
f(g(ξ), h(0)
) − f(g(0), h(0)
)g(ξ) − g(0)
= limξ→0
f(ξ, 0) − f(0, 0)
ξ= lim
ξ→00 = 0
となってこちらは fx(0, 0) と一致しますが、h(0) を h(ξ) と取り替えると、
limξ→0
f(g(ξ), h(ξ)
) − f(g(0), h(ξ)
)g(ξ) − g(0)
= limξ→0
f(ξ, ξ) − f(0, ξ)
ξ= lim
ξ→01 = 1
となって fx(0, 0) = 0 に一致しません。 ■
これで、何か f(x, y) に条件を付けないと予想した式(10)は成り立たないことになってしまいました。勘のいい人はお気づきだと思いますが、f が C1-級なら予想(10)が成り立ちます。ここにも C1-級関数の性質の良さが現れてきます。f が C1-級なら、(11)の第 1因子は fx
(g(α), h(α)
)に収束します。
第 7回解説:その 1 26
証明. まず、f(x, y) を y だけの関数だと思って 1変数関数の平均値の定理を使うと、
f(x, y) = f(x, b) +∂f
∂y(x, c)(y − b)
となる c が b と y の間にあります。ただし、この c は b や y だけでなく xにも依ることに注意してください。ここで x として g(ξ) と g(α) を、y として h(ξ) を、b として h(b) と取ると、
f(g(ξ), h(ξ)
)= f
(g(ξ), h(α)
)+
∂f
∂y
(g(ξ), c
)(h(ξ)− h(α)
)f(g(α), h(ξ)
)= f
(g(α), h(α)
)+
∂f
∂y
(g(α), c′
)(h(ξ)− h(α)
)となる c と c′ が h(ξ) と h(α) の間に存在することがわかります。この 2式を式(11)の第 1因子に入れると、
f(g(ξ), h(ξ)
)− f(g(α), h(ξ)
)g(ξ)− g(α)
=f(g(ξ), h(α)
)− f(g(α), h(α)
)g(ξ)− g(α)
+∂f
∂y
(g(ξ), c
)h(ξ) − h(α)g(ξ)− g(α)
− ∂f
∂y
(g(α), c′
)h(ξ) − h(α)g(ξ)− g(α)
となります。ここで ξ → α の極限を取りたいのですが、そのとき
limξ→α
h(ξ) − h(α)g(ξ)− g(α)
= limξ→α
h(ξ) − h(α)ξ − α
ξ − α
g(ξ)− g(α)=
h′(α)g′(α)
であることと、fy が連続であること、および c も c′ も h(α) に収束することに注意すれば、
limξ→α
f(g(ξ), h(ξ)
)− f(g(α), h(ξ)
)g(ξ)− g(α)
=∂f
∂x(g(α), h(α)) +
∂f
∂y(g(α), h(α))
h′(α)g′(α)
− ∂f
∂y(g(α), h(α))
h′(α)g′(α)
=∂f
∂x(g(α), h(α))
となります。 □
これで f(x, y)が C1-級で g(ξ) と h(ξ) がともに微分可能であるとき、合成関数F (ξ) = f
(g(ξ), h(ξ)
)の微分は
dF
dξ(ξ) =
∂f
∂x
(g(ξ), h(ξ)
)dgdξ
(ξ) +∂f
∂y
(g(ξ), h(ξ)
)dhdξ
(ξ)
となるということが示せました。
注意. ちなみに、例 4の関数は C1-級ではありません。
第 7回解説:その 1 27
証明. 偏微分を計算すると
∂f
∂x(x, y) =
8xy3
(x2 + y2)2(x, y) �= (0, 0)
0 (x, y) = (0, 0)
∂f
∂y(x, y) =
3x4 − y4 − 6x2y2
(x2 + y2)2(x, y) �= (0, 0)
−1 (x, y) = (0, 0)
となるので、例えば y = 2x という関係を保ったままで x → 0 の極限を取ると
limx→0
∂f
∂x(x, 2x) =
6425
�= 0 =∂f
∂x(0, 0)
limx→0
∂f
∂y(x, 2x) =−37
25�=−1 =
∂f
∂y(0, 0)
となります。よって fx も fy も (0, 0) で連続でなく f(x, y) は C1-級ではありません。 □
★
2.1.4 一般の場合
前二小節の議論から、合成関数の偏微分は「中身」の関数が多変数であることは全然苦にならず、「入れ物」の関数が多変数であることが面倒のもとであることがわかりました。よって、前二小節の議論は単純にくっつけることができて
定理 3. f(x, y) が C1-級の関数で g(ξ, η), h(ξ, η) が ξ について偏微分可能なら、合成関数 F (ξ, η) = f
(g(ξ, η), h(ξ, η)
)は ξ で偏微分可能で、
∂F
∂ξ=∂f
∂x
(g(ξ, η), h(ξ, η)
)∂g∂ξ
(ξ, η) +∂f
∂y
(g(ξ, η), h(ξ, η)
)∂h∂ξ
(ξ, η)
が成り立つ。 ■
という目標の公式(6)が得られました。わかりやすさのためと文字の節約のためにg, h をやめて x(ξ, η), y(ξ, η) と書いてしまえば、結論の式は
∂F
∂ξ=∂f
∂x
∂x
∂ξ+∂f
∂y
∂y
∂ξ
となります。もちろん η による偏微分も同様です。1変数のときのように「分数と見てうち消し合う」というふうになっていないことに注意してください。やはり、この時点では 1変数の合成関数の微分法と積の微分法の組み合わせと見ておくのがよいでしょう。以上の結果は、全く同様に任意の数の変数を持つ関数に拡張できます。
第 7回解説:その 1 28
2.2 1次近似で考える
前節で一応多変数関数における合成関数の微分法を手に入れることができましたが、イマイチ結論の式の意味やそれにたどり着いた筋道がわからないというのが正直なところではないでしょうか。「積の微分法と合成関数の微分法の組み合わせ」ではどうにも腑に落ちた感じがしないでしょう。ここでは、偏微分が「1次近似の係数」であるという視点からすべての関数を全微分可能と仮定して前節の議論を見直してみましょう。つまり、
合成関数の 1次近似は、それぞれの関数の 1次近似の合成
となっていることを証明することで、合成関数の微分法の式(6)を手に入れましょう。
2.2.1 1次近似の視点から合成関数の微分法へ(1変数)
やることは簡単ですので、すぐに多変数関数の場合を扱ってもよいのですが、概念としては新しいので、まず 1変数関数の場合でやっておきましょう。微分が 1次近似であるとはどう意味だったかというと、
limx→a
f(x) − P (x)x − a = 0
となる 1次式 P の傾き、つまり x の係数が f ′(a) だということでした。1次近似式 P (x) がひとつしかないということを使って、1変数の合成関数の微分法を証明してみましょう。g(α) = a とし f(x) に g(ξ) を合成した関数を F (ξ) と書くことにします。f(x)
の x = a における 1次近似 P (x) は
P (x) = f(a) + f ′(a)(x− a)
です。また、g(ξ) の ξ = α における 1次近似 Q(ξ) は
Q(ξ) = g(α) + g′(α)(ξ − α)
となります。ここで f(x) − P (x) = r(x), g(ξ) − Q(ξ) = s(ξ) として f(g(ξ)
)を
f(a), f ′(a), g(α), g′(α), r(x), s(ξ) で書くと、g(α) = a ですので、
F (x) = f(g(ξ)
)= P
(g(ξ)
)+ r(g(ξ)
)= f(a) + f ′(a)
(g(ξ) − a
)+ r(g(ξ)
)= f(a) + f ′(a)
(g(α) + g′(α)(ξ − α) + s(ξ) − a
)+ r(g(ξ)
)= f(a) + f ′(a)g′(α)(ξ − α) + f ′(a)s(ξ) + r
(g(ξ)
)となります。s(ξ) は limξ→α s(ξ)/(ξ−α) = 0 を満たし、また、x = g(ξ) ですから、
limξ→α
r(g(ξ)
)ξ − α
= limξ→α
r(g(ξ)
)g(ξ) − g(α)
g(ξ) − g(α)
x− a= 0 · g′(α) = 0
第 7回解説:その 1 29
を満たします。よって、1次関数
T (x) = f(a) + f ′(a)g′(α)(ξ − α)
は F (ξ)に関して性質(4)を満たす、つまり ξ = αにおける F (ξ)の 1次近似になっています。F ′(α) は T (ξ) の傾きなのですから、
F ′(α) = f ′(a)g′(α)
です。これで合成関数の微分法が得られました。
2.2.2 1次近似の視点から合成関数の微分法へ(多変数)
前小節の証明を多変数関数の場合に拡張するときのキーポイントは、全微分可能なとき、偏微分が 1次近似の係数になっているという定理 1と、1次近似がひとつしかないという「1次近似の一意性」です。(全微分の定義 1.4のすぐ後で証明しました。)この二つのことから、1変数関数の場合と同様に 1次近似の一意性を利用して合成関数の偏微分を合成前の関数の偏微分たちで表す公式が得られるでしょう。f(x, y), g(ξ, η), h(ξ, η) をすべて全微分可能な関数とし、x = g(ξ, η), y = h(ξ, η)
として得られる合成関数を F (ξ, η) としましょう。つまり、
F (ξ, η) = f(g(ξ, η), h(ξ, η)
)です。以下、式がゴチャゴチャと長くなるのを避けるために、f(0, 0) = g(0, 0) =
h(0, 0) = 0 とし、(ξ, η) = (0, 0) における合成関数の偏微分を計算します。g(ξ, η) と h(ξ, η) の (0, 0) における 1次近似を、それぞれ
Q(ξ, η) = q1ξ + q2η, R(ξ, η) = r1ξ + r2η
とし、f(x, y) の (0, 0) における 1次近似を
P (x, y) = p1x+ p2y
としましょう。前小節の結果から
p1 =∂f
∂x(0, 0), q1 =
∂g
∂ξ(0, 0), r1 =
∂h
∂ξ(0, 0),
p2 =∂f
∂y(0, 0), q2 =
∂g
∂η(0, 0), r2 =
∂h
∂η(0, 0)
(13)
であることがわかっています。さらに、1次近似との差を
f(x, y) − P (x, y) = p(x, y)
g(ξ, η) −Q(ξ, η) = q(ξ, η)
h(ξ, η) − R(ξ, η) = r(ξ, η)
第 7回解説:その 1 30
とします。すると、
F (ξ, η)
= f(g(ξ, η), h(ξ, η)
)= P
(g(ξ, η), h(ξ, η)
)+ p(g(ξ, η), h(ξ, η)
)= p1g(ξ, η) + p2h(ξ, η) + p
(g(ξ, η), h(ξ, η)
)= p1Q(ξ, η) + p1q(ξ, η) + p2R(ξ, η) + p2r(ξ, η) + p
(g(ξ, η), h(ξ, η)
)= p1q1ξ + p1q2η + p2r1ξ + p2r2η + p1q(ξ, η) + p2r(ξ, η)
+ p(g(ξ, η), h(ξ, η)
)となります。そこで、
S(ξ, η) = (p1q1 + p2r1)ξ + (p1q2 + p2r2)η
とおくと、
F (ξ, η)− S(ξ, η)
‖(ξ, η)‖ = p1q(ξ, η)
‖(ξ, η)‖ + p2r(ξ, η)
‖(ξ, η)‖ +p(g(ξ, η), h(ξ, η)
)‖(ξ, η)‖
となりますが、(ξ, η) → (0, 0) のときこれは 0に収束します。
証明. 最後の式の前 2項は q(ξ, η)と r(ξ, η) の定義から (ξ, η) → (0, 0) のとき 0に収束します。また、最後の項も、
p(g(ξ, η), h(ξ, η)
)‖(ξ, η)‖ =
p(g(ξ, η), h(ξ, η)
)‖(g(ξ, η), h(ξ, η)
)‖ ‖(g(ξ, η), h(ξ, η)
)‖‖(ξ, η)‖
とすると、第 1因子は p(x, y) の定義から 0ですし、第 2因子は、
max{|ξ|, |η|} ≤ ‖(ξ, η)‖ =√
ξ2 + η2 ≤ |ξ| + |η|
であることを使うと、
‖(g(ξ, η), h(ξ, η))‖
‖(ξ, η)‖≤ |g(ξ, η)|+ |h(ξ, η)|
‖(ξ, η)‖≤ |q1||ξ|+ |q2||η|+ |q(ξ, η)|
‖(ξ, η)‖ +|r1||ξ|+ |r2||η|+ |r(ξ, η)|
‖(ξ, η)‖≤ |q1| + |q2| +
∣∣∣∣ q(ξ, η)‖(ξ, η)‖
∣∣∣∣ + |r1| + |r2| +∣∣∣∣ r(ξ, η)‖(ξ, η)‖
∣∣∣∣‖(ξ,η)‖→0−−−−−−−→ |q1| + |q2| + |r1| + |r2|
となって有界ですので、全体としては 0に収束します。 □
第 7回解説:その 1 31
以上より、合成関数 F (ξ, η) の (0, 0) における 1次近似は
S(ξ, η) = (p1q1 + p2r1)ξ + (p1q2 + p2r2)η
であることがわかりました。ξ の係数が Fξ(0, 0)、η の係数が Fη(0, 0) なのですから、式(13)たちとあわせて、
∂F
∂ξ=∂f
∂x
∂g
∂ξ+∂f
∂y
∂h
∂ξ∂F
∂η=∂f
∂x
∂g
∂η+∂f
∂y
∂h
∂η
という合成関数の微分法の公式が得られました。
注意. ここで得られた合成関数の微分法は、「f, g, hとも全微分可能である」ということが仮定でしたが、前節で証明した方は「f は C1-級で g と h は偏微分可能」が仮定でした。既に偏微分可能でも全微分可能でない関数のあることは見ましたし、全微分可能でも C1-級でない関数もありますので、前節のバージョンの方は g, h の性質の悪さを f の性質の良さがカバーしているというわけです。やはり理論としてはこの節の「全微分」バージョンの方が一貫性があると言えるでしょう。もちろん、C1-級なら全微分可能で普通に出会う関数はたいてい C1-級でしょうから、実質的にはこの二つの違いを気にする必要はありません。ただ、こういうところに、偏微分可能より全微分可能なことの方が「多変数関数の微分」にふさわしいということが現れているということです。★
2.3 写像の微分、そして連鎖律へ
ここまでは、2変数関数 f(x, y) に二つの 2変数関数 x = g(ξ, η), h(ξ, η) を入れると考えてきました。しかし、このように「関数」すなわち「値は(実)数に限る」という考え方をしていると不便なことがおきます。例えば、上の合成関数の ξ
と η にさらに t と s の 2変数関数を入れた場合、その微分どのようになるでしょうか。記号が多くて見にくいので、g, h をやめて、ξ, η の関数を x(ξ, η), y(ξ, η)、s, t の関数を ξ(s, t), η(s, t) としてしまいましょう。そして、今度は g, h といういう記号を
g(ξ, η) = f(x(ξ, η), y(ξ, η)
)h(s, t) = g
(ξ(s, t), η(s, t)
)= f
(x(ξ(s, t), η(s, t)), y(ξ(s, t), η(s, t))
)と合成関数に使いましょう。上で求めた合成関数の微分法を 2回使って h(s, t) の s による偏微分を計算してみると、
∂h
∂s=∂g
∂ξ
∂ξ
∂s+∂g
∂η
∂η
∂s
=
(∂f
∂x
∂x
∂ξ+∂f
∂y
∂y
∂ξ
)∂ξ
∂s+
(∂f
∂x
∂x
∂η+∂f
∂y
∂y
∂η
)∂η
∂s
=∂f
∂x
∂x
∂ξ
∂ξ
∂s+∂f
∂y
∂y
∂ξ
∂ξ
∂s+∂f
∂x
∂x
∂η
∂η
∂s+∂f
∂y
∂y
∂η
∂η
∂s(14)
第 7回解説:その 1 32
となります。(見易くするためと誤解の余地がないことから「どこでの微分か」を表す部分を省きました。)1変数関数の場合に比べて大分汚いですね。1変数関数の場合には合成する関数がいくら増えても式は大して変わりませんでした。例えば
χ(s) = ψ(ξ(s)
)= ϕ
(x(ξ(s))
)のとき χ(s) の s による微分は
dχ
ds=dψ
dξ
dξ
ds=dϕ
dx
dx
dξ
dξ
ds
に過ぎません。多変数関数の場合にもこのようにスッキリと理解できないでしょうか。もう一つ、「関数」という視点からだけではとらえられないものがあります。それは 1変数関数における逆関数の微分の多変数関数の場合への拡張です。逆関数とは「従属変数」によって「独立変数」を表すことです。だから、2変数関数の場合、「従属変数」が二つないと「逆関数」に当たるものを考えることができないわけです。以上の二つのどちらの場合も、x(ξ, η), y(ξ, η) を「二つの関数」と考えるのではなく、R
2 から R2 への写像であるととらえることによって自然に解釈できること
を説明するのがこの節の目標です。
2.3.1 ヤコビ行列と合成関数の微分法
2回合成した関数に対する合成関数の微分の結果(14)をきれいに整理するには、元々の合成関数の微分法
∂g
∂ξ=∂f
∂x
∂x
∂ξ+∂f
∂y
∂y
∂ξ
をうまく整理しなければなりません。「整理する」といっても、この式は二つの項の和に過ぎないので、これで十分「整理されている」と言えるでしょう。こういうときには、2変数に限定せずに一般の n変数で考えた方がかえって見通しが良くなることがあります。f を x1, x2, . . . , xn の関数とし、xi たちがさらに ξ1, ξ2, . . . , ξmの関数だったとしてみましょう。
g(ξ1, . . . , ξm) = f(x1(ξ1, . . . , ξm), . . . , xn(ξ1, . . . , ξm)
)とします。すると、合成関数の微分の式は
∂g
∂ξj=
∂f
∂x1
∂x1
∂ξj+∂f
∂x2
∂x2
∂ξj+ · · · + ∂f
∂xn
∂xn
∂ξj
=
n∑i=1
∂f
∂xi
∂xi
∂ξj
第 7回解説:その 1 33
となります。このような和の取り方には見覚えがあるでしょう。そう、
a11 a12 · · · a1n
a21 a22 · · · a2n
......
. . ....
am1 am2 · · · amn
v1
v2
...
vn
=
n∑i=1
a1ivi
n∑i=1
a2ivi
...n∑
i=1
amivi
という m× n-行列と n-次タテベクトルとの積の第 j 成分の式にそっくりです。しかし、これにあわせると、合成関数の微分の公式は
∂g
∂ξ1...∂g
∂ξm
=
∂x1
∂ξ1· · · ∂xn
∂ξ1...
. . ....
∂x1
∂ξm· · · ∂xn
∂ξm
∂f
∂x1...∂f
∂xn
となってしまい、f の偏微分と xi たちの偏微分の場所が逆な感じがします。こういうことはあくまでも慣習の問題に過ぎないのですが、やはりできるだけ「自然な感じ」、と言うか「なれている感じ」がする方がよいので、全体を「転置」して、つまり行番号と列番号を入れ替えて、
(∂g
∂ξ1, · · · , ∂g
∂ξm
)=
(∂f
∂x1, · · · , ∂f
∂xn
)
∂x1
∂ξ1· · · ∂x1
∂ξm...
. . ....
∂xn
∂ξ1· · · ∂xn
∂ξm
とするのが良いでしょう。これを踏まえて次のように定義します。
定義. n 変数 x1, x2, . . . , xn の関数が m 個 f1, f2, . . . , fm とあったとき、
∂f1
∂x1
∂f1
∂x2· · · ∂f1
∂xn∂f2
∂x1
∂f2
∂x2· · · ∂f2
∂xn...
.... . .
...∂fm
∂x1
∂fm
∂x2· · · ∂fm
∂xn
を m 個の関数 f1, f2, . . . , fm たちが作る Rm への写像のヤコビ行列と言う。 ◇
第 7回解説:その 1 34
Rn から R
n の写像を f と一文字で書き、ヤコビ行列のことを Jf(x1, . . . , xn) と表すことにしましょう。m = 1のとき、つまり n変数関数のときヤコビ行列はヨコベクトルになります。これはまさに前節で定義した「多変数関数の微分の値」あるいは「勾配ベクトル」です。また n = 1 のとき、つまり 1変数関数が m 個のときヤコビ行列はタテベクトルです。これは、線形常微分方程式を扱ったときと同じです。この二つの場合に注意すれば、ヤコビ行列の縦横を間違わないだろうと思います。ヤコビ行列を使うと合成関数の微分法をスッキリ整理することができます。m変数 x1, . . . , xm の関数が l 個 f1, . . . , fl とあり、さらに、x1, . . . , xm が n 変数ξ1, . . . , ξn の関数としましょう。f1, . . . , fl それぞれを ξ1, . . . , ξn の関数と見たものを g1, . . . , gl と書くことにし、f1, . . . , fl の決める R
m から Rl への写像を f、
x1, . . . , xm の決める Rn から R
m への写像を x、g1, . . . , gl の決める Rn から R
l
への写像を g とします。つまり、
g = f ◦ x : Rn x−→ R
m f−→ Rl
です。このとき合成関数の微分法は簡単に
Jg(ξ1, . . . , ξn) = Jf (x1, . . . , xm)Jx(ξ1, . . . , ξn)
と整理されます。ただし、右辺でヤコビ行列が二つ並んでいるのは行列の積をとることです。成分で書けば、
∂g1
∂ξ1· · · ∂g1
∂ξn...
. . ....
∂gl
∂ξ1· · · ∂gl
∂ξn
=
∂f1
∂x1· · · ∂f1
∂xm...
. . ....
∂fl
∂x1
· · · ∂fl
∂xm
∂x1
∂ξ1· · · ∂x1
∂ξn...
. . ....
∂xm
∂ξ1· · · ∂xm
∂ξn
となります。偏微分一つ一つを考えるのではなくヤコビ行列として一遍に考えれば、合成関数の微分法は 1変数関数の場合と全く同じ公式、すなわち連鎖律で与えられるというわけです。
2.3.2 逆写像の微分法
m 変数関数が n 個あったとき、それの決める写像が逆写像を持つ、つまり、
ξ1 = ξ1(x1, . . . , xn), . . . , ξm = ξm(x1, . . . , xn) (15)
が逆に解けて
x1 = x1(ξ1, . . . , ξm), . . . , xn = xn(ξ1, . . . , ξm) (16)
第 7回解説:その 1 35
となったとしましょう。m 個の関数(15)たちの決める Rn から R
m への写像をf(x1, . . . , xn)、n個の関数(16)たちの決める R
m から Rn への写像を g(ξ1, . . . , ξm)
とすると、「逆に解ける」ことは
f ◦ g =「Rm の恒等写像」, g ◦ f =「R
n の恒等写像」
の両方が成り立つことと同じです。よって、連鎖律より、任意の点で
JfJg = Em, JgJf = En
が成り立ちます。ただし Em および En はそれぞれm-次および n-次の単位行列です。つまり、任意の点で Jf と Jg は互いに逆行列だというわけです。よって、特に Jf は正方行列であり、n = m となります。普通は g のことを f−1 と書きますから、それに従って「逆写像の微分法の公式」を書くと、
Jf−1 = Jf−1 (17)
となります。もちろん右辺は「Jf の逆行列」という意味です。1変数関数の逆関数の微分法と全く同じですね。
2変数のときを成分で書いてみましょう。添え字で書くのはやめて
f =(ξ(x, y), η(x, y)
), f−1 =
(x(ξ, η), y(ξ, η)
)としましょう。すると、
Jf =
∂ξ
∂x
∂ξ
∂y∂η
∂x
∂η
∂y
, Jf−1 =
∂x
∂ξ
∂x
∂η∂y
∂ξ
∂y
∂η
なので、逆写像の微分法の公式は
∂x
∂ξ
∂x
∂η∂y
∂ξ
∂y
∂η
=
1∂ξ
∂x
∂η
∂y− ∂ξ
∂y
∂η
∂x
∂η
∂y−∂ξ∂y
−∂η∂x
∂ξ
∂x
となります。成分で書けば、例えば
∂x
∂ξ=
∂η
∂y∂ξ
∂x
∂η
∂y− ∂ξ
∂y
∂η
∂x
などとなって、わけわかりませんね。行列で表示することの便利さが実感できると思います。
第 7回解説:その 1 36
注意. 逆写像の微分法の公式(17)は任意の点で成り立ちます。一方、もしも f(x1, . . . , xn) のヤコビ行列がある 1点 (a1, . . . , an) で逆行列を持つなら、
実は f(x1, . . . , xn) は (a1, . . . , an) の近くでなら逆写像を持ちます。このことを逆関数の定理と言います。(「写像」と言わず「関数」と言うのが慣わしになっています。)詳しくは第 4章で述べる「陰関数定理」の一般の場合とともに 2年生のどれかの講義で学ばれるだろうと思います。★
2.3.3 変数変換
逆写像の微分の公式が手に入ったので、「微分の変数変換」が簡単に計算できます。まず、1変数関数の場合で考えてみましょう。f(x) を x = x(ξ) により ξ の関数に変数変換してみましょう。どちらの変数で考えているかハッキリさせるために、x(ξ) を入れた合成関数を g(ξ) と書くことにします。合成関数の微分法により
dg
dξ(ξ) =
df
dx
(x(ξ)
)dxdξ
(ξ)
となりますが、この式の登場人物のうち dg/dξ と dx/dξ は ξ の関数で、df/dx は(今は x に x(ξ) が入っているから ξ の関数ですが、本来は)x の関数です。だから、この公式は ξ の関数を x の関数と ξ の関数で表しているわけで、少々据わりが悪い感じがします。ここで、もし x(ξ) が逆関数 ξ = ξ(x) を持つなら、逆関数の微分法から
dg
dξ(ξ) =
df
dx(x)
dξ
dx(x)
と、ξ の関数を x の関数として表すことができます。もちろん、同様に、
df
dx(x) =
dg
dξ(ξ)
dx
dξ(ξ)
と、x での微分を ξ の関数として表すこともできます。ヤコビ行列を使えば、多変数関数の変数変換に対しても全く同じ計算が可能になります。f を x1, . . . , xn を変数とする関数とし、x1(ξ1, . . . , ξn), . . . , xn(ξ1, . . . , ξn)
という「逆に解ける」関数の組によって f の変数を x1, . . . , xn から ξ1, . . . , ξn に変換してみましょう。上と同様、どちらの変数で考えているのかわからなくならないために、ξ1, . . . , ξn に変数を変換したあとの関数を g(ξ1, . . . , ξn) と書くことにします。変数変換の写像を一文字で ϕ : R
n → Rn と書くことにすると、合成写
像の微分法から
Jg(ξ1, . . . , ξn) = Jf(x1, . . . , xn)Jϕ(ξ1, . . . , ξn)
第 7回解説:その 1 37
及び
Jf(x1, . . . , xn) = Jg(ξ1, . . . , ξn)Jϕ−1(x1, . . . , xn)
という行列の式が得られます。ただし、Jf と Jg は 1行 n 列の行列、つまりヨコベクトルです。1変数のときと同様、Jf と Jϕ−1 の変数は x1, . . . , xn で、Jg と Jϕ
の変数は ξ1, . . . , ξn です。しかし、逆写像の微分法により、Jϕ と Jϕ−1 は互いに相手の逆行列ですので、上の二つの式は
Jg(ξ1, . . . , ξn) = Jf (x1, . . . , xn)(Jϕ−1(x1, . . . , xn)
)−1
及び
Jf (x1, . . . , xn) = Jg(ξ1, . . . , ξn)(Jϕ(ξ1, . . . , ξn)
)−1(18)
となります。
例 5. 極座標 x = r cos θ, y = r sin θ を考えましょう。これは全単射ではないので無制限では変数変換になっていませんが、例えば r > 0, 0 ≤ θ < 2π と制限すれば全単射です。この範囲において、式(18)を具体的に書けば、ヤコビ行列で
(∂f
∂x,∂f
∂y
)=
(∂g
∂r,∂g
∂θ
)(cos θ −r sin θ
sin θ r cos θ
)−1
ですので、成分では
∂f
∂x=∂g
∂rcos θ − 1
r
∂g
∂θsin θ
∂f
∂y=∂g
∂rsin θ +
1
r
∂g
∂θcos θ
となります。念のためにこの式の意味を言いますと、左辺の fx や fy は (x, y) の関数ですが、そこに x = r cos θ, y = r sin θ を入れてやると右辺の関数になる、というわけです。この二つの式に対してもう一度同じことをしてやると、例えば、
fxx =∂fx
∂x
=∂
∂r
(gr cos θ − 1
rgθ sin θ
)cos θ − 1
r
∂
∂θ
(gr cos θ − 1
rgθ sin θ
)sin θ
=
(grr cos θ +
1
r2gθ sin θ − 1
rgrθ sin θ
)cos θ
− 1
r
(gθr cos θ − gr sin θ − 1
rgθθ sin θ − 1
rgθ cos θ
)sin θ
= grr cos2 θ − 1
rgrθ2 sin θ cos θ +
1
r2gθθ sin2 θ +
1
rgr sin2 θ +
1
r2gθ2 sin θ cos θ
第 7回解説:その 1 38
fyy =∂
∂yfy
=∂
∂r
(gr sin θ +
1
rgθ cos θ
)sin θ +
1
r
∂
∂θ
(gr sin θ +
1
rgθ cos θ
)cos θ
=
(grr sin θ − 1
r2gθθ cos θ +
1
rgrθ cos θ
)sin θ
+1
r
(gθr sin θ + gr cos θ +
1
rgθθ cos θ − 1
rgθ sin θ
)cos θ
= grr sin2 θ +1
rgrθ2 sin θ cos θ +
1
r2gθθ cos2 θ +
1
rgr cos2 θ − 1
r2gθ2 sin θ cos θ
となりますので、この二つを足しあわせて、
∂2f
∂x2+∂2f
∂y2=∂2g
∂r2+
1
r2
∂2g
∂θ2+
1
r
∂g
∂r
となります。f(x, y) は(微分さえできれば)何でも良かったので、
∂2
∂x2+
∂2
∂y2=
∂2
∂r2+
1
r
∂
∂r+
1
r2
∂2
∂θ2
と書けます。これは、ラプラス作用素 ∂2/∂x2 + ∂2/∂y2 を極座標で表す重要な公式です。 ■