“
偏微分 ”重定向至此。关于含有未知函数及其偏导数的方程,请见“
偏微分方程 ”。
在数学 中,偏导数 (英语:partial derivative )的定义是:一个多变量的函数(或称多元函数),对其中一个变量(导数 )微分 ,而保持其他变量恒定[ 注 1] 。
偏导数的作用与价值在向量分析 和微分几何 以及机器学习 领域中受到广泛认可。
函数
f
{\displaystyle f}
关于变量
x
{\displaystyle x}
的偏导数写为
f
x
′
{\displaystyle f_{x}^{\prime }}
或
∂
f
∂
x
{\displaystyle {\frac {\partial f}{\partial x}}}
。偏导数符号
∂
{\displaystyle \partial }
是全导数符号
d
{\displaystyle d}
的变体,由阿德里安-马里·勒让德 引入,并在雅可比 的重新引入后得到普遍接受。
f = x 2 + xy + y 2 的图像。我们希望求出函数在点(1, 1) 的对x 的偏导数;对应的切线与xOz 平面平行。
假设
f
{\displaystyle f}
是一个多元函数。例如:
z
=
f
(
x
,
y
)
=
x
2
+
x
y
+
y
2
{\displaystyle z=f(x,y)=x^{2}+xy+y^{2}}
因为曲面上的每一点都有无穷多条切线,描述这种函数的导数 相当困难。偏导数就是选择其中一条切线,并求出它的斜率。通常,最感兴趣的是垂直于
y
{\displaystyle y}
轴(平行于
x
O
z
{\displaystyle xOz}
平面)的切线,以及垂直于
x
{\displaystyle x}
轴(平行于
y
O
z
{\displaystyle yOz}
平面)的切线。
一种求出这些切线的好办法是把其他变量视为常数。例如,欲求出以上的函数在点
(
1
,
1
)
{\displaystyle (1,1)}
的与
x
O
z
{\displaystyle xOz}
平面平行的切线。右图中显示了函数的图像以及这个平面。左图中显示了函数在平面
y
=
1
{\displaystyle y=1}
上是什么样的。我们把变量
y
{\displaystyle y}
视为常数,通过对方程求导,我们可以发现
f
{\displaystyle f}
在点
(
x
,
y
)
{\displaystyle (x,y)}
的导数,记为:
∂
f
∂
x
=
2
x
+
y
{\displaystyle {\frac {\partial f}{\partial x}}=2x+y}
于是在点
(
1
,
1
)
{\displaystyle (1,1)}
的
x
O
z
{\displaystyle xOz}
平面平行的切线的斜率是3。
∂
f
∂
x
=
3
{\displaystyle {\frac {\partial f}{\partial x}}=3}
在点
(
1
,
1
)
{\displaystyle (1,1)}
,或称“
f
{\displaystyle f}
在
(
1
,
1
)
{\displaystyle (1,1)}
的关于
x
{\displaystyle x}
的偏导数是3”。
函数
f
{\displaystyle f}
可以解释为
y
{\displaystyle y}
为自变量而
x
{\displaystyle x}
为常数的函数:
f
(
x
,
y
)
=
f
x
(
y
)
=
x
2
+
x
y
+
y
2
{\displaystyle f(x,y)=f_{x}(y)=\,\!x^{2}+xy+y^{2}}
。
也就是说,每一个
x
{\displaystyle x}
的值定义了一个函数,记为
f
x
{\displaystyle f_{x}}
,它是一个一元函数。也就是说:
f
x
(
y
)
=
x
2
+
x
y
+
y
2
{\displaystyle f_{x}(y)=x^{2}+xy+y^{2}}
。
一旦选择了一个
x
{\displaystyle x}
的值,例如
a
{\displaystyle a}
,那么
f
(
a
,
y
)
{\displaystyle f(a,y)}
便定义了一个函数
f
a
{\displaystyle f_{a}}
,把
y
{\displaystyle y}
映射到
a
2
+
a
y
+
y
2
{\displaystyle a^{2}+ay+y^{2}}
:
f
a
(
y
)
=
a
2
+
a
y
+
y
2
{\displaystyle f_{a}(y)=a^{2}+ay+y^{2}}
。
在这个表达式中,
a
{\displaystyle a}
是常数 ,而不是变量 ,因此
f
a
{\displaystyle f_{a}}
是只有一个变量的函数,这个变量是
y
{\displaystyle y}
。这样,便可以使用一元函数的导数的定义:
f
a
′
(
y
)
=
a
+
2
y
{\displaystyle f_{a}'(y)=a+2y}
以上的步骤适用于任何
a
{\displaystyle a}
的选择。把这些导数合并起来,便得到了一个函数,它描述了
f
{\displaystyle f}
在
y
{\displaystyle y}
方向上的变化:
∂
f
∂
y
(
x
,
y
)
=
x
+
2
y
{\displaystyle {\frac {\partial f}{\partial y}}(x,y)=x+2y}
这就是
f
{\displaystyle f}
关于
y
{\displaystyle y}
的偏导数,在这里,
∂
{\displaystyle \partial }
是一个弯曲的
d
{\displaystyle d}
,称为偏导数符号 。为了把它与字母
d
{\displaystyle d}
区分,
∂
{\displaystyle \partial }
有时读作“der”、“del”、“dah”或“偏”,而不是“dee”。
一般地,函数
f
(
x
1
,
⋯
,
x
n
)
{\displaystyle f(x_{1},\cdots ,x_{n})}
在点
(
a
1
,
⋯
,
a
n
)
{\displaystyle (a_{1},\cdots ,a_{n})}
关于
x
i
{\displaystyle x_{i}}
的偏导数定义为:
∂
f
∂
x
i
(
a
1
,
…
,
a
n
)
=
lim
h
→
0
f
(
a
1
,
…
,
a
i
+
h
,
…
,
a
n
)
−
f
(
a
1
,
…
,
a
n
)
h
{\displaystyle {\frac {\partial f}{\partial x_{i}}}(a_{1},\ldots ,a_{n})=\lim _{h\to 0}{\frac {f(a_{1},\ldots ,a_{i}+h,\ldots ,a_{n})-f(a_{1},\ldots ,a_{n})}{h}}}
在以上的差商中,除了
x
i
{\displaystyle x_{i}}
以外的所有变量都是固定的。这个固定值的选择决定了一个一元函数
f
a
1
,
…
,
a
i
−
1
,
a
i
+
1
,
…
,
a
n
(
x
i
)
=
f
(
a
1
,
…
,
a
i
−
1
,
x
i
,
a
i
+
1
,
…
,
a
n
)
{\displaystyle f_{a_{1},\ldots ,a_{i-1},a_{i+1},\ldots ,a_{n}}(x_{i})=f(a_{1},\ldots ,a_{i-1},x_{i},a_{i+1},\ldots ,a_{n})}
,根据定义,
d
f
a
1
,
…
,
a
i
−
1
,
a
i
+
1
,
…
,
a
n
d
x
i
(
a
1
,
…
,
a
n
)
=
∂
f
∂
x
i
(
a
1
,
…
,
a
n
)
{\displaystyle {\frac {df_{a_{1},\ldots ,a_{i-1},a_{i+1},\ldots ,a_{n}}}{dx_{i}}}(a_{1},\ldots ,a_{n})={\frac {\partial f}{\partial x_{i}}}(a_{1},\ldots ,a_{n})}
这个表达式说明了偏导数的计算可以化为一元导数的计算。
多变量函数的一个重要的例子,是欧几里德空间
R
n
{\displaystyle \mathbb {R} ^{n}}
(例如
R
2
{\displaystyle \mathbb {R} ^{2}}
或
R
3
{\displaystyle \mathbb {R} ^{3}}
)上的标量值函数
f
(
x
1
,
⋯
,
x
n
)
{\displaystyle f(x_{1},\cdots ,x_{n})}
。在这种情况下,
f
{\displaystyle f}
关于每一个变量
x
j
{\displaystyle x_{j}}
具有偏导数
∂
f
∂
x
j
{\displaystyle {\frac {\partial f}{\partial x_{j}}}}
。在点
a
{\displaystyle a}
,这些偏导数定义了一个向量:
∇
f
(
a
)
=
(
∂
f
∂
x
1
(
a
)
,
…
,
∂
f
∂
x
n
(
a
)
)
{\displaystyle \nabla f(a)=\left({\frac {\partial f}{\partial x_{1}}}(a),\ldots ,{\frac {\partial f}{\partial x_{n}}}(a)\right)}
这个向量称为
f
{\displaystyle f}
在点
a
{\displaystyle a}
的梯度 。如果
f
{\displaystyle f}
在定义域中的每一个点都是可微的,那么梯度便是一个向量值函数
∇
f
{\displaystyle \nabla f}
,它把点
a
{\displaystyle a}
映射到向量
∇
f
(
a
)
{\displaystyle \nabla f(a)}
。这样,梯度便决定了一个向量场 。
一个常见的符号滥用 是在欧几里得空间
R
3
{\displaystyle \mathbb {R} ^{3}}
中用单位向量
i
^
,
j
^
,
k
^
{\displaystyle \mathbf {\hat {i}} ,\mathbf {\hat {j}} ,\mathbf {\hat {k}} }
来定义Nabla算子 (
∇
{\displaystyle \nabla }
)如下:
∇
=
[
∂
∂
x
]
i
^
+
[
∂
∂
y
]
j
^
+
[
∂
∂
z
]
k
^
{\displaystyle \nabla ={\bigg [}{\frac {\partial }{\partial x}}{\bigg ]}\mathbf {\hat {i}} +{\bigg [}{\frac {\partial }{\partial y}}{\bigg ]}\mathbf {\hat {j}} +{\bigg [}{\frac {\partial }{\partial z}}{\bigg ]}\mathbf {\hat {k}} }
或者,更一般地,对于n 维欧几里得空间
R
n
{\displaystyle \mathbb {R} ^{n}}
的坐标
(
x
1
,
x
2
,
x
3
,
.
.
.
,
x
n
)
{\displaystyle (x_{1},x_{2},x_{3},...,x_{n})}
和单位向量(
e
^
1
,
e
^
2
,
e
^
3
,
…
,
e
^
n
{\displaystyle \mathbf {{\hat {e}}_{1}} ,\mathbf {{\hat {e}}_{2}} ,\mathbf {{\hat {e}}_{3}} ,\dots ,\mathbf {{\hat {e}}_{n}} }
):
∇
=
∑
j
=
1
n
[
∂
∂
x
j
]
e
^
j
=
[
∂
∂
x
1
]
e
^
1
+
[
∂
∂
x
2
]
e
^
2
+
[
∂
∂
x
3
]
e
^
3
+
⋯
+
[
∂
∂
x
n
]
e
^
n
{\displaystyle \nabla =\sum _{j=1}^{n}{\bigg [}{\frac {\partial }{\partial x_{j}}}{\bigg ]}\mathbf {{\hat {e}}_{j}} ={\bigg [}{\frac {\partial }{\partial x_{1}}}{\bigg ]}\mathbf {{\hat {e}}_{1}} +{\bigg [}{\frac {\partial }{\partial x_{2}}}{\bigg ]}\mathbf {{\hat {e}}_{2}} +{\bigg [}{\frac {\partial }{\partial x_{3}}}{\bigg ]}\mathbf {{\hat {e}}_{3}} +\dots +{\bigg [}{\frac {\partial }{\partial x_{n}}}{\bigg ]}\mathbf {{\hat {e}}_{n}} }
圆锥的体积与它的高度和半径有关
考虑一个圆锥 的体积
V
{\displaystyle V}
;它与高度
h
{\displaystyle h}
和半径
r
{\displaystyle r}
有以下的关系:
V
(
r
,
h
)
=
π
r
2
h
3
{\displaystyle V(r,h)={\frac {\pi r^{2}h}{3}}}
。
V
{\displaystyle V}
关于
r
{\displaystyle r}
的偏导数为:
∂
V
∂
r
=
2
π
r
h
3
{\displaystyle {\frac {\partial V}{\partial r}}={\frac {2\pi rh}{3}}}
,它描述了高度固定而半径变化时,圆锥的体积的变化率。
V
{\displaystyle V}
关于
h
{\displaystyle h}
的偏导数为:
∂
V
∂
h
=
π
r
2
3
{\displaystyle {\frac {\partial V}{\partial h}}={\frac {\pi r^{2}}{3}}}
,它描述了半径固定而高度变化时,圆锥的体积的变化率。
现在考虑
V
{\displaystyle V}
关于
r
{\displaystyle r}
和
h
{\displaystyle h}
的全导数 。它们分别是:
d
V
d
r
=
2
π
r
h
3
⏞
∂
V
∂
r
+
π
r
2
3
⏞
∂
V
∂
h
∂
h
∂
r
{\displaystyle {\frac {\operatorname {d} V}{\operatorname {d} r}}=\overbrace {\frac {2\pi rh}{3}} ^{\frac {\partial V}{\partial r}}+\overbrace {\frac {\pi r^{2}}{3}} ^{\frac {\partial V}{\partial h}}{\frac {\partial h}{\partial r}}}
以及
d
V
d
h
=
π
r
2
3
⏞
∂
V
∂
h
+
2
π
r
h
3
⏞
∂
V
∂
r
∂
r
∂
h
{\displaystyle {\frac {\operatorname {d} V}{\operatorname {d} h}}=\overbrace {\frac {\pi r^{2}}{3}} ^{\frac {\partial V}{\partial h}}+\overbrace {\frac {2\pi rh}{3}} ^{\frac {\partial V}{\partial r}}{\frac {\partial r}{\partial h}}}
现在假设,由于某些原因,高度和半径的比
k
{\displaystyle k}
需要是固定的:
k
=
h
r
=
∂
h
∂
r
{\displaystyle k={\frac {h}{r}}={\frac {\partial h}{\partial r}}}
这便给出了关于
r
{\displaystyle r}
的全导数:
d
V
d
r
=
2
π
r
h
3
+
k
π
r
2
3
{\displaystyle {\frac {\operatorname {d} V}{\operatorname {d} r}}={\frac {2\pi rh}{3}}+k{\frac {\pi r^{2}}{3}}}
可以化简为:
d
V
d
r
=
k
π
r
2
{\displaystyle {\frac {\operatorname {d} V}{\operatorname {d} r}}=k\pi r^{2}}
类似地,关于
h
{\displaystyle h}
的全导数是:
d
V
d
h
=
π
r
2
{\displaystyle {\frac {\operatorname {d} V}{\operatorname {d} h}}=\pi r^{2}}
含有未知函数的偏导数的方程,称为偏微分方程 ,它在物理学 、工程学 ,以及其它应用科学 中经常会见到。
与关于
r
{\displaystyle r}
和
h
{\displaystyle h}
二者相关的全导数是由雅可比矩阵 给出的,它的形式为梯度 向量
∇
V
=
(
∂
V
∂
r
,
∂
V
∂
h
)
=
(
2
3
π
r
h
,
1
3
π
r
2
)
{\displaystyle \nabla V=({\frac {\partial V}{\partial r}},{\frac {\partial V}{\partial h}})=({\frac {2}{3}}\pi rh,{\frac {1}{3}}\pi r^{2})}
。
在以下的例子中,设
f
{\displaystyle f}
为
x
{\displaystyle x}
、
y
{\displaystyle y}
和
z
{\displaystyle z}
的函数。
f
{\displaystyle f}
的一阶偏导数为:
∂
f
∂
x
=
f
x
=
∂
x
f
{\displaystyle {\frac {\partial f}{\partial x}}=f_{x}=\partial _{x}f}
二阶偏导数为:
∂
2
f
∂
x
2
=
f
x
x
=
∂
x
x
f
{\displaystyle {\frac {\partial ^{2}f}{\partial x^{2}}}=f_{xx}=\partial _{xx}f}
二阶混合偏导数 为:
∂
2
f
∂
y
∂
x
=
∂
∂
y
(
∂
f
∂
x
)
=
f
x
y
=
∂
y
x
f
{\displaystyle {\frac {\partial ^{2}f}{\partial y\,\partial x}}={\frac {\partial }{\partial y}}\left({\frac {\partial f}{\partial x}}\right)=f_{xy}=\partial _{yx}f}
高阶偏导数为:
∂
i
+
j
+
k
f
∂
x
i
∂
y
j
∂
z
k
=
f
(
i
,
j
,
k
)
{\displaystyle {\frac {\partial ^{i+j+k}f}{\partial x^{i}\,\partial y^{j}\,\partial z^{k}}}=f^{(i,j,k)}}
当处理多变量函数时,有些变量 可能互相有关,这样就需要明确指定哪些变量是固定的。在诸如统计力学 的领域中,
f
{\displaystyle f}
关于
x
{\displaystyle x}
的偏导数,把
y
{\displaystyle y}
和
z
{\displaystyle z}
视为常数,通常记为:
(
∂
f
∂
x
)
y
,
z
{\displaystyle \left({\frac {\partial f}{\partial x}}\right)_{y,z}}
像导数一样,偏导数也是定义为一个极限 。设
U
{\displaystyle U}
为
R
n
{\displaystyle \mathbb {R} ^{n}}
的一个开子集 ,
f
:
U
→
R
{\displaystyle f:U\rightarrow \mathbb {R} }
是一个函数。我们定义
f
{\displaystyle f}
在点
a
=
(
a
1
,
⋯
,
a
n
)
∈
U
{\displaystyle \mathbf {a} =(a_{1},\cdots ,a_{n})\in U}
关于第
i
{\displaystyle i}
个变量
x
i
{\displaystyle x_{i}}
的偏导数为:
∂
∂
x
i
f
(
a
)
=
lim
h
→
0
f
(
a
1
,
…
,
a
i
−
1
,
a
i
+
h
,
a
i
+
1
,
…
,
a
n
)
−
f
(
a
1
,
…
,
a
n
)
h
{\displaystyle {\frac {\partial }{\partial x_{i}}}f(\mathbf {a} )=\lim _{h\rightarrow 0}{f(a_{1},\dots ,a_{i-1},a_{i}+h,a_{i+1},\dots ,a_{n})-f(a_{1},\dots ,a_{n}) \over h}}
即使在某个给定的点
a
{\displaystyle a}
,所有的偏导数
∂
f
∂
x
i
(
a
)
{\displaystyle {\frac {\partial f}{\partial x_{i}}}(a)}
都存在,函数仍然不一定在该点连续 。然而,如果所有的偏导数在
a
{\displaystyle a}
的一个邻域 内存在并连续,那么
f
{\displaystyle f}
在该邻域内完全可微分 ,且全导数是连续的。在这种情况下,我们称
f
{\displaystyle f}
是一个C1 函数。
偏导数
∂
f
∂
x
{\displaystyle {\frac {\partial f}{\partial x}}}
可以视为定义在
U
{\displaystyle U}
内的另外一个函数,并可以再次求偏导数。如果所有的混合二阶偏导数在某个点(或集合)连续,我们便称
f
{\displaystyle f}
为在该点(或集合)的一个C2 函数;在这种情况下,根据克莱罗定理 ,偏导数可以互相交换:
∂
2
f
∂
x
i
∂
x
j
=
∂
2
f
∂
x
j
∂
x
i
{\displaystyle {\frac {\partial ^{2}f}{\partial x_{i}\,\partial x_{j}}}={\frac {\partial ^{2}f}{\partial x_{j}\,\partial x_{i}}}}
。
Thomas, George Brinton; Finney, Ross L. Calculus and analytic geometry 8. ed. Reading, Mass.: Addison-Wesley. 1992: 833-840. ISBN 978-0-201-52929-6 .