| 此条目需要精通或熟悉相关主题的编者参与及协助编辑。 (2019年3月5日) 请邀请适合的人士改善本条目。更多的细节与详情请参见讨论页。 |
在数学中,矩阵微积分是多元微积分的一种特殊表达,尤其是在矩阵空间上进行讨论的时候。它把单个函数对多个变量或者多元函数对单个变量的偏导数写成向量和矩阵的形式,使其可以被当成一个整体被处理。这使得要在多元函数寻找最大或最小值,又或是要为微分方程系统寻解的过程大幅简化。这里我们主要使用统计学和工程学中的惯用记法,而张量下标记法更常用于物理学中。
在本小节中,我们在表示向量和矩阵时,通过用单个变量来表示许多变量的方式,把矩阵记法的效用发挥到最大。接下来我们用不同字体来区分标量、向量和矩阵。我们使用M(n,m)来表示包含n行m列的n×m实矩阵的空间。该空间中的一般矩阵用粗体大写字母表示,例如A,X,Y等。而若该矩阵属于M(n,1),即列向量,则用粗体小写字母表示,如a,x,y等。特别地,M(1,1)中的元素为标量,用小写斜体字母表示,如a,t,x等。XT 表示矩阵转置,tr(X)表示矩阵的迹,而 det(X)或|X|表示行列式。除非专门注明,所有函数都默认属于光滑函数C1。 通常字母表前半部分的字母(a, b, c, …)用于表示常量,而后半部分的字母(t, x, y, …)用于表示变量。
向量求导[编辑]
由于向量可看成仅有一列的矩阵,最简单的矩阵求导为向量求导。
这里的标记方法可以通过如下方式表达大部分向量微积分:把n维向量构成的空间M(n,1)等同为欧氏空间 Rn, 标量M(1,1)等同于R。对应的向量微积分的概念在每小节末尾列出。
向量对标量求导[编辑]
向量
关于标量 x的导数可以(用分子记法)写成
![{\displaystyle {\frac {\partial \mathbf {y} }{\partial x}}={\begin{bmatrix}{\frac {\partial y_{1}}{\partial x}}\\{\frac {\partial y_{2}}{\partial x}}\\\vdots \\{\frac {\partial y_{m}}{\partial x}}\\\end{bmatrix}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a09a083d1c5043d5144b39d973123d480ab69166)
这里的“分子布局记法”一般指,在表示导数向量(或矩阵)时,该导数的行数等于导数表达式
中处于分子部分的参数维度,即
的维度大小
;若采用分母布局记法,则导数的行数等于导数表达式中处于分母部分的参数维度,即
的维度大小。分子布局记法的结果与分母布局记法的结果互为转置关系。
在向量微积分中,向量
关于标量
的导数也被称为向量
的切向量,
。注意这里
。
例子 简单的样例包括欧式空间中的速度向量,它是位移向量(看作关于时间的函数)的切向量。更进一步而言, 加速度是速度的切向量。
标量对向量求导[编辑]
标量y对向量
的导数可以(用分子记法)写成
![{\displaystyle {\frac {\partial y}{\partial \mathbf {x} }}={\begin{bmatrix}{\frac {\partial y}{\partial x_{1}}}&{\frac {\partial y}{\partial x_{2}}}&\cdots &{\frac {\partial y}{\partial x_{n}}}\end{bmatrix}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8e47415719067629c52a91a4a0d7d26e76a91bb0)
在向量微积分中,标量y在的空间Rn(其独立坐标是x的分量)中的梯度是标量y对向量x的导数的转置。在物理学中,电场是电势的负梯度向量。
标量函数f(x)对空间向量x在单位向量u(在这里表示为列向量)方向上的方向导数可以用梯度定义:
![{\displaystyle \nabla _{\mathbf {u} }{f}(\mathbf {x} )=\nabla f(\mathbf {x} )\cdot \mathbf {u} }](https://wikimedia.org/api/rest_v1/media/math/render/svg/6667384bf7a845519df9fb5b31d3823699bb4420)
使用刚才定义的标量对向量的导数的记法,我们可以把方向导数写作
这类记法在证明乘法法则和链式法则的时候非常直观,因为它们与我们熟悉的标量导数的形式较为相似。
向量对向量求导[编辑]
前面两种情况可以看作是向量对向量求导在其中一个是一维向量情况下的特例。类似地我们将会发现有关矩阵的求导可被以一种类似的方式化归为向量求导。
向量函数 (分量为函数的向量)
对输入向量
的导数,可以(用分子记法) 写作
![{\displaystyle {\frac {\partial \mathbf {y} }{\partial \mathbf {x} }}={\begin{bmatrix}{\frac {\partial y_{1}}{\partial x_{1}}}&{\frac {\partial y_{1}}{\partial x_{2}}}&\cdots &{\frac {\partial y_{1}}{\partial x_{n}}}\\{\frac {\partial y_{2}}{\partial x_{1}}}&{\frac {\partial y_{2}}{\partial x_{2}}}&\cdots &{\frac {\partial y_{2}}{\partial x_{n}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial y_{m}}{\partial x_{1}}}&{\frac {\partial y_{m}}{\partial x_{2}}}&\cdots &{\frac {\partial y_{m}}{\partial x_{n}}}\\\end{bmatrix}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/219228d6b8593c9d0d63c108f07403de9aefa943)
在向量微积分中,向量函数y对分量表示一个空间的向量x的导数也被称为前推 (微分),或雅可比矩阵。
向量函数f对Rn空间中向量v的前推为
矩阵求导[编辑]
有两种类型的矩阵求导可以被写成相同大小的矩阵:矩阵对标量求导和标量对矩阵求导。它们在解决应用数学的许多领域常见的最小化问题中十分有用。类比于向量求导,相应的概念有切矩阵和梯度矩阵。
矩阵对标量求导[编辑]
矩阵函数Y对标量x的导数被称为切矩阵,(用分子记法)可写成:
![{\displaystyle {\frac {\partial \mathbf {Y} }{\partial x}}={\begin{bmatrix}{\frac {\partial y_{11}}{\partial x}}&{\frac {\partial y_{12}}{\partial x}}&\cdots &{\frac {\partial y_{1n}}{\partial x}}\\{\frac {\partial y_{21}}{\partial x}}&{\frac {\partial y_{22}}{\partial x}}&\cdots &{\frac {\partial y_{2n}}{\partial x}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial y_{m1}}{\partial x}}&{\frac {\partial y_{m2}}{\partial x}}&\cdots &{\frac {\partial y_{mn}}{\partial x}}\\\end{bmatrix}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d9abbb1ff9b41e69f09e4629419c9f12b0ecafe7)
标量对矩阵求导[编辑]
定义在元素是独立变量的p×q矩阵X上的标量函数y对X的导数可以(用分子记法)写作
![{\displaystyle {\frac {\partial y}{\partial \mathbf {X} }}={\begin{bmatrix}{\frac {\partial y}{\partial x_{11}}}&{\frac {\partial y}{\partial x_{21}}}&\cdots &{\frac {\partial y}{\partial x_{p1}}}\\{\frac {\partial y}{\partial x_{12}}}&{\frac {\partial y}{\partial x_{22}}}&\cdots &{\frac {\partial y}{\partial x_{p2}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial y}{\partial x_{1q}}}&{\frac {\partial y}{\partial x_{2q}}}&\cdots &{\frac {\partial y}{\partial x_{pq}}}\\\end{bmatrix}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b16420a71806794402709993f65d8ee49ca403a6)
定义矩阵上的重要的标量函数包括矩阵的迹和行列式。
类比于向量微积分,这个导数常被写成如下形式:
![{\displaystyle \nabla _{\mathbf {X} }y(\mathbf {X} )={\frac {\partial y(\mathbf {X} )}{\partial \mathbf {X} }}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e7ef85902f8df540af401ecf795336e8310ad0f4)
类似地,标量函数f(X)关于矩阵X在方向Y的方向导数可写成
![{\displaystyle \nabla _{\mathbf {Y} }f=\operatorname {tr} \left({\frac {\partial f}{\partial \mathbf {X} }}\mathbf {Y} \right)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/60bf852d8c652809320ee908aa21e7977787a9a5)
梯度矩阵经常被应用在估计理论的最小化问题中,比如卡尔曼滤波算法的推导,因此在这些领域中有着重要的地位。
参考文献[编辑]
延伸阅读[编辑]
- Lax, Peter D. 9. Calculus of Vector- and Matrix-Valued Functions. Linear algebra and its applications 2nd. Hoboken, N.J.: Wiley-Interscience. 2007. ISBN 978-0-471-75156-4.
外部链接[编辑]