黑塞矩阵

维基百科,自由的百科全书
跳转到: 导航, 搜索

数学中,海森矩阵Hessian matrixHessian)是一个自变量为向量的实值函数的二阶偏导数组成的方块矩阵,此函数如下:

f(x_1, x_2, \dots, x_n),

如果 f 所有的二阶导数都存在,那么 f 的海森矩阵即:

H(f)_{ij}(x) = D_i D_j f(x)

其中 x = (x_1, x_2, \dots, x_n),即

H(f) = \begin{bmatrix}
\frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1\,\partial x_n} \\  \\
\frac{\partial^2 f}{\partial x_2\,\partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2\,\partial x_n} \\  \\
\vdots & \vdots & \ddots & \vdots \\  \\
\frac{\partial^2 f}{\partial x_n\,\partial x_1} & \frac{\partial^2 f}{\partial x_n\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2}
\end{bmatrix}

(也有人把海森定义为以上矩阵的行列式) 海森矩阵被应用于牛顿法解决的大规模优化问题。

目录

[编辑] 混合偏导数和海森矩阵的对称性

海森矩阵的混合偏导数是海森矩阵非主对角线上的元素。假如他们是连续的,那么求导顺序没有区别,即

\frac {\partial}{\partial x} \left( \frac { \partial f }{ \partial y} \right) =
       \frac {\partial}{\partial y} \left( \frac { \partial f }{ \partial x} \right)

上式也可写为

f_{xy} = f_{yx} \,

在正式写法中,如果 f 函数在区域 D 内连续并处处存在二阶导数,那么 f的海森矩阵在 D 区域内为对称矩阵

[编辑] Hessian矩阵与极值

[编辑] 2维标量函数的特殊情况

給定二階導數連續的函數f: \mathbb{R}^2 \to \mathbb{R},海森矩陣的行列式,可用於分辨 f 的臨界點是屬於鞍點還是極值点

對於 f 的臨界點 (x_0, y_0) 一點,有  \frac{\partial f(x_0, y_0)}{\partial x} = \frac{\partial f(x_0, y_0)}{\partial y} = 0,然而憑一階導數不能判斷它是鞍點、局部極大點還是局部極小點。海森矩陣可能解答這個問題。


H = \begin{vmatrix}
\frac{\partial^2 f}{\partial x^2} & \frac{\partial^2 f}{\partial x\,\partial y} \\ \\
\frac{\partial^2 f}{\partial y\,\partial x} & \frac{\partial^2 f}{\partial y^2}
 \end{vmatrix} = \frac{\partial^2 f}{\partial x^2} \frac{\partial^2 f}{\partial y^2} - (\frac{\partial^2 f}{\partial y\,\partial x})^2
  • H > 0: 若 \frac{\partial^2 f}{\partial x^2}(x_0, y_0) > 0,則(x_0, y_0)是局部極小點;若 \frac{\partial^2 f}{\partial x^2}(x_0, y_0) < 0 , 則(x_0, y_0)是局部極大點
  • H < 0 則(x_0, y_0)是鞍点
  • H = 0 :二階導數無法判斷該臨界點的性質,得從更高階的導數以泰勒公式考慮。

[编辑] 在高维情况下的推广

函数f: \mathbb{R}^n \to \mathbb{R}二阶连续可导时,Hessian矩阵H在临界点x_0上是一个n\times n阶的对称矩阵。

  • 当H是正定矩阵时,临界点x_0是一个局部的最小值。
  • 当H是负定矩阵时,临界点x_0是一个局部的最大值。
  • H=0,需要更高阶的导数来帮助判断。
  • 在其余情况下,临界点x_0不是局部极值。
个人工具
名字空间
操作
导航
帮助
工具
其他语言