维基百科,自由的百科全书
跳转至: 导航搜索
线性代数
\mathbf{A} = \begin{bmatrix}
1 & 2 \\
3 & 4 \end{bmatrix}
向量 · 矩阵  · 行列式  · 线性空间

线性代数中,一個n \times n矩陣\mathbf{A}(或跡數),是指\mathbf{A}主對角線(從左上方至右下方的對角線)上各個元素的總和,一般記作tr(\mathbf{A})Sp(\mathbf{A})

tr(\mathbf{A}) = \mathbf{A}_{1, 1} + \mathbf{A}_{2, 2} + \cdots + \mathbf{A}_{n, n}

其中\mathbf{A}_{i, j}代表矩陣的第ij列上的元素的值[1]。一個矩陣的跡是其特徵值的總和(按代數重數計算)。

跡的英文trace,是來自德文中的Spur這個單字(與英文中的Spoor是同源詞),在數學中,通常簡寫為「Sp」或「tr」。

例子[编辑]

設有矩陣:

\mathbf{A} = \begin{bmatrix} 3 & 5 & 1\\0 & 9 & 2\\7 & 6 & 4 \end{bmatrix}

它的跡是:

tr(\mathbf{A}) = tr \begin{bmatrix} 3 & 5 & 1\\0 & 9 & 2\\7 & 6 & 4 \end{bmatrix} = 3 + 9 + 4 = 16

性質[编辑]

线性函数[编辑]

給定一個\mathbb{R},跡是一個從係數在環中的n \times n矩陣的空間\mathcal{M}_n(\mathbb{R})射到環\mathbb{R}之上的線性算子。也就是說,對於任兩個n \times n的矩陣\mathbf{A}\mathbf{B}純量r,都有:

\mathrm{tr}(\mathbf{A} + \mathbf{B}) = \mathrm{tr}(\mathbf{A}) + \mathrm{tr}(\mathbf{B})
 \mathrm{tr}(r \cdot \mathbf{A} ) = r \cdot \mathrm{tr}(\mathbf{A})[2]

更進一步來說,當\mathbb{R}是一個時,跡數函數\mathrm{tr}n \times n矩陣的空間\mathcal{M}_n(\mathbb{R})上的一個線性泛函

由於一個矩陣\mathbf{A}轉置矩陣\mathbf{A}^T的主對角線元素和原來矩陣的主對角線元素是一樣的,所以任意一個矩陣和其轉置矩陣都會有相同的跡[2]

 \mathrm{tr}(\mathbf{A} ) = \mathrm{tr}\left(\mathbf{A}^T \right)

矩阵乘积的迹数[编辑]

A是一個n \times m矩陣,B是個m \times n矩陣,則:

 \mathrm{tr}(\mathbf{AB} ) = \mathrm{tr}(\mathbf{BA})[2]

其中\mathbf{AB}是一個n \times n矩陣,而\mathbf{BA}是一個m \times m矩陣。

上述的性質可以由矩陣乘法的定義證明:

\mathrm{tr}(\mathbf{AB}) = \sum_{i=1}^n (\mathbf{AB})_{ii} = \sum_{i=1}^n \sum_{j=1}^m \mathbf{A}_{ij} \mathbf{B}_{ji} = \sum_{j=1}^m \sum_{i=1}^n \mathbf{B}_{ji} \mathbf{A}_{ij} = \sum_{j=1}^m (\mathbf{BA})_{jj} = \mathrm{tr}(\mathbf{BA})

如果\mathbf{A}\mathbf{B}都是n \times n方形矩陣,那麼它們的乘積\mathbf{AB}\mathbf{BA}也會是方形矩陣。因此,利用這個結果,可以推導出:計算若干個同樣大小的方形矩陣的乘積的跡數時,可以循環改變乘積中方形矩陣相乘的順序,而最終的結果不變[2]。例如,有三個方形矩陣\mathbf{A}\mathbf{B}\mathbf{C},則:

 \mathrm{tr}(\mathbf{ABC} ) = \mathrm{tr}(\mathbf{BCA}) = \mathrm{tr}(\mathbf{CAB})[3]

但是要注意:

 \mathrm{tr}(\mathbf{ABC} ) \neq \mathrm{tr}(\mathbf{ACB}) [3]

更一般地,乘積中的矩陣不一定要是方形矩陣,只要某一個循環改變後的乘積依然存在,那麼得到的跡數依然會和原來的跡數相同[2]

另外,如果\mathbf{A}\mathbf{B}\mathbf{C}是同樣大小的方陣而且還是對稱矩陣的話,那麼其乘積的跡数不只在循環置換下不會改變,而且在所有的置換下都不會改變:

 \mathrm{tr}(\mathbf{ABC} ) = \mathrm{tr}(\mathbf{BCA}) = \mathrm{tr}(\mathbf{CAB}) =  \mathrm{tr}(\mathbf{ACB} ) = \mathrm{tr}(\mathbf{CBA}) = \mathrm{tr}(\mathbf{BAC})

迹数的相似不变性[编辑]

跡數擁有相似不變性。如果矩陣\mathbf{A}\mathbf{B}相似的話,它們會有相同的跡。這一性質可使上面講過的循環性質來證明:

矩陣\mathbf{A}\mathbf{B}相似也就是說存在可逆矩陣\mathbf{P},使得 \mathbf{B} =\mathbf{P}\mathbf{A} \mathbf{P}^{-1}
因此 \mathrm{tr}(\mathbf{B} ) = \mathrm{tr}(\mathbf{P}\mathbf{A} \mathbf{P}^{-1}) = \mathrm{tr}(\mathbf{P}^{-1} \mathbf{P}\mathbf{A}) = \mathrm{tr}(\mathbf{A})

矩阵迹数和特征多项式[编辑]

一个n \times n的方形矩阵\mathbf{A}特征多项式P_{A}(\lambda)定义为\mathbf{A}减去\lambda倍的单位矩阵后所得到的矩阵的行列式

P_{A}(\lambda) = \det(\mathbf{A} - \lambda \mathbf{I})

特征多项式是一个关于\lambdan多项式,它的常数项是\mathbf{A}的行列式的值,最高次项是(-1)^n \lambda^n,而接下来的n-1次项就是(-1)^{n-1} \mathrm{tr}( \mathbf{A}) \lambda^{n-1},也就是说:

P_{A}(\lambda) = (-1)^n \lambda^n + (-1)^{n-1} \mathrm{tr}( \mathbf{A}) \lambda^{n-1} + \cdots + \det(\mathbf{A})

矩阵迹数与特征值[编辑]

当系数域是代数闭域时(否则可以将系数域扩展到其代数闭包上来看),特征多项式P_{A}(\lambda)n,它可以表达成:

P_{A}(\lambda) = (-1)^n(\lambda - r_1)^{\alpha_1}(\lambda - r_2)^{\alpha_2} \cdots (\lambda - r_k)^{\alpha_k}

其中的r_1,r_2 \cdots r_k是特征多项式的不同的根,而\alpha_1,\alpha_2 \cdots \alpha_k是这些根在特征多项式裡的重数,称为代数重数。显然,所有代数重数加起来等于n。一方面,特征多项式的根就是矩阵的特征值,而另一方面,借由根与多项式系数的关系可以知道:特征多项式的所有的根加起来等于矩阵的迹数。所以矩阵的迹数是矩阵的所有特征值(按照代数重数计算)的和[4]

\mathrm{tr}( \mathbf{A}) = \alpha_1 r_1 + \alpha_2 r_2 + \cdots + \alpha_k r_k

如果将矩阵写成它的若尔当标准型的话,也可以看出这一点,因为若尔当标准型的特征多项式的所有的根(包括重根)就是对角线上的所有元素。

如果不区分相同或不同的特征值的话,上述关系也可以写成:

\mathrm{tr}( \mathbf{A}) = \lambda_1 + \lambda_2 + \cdots + \lambda_n

其中的\lambda_1,\lambda_2 \cdots \lambda_n是矩阵的特征值。 而且有:

\forall m \in \mathbb{N}, \mathrm{tr}( \mathbf{A}^m) = \lambda_1^m + \lambda_2^m + \cdots + \lambda_n^m

線性映射的跡數[编辑]

設系数域为\mathbb{K}\mathbb{V}是一個有限向量空間,維數是n。給定任一線性映射f : \mathbb{V}\rightarrow \mathbb{V},可以定義此一映射的跡數為其变换矩阵的跡,即選定\mathbb{V}的一個基底並用對應於此基底的一個方形矩陣描述f,再定義這個方形矩陣的跡數為f的跡數。這個定義下f的跡數和所選取的基無關:只需要注意到不同的基底的選取實際上等價於對變換矩陣做一次相似變換,而兩個相似的矩陣的跡數是一樣的。因此這樣的定義是自洽的。

另外一种定义涉及到行列式的性质。考虑\mathbb{V}的一个基底\mathcal{B} = (e_1, e_2, \cdots , e_n),以及函数:

Sp : \; \; \; \quad \mathbb{V}^n \qquad \; \quad \longrightarrow \quad \qquad \qquad \qquad \mathbb{K} \qquad \qquad \qquad,
Sp :(x_1, x_2, \cdots , x_n) \longmapsto \sum_{i=1}^n \det(x_1, x_2, \cdots , f(x_i),\cdots ,x_n)

根据行列式理论,这个函数也是一个行列式型的函数,也就是说存在一个只取决于f的量\mathrm{Sp} (f),使得

Sp(x_1, x_2, \cdots , x_n) = \mathrm{Sp} (f) \cdot \det(x_1, x_2,\cdots ,x_n)[5]

可以证明,这个纯量\mathrm{Sp} (f)就等于之前定义的f的跡數[6]

迹的梯度[编辑]

由迹的定义可知迹可以看作是矩阵的实标量函数,所以我们可以通过求实标量函数的梯度来求迹的梯度

单个矩阵[编辑]

  • A是m×m矩阵时,有\frac { \partial \mathrm{tr}(\mathbf{A}) }{ \partial \mathbf{A} } ={ \mathbf{I} }_{ m }
  • m×m矩阵A可逆时,有\frac { \partial \mathrm{tr}(\mathbf{A}^{-1}) }{ \partial \mathbf{A} } =-( \mathbf{A}^{-2} )^T
  • 对于两个向量xy的外积,有\frac { \partial \mathrm{tr}(\boldsymbol{xy}^T) }{ \partial \boldsymbol{x} }=\frac { \partial \mathrm{tr}(\boldsymbol{yx}^T) }{ \partial \boldsymbol{x} } =\boldsymbol{y}

两个矩阵[编辑]

  • A为m×n矩阵,有\frac { \partial \mathrm{tr}(\mathbf{A}\mathbf{A}^T) }{ \partial \mathbf{A} }=\frac { \partial \mathrm{tr}(\mathbf{A}^T\mathbf{A}) }{ \partial \mathbf{A} } =2\mathbf{A}
  • A为m×m矩阵,有\frac { \partial \mathrm{tr}(\mathbf{A}^2) }{ \partial \mathbf{A} }=\frac { \partial \mathrm{tr}(\mathbf{A}\mathbf{A}) }{ \partial \mathbf{A} } =2\mathbf{A}^T
  • A为m×n矩阵,B是m×n矩阵,有\frac { \partial \mathrm{tr}(\mathbf{A}^T\mathbf{B}) }{ \partial \mathbf{A} }=\frac { \partial \mathrm{tr}(\mathbf{B}\mathbf{A}^T) }{ \partial \mathbf{A} } =\mathbf{B}
  • A为m×n矩阵,B是n×m矩阵,有\frac { \partial \mathrm{tr}(\mathbf{A}\mathbf{B}) }{ \partial \mathbf{A} }=\frac { \partial \mathrm{tr}(\mathbf{B}\mathbf{A}) }{ \partial \mathbf{A} } =\mathbf{B}^T
  • AB均为对称矩阵时,有\frac { \partial \mathrm{tr}(\mathbf{A}\mathbf{B}) }{ \partial \mathbf{A} }=\frac { \partial \mathrm{tr}(\mathbf{B}\mathbf{A}) }{ \partial \mathbf{A} } =\mathbf{B}+\mathbf{B}^T-diag(\mathbf{B})
  • AB都是m×m矩阵,并且B是非奇异矩阵,有\frac { \partial \mathrm{tr}(\mathbf{B}\mathbf{A}^{-1}) }{ \partial \mathbf{A} }=-(\mathbf{A}^{-1}\mathbf{B}^T\mathbf{A}^{-1})^T

參見[编辑]

参考来源[编辑]

  1. ^ 张贤达,《矩阵分析与应用》,第54页
  2. ^ 2.0 2.1 2.2 2.3 2.4 张贤达,《矩阵分析与应用》,第55页
  3. ^ 3.0 3.1 Carl Dean Meyer, Matrix Analysis and Applied Linear Algebra,第110页
  4. ^ Karim M. Abadir,Jan R. Magnus, Matrix algebra,第168页
  5. ^ Werner, Linear Algebra,第126页
  6. ^ Werner, Linear Algebra,第127-128页

参考书籍[编辑]

  • (中文)张贤达. 矩阵分析与应用. 清华大学出版社. 2008. ISBN 9787302092711. 
  • (英文)Strang Gilbert. Linear algebra and its applications. Thomson, Brooks/Cole, Belmont, CA. 2006. ISBN 9780534422004. 
  • (中文)居余马、林翠琴. 线性代数. 清华大学出版社. 2002. ISBN 978-7-302-06507-4. 
  • (英文)Werner Hildbert Greub. linear algebra. Springer Verlag. 1975. ISBN 978-0-387-90110-7. 
  • (英文)Steven Roman. Advanced Linear Algebra. Springer. 2005. ISBN 0-387-24766-1. 
  • (英文)Carl Dean Meyer. Matrix Analysis and Applied Linear Algebra Book and Solutions Manual. Society for Industrial and Applied Mathematics. 2001. ISBN 978-0898714548. 
  • (英文)Karim M. Abadir,Jan R. Magnus. Matrix algebra. Cambridge University Press. 2005. ISBN 978-0521537469.