# 矩阵

$\mathbf{A} = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}$

$\begin{bmatrix}1 & 9 & -13 \\20 & 5 & -6 \end{bmatrix}$

## 定义

$\mathbf{A} = \begin{bmatrix} 9 & 13 & 5 \\ 1 & 11 & 7 \\ 3 & 9 & 2 \\ 6 & 0 & 7 \end{bmatrix}$

### 标记

$\mathbf{B} = \begin{bmatrix} 3 & 5 & 7 \\ 4 & 6 & 8 \end{bmatrix}$

## 矩陣的基本運算

(A ± B)i,j $=$ Ai,j ± Bi,j

$\begin{bmatrix} 1 & 3 & 1 \\ 1 & 0 & 0 \end{bmatrix} + \begin{bmatrix} 0 & 0 & 5 \\ 7 & 5 & 0 \end{bmatrix} = \begin{bmatrix} 1+0 & 3+0 & 1+5 \\ 1+7 & 0+5 & 0+0 \end{bmatrix} = \begin{bmatrix} 1 & 3 & 6 \\ 8 & 5 & 0 \end{bmatrix}$

(cA)i,j = c · Ai,j.
$2 \cdot \begin{bmatrix} 1 & 8 & -3 \\ 4 & -2 & 5 \end{bmatrix} = \begin{bmatrix} 2 \cdot 1 & 2\cdot 8 & 2\cdot (-3) \\ 2\cdot 4 & 2\cdot (-2) & 2\cdot 5 \end{bmatrix} = \begin{bmatrix} 2 & 16 & -6 \\ 8 & -4 & 10 \end{bmatrix}$

(AT)i,j = Aj,i.
$\begin{bmatrix} 1 & 2 & 3 \\ 0 & -6 & 7 \end{bmatrix}^T = \begin{bmatrix} 1 & 0 \\ 2 & -6 \\ 3 & 7 \end{bmatrix}$

(A + B)T $=$ AT + BT
c(A + B) $=$ cA + cB

c(AT) $=$ (cA)T.

## 矩阵乘法

$[\mathbf{AB}]_{i,j} = A_{i,1}B_{1,j} + A_{i,2}B_{2,j} + \cdots + A_{i,n}B_{n,j} = \sum_{r=1}^n A_{i,r}B_{r,j}$

$\begin{bmatrix} 1 & 0 & 2 \\ -1 & 3 & 1 \\ \end{bmatrix} \times \begin{bmatrix} 3 & 1 \\ 2 & 1 \\ 1 & 0 \end{bmatrix} = \begin{bmatrix} (1 \times 3 + 0 \times 2 + 2 \times 1) & (1 \times 1 + 0 \times 1 + 2 \times 0) \\ (-1 \times 3 + 3 \times 2 + 1 \times 1) & (-1 \times 1 + 3 \times 1 + 1 \times 0) \\ \end{bmatrix} = \begin{bmatrix} 5 & 1 \\ 4 & 2 \\ \end{bmatrix}$

• 结合律：(AB)C $=$ A(BC),
• 左分配律：(A + B)C $=$ AC + BC,
• 右分配律：C(A + B) $=$ CA + CB.

c(AB) $=$ (cA)B $=$ A(cB)
(AB)T $=$ BTAT

$\begin{bmatrix} 1 & 2\\ 3 & 4\\ \end{bmatrix} \begin{bmatrix} 0 & 1\\ 0 & 0\\ \end{bmatrix}= \begin{bmatrix} 0 & 1\\ 0 & 3\\ \end{bmatrix}, \qquad \quad \begin{bmatrix} 0 & 1\\ 0 & 0\\ \end{bmatrix} \begin{bmatrix} 1 & 2\\ 3 & 4\\ \end{bmatrix}= \begin{bmatrix} 3 & 4\\ 0 & 0\\ \end{bmatrix}$

### 线性方程组

$\begin{cases}a_{1,1}x_{1} + a_{1,2}x_{2} + \cdots + a_{1,n}x_{n}= b_{1} \\ a_{2,1}x_{1} + a_{2,2}x_{2} + \cdots + a_{2,n}x_{n}= b_{2} \\ \vdots \quad \quad \quad \vdots \\ a_{m,1}x_{1} + a_{m,2}x_{2} + \cdots + a_{m,n}x_{n}= b_{m} \end{cases}$

$\mathbf{A} \mathbf{x} = \mathbf{b}$

$\mathbf{A} = \begin{bmatrix} a_{1,1} & a_{1,2} & \cdots & a_{1,n} \\ a_{2,1} & a_{2,2} & \cdots & a_{2,n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m,1} & a_{m,2} & \cdots & a_{m,n} \end{bmatrix},\quad \mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix},\quad \mathbf{b} = \begin{bmatrix} b_1 \\ b_2 \\ \vdots \\ b_m \end{bmatrix}$

### 綫性變換

 水平错切变换， 幅度m=1.25. 水平反射变换 “挤压”变换， 压缩程度r=3/2 放缩变换，3/2倍 旋转变换，左转30° $\begin{bmatrix} 1 & 1.25 \\ 0 & 1 \end{bmatrix}$ $\begin{bmatrix} -1 & 0 \\ 0 & 1 \end{bmatrix}$ $\begin{bmatrix} \frac{3}{2} & 0 \\ 0 &\frac{2}{3} \end{bmatrix}$ $\begin{bmatrix} \frac{3}{2} & 0 \\ 0 & \frac{3}{2} \end{bmatrix}$ $\begin{bmatrix}\cos(\frac{\pi}{6}) & -\sin(\frac{\pi}{6})\\ \sin(\frac{\pi}{6}) & \cos(\frac{\pi}{6})\end{bmatrix}$

(gf)(x) = g(f(x)) = g(Ax) = B(Ax) = (BA)x

## 方块矩阵

AB $=$ In

$\begin{bmatrix} d_{11} & 0 & 0 \\ 0 & d_{22} & 0 \\ 0 & 0 & d_{33} \\ \end{bmatrix}$（对角矩阵），$\begin{bmatrix} l_{11} & 0 & 0 \\ l_{21} & l_{22} & 0 \\ l_{31} & l_{32} & l_{33} \\ \end{bmatrix}$（下三角矩阵）和$\begin{bmatrix} u_{11} & u_{12} & u_{13} \\ 0 & u_{22} & u_{23} \\ 0 & 0 & u_{33} \\ \end{bmatrix}$（上三角矩阵）。

### 行列式

R2里的一个线性变换f将蓝色图形变成绿色图形，面积不变，而顺时针排布的向量x1和x2的变成了逆时针排布。对应的矩阵行列式是-1.

2×2矩阵的行列式是

$\det \begin{pmatrix}a&b\\c&d\end{pmatrix} = ad-bc$

3×3矩阵的行列式由6项组成。更高维矩阵的行列式则可以使用莱布尼兹公式写出[16]，或使用拉普拉斯展开由低一维的矩阵行列式递推得出[17]

### 特征值与特征向量

n×n的方块矩阵A的一个特征值和对应特征向量是满足

$\mathbf{Av} = \lambda \mathbf{v}$[21]的标量$\lambda$以及非零向量$\mathbf{v}$。特征值和特征向量的概念对研究线性变换很有帮助。一个线性变换可以通过它对应的矩阵在向量上的作用来可视化。一般来说，一个向量在经过映射之后可以变为任何可能的向量，而特征向量具有更好的性质[22]。假设在给定的基底下，一个线性变换对应着某个矩阵A，如果一个向量x可以写成矩阵的几个特征向量的线性组合：
$\mathbf{x} = c_1 \mathbf{x}_{\lambda_1} + c_2 \mathbf{x}_{\lambda_2} + \cdots + c_k \mathbf{x}_{\lambda_k}$

$\mathbf{Ax} = c_1 \lambda_1 \mathbf{x}_{\lambda_1} + c_2 \lambda_2 \mathbf{x}_{\lambda_2} + \cdots + c_k \lambda_k \mathbf{x}_{\lambda_k}$

$\det(\lambda \mathsf{I}_n - \mathbf{A}) = 0.\$[23]这个定义中的行列式可以展开成一个关于$\lambda$n多项式，叫做矩阵A特征多项式，记为$p_{\mathbf{A}}$。特征多项式是一个首一多项式（最高次项系数是1的多项式）。它的根就是矩阵A特征值[24]哈密尔顿－凯莱定理说明，如果用矩阵A本身代替多项式中的不定元$\lambda$，那么多项式的值是零矩阵[25]
$p_{\mathbf{A}}(\mathbf{A}) = 0$

### 正定性

 矩阵表达式 $\begin{bmatrix} \frac{1}{4} & 0\\ 0 & -\frac{1}{4}\end{bmatrix}$ $\begin{bmatrix} \frac{1}{4} & 0\\ 0 & \frac{1}{4}\end{bmatrix}$ 正定性 不定矩阵 正定矩阵 对应二次型 $Q(x, y) = \frac14 (x^2 - y^2)$ $Q(x, y) = \frac14 (x^2 + y^2)$ 取值图像 说明 正定矩阵对应的二次型的取值范围永远是正的， 不定矩阵对应的二次型取值则可正可负

n×n的实对称矩阵A如果满足对所有非零向量x ∈ Rn，对应的二次型

Q(x) $=$ xTAx

## 矩阵的计算

A−1 $=$ Adj(A) / det(A)

### 矩阵分解

LU分解将矩阵分解为一个下三角矩阵L和一个上三角矩阵U的乘积[34]。分解后的矩阵可以方便某些问题的解决。例如解线性方程组时，如果将系数矩阵A分解成A $=$ LU的形式，那么方程的求解可以分解为求解Ly $=$ bUx $=$ y两步，而后两个方程可以十分简洁地求解（详见三角矩阵中“向前与向后替换”一节）。又例如在求矩阵的行列式时，如果直接计算一个矩阵A的行列式，需要计算大约(n + 1)!次加法和乘法；而如果先对矩阵做LU分解，再求行列式，就只需要大约n3次加法和乘法，大大降低了计算次数。这是因为做LU分解的复杂度大约是n3次，而后注意到LU是三角矩阵，所以求它们的行列式只需要将主对角线上元素相乘即可。

An $=$ (PDP−1)n $=$ PDP−1PDP−1...PDP−1 $=$ PDn P−1

## 矩阵的推广

### 一般域和环上的矩阵

$p_{X_{\alpha} } = \left( \operatorname{min}_{\mathbf{K}} (\alpha) \right)^r \,$。其中的$r$是扩域L/K $(\alpha)$的阶数[41]

R交换环，則$\mathcal{M}(m,\mathbf{R})$是一个帶單位元R-代數，满足结合律，但不满足交换律。其中的矩阵仍然可以用莱布尼兹公式定義行列式。一个矩阵可逆当且仅当其行列式为环R中的可逆元（域上的矩阵可逆只需行列式不等于0）[44]

### 矩阵群

MTM = I

(Mv) · (Mw) = v · w.[50]

### 分塊矩陣

$P = \begin{bmatrix} 1 & 2 & 3 & 2\\ 1 & 2 & 7 & 5\\ 4 & 9 & 2 & 6\\ 6 & 1 & 5 & 8\end{bmatrix}$

$P_{11} = \begin{bmatrix} 1 & 2 \\ 1 & 2 \end{bmatrix} , P_{12} = \begin{bmatrix} 3 & 2\\ 7 & 5\end{bmatrix} , P_{21} = \begin{bmatrix} 4 & 9 \\ 6 & 1 \end{bmatrix} , P_{22} = \begin{bmatrix} 2 & 6\\ 5 & 8\end{bmatrix}$
$P = \begin{bmatrix} P_{11} & P_{12}\\ P_{21} & P_{22}\end{bmatrix}$。将矩阵分块可以使得矩阵结构清晰，在某些时候可以方便运算、证明。两个大小相同、分块方式也相同的矩阵可以相加。行和列的块数符合矩阵乘法要求时，分块矩阵也可以相乘。将矩阵分块相乘的结果与直接相乘是一样的。用分块矩阵求逆，可以将高阶矩阵的求逆转化为多次低阶矩阵的求逆[57]

## 应用

$a + ib \leftrightarrow \begin{bmatrix} a & -b \\ b & a \end{bmatrix},$

### 数学分析

$H(f)(x) = \left[ \frac {\partial^2 f}{\partial x_i \, \partial x_j}(x) \right ]$
n=2时，海森矩阵$\begin{bmatrix} 2 & 0 \\ 0 & -2 \end{bmatrix}$的特征值一正一负，说明函数f(x,y) = x2 − y2在 (x = 0, y = 0)处有一个鞍点（红色点）

$f(x+h) = f(x) + \nabla f (x) \cdot h + \frac12 h^T H(f)(x) h + \circ \left( \| x \|^3\right)$

$J_f(x) = \left [\frac {\partial f_i}{\partial x_j}(x) \right ]_{1 \leq i \leq m, 1 \leq j \leq n}$。如果n>m，而$J_f(x)$又是满秩矩阵（秩等于m）的话，根据反函数定理，可以找到函数fx附近的一个局部的反函数[68]

$(\mathbf{E}) \qquad \qquad \sum_{1\leqslant i, j \leqslant n} a_{ij} \frac {\partial^2 f}{\partial x_i \, \partial x_j} + \sum_{i=1}^n b_i \frac {\partial f}{\partial x_i} + cf = g. \qquad$ 并假设$a_{ij} =a_{ji},$

### 概率论与统计

$Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \ldots + \beta_p X_{ip} + \varepsilon_i, \qquad i = 1, \ldots, n$

### 量子态的线性组合

1925年海森堡提出第一个量子力学模型时，使用了无限维矩阵来表示理论中作用在量子态上的算子[80]。这种做法在矩阵力学中也能见到。例如密度矩阵就是用来刻画量子系统中“纯”量子态的线性组合表示的“混合”量子态[81]

