特征向量

2021-12-11 11:34:42 作者：互联网

特征值是线性代数中一个十分重要且有用的内容，其用途并不仅仅在于解线代期末试卷上的一道道题，而更在于每根被拨动的吉他弦上，在于搜索引擎的网页分级算法和潜语义索引里，在于生物学上对种群变迁的研究中，在于数字位图的压缩处理里……在后续的研究中，我们将揭开这些应用场景的面纱，逐渐体会特征值的强大之处。

一、重复作用问题

很多应用问题都涉及到将一个线性变换重复作用到某个向量上。我们来看下面的情景：

在某个小镇中，据统计，每年有30%的已婚女性离婚，并有20%的未婚女性结婚；且小镇中现共有8000名已婚女性和2000名未婚女性。为简单起见，我们假定结婚率、离婚率永久不变，且没有女性出生、死亡、迁入或迁出。在这些假设下，我们来研究未来一年、十年或更长时间后小镇内这两种女性的数量分布。

容易知道，若设第 $n$ 年的已婚女性和未婚女性数量分别为 $x_n,y_n$ ，则有

$x_{n+1}=0.7·x_n+0.2·y_n\\ y_{n+1}=0.3·x_n+0.8·y_n$

这两个关系式可以写成矩阵的形式

$\begin{bmatrix}x_{n+1}\\y_{n+1}\end{bmatrix}=\begin{bmatrix}0.7&0.2\\0.3&0.8\end{bmatrix}\begin{bmatrix}x_{n}\\y_{n}\end{bmatrix}\\$

代入 $x_0=8000$ 和 $y_0=2000$ ，就可以算出一年后已婚女性和未婚女性的数量分别为6000人和4000人。

设女性分布向量 $\boldsymbol{w}_n=\begin{bmatrix}x_{n}\\y_{n}\end{bmatrix}$ ， $A=\begin{bmatrix}0.7&0.2\\0.3&0.8\end{bmatrix}$ ，并令 $\boldsymbol{w}_0=\begin{bmatrix}8000\\2000\end{bmatrix}$ ，则我们可以求出 $n$ 年后的女性分布向量

$\\\boldsymbol{w}_n=A\boldsymbol{w}_{n-1}=A^2\boldsymbol{w}_{n-2}=\cdots=A^n\boldsymbol{w}_0$

如果将每个 $\boldsymbol{w}$ 的元素四舍五入到最近的整数，那么通过计算可以得到

$\\\boldsymbol{w}_{10}=\begin{bmatrix}4004\\5996\end{bmatrix},\:\:\:\boldsymbol{w}_{20}=\begin{bmatrix}4000\\6000\end{bmatrix},\:\:\:\boldsymbol{w}_{30}=\begin{bmatrix}4000\\6000\end{bmatrix}$

我们会发现，当有某个 $\boldsymbol{w}_n=\begin{bmatrix}4000\\6000\end{bmatrix}$ 时，对于下一个分布向量

$\\\boldsymbol{w}_{n+1}=A\boldsymbol{w}_n=\begin{bmatrix}0.7&0.2\\0.3&0.8\end{bmatrix}\begin{bmatrix}4000\\6000\end{bmatrix}=\begin{bmatrix}4000\\6000\end{bmatrix}$

于是这个向量后面的所有向量就会保持不变，从而向量 $\begin{bmatrix}4000\\6000\end{bmatrix}$ 称为上述过程的稳态向量。

如果我们保持总人数不变，而应用不同的初始值 $\boldsymbol{w}_0$ ，比如说 $\boldsymbol{w}_0=\begin{bmatrix}10000\\0\end{bmatrix}$ ，会发现在 $n$ 足够大的时候，分布向量 $\boldsymbol{w}_n$ 仍会趋于同一个稳态向量 $\begin{bmatrix}4000\\6000\end{bmatrix}$ （例如，对于刚才举的例子，有 $\boldsymbol{w}_{14}=\begin{bmatrix}4000\\6000\end{bmatrix}$ ），这是为什么呢？

为了看到这一现象背后的原因，让我们来试验两个初始值，它们分别是 $\boldsymbol{x}_1=\begin{bmatrix}2\\3\end{bmatrix}$ 和 $\boldsymbol{x}_2=\begin{bmatrix}1\\-1\end{bmatrix}$ ：

$A\boldsymbol{x}_1=\begin{bmatrix}0.7&0.2\\0.3&0.8\end{bmatrix}\begin{bmatrix}2\\3\end{bmatrix}=\begin{bmatrix}2\\3\end{bmatrix}=\boldsymbol{x}_1\\A\boldsymbol{x}_2=\begin{bmatrix}0.7&0.2\\0.3&0.8\end{bmatrix}\begin{bmatrix}1\\-1\end{bmatrix}=\begin{bmatrix}0.5\\-0.5\end{bmatrix}=\frac12\boldsymbol{x}_1$

可以发现，若我们将 $A$ 作用在 $\boldsymbol{x}_1$ 上，则 $\boldsymbol{x}_1$ 将“纹丝不动”，说明 $\boldsymbol{x}_1$ 也是一个稳态向量；而当我们将 $A$ 作用在 $\boldsymbol{x}_2$ 上时，等于把 $\boldsymbol{x}_2$ “缩放”到了原来的一半。

而这两个向量的共同点便是， $A$ 在它们上所产生的作用，相当于把他们变为自己原来的 $\lambda$ 倍（对于 $\boldsymbol{x}_1$ 有 $\lambda=1$ ；对于 $\boldsymbol{x}_2$ 有 $\lambda=\frac12$ ）。换句话说， $A$ 作为一个线性变换，并不改变这两个向量的“方向”，而只改变它们的“长度”，从而研究这个两个向量的行为将变得十分简单。

进一步地， $\boldsymbol{x}_1$ 和 $\boldsymbol{x}_2$ 这两个向量线性无关，这意味着它们构成了 $\bold{R}^2$ 的一组基。注意到我们前面的初始分布向量 $\boldsymbol{w}_0$ 就位于这个向量空间（的子空间）中，所以我们可以将初始向量写为 $\boldsymbol{x}_1$ 和 $\boldsymbol{x}_2$ 的线性组合：

$\\\boldsymbol{w}_0=c_1\boldsymbol{x}_1+c_2\boldsymbol{x}_2$

那么，

$\\\begin{aligned}\boldsymbol{w}_n=A^n\boldsymbol{w}_0&=A^n(c_1\boldsymbol{x}_1+c_2\boldsymbol{x}_2)\\&=c_1A^n\boldsymbol{x}_1+c_2A^n\boldsymbol{x}_2\\&=c_1\boldsymbol{x}_1+(\frac12)^nc_2\boldsymbol{x}_2\end{aligned}$

由于 $\lim_{n\rightarrow\infty}(\frac12)^n=0$ ，所以

$\\\lim_{n\rightarrow\infty}\boldsymbol{w}_n=\lim_{n\rightarrow\infty}\left[c_1\boldsymbol{x}_1+(\frac12)^nc_2\boldsymbol{x}_2\right]=c_1\boldsymbol{x}_1$

也就是说，稳态向量必然是 $\boldsymbol{x}_1$ 的某个倍数 $c_1$ ，而这个倍数与初始向量 $\boldsymbol{w}_0$ 有关。对于情境中的假设（女性总人数为10000人），我们可以求解出这个倍数 $c_1$ 。设 $\boldsymbol{w}_0=\begin{bmatrix}p\\10000-p\end{bmatrix}$ ，则方程 $\boldsymbol{w}_0=c_1\boldsymbol{x}_1+c_2\boldsymbol{x}_2$ 意味着

$\\\begin{aligned}2c_1-c_2&=p\\3c_1+c_2&=10000-p\end{aligned}$

只需将两式相加就可以得到 $c_1=2000$ ，从而稳态向量

$\\\lim_{n\rightarrow\infty}\boldsymbol{w}_n=c_1\boldsymbol{x}_1=\begin{bmatrix}4000\\6000\end{bmatrix}$

与前面的计算相符。

二、特征值与特征向量

从上面的例子可以看到，当我们在面对将线性变换重复作用的问题时，如果我们能取一组恰当的基向量，使得这个线性变换在基向量上的作用非常简单（只有伸缩没有旋转），那么我们对空间中其它向量的研究将变得非常简单：将它分解为基向量的和，将线性变换重复作用在这些基向量上——而这只需要在基向量前重复乘上一个系数。

基于这一理由，我们引入特征值和特征向量的概念。

定义令 $A$ 为一 $n×n$ 矩阵，若存在一个非零向量 $\boldsymbol{x}\in\bold{R}^n$ 和一个标量 $\lambda$ 使得

$\\A\boldsymbol{x}=\lambda\boldsymbol{x}\tag{1}$

成立，则 $\lambda$ 称为矩阵 $A$ 的特征值（eigenvalue，characteristic value）， $\boldsymbol{x}$ 称为属于 $\lambda$ 的特征向量（eigenvector，characteristic vector）。

上述定义中需要注意两点：一是我们只对方阵定义特征值，否则（1）式永远不会成立（左右两边向量的维数不同）；二是特征值 $\lambda$ 允许为零，这意味着矩阵 $A$ 的零空间 $N(A)$ 中的任何非零向量（如果有）是属于特征值 $0$ 的特征向量。因此，一个方阵可逆当且仅当 $0$ 不是它的特征值。

明确了概念之后，最重要的问题就是如何找到一个矩阵的特征值和特征向量。为了解决这一点，我们要对式（1）进行变形：

$\\(A-\lambda I)\boldsymbol{x}=\boldsymbol{0}$

注意此处需要添加一个 $I$ ，否则 $A-\lambda$ （矩阵减标量）是未定义的。观察变形后的方程，我们就可以建立特征值的一系列等价条件：

定理18.1 令 $A$ 为一 $n×n$ 矩阵，且 $\lambda$ 为一标量，则下列命题是等价的：

$\lambda$ 为 $A$ 的特征值；
方程 $(A-\lambda I)\boldsymbol{x}=\boldsymbol{0}$ 有非平凡解；
$N(A-\lambda I)\ne\{\boldsymbol{0}\}$ ；
矩阵 $A-\lambda I$ 为奇异的；
$\det(A-\lambda I)=0$ 。

这些条件大多是矩阵奇异的等价判别条件。其中第五点 $\det(A-\lambda I)=0$ 称为矩阵 $A$ 的特征方程，多项式 $p(\lambda)=\det(A-\lambda I)$ 称为矩阵的特征多项式。若 $\lambda$ 为 $A$ 的特征值，则零空间 $N(A-\lambda I)$ 也被称为矩阵 $A$ 相应于 $\lambda$ 的特征空间。

借助定理18.1，我们就能知道在前面提出的问题中，特殊初始向量 $\boldsymbol{x}_1$ 和 $\boldsymbol{x}_2$ 是如何求得的。

求矩阵 $A=\begin{bmatrix}0.7&0.2\\0.3&0.8\end{bmatrix}$ 的特征值和对应的特征向量。

矩阵 $A$ 的特征方程为

$\\\begin{vmatrix}0.7-\lambda&0.2\\0.3&0.8-\lambda\end{vmatrix}=\lambda^2-\frac32\lambda+\frac12=0$

求得特征方程的两个解为 $\lambda_1=1,\;\lambda_2=\frac12$ ，此即 $A$ 的两个特征值。为求解属于 $\lambda_1$ 的特征向量，考虑方程

$\\(A-\lambda_1I)\boldsymbol{x}=\begin{bmatrix}-0.3&0.2\\0.3&-0.2\end{bmatrix}\boldsymbol{x}=\boldsymbol{0}$

解得 $\boldsymbol{x}=\begin{bmatrix}2k\\3k\end{bmatrix}\;(k\in R)$ ，这些向量都是矩阵 $A$ 属于 $\lambda_1$ 的特征向量，它们的集合即为矩阵 $A-\lambda_1I$ 的零空间，也就是 $A$ 相应于 $\lambda_1$ 的特征空间。特别地， $k=1$ 时即为初始向量 $\boldsymbol{x}_1$ 。

同样地由 $(A-\lambda_2I)\boldsymbol{x}=\boldsymbol{0}$ ，得到 $\boldsymbol{x}=\begin{bmatrix}k\\-k\end{bmatrix}\;(k\in R)$ 均为属于 $\lambda_2$ 的特征向量，其中取 $k=1$ 即得初始向量 $\boldsymbol{x}_2$ 。

然而，不是所有矩阵的特征方程都有实根（即使其元素都是实数），因此我们需要引入复特征值的概念。例如，矩阵 $A=\begin{bmatrix}0&1\\-1&0\end{bmatrix}$ 的特征方程为 $\lambda^2+1=0$ ，其在复数域的根为 $+i$ 和 $-i$ ，对应的特征子空间分别为 $\{(k,ki)|k\in R\}$ 和 $\{(ki,k)|k\in R\}$ ，为此我们还要引入复数域上的矩阵（复矩阵）。

定义令 $A=(a_{ij})$ 为一矩阵，若其每个元素 $a_{ij}\in\mathbb{C}$ ，则称 $A$ 为复矩阵。

定义令 $A=(a_{ij})$ 为一复矩阵，则定义 $A$ 的共轭为 $\bar{A}=(\bar{a}_{ij})$ ，其中 $\bar{x}$ 意味着对复数 $x$ 取共轭。

定义令 $A$ 为一复矩阵，若 $A=\bar{A}$ ，则称 $A$ 为实矩阵。

事实上，刚才提出的矩阵 $\begin{bmatrix}0&1\\-1&0\end{bmatrix}$ 是旋转矩阵 $\begin{bmatrix}\cos\theta&-\sin\theta\\\sin\theta&\cos\theta\end{bmatrix}$ 在 $\theta=-\frac{\pi}{2}$ 的特殊情形。而借助旋转矩阵和特征值二者的几何意义，就不难看出一个旋转矩阵有实特征值当且仅当 $\theta=k\pi\,(k\in\mathbb{Z})$ ，严谨的证明也容易由读者自行完成。

在后面的研究中，我们将时常将目光由实矩阵转向复矩阵。

类似于多项式的根，对于实矩阵的复特征值和复特征向量，有如下性质：

定理18.2 令 $A$ 为一 $n×n$ 实矩阵， $\lambda$ 为 $A$ 的复特征值，且 $\boldsymbol{z}$ 为属于 $\lambda$ 的复特征向量，则 $\bar{\boldsymbol{z}}$ 为属于 $\bar{\lambda}$ 的复特征向量。

证由条件， $A=\bar{A}$ 且 $A\boldsymbol{z}=\lambda\boldsymbol{z}$ ，故

$\\A\bar{\boldsymbol{z}}=\bar{A}\bar{\boldsymbol{z}}=\overline{A\boldsymbol{z}}=\overline{\lambda\boldsymbol{z}}=\bar{\lambda}\bar{\boldsymbol{z}}$

这就说明了 $\bar{\boldsymbol{z}}$ 为属于 $\bar{\lambda}$ 的复特征向量。

三、特征值的性质

为方便后续研究，我们需要导出特征值的一些常用性质。让我们先从简单的开始：

若 $\lambda$ 为矩阵 $A$ 的特征值， $\boldsymbol{x}$ 为属于 $\lambda$ 的特征向量，则：

对任意标量 $k\ne0$ ， $k\boldsymbol{x}$ 为属于 $\lambda$ 的特征向量；
$\lambda$ 为矩阵 $A^T$ 的特征值；
若 $A$ 可逆，则 $\lambda^{-1}$ 为矩阵 $A^{-1}$ 的特征值，且 $\boldsymbol{x}$ 为相应的特征向量；
对任意多项式 $p(x)$ ， $p(\lambda)$ 为矩阵 $p(A)$ 的特征值（我们并未严格定义矩阵多项式，但就让我们按常规的方法理解），且 $\boldsymbol{x}$ 为相应的特征向量；
对任意正整数 $m$ ， $A^m\boldsymbol{x}$ 也是属于 $\lambda$ 的特征向量；
若 $\lambda\ne0$ ，则 $A$ 相应于 $\lambda$ 的特征空间是 $R(A)$ 的子空间，否则该特征空间为 $N(A)$ 。

第二点利用行列式的转置不变性即得，而其它的性质利用特征向量的定义便容易证明，以第三点为例，若 $A\boldsymbol{x}=\lambda\boldsymbol{x}$ 且 $A$ 可逆（这意味着 $\lambda\ne0$ ），则两边左乘 $\lambda^{-1}A^{-1}$ 就有 $\lambda^{-1}\boldsymbol{x}=A^{-1}\boldsymbol{x}$ ，即证。

以下是有关一些特殊矩阵的特征值的性质，其中第一点十分重要：

若 $A$ 为三角矩阵，则 $\lambda$ 为 $A$ 的特征值当且仅当 $A$ 对角线上有元素等于 $\lambda$ ；
若 $A$ 为幂等矩阵（即 $A^2=A$ ），且 $\lambda$ 为 $A$ 的特征值，则 $\lambda=0$ 或 $\lambda=1$ ；
若 $A$ 为对合矩阵（即 $A^2=I$ ），且 $\lambda$ 为 $A$ 的特征值，则 $\lambda=-1$ 或 $\lambda=1$ ；
若 $A$ 为幂零矩阵（即存在正整数 $m$ 使得 $A^m=O$ ），则只有 $0$ 是 $A$ 的特征值；
若 $A$ 为正交矩阵，且 $\lambda$ 为 $A$ 的特征值，则 $\left|\lambda\right|=1$ 。

同样利用定义即证。以第一点为例，由已知可导出 $\lambda^2\boldsymbol{x}=A^2\boldsymbol{x}=A\boldsymbol{x}=\lambda\boldsymbol{x}$ ，进而 $(\lambda^2-\lambda)\boldsymbol{x}=\boldsymbol{0}$ ，由 $\boldsymbol{x}$ 非零可知 $\lambda=0$ 或 $\lambda=1$ 。第四点的证明中需要利用正交变换的保欧几里得长度性。

接下来，我们需要探讨相似矩阵的特征值和特征向量之间的性质，这对我们后续的研究有重要意义：

定理18.3 若 $A$ 和 $B$ 相似，则它们有相同的特征多项式，从而有也有完全相同的特征值。进一步地，若 $B=S^{-1}AS$ ，且 $\boldsymbol{x}$ 为 $B$ 属于特征值 $\lambda$ 的特征向量，则 $S\boldsymbol{x}$ 为 $A$ 属于特征值 $\lambda$ 的特征向量。

证由假设，有

$\\\begin{aligned}\det(B-\lambda I)&=\det(S^{-1}AS-\lambda I)\\&=\det(S^{-1}(A-\lambda I)S)\\&=\det(S^{-1})\det(A-\lambda I)\det(S)\\&=\det(A-\lambda I)\end{aligned}$

因此 $A$ 和 $B$ 有相同的特征多项式。由于特征值是特征多项式的根，所以 $A$ 和 $B$ 有完全相同的特征值。

若 $\lambda\boldsymbol{x}=B\boldsymbol{x}=S^{-1}AS\boldsymbol{x}$ ，则 $A(S\boldsymbol{x})=S\lambda\boldsymbol{x}=\lambda (S\boldsymbol{x})$ ，这就了证得定理的后半部分。

若一个矩阵 $A$ 相似于某个对角阵 $D$ （或更一般地， $D$ 为三角阵），则定理18.3将 $A$ 的特征值与 $D$ 的对角元素联系了起来：结合第二组性质的第一点（三角矩阵的特征值），就可以知道 $A$ 的特征值与 $D$ 的对角元素完全相同。我们在后面将会详细探讨“对角化”的话题，这将是一个十分强有力的工具。

最后，由于一个矩阵的特征值是其特征多项式的根，我们还可以从特征多项式的角度来探讨特征值的整体性质。设 $A=(a_{ij})$ 为一 $n×n$ 矩阵，则其特征多项式为

$\\p(\lambda)=\begin{vmatrix}a_{11}-\lambda&a_{12}&\cdots&a_{1n}\\a_{21}&a_{22}-\lambda&\cdots&a_{2n}\\\vdots&\vdots&\ddots&\vdots\\a_{n1}&a_{n2}&\cdots&a_{nn}-\lambda\end{vmatrix}$

若根据行列式的逆序数定义，则容易看出这是一个关于 $\lambda$ 的 $n$ 次多项式，且其最高次项 $\lambda^n$ 的系数为 $(-1)^n$ （选取所有主对角线上的元素）；而这点用拉普拉斯展开也不难归纳地证明。

由于这是一个 $n$ 次多项式，故由代数基本定理，它在复数域内必有 $n$ 个根 $\lambda_1,\lambda_2,…,\lambda_n$ ，此即矩阵 $A$ 的 $n$ 个特征值（不一定互不相同，因此相同的特征值记重数），因此 $A$ 的特征多项式也可以写成下面的形式：

$\\p(\lambda)=(-1)^n\prod_{i=1}^n(\lambda-\lambda_i)=\prod_{i=1}^n(\lambda_i-\lambda)$

特别地，结合特征多项式的两种表示法，就有

$\\p(0)=\lambda_1\lambda_2\cdots\lambda_n=\det(A)$

这就得到了极其重要的特征值乘积公式。

接下来这个公式需要一些多项式分析技巧：利用第一行对 $p(\lambda)$ 作拉普拉斯展开

$\\p(\lambda)=(a_{11}-\lambda)M_{11}+\sum_{i=2}^n{a_{1i}M_{1i}}$

留意到求和项中的每个余子式 $M_{1i}(i=2,3,…,n)$ 中都必然划去了原行列式中的第一行和第 $i$ 列，从而划去了 $a_{11}-\lambda_1$ 和 $a_{ii}-\lambda_i$ 两项，因此每个 $a_{1i}M_{1i}$ 展开后 $\lambda$ 的次数都不超过 $n-2$ ，则 $\lambda^{n-1}$ 次项只可能在项 $(a_{11}-\lambda)M_{11}$ 中出现；对余子式 $M_{11}$ 重复该推理，可知 $\lambda^{n-1}$ 次项只能由唯一一个乘积

$\\(a_{11}-\lambda)(a_{22}-\lambda)\cdots(a_{nn}-\lambda)$

生成。展开该乘积，就可以得到 $\lambda^{n-1}$ 次项（在上面的 $n-1$ 个括号中选择 $-\lambda$ ，剩下的一个括号中选择 $a_{kk}$ ，对所有这样可能的选择求和）的系数为

$\\(-1)^{n-1}(a_{11}+a_{22}+\cdots+a_{nn})$

则由推广的韦达定理（对 $n$ 次多项式）可知 $p(\lambda)$ 的 $n$ 个根满足

$\\\lambda_1+\lambda_2+\cdots+\lambda_n=-\cfrac{(-1)^{n-1}\sum\limits_{i=1}^n a_{ii}}{(-1)^n}=\sum_{i=1}^n a_{ii}=tr(A)$

这里第一个等号后的分式的分母为 $\lambda^n$ 的系数，而分子则为 $\lambda^{n-1}$ 的系数， $tr(A)$ 为先前定义过的矩阵的迹（预习自学笔记-11）： $tr(A)=a_{11}+a_{22}+\cdots+a_{nn}$ 。

由是，我们通过研究特征多项式的行列式展开，导出了与有关特征值的和与积的两个对称的式子：

$\\\begin{aligned}\prod_{i=1}^n\lambda_n&=\det(A) \\\sum_{i=1}^n\lambda_n&=tr(A)\end{aligned}$

这揭示了矩阵的特征值与两个矩阵上的可交换函数——行列式和迹之间的不平凡关系，而这似乎说明了，行列式与迹在某种意义上表征了其作为线性变换的特征；或者反过来说，矩阵的特征值与其作为线性变换的缩放倍率（行列式）与初始瞬间变化率（迹）有着千丝万缕的联系。

至此我们已经得到了有关特征值足够多的性质，其中有些将在我们后续的研究中发挥重大作用。下一篇中，我们将引入“对角化”这一矩阵研究工具，并具体探讨其应用。

一、相似对角化

事实上，有了特征值和特征向量的铺垫，对角化这个概念现在离我们只有一步之遥。上一篇中我们曾经讲到：

当我们在面对将线性变换重复作用的问题时，如果我们能取一组恰当的基向量，使得这个线性变换在基向量上的作用非常简单（只有伸缩没有旋转），那么我们对空间中其它向量的研究将变得非常简单：将它分解为基向量的和，将线性变换重复作用在这些基向量上——而这只需要在基向量前重复乘上一个系数。

当然，既然这个线性变换可以重复作用，因此它的作用空间和像空间必然是同一个空间，这就意味着这个线性变换是一个线性算子。而我们这里所说的“一组恰当的基向量”，就是指一组特征向量。

若对线性变换及其矩阵表示不熟悉的读者，可以跳过下面的阐释，直接跳到本文的第一个定义处。但仍强烈希望读者能掌握线性变换的相关概念并借助这些概念来理解相似对角化，这将有利于几何直觉的建立和后续深入的学习。

在学习线性变换（预习自学笔记-10）时我们知道，每个矩阵都是某个线性变换在基下的具体表示。因此只要选定了向量空间 $V$ 的一组基 $\{\boldsymbol{b}_1,\boldsymbol{b}_2,…,\boldsymbol{b}_n\}$ （简记为 $B$ ），那么每个方阵 $A$ 就对应了一个作用在 $V$ 上的线性算子 $L$ 。

假设 $\boldsymbol{x}_i$ 是 $A$ 的特征向量，并令 $A\boldsymbol{x}_i=\lambda_i\boldsymbol{x}_i$ 。再令 $\boldsymbol{v}_i=\sum_{k=0}^nx_{ik}\boldsymbol{b}_k\in V$ ，即 $[\boldsymbol{v}_i]_B=\boldsymbol{x}_i$ ，每个 $\boldsymbol{v}_i$ 在基 $B$ 下的坐标都是 $A$ 的特征向量。那么就有：

$\\ [L(\boldsymbol{v}_i)]_B=A\boldsymbol{x}_i=\lambda_i\boldsymbol{x}_i=\lambda_i[\boldsymbol{v}_i]_B$

其中，第一个等号成立是因为 $A$ 是 $L$ 在 $B$ 下的表示矩阵。结合基向量分解的唯一性，上式就意味着

$\\L(\boldsymbol{v}_i)=\lambda_i\boldsymbol{v}_i$

这和矩阵的特征值及特征向量的定义十分相似，只不过这里的对象换成了线性算子。事实上，我们完全可以定义线性变换的特征值和特征向量：

定义令 $L:V\to V$ 为一线性算子。若存在一个非零向量 $\boldsymbol{v}\in V$ 和一个标量 $\lambda$ 使得

$\\L(\boldsymbol{v})=\lambda\boldsymbol{v}$

成立，则 $\lambda$ 称为线性算子 $L$ 的特征值， $\boldsymbol{v}$ 称为属于 $\lambda$ 的特征向量。

这样一来，在一组给定的基下，矩阵 $A$ 的特征向量也就对应了线性算子 $L$ 的特征向量。也就是说，类似于“矩阵是线性变换在一组基下的表示”，方阵的特征向量是线性算子的特征向量在一组基下的表示（特征值则是相同的，与选取的基无关）；线性算子的特征向量是算子本身内秉的属性，而矩阵的特征向量则是该属性的一种表现。

由特征向量的对应性，如果一 $n×n$ 矩阵 $A$ 有 $n$ 个线性无关的特征向量，则 $L$ 在 $V$ 中也就有 $n$ 个线性无关的特征向量（设为 $\boldsymbol{v}_1,\boldsymbol{v}_2,…,\boldsymbol{v}_n$ ），又由于 $n$ 阶方阵所对应的线性算子必然作用在 $n$ 维向量空间上，故这些特征向量可以构成 $V$ 的一组基（记为 $B^\prime$ ）。

进而对任意 $\boldsymbol{v}\in V$ ，可以设 $\boldsymbol{v}=c_1\boldsymbol{v}_1+c_2\boldsymbol{v}_2+\cdots+c_n\boldsymbol{v}_n$ ，即 $[\boldsymbol{v}]_{B^\prime}=\boldsymbol{c}$ ，那么

$\\\begin{aligned}L(\boldsymbol{v})&=c_1L(\boldsymbol{v}_1)+c_2L(\boldsymbol{v}_2)+\cdots+c_n\boldsymbol{v_n}\\&=c_1\lambda_1\boldsymbol{v}_1+c_2\lambda_2\boldsymbol{v}_2+\cdots+c_n\lambda_n\boldsymbol{v}_n\end{aligned}$

从而

$\\\begin{aligned}\left[L(\boldsymbol{v})\right]_{B^\prime}&=c_1\lambda_1[\boldsymbol{v}_1]_{B^\prime}+c_2\lambda_2[\boldsymbol{v}_2]_{B^\prime}+\cdots+c_n\lambda_n[\boldsymbol{v}_n]_{B^\prime} \\&=c_1\lambda_1\boldsymbol{e}_1+c_2\lambda_2\boldsymbol{e}_2+\cdots+c_n\lambda_n\boldsymbol{e}_n \\&=\begin{bmatrix}c_1\lambda_1\\c_2\lambda_2\\\vdots\\c_n\lambda_n\end{bmatrix}=\begin{bmatrix}c_1\\c_2\\\vdots\\c_n\end{bmatrix}\begin{bmatrix}\lambda_1&0&\cdots&0\\0&\lambda_2&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&\lambda_n\end{bmatrix}\\&=D\boldsymbol{c}=D[\boldsymbol{v}]_{B^\prime}\end{aligned}$

其中
$\\D=\begin{bmatrix}\lambda_1&0&\cdots&0\\0&\lambda_2&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&\lambda_n\end{bmatrix}$

并由上式可以得出， $D$ 就是 $L$ 在基 $B^\prime$ 下的表示矩阵，而它是一个十分简洁的对角阵。

也就是说，如果我们选取线性算子的特征向量作为基向量，那么线性算子在这组基下的表示将变得十分简单，因为在这组基下，该线性算子的作用，用“对每个基向量进行不同程度的伸缩”就可以完全描述出来。对角阵 $D$ 以最简单的方式，将线性算子的作用展现得一览无遗。

例如，在预习自学笔记-11中，我们就曾提出过一个具体例子：

令 $L$ 为 $\bold{R}^3$ 上的线性算子，其关于标准基的表示矩阵为

$\\A=\begin{bmatrix}2&2&0\\1&1&2\\1&1&2\end{bmatrix}$

则 $L$ 关于基 $(\boldsymbol{y}_1,\boldsymbol{y}_2,\boldsymbol{y}_3)$ 的表示矩阵为

$\\D=\begin{bmatrix}0&0&0\\0&1&0\\0&0&4\end{bmatrix}$

其中 $\boldsymbol{y}_1=\begin{bmatrix}1\\-1\\0\end{bmatrix}$ ， $\boldsymbol{y}_2=\begin{bmatrix}-2\\1\\1\end{bmatrix}$ ， $\boldsymbol{y}_2=\begin{bmatrix}1\\1\\1\end{bmatrix}$ 。这就是说，

$\\\begin{aligned}L(\boldsymbol{y}_1)=A\boldsymbol{y}_1&=0·\boldsymbol{y}_1\\ L(\boldsymbol{y}_2)=A\boldsymbol{y}_2&=1·\boldsymbol{y}_2\\ L(\boldsymbol{y}_3)=A\boldsymbol{y}_3&=4·\boldsymbol{y}_3\end{aligned}$

我们也在是这一篇文章中，得到了同一线性变换在不同基下的表示矩阵的关系。特别地，线性算子在其作用空间（同时也是像空间）的不同基下的表示矩阵互为相似矩阵。因此可以断定，上面的线性算子 $L$ 的两个表示矩阵 $A$ 和 $D$ 应当是相似的，即存在可逆矩阵 $X$ ，使得 $A=XDX^{-1}$ 。而特别之处在于，这里的 $D$ 是对角矩阵。

定义令 $A$ 为一 $n×n$ 矩阵，若存在对角矩阵 $D$ ，使得 $A$ 与 $D$ 相似，则称 $A$ 是可对角化的。具体地，若 $A=XDX^{-1}$ ，则称 $X$ 对角化 $A$ 。

对角化的过程就是将线性算子的作用效果以最简单的方式表达出来的过程。

由前面的推演过程不难得到下面的定理：

定理19.1 一个 $n×n$ 矩阵 $A$ 可对角化当且仅当它有 $n$ 个线性无关的特征向量。

证先证充分性。设 $A$ 的 $n$ 个线性无关的特征向量分别为 $\boldsymbol{x}_i\,(i=1,2,…n)$ ，对应的特征值分别为 $\lambda_i$ ，设 $X=\begin{bmatrix}\boldsymbol{x}_1&\boldsymbol{x}_2&\cdots&\boldsymbol{x}_n\end{bmatrix}$ ，且设

$\\D=\begin{bmatrix}\lambda_1&0&\cdots&0\\0&\lambda_2&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&\lambda_n\end{bmatrix}$

则

$\\\begin{aligned}AX&=A\begin{bmatrix}\boldsymbol{x}_1&\boldsymbol{x}_2&\cdots&\boldsymbol{x}_n\end{bmatrix}\\&=\begin{bmatrix}A\boldsymbol{x}_1&A\boldsymbol{x}_2&\cdots&A\boldsymbol{x}_n\end{bmatrix}\\&=\begin{bmatrix}\lambda_1\boldsymbol{x}_1&\lambda_2\boldsymbol{x}_2&\cdots&\lambda_n\boldsymbol{x}_n\end{bmatrix}\\&=\begin{bmatrix}\boldsymbol{x}_1&\boldsymbol{x}_2&\cdots&\boldsymbol{x}_n\end{bmatrix}\begin{bmatrix}\lambda_1&0&\cdots&0\\0&\lambda_2&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&\lambda_n\end{bmatrix}\\&=XD\end{aligned}$

由于这 $n$ 个特征向量线性无关，因此 $X$ 可逆，故 $A=XDX^{-1}$ ，即 $A$ 可对角化。

再证必要性，若存在可逆矩阵 $X$ 和对角矩阵 $D$ 使得 $A=XDX^{-1}$ ，则 $AX=XD$ ，设 $X$ 的第 $i$ 个列向量为 $\boldsymbol{x}_i$ ，且 $D$ 同前设，则同上可得 $A\boldsymbol{x}_i=\lambda_i\boldsymbol{x}_i$ ，即 $\boldsymbol{x}_i$ 是属于 $\lambda_i$ 的 $A$ 的特征向量，由 $X$ 可逆知这些特征向量线性无关。

由定理的证明过程可知：

若 $A$ 可对角化，则对角化矩阵 $X$ 各列是 $A$ 的特征向量，对角矩阵 $D$ 对角线上各元素是 $A$ 的特征值，且 $X$ 的第 $k$ 列是属于 $D$ 的第 $k$ 个对角元素的特征向量；
对角矩阵 $D$ 和对角化矩阵 $X$ 都不是唯一的，因为可以重排顺序，或将特征向量乘上一个非零倍数。

不难证明，矩阵 $A$ 和与其相似的对角矩阵 $D$ ，拥有相同的特征值、行列式和迹，因此，在矩阵的对角化分解中，对角化矩阵和对角矩阵包含了有关矩阵 $A$ 本身的信息。

事实上，对角矩阵所揭示的关于原矩阵的信息可不止于此，这些我们将在稍后继续深入，而在目前更重要的，是了解对角化的一些精彩应用，而它们都与马尔科夫过程有关。

二、对角化的应用：马尔科夫过程

马尔科夫过程本身是一个随机过程理论中的一个概念，有着一个严谨的数学定义，但若要说清楚这个严谨定义，则势必要花去大量篇幅在相关性并不高的内容上；因此这里只对其进行通俗的描述，而这并不会影响我们后面的研究过程。

对一个试验序列，若其每一步的输出都取决于概率，则称其为一个随机过程。
马尔科夫过程是满足下列三个性质的随机过程：
1.可能的输出集合（或称状态）是有限的；
2.下一步的输出仅依赖于前一步输出；
3.概率相对于时间是常数。

我们在上一篇中提到的女性离婚/结婚问题就是一个马尔科夫过程。其中“每一步的输出”就是每一年的女性分布向量 $\boldsymbol{w}_n=\begin{bmatrix}x_{n}\\y_{n}\end{bmatrix}$ ，而矩阵 $A=\begin{bmatrix}0.7&0.2\\0.3&0.8\end{bmatrix}$ 可以看作这个马尔科夫过程的“概率”。

这个马尔科夫过程利用矩阵方程

$\\\boldsymbol{w}_{n+1}=A\boldsymbol{w}_n$

来产生下一步的“输出”。我们称每个向量 $\boldsymbol{w}_n$ 为状态向量，状态向量的集合 $\{\boldsymbol{w}_n\}$ 为马尔科夫链，矩阵 $A$ 称为转移矩阵，且它具有性质

一列每一个元素均为非负的；
每一列元素的和为 $1$ 。

称满足这两个性质的矩阵为随机矩阵，随机矩阵每个列向量满足元素的和为1，这样的向量称为概率向量。

这里的“转移矩阵”和基变换中的“转移矩阵”不是同一个概念，这里的“转移”是指每个研究对象会在不同
的“状态”之间转移。
其每一列为概率向量，因为每个列向量的元素都说明了上一次输出中某一“状态”的对象在下一次输出时变为
所有可能的“状态”的概率。例如上面的例子中第一列向量0.7和0.3说明了“已婚”状态的女性在下一年变为“已婚”
和“未婚”的概率。
随机矩阵的性质保证了所研究对象的总数是不变的。

我们下面用对角化来研究一个相对更复杂的马尔科夫过程：

一个汽车出租商出租四种类型的汽车：轿车、运动车、小货车和SUV。一开始出租的车中，轿车占40%，其余车型各占20%。假设没有新顾客，且每个顾客在其汽车租期结束时都会续签出租协议，并以一定的概率选择一辆新汽车，概率表如下所示：

$\\\begin{array}{cccc|c} \hline \bold{当}&\bold{前}&\bold{租}&\bold{用}\quad&\bold{下次租用}\\ \hline 轿车&运动车&小货车&SUV&\\ \hline 0.80&0.10&0.05&0.05&轿车\\ 0.10&0.80&0.05&0.05&运动车\\ 0.05&0.05&0.80&0.10&小货车\\ 0.05&0.05&0.10&0.80&SUV\\ \hline \end{array}$

要研究第 $n$ 次租期结束时出租的车中各车型占的比例，构造转移矩阵和初始状态向量（同时也是一个概率向量）

$\\A=\begin{bmatrix}0.80&0.10&0.05&0.05\\ 0.10&0.80&0.05&0.05\\ 0.05&0.05&0.80&0.10\\ 0.05&0.05&0.10&0.80\\\end{bmatrix},\quad \boldsymbol{w}_0=\begin{bmatrix}0.4\\0.2\\0.2\\0.2\end{bmatrix}$

则 $\boldsymbol{w}_n=A^n\boldsymbol{w}_0$ 。可以求得 $A$ 的特征值为

$\\\lambda_1=1,\quad\lambda_2=0.8,\quad\lambda_3=\lambda_4=0.7$

并且 $A$ 可对角化为

$\\A=XDX^{-1}=\begin{bmatrix}1&-1&0&1\\ 1&-1&0&-1\\ 1&1&1&0\\ 1&1&-1&0\\\end{bmatrix} \begin{bmatrix}1&0&0&0\\ 0&0.8&0&0\\ 0&0&0.7&0\\ 0&0&0&0.7\\\end{bmatrix} \begin{bmatrix}0.25&0.25&0.25&0.25\\ -0.25&-0.25&0.25&0.25\\ 0&0&0.5&-0.5\\ 0.5&-0.5&0&0\\\end{bmatrix}$

注意到

$\\A^2=XDX^{-1}XDX^{-1}=XD^2X^{-1},\quad A^n=XD^nX^{-1}$

上面的等式说明了对角化在处理重复作用问题时的方便之处，因为计算对角阵的n次方只需将其对角线上的所有元素都自乘n次。

因此

$\\\begin{aligned}\boldsymbol{w}_n&=XD^nX^{-1}\boldsymbol{w}_0\\&=XD^n\begin{bmatrix}0.25&-0.05&0&0.1\end{bmatrix}^T\\&=X\begin{bmatrix}1^n·0.25&0.8^n·(-0.05)&0.8^n·0&0.7^n·0.1\end{bmatrix}^T\\&=0.25\boldsymbol{x}_1-0.8^n·0.05\boldsymbol{x}_2+0.7^n·0.1\boldsymbol{x}_3\end{aligned}$

从而得到 $\lim_{n\to\infty}\boldsymbol{w}_n=0.25\boldsymbol{x}_1=\begin{bmatrix}0.25\\0.25\\0.25\\0.25\end{bmatrix}$ ，即出租的车型比例最终会趋向于这个稳态向量，它是属于特征值 $\lambda_1=1$ 的特征向量 $\boldsymbol{x}_1$ 的某个倍数，与直接分解向量得到的结果是一样的。

比较前面所提出的这两个马尔科夫过程，可以发现，其转移矩阵都是随机矩阵，且都具有特征值 $\lambda_1=1$ ，而其余特征值都满足 $|\lambda|<1$ ；而马尔科夫链则最终都趋向于一个属于特征值 $\lambda_1=1$ 的特征向量 $\boldsymbol{x}_1$ 的某个倍数。

事实上，我们可以先证明这样一个结论，以说明每个转移矩阵都有特征值1：

定理19.2 若 $n×n$ 方阵 $A$ 的每列元素之和都为标量 $s$ ，则 $s$ 是 $A$ 的特征值。

这个定理有两个较为巧妙证明方法，因此都在此列出。

证1 由特征值的等价条件，只需证明矩阵 $A-sI$ 奇异，即其 $n$ 个列向量线性相关。由假设可得 $A-sI$ 的每列元素之和均为 $0$ ，因此其列向量都属于向量空间 $\{\boldsymbol{x}|\sum_{i=1}^nx_i=0\}$ ，而这个向量空间的维数为 $n-1$ ，因此这 $n$ 个列向量必然线性相关。

证2 设有 $n$ 维列向量 $\boldsymbol{y}$ ，其各元素均为1，则 $\boldsymbol{a}_i^T\boldsymbol{y}=\sum_{k=1}^na_{ki}·1=s$ ，因此 $A^T\boldsymbol{y}=s\boldsymbol{y}$ ，这说明 $s$ 是 $A^T$ 的特征值，则由特征值的性质， $s$ 也是 $A$ 的特征值。

通过观察所举的两个马尔科夫过程的例子，我们容易证明下面的定理：

定理19.3 若随机矩阵 $A$ 可对角化，并有一个特征值 $\lambda_1=1$ ，且其它所有特征值 $\lambda_k\;(k=2,3,…)$ （重复的特征值计重数）都满足 $|\lambda_k|<1$ ，则转移矩阵为 $A$ 的马尔科夫链将收敛到稳态向量，且该稳态向量是属于特征值 $\lambda_1=1$ 的特征向量 $\boldsymbol{x}_1$ 的某个倍数。

事实上，这一定理在 $A$ 不可对角化时依然成立，但这需要用到更为强大的工具——若尔当标准型来证明，它是对角化的一种推广，因而该推广的定理在此述而不证。

不是所有马尔科夫过程都收敛到稳态向量，但只要马尔科夫过程的转移矩阵的所有元素均为正，则可以证明对于任何初始概率向量，该马尔科夫过程都会收敛于同一稳态向量，这一点将在之后会有一定的解释。借助这个结果，我们就可以对网页的搜索和分级算法进行初步的探讨。

三、马尔科夫过程的应用：网页搜索

这是一个更加贴近我们生活的例子。实际上，网页的搜索和分级算法和马尔科夫过程息息相关。我们在网上使用搜索引擎寻找信息的时候，搜索引擎会根据我们键入的关键字搜索网页，并将所得的结果一条一条列出来。显然，网页显示的位置越前，说明搜索引擎越认为这个网页符合搜索要求的结果。但是，搜索引擎是如何评估网页“符合搜索要求”的程度，从而对它找到的网页进行分级的呢？

用于网页分级的PageRank算法是依赖于网络连接结果的巨大的马尔科夫过程，其最初构想由斯坦福大学的两名大学生提出，他们在该算法的基础上开发了如今被广泛使用的Google搜索引擎。如此成功的引擎背后的算法可不是那么容易说清楚的，所以为了便于理解，下面介绍的PageRank算法是经过了一定的简化后的版本。

PageRank算法将上网冲浪看成是马尔科夫过程，其转移矩阵是一个 $n×n$ 的方阵 $A=(a_{ij})$ ，其中 $n$ 为要搜索的网站总数，元素 $a_{ij}$ 表示在随机冲浪过程中从网站 $j$ 跳转到网站 $i$ 的概率。目前的 $n$ 超过了200亿，因此有人称网页分级计算为“世界上最大的矩阵计算”。

“网页分级模型”假设若用户处于在一个网页中，则该用户将以一个固定概率沿着当前网页中的链接跳转到所链接的网页，否则随机地跳转到其它网页（包括能通过当前网页中的链接到达的网页）。

例如，网页 $j$ 有 $f(j)$ 个到其他网页的链接，并假设用户以 $p$ 的概率随机跳转到其它网页，以 $1-p$ 的概率沿着这五个链接浏览。若网页 $j$ 与网页 $i$ 之间没有链接，则

$\\a_{ij}=\frac {1-p}n$

若网页 $j$ 与网页 $i$ 之间有链接，则

$\\a_{ij}=\frac{p}{f(j)}+\frac {1-p}n$

设 $m_{ij}=\cases{\frac1{f(j)}&有从j到i的链接\\0&没有从j到i的链接}$ ，则上面两式可统一为

$\\a_{ij}=pm_{ij}+(1-p)\frac 1n$

由上式知转移矩阵 $A$ 的元素都是正的，根据上一节最后一段中的说明，知对于任意初始的随机向量，该马尔科夫过程必然收敛到唯一的稳态随机向量 $\boldsymbol{x}$ ，它是一个 $n$ 维列向量，其第 $k$ 个分量对应于长时间冲浪后到达网站 $k$ 的概率。因此，搜索引擎只需根据稳态向量每个元素的大小对网页进行排序——概率越大的网页分级越前，然后将网页按分级递减的顺序列出来即可。

令 $M=(m_{ij})$ ，且 $\boldsymbol{e}\in\bold{R}^n$ ，其各分量均为 $1$ ，则 $E=\boldsymbol{e}\boldsymbol{e}^T$ 是一个全部元素为 $1$ 的矩阵。这样我们有方程

$\\A=pM+\frac {1-p}nE$

为求稳态向量，需要从初始随机向量 $\boldsymbol{w}_0$ 开始，计算乘法 $\boldsymbol{w}_{n+1}=A\boldsymbol{w}_n$ 。由于 $A$ 的规模十分大，因此该乘法的计算量是巨大的。但注意到在实际操作中，相对于网页的数量，网页之间的链接是非常少的，这意味着 $M$ 的很多元素都是 $0$ （称这样的矩阵为稀疏矩阵），这样一来，上面的矩阵乘法可以被简化。

为此，先注意到若初始向量 $\boldsymbol{w}_0$ 为随机向量，则马尔科夫链中的任意向量 $\boldsymbol{w}_n$ 都是随机向量，这样就有 $E\boldsymbol{w}_n=\boldsymbol{e}$ 对任意非负整数 $n$ 成立。若 $M$ 是稀疏的，则乘法 $M\boldsymbol{w}_n$ 是容易计算的，因此

$\\\boldsymbol{w}_{n+1}=A\boldsymbol{w}_n=pM\boldsymbol{w}_n+\frac {1-p}nE\boldsymbol{w}_n=pM\boldsymbol{w}_n+\frac {1-p}n\boldsymbol{e}$

前一个被加项容易计算，而后一个被加项是一个常量，因此可以通过预计算来储存它的值，在后续计算中直接使用。这样一来，网页分级算法的计算量就被大大减小了。

对角化的应用还有很多，例如计算伴性基因的携带率，但由于篇幅有限，所以暂先列举到这里；在下一篇中，我们将讨论更多与矩阵对角化有关的概念，展现对角化的更多（数学上的）实用之处。

一、特征空间的性质

我们已经了解到，对角化是将线性算子的表达化为最简形式的过程，但是不是所有线性算子都有对角阵这么简洁的表达方式呢？定理19.1告诉我们， $n$ 阶方阵 $A$ 可对角化当且仅当它有 $n$ 个线性无关的特征向量——意味着矩阵所对应的线性算子也得有这么多线性无关的特征向量；但可惜的是，不是所有矩阵都满足这个条件。

考察矩阵 $A=\begin{bmatrix}1&1\\0&1\end{bmatrix}$ ，它的特征多项式为 $(\lambda-1)^2=0$ ，从而得到 $A$ 的特征值为 $\lambda_1=\lambda_2=1$ （到目前为止，我们都是对重复的特征值计重数），而对应的特征空间——即 $A-I=\begin{bmatrix}0&1\\0&0\end{bmatrix}$ 的零空间——为 $\{\boldsymbol{x}=\begin{bmatrix}0\\k\end{bmatrix}\,|\,k\in\mathbb{R}\}$ 。这是个一维向量空间，从中只能选出一个线性无关的特征向量，因此矩阵 $A$ 就是不可对角化的一个例子。

再看矩阵 $B=\begin{bmatrix}2&0&0\\0&4&0\\1&0&2\end{bmatrix}$ 和 $C=\begin{bmatrix}2&0&0\\-1&4&0\\-3&6&2\end{bmatrix}$ ，它们都是三角矩阵，因此特征值均为其对角线上的元素： $\lambda_1=4,\;\lambda_2=\lambda_3=2$ 。 $B$ 对应于 $\lambda_1=4$ 的特征空间由单位向量 $\boldsymbol{e}_2$ 张成， $\lambda_2=\lambda_3=2$ 的特征空间由 $\boldsymbol{e}_3$ 张成，因此 $B$ 最多只有两个线性无关特征向量。

但 $C$ 不一样，尽管其特征值与 $B$ 完全相同，但可以验证， $\begin{bmatrix}0\\1\\3\end{bmatrix}$ 是属于 $\lambda_1$ 的特征向量，而 $\begin{bmatrix}2\\1\\0\end{bmatrix}$ 和 $\begin{bmatrix}0\\0\\1\end{bmatrix}$ 则是属于 $\lambda_2=\lambda_3$ 的特征向量。这三个向量线性无关，这说明 $C$ 可对角化。

因此，不是所有矩阵都满足对角化的条件，我们称有少于 $n$ 个线性无关的特征向量的 $n×n$ 矩阵为退化的（defective）。（显然，不可能多于 $n$ 个线性无关的特征向量，为什么？）

在此给一个简单的命题：
证明：非零的幂零矩阵都是退化的。（考虑幂零矩阵的所有特征值都为零，并用反证法。）

如果再多考察一些矩阵，就会发现退化的矩阵总是有重复的特征值（如 $A$ 和 $B$ ），但有重复特征值的矩阵不一定退化的（如 $C$ ）；同时，若一个矩阵的特征值全部各不相同，那么它总能化成对角形式。用命题语言来说，这就是：

有重复的特征值是矩阵不可对角化（也就是退化）的必要条件。（或等价地，特征值各不相同是矩阵可对角化的充分条件。）

事实上，上述猜想是正确的；为看到这一点，我们只需证明下面的定理。

定理20.1 令 $A$ 为一 $n×n$ 矩阵，若 $\lambda_1,\lambda_2,…,\lambda_k\,(1<k\leq n)$ 是 $A$ 各不相同的特征值，且 $\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_k$ 分别为相应的特征向量，则 $\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_k$ 线性无关。

证设由 $\boldsymbol{x}_1,\boldsymbol{x}_2,…\boldsymbol{x}_k$ 张成空间的维数为 $r$ ，则 $r \leq k$ ，定理即要证 $r=k$ 。用反证法，若 $r<k$ ，那么不妨设 $\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_r$ 线性无关而 $\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_r,\boldsymbol{x}_{r+1}$ 线性相关，因此存在不全为零的标量 $c_1,c_2,…,c_{r+1}$ 使得

$\\c_1\boldsymbol{x}_1+c_2\boldsymbol{x}_2+\cdots+c_r\boldsymbol{x}_r+c_{r+1}\boldsymbol{x}_{r+1}=\boldsymbol{0}\tag{1}$

且 $c_{r+1}\ne 0$ （否则 $\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_r$ 线性相关），所以 $c_{r+1}\boldsymbol{x}_{r+1}\ne\boldsymbol{0}$ ，故为使上式成立， $c_1,c_2,…,c_r$ 也不全为零。将（1）式左右两端同时左乘 $A$ ，就得到

$\\c_1A\boldsymbol{x}_1+c_2A\boldsymbol{x}_2+\cdots+c_rA\boldsymbol{x}_r+c_{r+1}A\boldsymbol{x}_{r+1}=\boldsymbol{0}$

即

$\\c_1\lambda_1\boldsymbol{x}_1+c_2\lambda_2\boldsymbol{x}_2+\cdots+c_r\lambda_r\boldsymbol{x}_r+c_{r+1}\lambda_{r+1}\boldsymbol{x}_{r+1}=\boldsymbol{0}$

上式减去（1）式的 $\lambda_{r+1}$ 倍，则有

$\\c_1(\lambda_1-\lambda_{r+1})\boldsymbol{x}_1+c_2(\lambda_2-\lambda_{r+1})\boldsymbol{x}_2+\cdots+c_r(\lambda_r-\lambda_{r+1})\boldsymbol{x}_r=\boldsymbol{0}$

上式中 $r+1$ 个特征值各不相同，说明 $\lambda_m-\lambda_{r+1}\ne0$ 对所有 $m=1,2,…,r$ 成立；又因为 $c_1,c_2,…,c_r$ 不全为零，故各 $c_m(\lambda_m-\lambda_{r+1})$ 也不全为零，而这说明 $\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_r$ 线性相关，与假设矛盾。故只能有 $r=k$ 。

结合定理19.1（对角化的充要条件）就可以得到如下推论：

推论令 $A$ 为一 $n\times n$ 矩阵，若 $A$ 有 $n$ 个互不相同的特征值，则 $A$ 可对角化。

特别地，在定理20.1中取 $k=2$ ，就知道一线性算子任意两个不同的特征值所属的特征向量是不相关的。从几何上理解，就是说一个线性算子不可能把一条直线上的某些向量放大 $k_1$ 倍，而同时又把同一直线上的另一些向量放大 $k_2$ 倍，且 $k_1\ne k_2$ 。

而定理20.1是比这个结论更强一些的定理，它是说，只要一个向量在一个线性算子的某些不同特征值的特征空间的“和”中，除非它完全处于某个特征值的特征空间中，否则它就不会是特征向量。

通俗地说，若将一个向量的某些分量伸缩不同的倍数，那么伸缩后各分量重新加和起来得到的新向量不可能和原向量在同一直线上。

这里插入另一个有趣的结论，它指明的是一个矩阵和它的转置矩阵之间，两个不同特征值所属的特征向量的关系——这是一种比线性无关还要特殊的关系。

定理20.2 令 $A$ 为一 $n×n$ 矩阵，且 $\lambda_1$ 和 $\lambda_2$ 是 $A$ 的不同特征值（因而也就是 $A^T$ 的不同特征值），设 $\boldsymbol{x}$ 是 $A$ 属于 $\lambda_1$ 的特征向量，而 $\boldsymbol{y}$ 是 $A^T$ 属于 $\lambda_2$ 的特征向量，则 $\boldsymbol{x}\,\bot\,\boldsymbol{y}$ 。

证由假设，我们有

$\\\begin{aligned}\boldsymbol{y}^TA\boldsymbol{x}=\lambda_1\boldsymbol{y}^T\boldsymbol{x}\\\boldsymbol{x}^TA^T\boldsymbol{y}=\lambda_2\boldsymbol{x}^T\boldsymbol{y}\end{aligned}$

由于 $\boldsymbol{x},\boldsymbol{y}\in\bold{R}^n$ ，因此若使用内积的符号，上式就可以写为

$\\\begin{aligned}\langle A\boldsymbol{x},\boldsymbol{y}\rangle=\lambda_1\langle\boldsymbol{x},\boldsymbol{y}\rangle\\\langle\boldsymbol{x},A^T\boldsymbol{y}\rangle=\lambda_2\langle\boldsymbol{x},\boldsymbol{y}\rangle\end{aligned}$

（这里用到了内积的对称性）应用内积的性质

$\\\langle A\boldsymbol{x},\boldsymbol{y}\rangle=\langle \boldsymbol{x},A^T\boldsymbol{y}\rangle$

结合 $\lambda_1\ne\lambda_2$ ，就有 $\boldsymbol{x}^T\boldsymbol{y}=\langle\boldsymbol{x},\boldsymbol{y}\rangle=\boldsymbol{0}$ ，即 $\boldsymbol{x}\,\bot\,\boldsymbol{y}$ 。要证明内积的上述性质，只需注意到内积的结果是一个数，因此转置后不变：

$\\\langle A\boldsymbol{x},\boldsymbol{y}\rangle=\boldsymbol{y}^TA\boldsymbol{x}=(\boldsymbol{x}^TA^T\boldsymbol{y})^T=(\langle \boldsymbol{x},A^T\boldsymbol{y}\rangle)^T=\langle \boldsymbol{x},A^T\boldsymbol{y}\rangle$

即可。

这一定理说明 $A$ 和 $A^T$ 属于不同特征值的特征空间是 $\bold{R}^n$ 中的正交子空间。

虽然这一定理与本篇文章没有直接关系，但是该证明过程的技巧是值得学习的；证明中所引入的结构 $\boldsymbol{y}^TA\boldsymbol{x}$ 是线性代数中的一个研究主题，而这一结构也将会在以后派上用场。

这个主题就是双线性型。

实际上，关于特征空间，还有一个性质，是在学习对角化的“升级版”工具——若尔当标准型时会接触到的概念。

定义令 $L:V\to V$ 为一线性算子，而 $W$ 是 $V$ 的子空间，若对任意 $\boldsymbol{w}\in W$ ，都有 $L(\boldsymbol{w})\in W$ ，则称 $W$ 在 $L$ 下是不变的，或 $W$ 是 $L$ 的不变子空间，简称 $L$ -子空间。

这就是说，即使 $L$ 有把 $V$ 的某个子空间中的元素映射到其外的可能，但对 $W$ 来说，其中的元素在被映射后仍在 $W$ 中；即， $W$ 具有一定的“稳定性”。

令 $V=\bold{R}^n$ ， $L$ 为 $n×n$ 矩阵，就得到了 $n×n$ 矩阵的不变子空间的概念，接下来的定理就是关于这种不变子空间的。

定理20.3 令 $A$ 为一 $n×n$ 矩阵，且 $\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_k\$ 是 $A$ 的特征向量，则 $S=\mathrm{Span}(\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_k)$ 在 $A$ 下不变。

证设 $\boldsymbol{x}\in S$ ，这意味着存在 $c_1,c_2,…,c_k$ 使得

$\\\boldsymbol{x}=c_1\boldsymbol{x}_1+c_2\boldsymbol{x}_2+\cdots+c_k\boldsymbol{x}_k$

则

$\\A\boldsymbol{x}=c_1A\boldsymbol{x}_1+c_2A\boldsymbol{x}_2+\cdots+c_kA\boldsymbol{x}_k=c_1\lambda_1\boldsymbol{x}_1+c_2\lambda_2\boldsymbol{x}_2+\cdots+c_k\lambda_k\boldsymbol{x}_k$

由 $S$ 的定义即知 $A\boldsymbol{x}\in S$ 。

可以看到，定理20.3的证明是直接且简单的；类似地，还有下面两个简单的命题可供巩固概念（均为之后会用到的结论）：

令 $A$ 为一 $n×n$ 矩阵， $\lambda$ 为 $A$ 的特征值，并设矩阵 $B$ 满足 $AB=BA$ ，证明： $N(A-\lambda I)$ 在 $B$ 下不变。（当 $B=A$ 时，这是定理20.3的直接推论。）
令 $A$ 为一实矩阵， $\lambda=a+bi\,(a,b\in\mathbb{R})$ 为 $A$ 的特征值，且满足 $b\ne0$ ，而 $\boldsymbol{z}=\boldsymbol{x}+i\boldsymbol{y}\;(\boldsymbol{x},\boldsymbol{y}\in\bold{R}^n)$ 是 $A$ 属于 $\lambda$ 的特征值，证明： $S=\mathrm{Span}(\boldsymbol{x},\boldsymbol{y})$ 在 $A$ 下不变。（还可以证明 $\dim S=2$ ，即 $\boldsymbol{x}$ 与 $\boldsymbol{y}$ 线性无关。）

二、代数重数与几何重数

如果进一步观察特征空间和特征值之间的关系，还会发现一个有趣的现象：如果矩阵 $A$ 的某个特征值 $\lambda$ 总共出现了 $k$ 次，即在该矩阵的所有特征值中，总共存在 $k$ 个特征值，满足

$\\\lambda_1=\lambda_2=\cdots=\lambda_k=\lambda$

那么，对应于 $\lambda$ 的特征空间 $N(A-\lambda I)$ 中线性无关的特征向量不会多于 $k$ 个。换句话说， $n(A-\lambda I)\leq k$ 。

前面我们曾经给出过 $n\times n$ 矩阵的特征多项式的一种写法：

$\\p(\lambda)=\prod_{i=1}^n(\lambda_i-\lambda)\tag{2}$

在这种写法中，相同的特征值可能重复出现（也就是说可能存在两个特征值 $\lambda_i,\lambda_j$ 满足 $\lambda_i=\lambda_j$ ）；而如果我们在上式中把相同的特征值进行“合并”，就可以得到另一种表示方法：

$\\p(\lambda)=\prod_{i=1}^k(\lambda_i-\lambda)^{m_i}\tag{3}$

其中，各 $\lambda_i$ 相异， $1\leq k\leq n$ （至多有 $n$ 个不同的特征值）； $m_i$ 就是其中的每个特征值在（2）式中出现的次数， $1\leq m_i\leq n$ 且 $m_1+m_2+\cdots+m_k=n$ （按重数计，总的特征值个数必然是 $n$ 个）。

定义令 $A$ 为一 $n×n$ 矩阵，有 $k$ 个各不相同的特征值 $\lambda_1,\lambda_2,…,\lambda_k$ ，且特征多项式为 $p(\lambda)=\prod_{i=1}^k(\lambda_i-\lambda)^{m_i}$ ，其中 $1\leq m_i\leq n$ 且 $m_1+m_2+\cdots+m_k=n$ ，则称 $m_i$ 为特征值 $\lambda_i$ 的代数重数（algebraic multiplicity）。若 $n(A-\lambda_i I)=n_i$ ，则称 $n_i$ 为特征值 $\lambda_i$ 的几何重数（geometric multiplicity）。

当我们省略前缀称“重数”时，基本上都是指代数重数。

一个特征值的代数重数就是它在特征多项式中作为根出现的次数，几何重数就是它对应的特征空间的维数。

我们观察到的现象就等价于这样一个式子： $n_i\leq m_i$ 。

我们这里先采取一个比较快速的做法证明这个结论，而相应地，这个方法的缺点是无法揭示代数重数和几何重数之间的关系。下一篇中，我们将介绍更加本质的证明方法。

定理20.4 令 $A$ 为一 $n×n$ 矩阵， $\lambda_0$ 是 $A$ 的一个几何重数为 $k\,(1\leq k\leq n)$ 的特征值，则 $\lambda_0$ 的代数重数大于等于 $k$ 。

证1（需要一定的线性变换基础）设 $\lambda_0$ 的特征空间的一组基为 $\{\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_k\}$ ，注意到 $\lambda_0$ 的特征空间是 $\bold{R}^n$ 的子空间，因此可以将这组基扩充为 $\bold{R}^n$ 的一组基 $\{\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_k,\boldsymbol{x}_{k+1},…,\boldsymbol{x}_n\}$ 。设 $A$ 在标准基下所对应的线性算子为 $L$ ，则 $L$ 在这组基上的作用为

$\\\begin{aligned}L(\boldsymbol{x}_i)&=A\boldsymbol{x}_i=\lambda_0\boldsymbol{x}_i\,(1\leq i\leq k) \\L(\boldsymbol{x}_i)&=A\boldsymbol{x}_i=\boldsymbol{y}_i\quad\,\,(k+1\leq i\leq n)\end{aligned}$

其中 $\boldsymbol{y}_i\in\bold{R}^n$ 是某个向量。因此，设 $B$ 是 $L$ 在基 $\{\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_n\}$ （简记为 $X$ ）下的表示矩阵，就有

$\\\begin{aligned}{}\left[L(\boldsymbol{x}_i)\right]_X&=B\boldsymbol{e}_i=\lambda_0\boldsymbol{e}_i\,(1\leq i\leq k) \\\left[L(\boldsymbol{x}_i)\right]_X&=B\boldsymbol{e}_i=\boldsymbol{w}_i\quad(k+1\leq i\leq n)\end{aligned}$

注意到 $B\boldsymbol{e}_i=\boldsymbol{b}_i$ 就是矩阵 $B$ 的第 $i$ 列，因此

$\\\begin{aligned}B&=\begin{bmatrix}{}\lambda_0\boldsymbol{e}_1&\lambda_0\boldsymbol{e}_2&\cdots&\lambda_0\boldsymbol{e}_k&\boldsymbol{w}_{k+1}&\cdots&\boldsymbol{w}_n\end{bmatrix} \\&=\left[\begin{array}{cccc|ccc}\lambda_0&0\quad&\cdots&0&w_{1,k+1}&\cdots&w_{1,n}\\0&\lambda_0\quad&\cdots&0&w_{2,k+1}&\cdots&w_{2,n}\\\vdots&\vdots\quad&\ddots&\vdots&\vdots&\ddots&\vdots\\0&0\quad&\cdots&\lambda_0&w_{k,k+1}&\cdots&w_{k,n}\\ \hline0&0\quad&\cdots&0&w_{k+1,k+1}&\cdots&w_{k+1,n}\\0&0\quad&\cdots&0&w_{k+2,k+1}&\cdots&w_{k+2,n}\\\vdots&\vdots\quad&\ddots&\vdots&\vdots&\ddots&\vdots\\0&0\quad&\cdots&0&w_{n,k+1}&\cdots&w_{n,n}\end{array}\right]\end{aligned}\tag{4}$

由于 $A$ 和 $B$ 是 $L$ 在不同基下的表示矩阵，因此 $A$ 和 $B$ 相似（事实上 $B=X^{-1}AX$ ）。

故由定理18.3，它们有完全相同的特征多项式。而 $B$ 的特征多项式 $|B-\lambda I|$ 的乘积式（3）中必然含有 $(\lambda_0-\lambda)^k$ 这一因子（对行列式沿第一列展开后只有一项 $(\lambda_0-\lambda)M_{11}$ ，然后对余子式 $M_{11}$ 沿第一列展开，以此类推），因此 $\lambda_0$ 是 $B$ 的代数重数至少为 $k$ 的特征值，从而也是 $A$ 的代数重数至少为 $k$ 的特征值。

证2 设 $\lambda_0$ 的特征空间的一组基为 $\{\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_k\}$ ，注意到 $\lambda_0$ 的特征空间是 $\bold{R}^n$ 的子空间，因此可以将这组基扩充为 $\bold{R}^n$ 的一组基 $\{\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_k,\boldsymbol{x}_{k+1},…,\boldsymbol{x}_n\}$ 。令 $X=\begin{bmatrix}\boldsymbol{x}_1&\boldsymbol{x}_2&\cdots&\boldsymbol{x}_n\end{bmatrix}$ ，并令 $B=X^{-1}AX$ ，则通过 $XB=AX$ 可以验证 $B$ 有证1中（4）式的形式。又由 $X$ 可逆知 $A$ 与 $B$ 相似，之后的过程同证1的最后一段。

上述两个证明的核心都在于，说明 $A$ 所对应的线性算子 $L$ 在 $\lambda_0$ 的特征空间的基上的表示矩阵是一个对角元素都为 $\lambda_0$ 的 $k×k$ 对角阵，这从特征值和表示矩阵的几何意义出发是十分好理解的。在此基础上，证1忠实地展现了这一思路，而证2则是直接给出结论并进行验证，隐去了中间的思考过程。

因此我们就证明了：一个矩阵的任一特征值的几何重数小于等于其代数重数，即 $n_i\leq m_i$ 。

利用这个结论，若一 $n\times n$ 矩阵有 $k$ 个相异的特征值，则 $\sum_{i=1}^kn_i\leq\sum_{i=1}^km_i=n$ ，等号成立当且仅当对每一 $i=1,2,…k$ ，都有 $n_i=m_i$ ，这一论断等价于下面的定理：

定理20.5 令 $A$ 为一 $n×n$ 矩阵，则 $A$ 可对角化当且仅当 $A$ 的所有相异的特征值的几何重数等于其代数重数。

这是判断一个方阵是否可对角化的又一充要条件。

定理20.6 令 $A$ 为一 $n×n$ 矩阵，且 $\lambda=0$ 是 $A$ 的特征值，则 $\lambda=0$ 的代数重数大于等于 $n(A)$ ，等号成立当且仅当 $A$ 可对角化。

定理20.6是定理20.4和定理20.5的推论，只需注意到 $\lambda=0$ 的几何重数就是 $n(A)$ 。

定理20.7 令 $A$ 为一 $n×n$ 矩阵，则 $A$ 的非零特征值的代数重数之和小于等于 $r(A)$ ，等号成立当且仅当 $A$ 可对角化。

定理20.7则是定理20.6的推论，这意味着可对角化矩阵的非零特征值的总个数（按代数重数计数）就是矩阵的秩。

最后，让我们用一条较为综合性的定理作为结尾；这条定理的重要性在于，它说明了可以从矩阵的对角化分解的形式中直接得到关于该矩阵的两个基本子空间的信息。

定理20.8 令 $A$ 为一可对角化矩阵，且 $A=X^{-1}DX$ ，其中 $D$ 为对角阵，则对应于 $A$ 的非零特征值的 $X$ 的所有列向量构成了 $R(A)$ 的一组基；若 $\lambda=0$ 是 $A$ 的特征值，则对应于 $\lambda=0$ 的 $X$ 的所有列向量构成了 $N(A)$ 的一组基。

证只对定理的前半进行证明，后半部分证明完全类似。由于 $A$ 可对角化，因此 $A$ 的非零特征值的代数重数之和等于 $r(A)$ （定理20.7），从而几何重数之和也等于 $r(A)$ （定理20.4），而 $X$ 的列向量均为 $A$ 的特征向量（定理19.1），因此对应于 $A$ 的非零特征值的 $X$ 的列向量总共有 $r(A)$ 个，且它们线性无关（定理20.1），而 $A$ 的非零特征值的特征向量都属于 $R(A)$ （特征向量的性质），故它们构成了 $R(A)$ 的一组基（定理8.3）。

从而我们就可以看出，对角化作为矩阵的一种分解，揭示了矩阵非常多信息：所有特征值和特征向量、行列式和迹、列空间和零空间（包括其维数与基）等。但可惜的是，从前面的所有探究来看，不是所有矩阵都可以应用这么有用的工具；因此，寻找一种比对角化更为通用的工具就成为了接下来的探索目标——若尔当标准型，就将会是其中的一个成果。

标签：特征值,角化,特征向量,定理,矩阵,向量
来源： https://www.cnblogs.com/nishihundun/p/15674953.html