其他分享
首页 > 其他分享> > 矩阵代数中的一些结果

矩阵代数中的一些结果

作者:互联网

文章目录


大写字母表示矩阵(如 A A A),小写粗斜体表示向量(如 x \boldsymbol{x} x),正常字体表示标量或坐标点等(如 x 1 x_1 x1​)。

方阵的迹

设 A = ( a i j ) n × n A=(a_{ij})_{n\times n} A=(aij​)n×n​,A的迹定义为其主对角线元素之和,记为 tr ( A ) \text{tr}(A) tr(A),即
tr ( A ) = ∑ i = 1 n ( a i i ) \text{tr}(A)=\sum_{i=1}^n(a_{ii}) tr(A)=i=1∑n​(aii​)
按定义显然有
tr ( A ) = tr ( A T ) tr ( A + B ) = tr ( A ) + tr ( B ) tr ( α A ) = α tr ( A ) \begin{aligned} \text{tr}(A)&=\text{tr}(A^{\text{T}}) \\ \text{tr}(A+B)&=\text{tr}(A)+\text{tr}(B) \\ \text{tr}(\alpha A)&=\alpha\text{tr}(A) \end{aligned} tr(A)tr(A+B)tr(αA)​=tr(AT)=tr(A)+tr(B)=αtr(A)​
其中 α \alpha α为常数, B B B为与 A A A同阶的方阵。另外,容易证明以下结果:
tr ( A ) = ∑ i = 1 n λ i tr ( A B ) = tr ( B A ) tr ( A T A ) = ∑ i = 1 n ∑ j = 1 n a i j 2 \begin{aligned} \text{tr}(A)&=\sum_{i=1}^n\lambda_i \\ \text{tr}(AB)&=\text{tr}(BA) \\ \text{tr}(A^{\text{T}} A)&=\sum_{i=1}^n\sum_{j=1}^n a_{ij}^2 \end{aligned} tr(A)tr(AB)tr(ATA)​=i=1∑n​λi​=tr(BA)=i=1∑n​j=1∑n​aij2​​
其中 λ i \lambda_i λi​为矩阵 A A A的特征值, B B B为与 A A A同阶的方阵。

矩阵的分块求逆

设矩阵 A A A是一个 n + m n+m n+m阶方阵,它具有分块三角阵的结构,即
A = [ A 11 A 12 0 A 22 ] 或 A = [ A 11 0 A 21 A 22 ] A=\left[\begin{array}{cc} A_{11} & A_{12} \\ 0 & A_{22} \end{array}\right]\text{或} A=\left[\begin{array}{cc} A_{11} & 0 \\ A_{21} & A_{22} \end{array}\right] A=[A11​0​A12​A22​​]或A=[A11​A21​​0A22​​]
其中 A 11 A_{11} A11​和 A 22 A_{22} A22​分别是n阶和m阶可逆方阵,这意味着 A 是可逆阵。利用
A − 1 A = A A − 1 = I n + m A^{-1}A=AA^{-1}=I_{n+m} A−1A=AA−1=In+m​
可以推得
A − 1 = [ A 11 − 1 − A 11 − 1 A 12 A 22 − 1 0 A 22 − 1 ] A^{-1}=\left[\begin{array}{cc} A_{11}^{-1} & -A_{11}^{-1}A_{12}A_{22}^{-1} \\ 0 & A_{22}^{-1} \end{array}\right] A−1=[A11−1​0​−A11−1​A12​A22−1​A22−1​​]
A − 1 = [ A 11 − 1 0 − A 22 − 1 A 21 A 11 − 1 A 22 − 1 ] A^{-1}=\left[\begin{array}{cc} A_{11}^{-1} & 0 \\ -A_{22}^{-1}A_{21}A_{11}^{-1} & A_{22}^{-1} \end{array}\right] A−1=[A11−1​−A22−1​A21​A11−1​​0A22−1​​]
一般地,若n+m阶方阵A可以写成分块形式
A = [ A 11 A 12 A 21 A 11 − 1 A 22 ] A=\left[\begin{array}{cc} A_{11} & A_{12} \\ A_{21}A_{11}^{-1} & A_{22} \end{array}\right] A=[A11​A21​A11−1​​A12​A22​​]
其中 A 11 A_{11} A11​和 A 22 A_{22} A22​具有与前相同的性质,那么利用矩阵分解关系式
A = [ I n 0 A 21 A 11 − 1 I m ] [ A 11 A 12 0 A 22 − A 21 A 11 − 1 A 12 ] A=\left[\begin{array}{cc} I_n & 0 \\ A_{21}A_{11}^{-1} & I_m \end{array}\right]\left[\begin{array}{cc} A_{11} & A_{12} \\ 0 & A_{22}-A_{21}A_{11}^{-1}A_{12} \end{array}\right] A=[In​A21​A11−1​​0Im​​][A11​0​A12​A22​−A21​A11−1​A12​​]
A = [ I n A 12 A 22 − 1 0 I m ] [ A 11 − A 12 A 22 − 1 A 21 0 A 21 A 22 ] A=\left[\begin{array}{cc} I_n & A_{12}A_{22}^{-1} \\ 0 & I_m \end{array}\right]\left[\begin{array}{cc} A_{11}-A_{12}A_{22}^{-1}A_{21} & 0 \\ A_{21} & A_{22} \end{array}\right] A=[In​0​A12​A22−1​Im​​][A11​−A12​A22−1​A21​A21​​0A22​​]
和前面关于三角阵的求逆结果,可以推得矩阵 A 的分块求逆公式如下:
A − 1 = [ A 11 − 1 + A 11 − 1 A 12 A ~ 22 − 1 A 21 A 11 − 1 − A 11 − 1 A 12 A ~ 22 − 1 − A ~ 22 − 1 A 21 A 11 − 1 A ~ 22 − 1 ] A^{-1}=\left[\begin{array}{cc} A_{11}^{-1}+A_{11}^{-1}A_{12}\tilde{A}_{22}^{-1}A_{21}A_{11}^{-1} & -A_{11}^{-1}A_{12}\tilde{A}_{22}^{-1} \\ -\tilde{A}_{22}^{-1}A_{21}A_{11}^{-1} & \tilde{A}_{22}^{-1} \end{array}\right] A−1=[A11−1​+A11−1​A12​A~22−1​A21​A11−1​−A~22−1​A21​A11−1​​−A11−1​A12​A~22−1​A~22−1​​]
A − 1 = [ A ~ 11 − 1 − A ~ 11 − 1 A 12 A 22 − 1 − A 22 − 1 A 21 A ~ 11 − 1 A 22 − 1 + A 22 − 1 A 21 A ~ 11 − 1 A 12 A 22 − 1 ] A^{-1}=\left[\begin{array}{cc} \tilde{A}_{11}^{-1} & -\tilde{A}_{11}^{-1}A_{12}A_{22}^{-1} \\ -A_{22}^{-1}A_{21}\tilde{A}_{11}^{-1} & A_{22}^{-1}+A_{22}^{-1}A_{21}\tilde{A}_{11}^{-1}A_{12}A_{22}^{-1} \end{array}\right] A−1=[A~11−1​−A22−1​A21​A~11−1​​−A~11−1​A12​A22−1​A22−1​+A22−1​A21​A~11−1​A12​A22−1​​]
其中
A ~ 11 = A 11 − A 12 A 22 − 1 A 21 \tilde{A}_{11}=A_{11}-A_{12}A_{22}^{-1}A_{21} A~11​=A11​−A12​A22−1​A21​
A ~ 22 = A 22 − A 21 A 11 − 1 A 12 \tilde{A}_{22}=A_{22}-A_{21}A_{11}^{-1}A_{12} A~22​=A22​−A21​A11−1​A12​
假定矩阵A是可逆矩阵,因而 A ~ 11 − 1 \tilde{A}_{11}^{-1} A~11−1​和 A ~ 22 − 1 \tilde{A}_{22}^{-1} A~22−1​总是存在的。根据逆矩阵的唯一性,对比两式立即得到(这附近的推导可能有问题)
( A 11 − A 12 A 22 − 1 A 21 ) − 1 = A 11 − 1 + A 11 − 1 A 12 A ~ 22 − 1 A 21 A 11 − 1 (A_{11}-A_{12}A_{22}^{-1}A_{21})^{-1}=A_{11}^{-1}+A_{11}^{-1}A_{12}\tilde{A}_{22}^{-1}A_{21}A_{11}^{-1} (A11​−A12​A22−1​A21​)−1=A11−1​+A11−1​A12​A~22−1​A21​A11−1​
A 22 − A 21 A 11 − 1 A 12 = A 22 − 1 + A 22 − 1 A 21 A ~ 11 − 1 A 12 A 22 − 1 A_{22}-A_{21}A_{11}^{-1}A_{12}=A_{22}^{-1}+A_{22}^{-1}A_{21}\tilde{A}_{11}^{-1}A_{12}A_{22}^{-1} A22​−A21​A11−1​A12​=A22−1​+A22−1​A21​A~11−1​A12​A22−1​
这是两个非常重要的矩阵恒等式,在矩阵变换中经常用到。其中第一式习惯上称为矩阵反馈公式。

矩阵的正定与负定

设矩阵 A A A为n阶对称阵。如果对于所有n维列向量 X X X,二次型 X T A X X^{\text{T}} AX XTAX均为非负,则称矩阵 A A A为非负定矩阵,并用 A ≥ 0 A\ge 0 A≥0来表示。进一步,如果矩阵 A A A为非负定矩阵,且对所有非零向量 X X X,二次型 X T A X X^{\text{T}} AX XTAX总大于零,则称矩阵 A A A为正定阵,并且用 A > 0 A>0 A>0来表示。对称矩阵 A A A当且仅当其所有特征值非负时才是非负定阵;当且仅当特征值均为正时才是正定阵。显然,若矩阵 A A A为正定值,则其逆矩阵存在且也为正定阵。
如果 D D D是任意 n × m n\times m n×m阶矩阵,则 A = D D ′ A=DD' A=DD′是非负定阵;当且仅当 D D D具有满行秩时, A = D D ′ A=DD' A=DD′才是正定阵。
如果 A A A和 B B B是同阶非负定阵, α \alpha α和 β \beta β为非负常数,则 α A + β B \alpha A+\beta B αA+βB为非负定阵;若 A A A、 B B B两者之一是正定阵而另一个为非负定阵且 α \alpha α和 β \beta β均大于零,则 α A + β B \alpha A+\beta B αA+βB是正定阵。
设A和B分别为非负定阵和正定阵,称-A和- B B B分别是非正定阵和负定阵。非正定阵和负定阵分别与非负定阵和正定阵具有相反而类似的性质。次不赘述。

向量和矩阵的范数

向量的范数是对向量的一种度量。设 X X X为一个n维列向量,其范数用符号 ∥ x ∥ \Vert x\Vert ∥x∥来表示。任何一个具有下述三条性质的实值函数都可定义为 X X X的范数:

矩阵的微分运算

矩阵微分运算有几种不同的情况。

矩阵函数对标量的导数

设n×m阶矩阵 A A A、 B B B和m×1阶矩阵 C C C的元素都是实变数t的函数, λ = λ ( t ) \lambda=\lambda(t) λ=λ(t)是 t t t的标量实值函数。定义矩阵 A A A对 t t t的导数等于 A A A的每个元素 a i j ( t ) a_{ij}(t) aij​(t)对 t t t分别求导所构成的n×m阶矩阵,即
d A d t = [ d a i j ( t ) d t ] \frac{\text{d}A}{\text{d}t}=\left[\frac{\text{d}a_{ij}(t)}{\text{d}t}\right] dtdA​=[dtdaij​(t)​]
比如,对于n维列向量 x = [ x 1 ( t )   x 2 ( t ) ⋯ x n ( t ) ] T \boldsymbol{x}=[x_1(t)\ x_2(t)\cdots x_n(t)]^{\text{T}} x=[x1​(t) x2​(t)⋯xn​(t)]T,按定义就有
d x d t = [ d x 1 ( t ) d t d x 2 ( t ) d t ⋯ d x n ( t ) d t ] T \frac{\text{d}\boldsymbol{x}}{\text{d}t}=\left[\frac{\text{d}x_1(t)}{\text{d}t}\frac{\text{d}x_2(t)}{\text{d}t}\cdots\frac{\text{d}x_n(t)}{\text{d}t}\right]^{\text{T}} dtdx​=[dtdx1​(t)​dtdx2​(t)​⋯dtdxn​(t)​]T
关于矩阵函数对标量的导数,根据上述定义容易验证如下运算规则;
d ( A + B ) d t = d A d t + d B d t d ( λ A ) d t = d λ d t A + λ d A d t d ( A C ) d t = d A d t C + A d C d t \begin{aligned} &\frac{\text{d}(A+B)}{\text{d}t}=\frac{\text{d}A}{\text{d}t}+\frac{\text{d}B}{\text{d}t} \\ &\frac{\text{d}(\lambda A)}{\text{d}t}=\frac{\text{d}\lambda}{\text{d}t}A+\lambda\frac{\text{d}A}{\text{d}t} \\ &\frac{\text{d}(AC)}{\text{d}t}=\frac{\text{d}A}{\text{d}t}C+A\frac{\text{d}C}{\text{d}t} \end{aligned} ​dtd(A+B)​=dtdA​+dtdB​dtd(λA)​=dtdλ​A+λdtdA​dtd(AC)​=dtdA​C+AdtdC​​

标量函数对矩阵的导数

设 f = f ( A ) f=f(A) f=f(A)、 g = g ( A ) g=g(A) g=g(A)是以矩阵 A A A的n×m个元素为自变量的标量定值函数。定义 f f f对 A A A的导数为如下 n × m n\times m n×m阶矩阵
d f d A ≜ [ ∂ f ∂ a i j ] \frac{\text{d}f}{\text{d}A}\triangleq\left[\frac{\partial f}{\partial a_{ij}}\right] dAdf​≜[∂aij​∂f​]
对于上述这类微分运算,显然有
d ( f + g ) d A = d f d A + d g d A d ( f g ) d A = d f d A g + f d g d A \begin{aligned} &\frac{\text{d}(f+g)}{\text{d}A}=\frac{\text{d}f}{\text{d}A}+\frac{\text{d}g}{\text{d}A} \\ &\frac{\text{d}(fg)}{\text{d}A}=\frac{\text{d}f}{\text{d}A}g+f\frac{\text{d}g}{\text{d}A} \end{aligned} ​dAd(f+g)​=dAdf​+dAdg​dAd(fg)​=dAdf​g+fdAdg​​

矩阵函数对向量的导数

设 F ( x ) F(\boldsymbol{x}) F(x)是n维列向量 x \boldsymbol{x} x的 m × l m\times l m×l阶矩阵函数,即 F ( x ) = ( f i j ( x ) ) m × l F(\boldsymbol{x})=(f_{ij}(\boldsymbol{x}))_{m×l} F(x)=(fij​(x))m×l​,而 x = [ x 1   x 2 ⋯ x n ] T \boldsymbol{x}=[x_1\ x_2\cdots x_n]^{\text{T}} x=[x1​ x2​⋯xn​]T。定义 F ( x ) F(\boldsymbol{x}) F(x)对 x \boldsymbol{x} x的导数为如下nm×l阶矩阵:
d F d x ≜ [ ∂ F ( x ) ∂ x 1 ⋮ ∂ F ( x ) ∂ x 2 ⋯ ⋮ ∂ F ( x ) ∂ x n ] T \frac{\text{d}F}{\text{d}\boldsymbol{x}}\triangleq[\frac{\partial F(\boldsymbol{x})}{\partial x_1}\vdots\frac{\partial F(\boldsymbol{x})}{\partial x_2}\cdots\vdots\frac{\partial F(\boldsymbol{x})}{\partial x_n}]^{\text{T}} dxdF​≜[∂x1​∂F(x)​⋮∂x2​∂F(x)​⋯⋮∂xn​∂F(x)​]T
其中
∂ F ( x ) ∂ x k ≜ ∂ f i j ( x ) ∂ x k \frac{\partial F(\boldsymbol{x})}{\partial x_k}\triangleq\frac{\partial f_ij(\boldsymbol{x})}{\partial x_k} ∂xk​∂F(x)​≜∂xk​∂fi​j(x)​
对于这类运算,我们有
d F ( x ) + G ( x ) d x = d F ( x ) d x + d G ( x ) d x d ( F T ( x ) G ( x ) ) d x = d F T ( x ) d x G ( x ) + d G T ( x ) d x F ( x ) \begin{aligned} &\frac{\text{d}F(\boldsymbol{x})+G(\boldsymbol{x})}{\text{d}\boldsymbol{x}} =\frac{\text{d}F(\boldsymbol{x})}{\text{d}\boldsymbol{x}}+\frac{\text{d}G(\boldsymbol{x})}{\text{d}\boldsymbol{x}} \\ &\frac{\text{d}(F^{\text{T}}(\boldsymbol{x})G(\boldsymbol{x}))}{\text{d}\boldsymbol{x}} =\frac{\text{d}F^{\text{T}}(\boldsymbol{x})}{\text{d}\boldsymbol{x}}G(\boldsymbol{x})+\frac{\text{d}G^{\text{T}}(\boldsymbol{x})}{\text{d}\boldsymbol{x}}F(\boldsymbol{x}) \end{aligned} ​dxdF(x)+G(x)​=dxdF(x)​+dxdG(x)​dxd(FT(x)G(x))​=dxdFT(x)​G(x)+dxdGT(x)​F(x)​

几个常用的矩阵微分公式

根据前面的定义,不难验证以下矩阵微分公式:

其它例子

d x T d x = I d ( x T A x ) d x = ( A + A T ) x d ( x T A x ) d A = x x T \begin{aligned} &\frac{\text{d}\boldsymbol{x}^{\text{T}}}{\text{d}\boldsymbol{x}} =\mathbf{I} \\ &\frac{\text{d}(\boldsymbol{x}^{\text{T}}\mathbf{A}\boldsymbol{x})}{\text{d}\boldsymbol{x}} =(\mathbf{A}+\mathbf{A}^{\text{T}})\boldsymbol{x} \\ &\frac{\text{d}(\boldsymbol{x}^{\text{T}}\mathbf{A}\boldsymbol{x})}{\text{d}\mathbf{A}} =\boldsymbol{x}\boldsymbol{x}^{\text{T}} \\ \end{aligned} ​dxdxT​=Idxd(xTAx)​=(A+AT)xdAd(xTAx)​=xxT​

矩阵的伪逆

设A为n×m阶矩阵,其元素可以是复数。我们称基于A形成的矩阵代数方程组

其它

实对称矩阵的不同特征值对应的特征向量两两正交。
A x 1 = λ 1 x 1 A x 2 = λ 2 x 2 A T = A \begin{aligned} &Ax_1=\lambda_1 x_1 \\ &Ax_2=\lambda_2 x_2 \\ &A^{\text{T}}=A \end{aligned} ​Ax1​=λ1​x1​Ax2​=λ2​x2​AT=A​
x 1 T A x 2 = ( A x 1 ) T x 2 = λ 1 x 1 T x 2 = x 1 T λ 2 x 2 = λ 2 x 1 T x 2 \begin{aligned} x_1^{\text{T}} Ax_2&=(Ax_1)^{\text{T}} x_2=\lambda_1x_1^{\text{T}} x_2 \\ &=x_1^{\text{T}}\lambda_2x_2=\lambda_2x_1^{\text{T}} x_2 \end{aligned} x1T​Ax2​​=(Ax1​)Tx2​=λ1​x1T​x2​=x1T​λ2​x2​=λ2​x1T​x2​​
若 λ 1 ≠ λ 2 \lambda_1\neq\lambda_2 λ1​​=λ2​,则 x 1 T x 2 = 0 x_1^{\text{T}} x_2=0 x1T​x2​=0。

标签:11,frac,22,结果,text,boldsymbol,矩阵,代数
来源: https://blog.csdn.net/qq_34288751/article/details/123591269