矩阵代数中的一些结果
作者:互联网
文章目录
大写字母表示矩阵(如 A A A),小写粗斜体表示向量(如 x \boldsymbol{x} x),正常字体表示标量或坐标点等(如 x 1 x_1 x1)。
方阵的迹
设
A
=
(
a
i
j
)
n
×
n
A=(a_{ij})_{n\times n}
A=(aij)n×n,A的迹定义为其主对角线元素之和,记为
tr
(
A
)
\text{tr}(A)
tr(A),即
tr
(
A
)
=
∑
i
=
1
n
(
a
i
i
)
\text{tr}(A)=\sum_{i=1}^n(a_{ii})
tr(A)=i=1∑n(aii)
按定义显然有
tr
(
A
)
=
tr
(
A
T
)
tr
(
A
+
B
)
=
tr
(
A
)
+
tr
(
B
)
tr
(
α
A
)
=
α
tr
(
A
)
\begin{aligned} \text{tr}(A)&=\text{tr}(A^{\text{T}}) \\ \text{tr}(A+B)&=\text{tr}(A)+\text{tr}(B) \\ \text{tr}(\alpha A)&=\alpha\text{tr}(A) \end{aligned}
tr(A)tr(A+B)tr(αA)=tr(AT)=tr(A)+tr(B)=αtr(A)
其中
α
\alpha
α为常数,
B
B
B为与
A
A
A同阶的方阵。另外,容易证明以下结果:
tr
(
A
)
=
∑
i
=
1
n
λ
i
tr
(
A
B
)
=
tr
(
B
A
)
tr
(
A
T
A
)
=
∑
i
=
1
n
∑
j
=
1
n
a
i
j
2
\begin{aligned} \text{tr}(A)&=\sum_{i=1}^n\lambda_i \\ \text{tr}(AB)&=\text{tr}(BA) \\ \text{tr}(A^{\text{T}} A)&=\sum_{i=1}^n\sum_{j=1}^n a_{ij}^2 \end{aligned}
tr(A)tr(AB)tr(ATA)=i=1∑nλi=tr(BA)=i=1∑nj=1∑naij2
其中
λ
i
\lambda_i
λi为矩阵
A
A
A的特征值,
B
B
B为与
A
A
A同阶的方阵。
矩阵的分块求逆
设矩阵
A
A
A是一个
n
+
m
n+m
n+m阶方阵,它具有分块三角阵的结构,即
A
=
[
A
11
A
12
0
A
22
]
或
A
=
[
A
11
0
A
21
A
22
]
A=\left[\begin{array}{cc} A_{11} & A_{12} \\ 0 & A_{22} \end{array}\right]\text{或} A=\left[\begin{array}{cc} A_{11} & 0 \\ A_{21} & A_{22} \end{array}\right]
A=[A110A12A22]或A=[A11A210A22]
其中
A
11
A_{11}
A11和
A
22
A_{22}
A22分别是n阶和m阶可逆方阵,这意味着 A 是可逆阵。利用
A
−
1
A
=
A
A
−
1
=
I
n
+
m
A^{-1}A=AA^{-1}=I_{n+m}
A−1A=AA−1=In+m
可以推得
A
−
1
=
[
A
11
−
1
−
A
11
−
1
A
12
A
22
−
1
0
A
22
−
1
]
A^{-1}=\left[\begin{array}{cc} A_{11}^{-1} & -A_{11}^{-1}A_{12}A_{22}^{-1} \\ 0 & A_{22}^{-1} \end{array}\right]
A−1=[A11−10−A11−1A12A22−1A22−1]
A
−
1
=
[
A
11
−
1
0
−
A
22
−
1
A
21
A
11
−
1
A
22
−
1
]
A^{-1}=\left[\begin{array}{cc} A_{11}^{-1} & 0 \\ -A_{22}^{-1}A_{21}A_{11}^{-1} & A_{22}^{-1} \end{array}\right]
A−1=[A11−1−A22−1A21A11−10A22−1]
一般地,若n+m阶方阵A可以写成分块形式
A
=
[
A
11
A
12
A
21
A
11
−
1
A
22
]
A=\left[\begin{array}{cc} A_{11} & A_{12} \\ A_{21}A_{11}^{-1} & A_{22} \end{array}\right]
A=[A11A21A11−1A12A22]
其中
A
11
A_{11}
A11和
A
22
A_{22}
A22具有与前相同的性质,那么利用矩阵分解关系式
A
=
[
I
n
0
A
21
A
11
−
1
I
m
]
[
A
11
A
12
0
A
22
−
A
21
A
11
−
1
A
12
]
A=\left[\begin{array}{cc} I_n & 0 \\ A_{21}A_{11}^{-1} & I_m \end{array}\right]\left[\begin{array}{cc} A_{11} & A_{12} \\ 0 & A_{22}-A_{21}A_{11}^{-1}A_{12} \end{array}\right]
A=[InA21A11−10Im][A110A12A22−A21A11−1A12]
A
=
[
I
n
A
12
A
22
−
1
0
I
m
]
[
A
11
−
A
12
A
22
−
1
A
21
0
A
21
A
22
]
A=\left[\begin{array}{cc} I_n & A_{12}A_{22}^{-1} \\ 0 & I_m \end{array}\right]\left[\begin{array}{cc} A_{11}-A_{12}A_{22}^{-1}A_{21} & 0 \\ A_{21} & A_{22} \end{array}\right]
A=[In0A12A22−1Im][A11−A12A22−1A21A210A22]
和前面关于三角阵的求逆结果,可以推得矩阵 A 的分块求逆公式如下:
A
−
1
=
[
A
11
−
1
+
A
11
−
1
A
12
A
~
22
−
1
A
21
A
11
−
1
−
A
11
−
1
A
12
A
~
22
−
1
−
A
~
22
−
1
A
21
A
11
−
1
A
~
22
−
1
]
A^{-1}=\left[\begin{array}{cc} A_{11}^{-1}+A_{11}^{-1}A_{12}\tilde{A}_{22}^{-1}A_{21}A_{11}^{-1} & -A_{11}^{-1}A_{12}\tilde{A}_{22}^{-1} \\ -\tilde{A}_{22}^{-1}A_{21}A_{11}^{-1} & \tilde{A}_{22}^{-1} \end{array}\right]
A−1=[A11−1+A11−1A12A~22−1A21A11−1−A~22−1A21A11−1−A11−1A12A~22−1A~22−1]
A
−
1
=
[
A
~
11
−
1
−
A
~
11
−
1
A
12
A
22
−
1
−
A
22
−
1
A
21
A
~
11
−
1
A
22
−
1
+
A
22
−
1
A
21
A
~
11
−
1
A
12
A
22
−
1
]
A^{-1}=\left[\begin{array}{cc} \tilde{A}_{11}^{-1} & -\tilde{A}_{11}^{-1}A_{12}A_{22}^{-1} \\ -A_{22}^{-1}A_{21}\tilde{A}_{11}^{-1} & A_{22}^{-1}+A_{22}^{-1}A_{21}\tilde{A}_{11}^{-1}A_{12}A_{22}^{-1} \end{array}\right]
A−1=[A~11−1−A22−1A21A~11−1−A~11−1A12A22−1A22−1+A22−1A21A~11−1A12A22−1]
其中
A
~
11
=
A
11
−
A
12
A
22
−
1
A
21
\tilde{A}_{11}=A_{11}-A_{12}A_{22}^{-1}A_{21}
A~11=A11−A12A22−1A21
A
~
22
=
A
22
−
A
21
A
11
−
1
A
12
\tilde{A}_{22}=A_{22}-A_{21}A_{11}^{-1}A_{12}
A~22=A22−A21A11−1A12
假定矩阵A是可逆矩阵,因而
A
~
11
−
1
\tilde{A}_{11}^{-1}
A~11−1和
A
~
22
−
1
\tilde{A}_{22}^{-1}
A~22−1总是存在的。根据逆矩阵的唯一性,对比两式立即得到(这附近的推导可能有问题)
(
A
11
−
A
12
A
22
−
1
A
21
)
−
1
=
A
11
−
1
+
A
11
−
1
A
12
A
~
22
−
1
A
21
A
11
−
1
(A_{11}-A_{12}A_{22}^{-1}A_{21})^{-1}=A_{11}^{-1}+A_{11}^{-1}A_{12}\tilde{A}_{22}^{-1}A_{21}A_{11}^{-1}
(A11−A12A22−1A21)−1=A11−1+A11−1A12A~22−1A21A11−1
A
22
−
A
21
A
11
−
1
A
12
=
A
22
−
1
+
A
22
−
1
A
21
A
~
11
−
1
A
12
A
22
−
1
A_{22}-A_{21}A_{11}^{-1}A_{12}=A_{22}^{-1}+A_{22}^{-1}A_{21}\tilde{A}_{11}^{-1}A_{12}A_{22}^{-1}
A22−A21A11−1A12=A22−1+A22−1A21A~11−1A12A22−1
这是两个非常重要的矩阵恒等式,在矩阵变换中经常用到。其中第一式习惯上称为矩阵反馈公式。
矩阵的正定与负定
设矩阵
A
A
A为n阶对称阵。如果对于所有n维列向量
X
X
X,二次型
X
T
A
X
X^{\text{T}} AX
XTAX均为非负,则称矩阵
A
A
A为非负定矩阵,并用
A
≥
0
A\ge 0
A≥0来表示。进一步,如果矩阵
A
A
A为非负定矩阵,且对所有非零向量
X
X
X,二次型
X
T
A
X
X^{\text{T}} AX
XTAX总大于零,则称矩阵
A
A
A为正定阵,并且用
A
>
0
A>0
A>0来表示。对称矩阵
A
A
A当且仅当其所有特征值非负时才是非负定阵;当且仅当特征值均为正时才是正定阵。显然,若矩阵
A
A
A为正定值,则其逆矩阵存在且也为正定阵。
如果
D
D
D是任意
n
×
m
n\times m
n×m阶矩阵,则
A
=
D
D
′
A=DD'
A=DD′是非负定阵;当且仅当
D
D
D具有满行秩时,
A
=
D
D
′
A=DD'
A=DD′才是正定阵。
如果
A
A
A和
B
B
B是同阶非负定阵,
α
\alpha
α和
β
\beta
β为非负常数,则
α
A
+
β
B
\alpha A+\beta B
αA+βB为非负定阵;若
A
A
A、
B
B
B两者之一是正定阵而另一个为非负定阵且
α
\alpha
α和
β
\beta
β均大于零,则
α
A
+
β
B
\alpha A+\beta B
αA+βB是正定阵。
设A和B分别为非负定阵和正定阵,称-A和-
B
B
B分别是非正定阵和负定阵。非正定阵和负定阵分别与非负定阵和正定阵具有相反而类似的性质。次不赘述。
向量和矩阵的范数
向量的范数是对向量的一种度量。设 X X X为一个n维列向量,其范数用符号 ∥ x ∥ \Vert x\Vert ∥x∥来表示。任何一个具有下述三条性质的实值函数都可定义为 X X X的范数:
- 对所有 X X X均有 ∥ X ∥ ≥ 0 \Vert X\Vert\ge 0 ∥X∥≥0;当且仅当 X = 0 X=0 X=0时,才有 ∥ X ∥ = 0 \Vert X\Vert=0 ∥X∥=0;
- 为任意实数;
- 对所有与
X
X
X同维的列向量
Y
Y
Y,有。
常用的范数有三种,它们分别定义如下: - 对所有 X X X均有 ∥ X ∥ ≥ 0 \Vert X\Vert\ge 0 ∥X∥≥0;当且仅当 X = 0 X=0 X=0时,才有 ∥ X ∥ = 0 \Vert X\Vert=0 ∥X∥=0;
- 为任意实数;
- 对所有与
X
X
X同维的列向量
Y
Y
Y,有。
以上关于向量范数的定义,对行向量同样适用。
这里所给出的矩阵范数,是以向量范数为基础定义的,因此是一种导出范数。设A为一m×n阶矩阵,其范数用来表示,它定义为
矩阵的微分运算
矩阵微分运算有几种不同的情况。
矩阵函数对标量的导数
设n×m阶矩阵
A
A
A、
B
B
B和m×1阶矩阵
C
C
C的元素都是实变数t的函数,
λ
=
λ
(
t
)
\lambda=\lambda(t)
λ=λ(t)是
t
t
t的标量实值函数。定义矩阵
A
A
A对
t
t
t的导数等于
A
A
A的每个元素
a
i
j
(
t
)
a_{ij}(t)
aij(t)对
t
t
t分别求导所构成的n×m阶矩阵,即
d
A
d
t
=
[
d
a
i
j
(
t
)
d
t
]
\frac{\text{d}A}{\text{d}t}=\left[\frac{\text{d}a_{ij}(t)}{\text{d}t}\right]
dtdA=[dtdaij(t)]
比如,对于n维列向量
x
=
[
x
1
(
t
)
x
2
(
t
)
⋯
x
n
(
t
)
]
T
\boldsymbol{x}=[x_1(t)\ x_2(t)\cdots x_n(t)]^{\text{T}}
x=[x1(t) x2(t)⋯xn(t)]T,按定义就有
d
x
d
t
=
[
d
x
1
(
t
)
d
t
d
x
2
(
t
)
d
t
⋯
d
x
n
(
t
)
d
t
]
T
\frac{\text{d}\boldsymbol{x}}{\text{d}t}=\left[\frac{\text{d}x_1(t)}{\text{d}t}\frac{\text{d}x_2(t)}{\text{d}t}\cdots\frac{\text{d}x_n(t)}{\text{d}t}\right]^{\text{T}}
dtdx=[dtdx1(t)dtdx2(t)⋯dtdxn(t)]T
关于矩阵函数对标量的导数,根据上述定义容易验证如下运算规则;
d
(
A
+
B
)
d
t
=
d
A
d
t
+
d
B
d
t
d
(
λ
A
)
d
t
=
d
λ
d
t
A
+
λ
d
A
d
t
d
(
A
C
)
d
t
=
d
A
d
t
C
+
A
d
C
d
t
\begin{aligned} &\frac{\text{d}(A+B)}{\text{d}t}=\frac{\text{d}A}{\text{d}t}+\frac{\text{d}B}{\text{d}t} \\ &\frac{\text{d}(\lambda A)}{\text{d}t}=\frac{\text{d}\lambda}{\text{d}t}A+\lambda\frac{\text{d}A}{\text{d}t} \\ &\frac{\text{d}(AC)}{\text{d}t}=\frac{\text{d}A}{\text{d}t}C+A\frac{\text{d}C}{\text{d}t} \end{aligned}
dtd(A+B)=dtdA+dtdBdtd(λA)=dtdλA+λdtdAdtd(AC)=dtdAC+AdtdC
标量函数对矩阵的导数
设
f
=
f
(
A
)
f=f(A)
f=f(A)、
g
=
g
(
A
)
g=g(A)
g=g(A)是以矩阵
A
A
A的n×m个元素为自变量的标量定值函数。定义
f
f
f对
A
A
A的导数为如下
n
×
m
n\times m
n×m阶矩阵
d
f
d
A
≜
[
∂
f
∂
a
i
j
]
\frac{\text{d}f}{\text{d}A}\triangleq\left[\frac{\partial f}{\partial a_{ij}}\right]
dAdf≜[∂aij∂f]
对于上述这类微分运算,显然有
d
(
f
+
g
)
d
A
=
d
f
d
A
+
d
g
d
A
d
(
f
g
)
d
A
=
d
f
d
A
g
+
f
d
g
d
A
\begin{aligned} &\frac{\text{d}(f+g)}{\text{d}A}=\frac{\text{d}f}{\text{d}A}+\frac{\text{d}g}{\text{d}A} \\ &\frac{\text{d}(fg)}{\text{d}A}=\frac{\text{d}f}{\text{d}A}g+f\frac{\text{d}g}{\text{d}A} \end{aligned}
dAd(f+g)=dAdf+dAdgdAd(fg)=dAdfg+fdAdg
矩阵函数对向量的导数
设
F
(
x
)
F(\boldsymbol{x})
F(x)是n维列向量
x
\boldsymbol{x}
x的
m
×
l
m\times l
m×l阶矩阵函数,即
F
(
x
)
=
(
f
i
j
(
x
)
)
m
×
l
F(\boldsymbol{x})=(f_{ij}(\boldsymbol{x}))_{m×l}
F(x)=(fij(x))m×l,而
x
=
[
x
1
x
2
⋯
x
n
]
T
\boldsymbol{x}=[x_1\ x_2\cdots x_n]^{\text{T}}
x=[x1 x2⋯xn]T。定义
F
(
x
)
F(\boldsymbol{x})
F(x)对
x
\boldsymbol{x}
x的导数为如下nm×l阶矩阵:
d
F
d
x
≜
[
∂
F
(
x
)
∂
x
1
⋮
∂
F
(
x
)
∂
x
2
⋯
⋮
∂
F
(
x
)
∂
x
n
]
T
\frac{\text{d}F}{\text{d}\boldsymbol{x}}\triangleq[\frac{\partial F(\boldsymbol{x})}{\partial x_1}\vdots\frac{\partial F(\boldsymbol{x})}{\partial x_2}\cdots\vdots\frac{\partial F(\boldsymbol{x})}{\partial x_n}]^{\text{T}}
dxdF≜[∂x1∂F(x)⋮∂x2∂F(x)⋯⋮∂xn∂F(x)]T
其中
∂
F
(
x
)
∂
x
k
≜
∂
f
i
j
(
x
)
∂
x
k
\frac{\partial F(\boldsymbol{x})}{\partial x_k}\triangleq\frac{\partial f_ij(\boldsymbol{x})}{\partial x_k}
∂xk∂F(x)≜∂xk∂fij(x)
对于这类运算,我们有
d
F
(
x
)
+
G
(
x
)
d
x
=
d
F
(
x
)
d
x
+
d
G
(
x
)
d
x
d
(
F
T
(
x
)
G
(
x
)
)
d
x
=
d
F
T
(
x
)
d
x
G
(
x
)
+
d
G
T
(
x
)
d
x
F
(
x
)
\begin{aligned} &\frac{\text{d}F(\boldsymbol{x})+G(\boldsymbol{x})}{\text{d}\boldsymbol{x}} =\frac{\text{d}F(\boldsymbol{x})}{\text{d}\boldsymbol{x}}+\frac{\text{d}G(\boldsymbol{x})}{\text{d}\boldsymbol{x}} \\ &\frac{\text{d}(F^{\text{T}}(\boldsymbol{x})G(\boldsymbol{x}))}{\text{d}\boldsymbol{x}} =\frac{\text{d}F^{\text{T}}(\boldsymbol{x})}{\text{d}\boldsymbol{x}}G(\boldsymbol{x})+\frac{\text{d}G^{\text{T}}(\boldsymbol{x})}{\text{d}\boldsymbol{x}}F(\boldsymbol{x}) \end{aligned}
dxdF(x)+G(x)=dxdF(x)+dxdG(x)dxd(FT(x)G(x))=dxdFT(x)G(x)+dxdGT(x)F(x)
几个常用的矩阵微分公式
根据前面的定义,不难验证以下矩阵微分公式:
- 设
f
=
f
(
x
)
f=f(\boldsymbol{x})
f=f(x)是n维列向量
x
\boldsymbol{x}
x的标量定值函数,则有
d f d t = [ d f d x ] T d x d t \frac{\text{d}f}{\text{d}t}=\left[\frac{\text{d}f}{\text{d}\boldsymbol{x}}\right]^{\text{T}}\frac{\text{d}\boldsymbol{x}}{\text{d}t} dtdf=[dxdf]Tdtdx
式中t为实变数。 - 设
x
\boldsymbol{x}
x为n维列向量,
a
\boldsymbol{a}
a和
B
B
B分别为与
x
\boldsymbol{x}
x无关的m维列向量和m×n阶矩阵,f为
x
\boldsymbol{x}
x的一个二次型,且
f = ( a + B x ) T ( a + B x ) f=(\boldsymbol{a}+B\boldsymbol{x})^{\text{T}}(\boldsymbol{a}+B\boldsymbol{x}) f=(a+Bx)T(a+Bx)
则有
d x T d x = d x d x T = I n d ( a + B x ) d x = B T d f d x = 2 B T ( a − B x ) \begin{aligned} &\frac{\text{d}\boldsymbol{x}^{\text{T}}}{\text{d}\boldsymbol{x}}=\frac{\text{d}\boldsymbol{x}}{\text{d}\boldsymbol{x}^{\text{T}}}=I_n \\ &\frac{\text{d}(\boldsymbol{a}+B\boldsymbol{x})}{\text{d}\boldsymbol{x}}=B^{\text{T}} \\ &\frac{\text{d}f}{\text{d}\boldsymbol{x}}=2B^{\text{T}}(\boldsymbol{a}-B\boldsymbol{x}) \end{aligned} dxdxT=dxTdx=Indxd(a+Bx)=BTdxdf=2BT(a−Bx) - 设
A
A
A为n阶方阵,其元素是实变数t的函数,且对所有的t,
A
−
1
A^{-1}
A−1存在,则有
d A − 1 d t = − A − 1 d A d t A − 1 \frac{\text{d}A^{-1}}{\text{d}t}=-A^{-1}\frac{\text{d}A}{\text{d}t}A^{-1} dtdA−1=−A−1dtdAA−1
此式可通过恒等式
d I n d t = d A A − 1 d t = 0 \frac{\text{d}I_n}{\text{d}t}=\frac{\text{d}AA^{-1}}{\text{d}t}=0 dtdIn=dtdAA−1=0
导出。 - 设,则有的解为矩阵 A A A的伪迹。式中星号*表示转置兼取复数共轭。
其它例子
d x T d x = I d ( x T A x ) d x = ( A + A T ) x d ( x T A x ) d A = x x T \begin{aligned} &\frac{\text{d}\boldsymbol{x}^{\text{T}}}{\text{d}\boldsymbol{x}} =\mathbf{I} \\ &\frac{\text{d}(\boldsymbol{x}^{\text{T}}\mathbf{A}\boldsymbol{x})}{\text{d}\boldsymbol{x}} =(\mathbf{A}+\mathbf{A}^{\text{T}})\boldsymbol{x} \\ &\frac{\text{d}(\boldsymbol{x}^{\text{T}}\mathbf{A}\boldsymbol{x})}{\text{d}\mathbf{A}} =\boldsymbol{x}\boldsymbol{x}^{\text{T}} \\ \end{aligned} dxdxT=Idxd(xTAx)=(A+AT)xdAd(xTAx)=xxT
矩阵的伪逆
设A为n×m阶矩阵,其元素可以是复数。我们称基于A形成的矩阵代数方程组
其它
实对称矩阵的不同特征值对应的特征向量两两正交。
A
x
1
=
λ
1
x
1
A
x
2
=
λ
2
x
2
A
T
=
A
\begin{aligned} &Ax_1=\lambda_1 x_1 \\ &Ax_2=\lambda_2 x_2 \\ &A^{\text{T}}=A \end{aligned}
Ax1=λ1x1Ax2=λ2x2AT=A
x
1
T
A
x
2
=
(
A
x
1
)
T
x
2
=
λ
1
x
1
T
x
2
=
x
1
T
λ
2
x
2
=
λ
2
x
1
T
x
2
\begin{aligned} x_1^{\text{T}} Ax_2&=(Ax_1)^{\text{T}} x_2=\lambda_1x_1^{\text{T}} x_2 \\ &=x_1^{\text{T}}\lambda_2x_2=\lambda_2x_1^{\text{T}} x_2 \end{aligned}
x1TAx2=(Ax1)Tx2=λ1x1Tx2=x1Tλ2x2=λ2x1Tx2
若
λ
1
≠
λ
2
\lambda_1\neq\lambda_2
λ1=λ2,则
x
1
T
x
2
=
0
x_1^{\text{T}} x_2=0
x1Tx2=0。
标签:11,frac,22,结果,text,boldsymbol,矩阵,代数 来源: https://blog.csdn.net/qq_34288751/article/details/123591269