首页 > 其他分享> > 人工智能数学基础: 13-线性映射的合成和矩阵乘法

人工智能数学基础: 13-线性映射的合成和矩阵乘法

2021-11-09 15:02:51 作者：互联网

线性映射的复合和矩阵乘法

现在让我们考虑如何用基底来表示线性映射的复合。

设 E , F E, F E,F 和 G G G 时三个线性空间， E E E 的基为 ( u 1 , ⋯ , u p ) (u_1, \cdots, u_p) (u1,⋯,up) , F F F 的基为 ( v 1 , ⋯ , v n ) (v_1, \cdots, v_n) (v1,⋯,vn) , G G G 的基为 ( w 1 , ⋯ , w m ) (w_1, \cdots, w_m) (w1,⋯,wm) . 设 g : E → F g: E\rightarrow F g:E→F 和 f : F → G f: F \rightarrow G f:F→G 是线性映射。如前所述， g : E → F g:E\rightarrow F g:E→F 是由基向量 u j u_j uj 的像决定， f : F → G f:F \rightarrow G f:F→G 由基向量 v k v_k vk 的像决定。我们想了解 f ∘ g : E → G f \circ g: E\rightarrow G f∘g:E→G 是如何由基向量 u j u_j uj 的像决定的。

注意我们正在考虑线性映射 g : E → F g:E \rightarrow F g:E→F 和 f : F → G f: F\rightarrow G f:F→G ，而不是 f : E → F f:E \rightarrow F f:E→F 和 g : F → G g: F\rightarrow G g:F→G ，这产生的构成 f ∘ g : E → G f\circ g:E\rightarrow G f∘g:E→G 而不是 g ∘ f : E → G g \circ f:E\rightarrow G g∘f:E→G 。我们可能不寻常的选择是基于这样一个事实: 如果 f f f 由矩阵 M ( f ) = ( a i k ) M(f) = (a_{ik}) M(f)=(aik) 和 g g g 由矩阵 M ( g ) = ( b k j ) M(g) = (b_{kj}) M(g)=(bkj) 表示，那么 f ∘ g : E → G f\circ g: E \rightarrow G f∘g:E→G 由矩阵 A A A 和 B B B 的积 A B AB AB 表示。如果我们采用了其他选择 f : E → F f:E\rightarrow F f:E→F 和 g : f → g g:f\rightarrow g g:f→g ，那么 g ∘ f : E → G g\circ f:E\rightarrow G g∘f:E→G 将由乘积 B A BA BA 表示。就我个人而言，我们发现当两个矩阵的乘积写成 A B AB AB 而不是 B A BA BA 时，记住第 i i i 行第 j j j 列项的公式更容易。显然，这是一个品味问题!我们将不得不接受我们也许非正统的选择。

因此，设

f ( v k ) = ∑ i = 1 m a i k w i , ∀ k , 1 ≤ k ≤ n , f(v_k) = \sum_{i = 1}^{m}a_{ik}w_i, \forall k, 1 \le k \le n, f(vk)=i=1∑maikwi,∀k,1≤k≤n,

设

g ( u j ) = ∑ k = 1 n b k j v k , ∀ j , 1 ≤ j ≤ p ; g(u_j) = \sum_{k = 1}^{n}b_{kj}v_k, \forall j, 1 \le j \le p; g(uj)=k=1∑nbkjvk,∀j,1≤j≤p;

在矩阵形式中，我们有

f ( v 1 ) f ( v 2 ) ⋯ f ( v n ) w 1 w 2 ⋮ w m ( a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 ⋯ a m n ) \begin{matrix}& & f(v_1) & f(v_2) & \cdots & f(v_n) \end{matrix}\\ \begin{matrix} w_1 \\ w_2 \\ \vdots \\ w_m\end{matrix} \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{pmatrix} f(v1)f(v2)⋯f(vn)w1w2⋮wm⎝⎜⎜⎜⎛a11a21⋮am1a12a22⋮am2⋯⋯⋱⋯a1na2n⋮amn⎠⎟⎟⎟⎞

和

g ( u 1 ) g ( g 2 ) ⋯ g ( u p ) v 1 v 2 ⋮ v m ( b 11 b 12 ⋯ b 1 p b 21 b 22 ⋯ b 2 p ⋮ ⋮ ⋱ ⋮ b n 1 b n 2 ⋯ b n p ) \begin{matrix}& & g(u_1) & g(g_2) & \cdots & g(u_p) \end{matrix}\\ \begin{matrix} v_1 \\ v_2 \\ \vdots \\ v_m\end{matrix} \begin{pmatrix} b_{11} & b_{12} & \cdots & b_{1p} \\ b_{21} & b_{22} & \cdots & b_{2p}\\ \vdots & \vdots & \ddots & \vdots \\ b_{n1} & b_{n2} & \cdots & b_{np} \end{pmatrix} g(u1)g(g2)⋯g(up)v1v2⋮vm⎝⎜⎜⎜⎛b11b21⋮bn1b12b22⋮bn2⋯⋯⋱⋯b1pb2p⋮bnp⎠⎟⎟⎟⎞

根据前面的考虑，对于每一个

x = x 1 u 1 + ⋯ + x p u p x = x_1u_1 + \cdots + x_pu_p x=x1u1+⋯+xpup
设 g ( x ) = y = y 1 v 1 + ⋯ + y n v n g(x) = y = y_1v_1 + \cdots + y_n v_n g(x)=y=y1v1+⋯+ynvn , 我们有
y k = ∑ j = 1 p b k j x j , （ 2 ） ∀ k , 1 ≤ k ≤ n y_k = \sum_{j = 1}^{p} b_{kj}x_j,（2） \forall k , 1 \le k \le n yk=j=1∑pbkjxj,（2）∀k,1≤k≤n

对每一个
y = y 1 v 1 + ⋯ + y n v n y = y_1v_1 + \cdots + y_n v_n y=y1v1+⋯+ynvn

设 f ( y ) = z = z 1 w 1 + ⋯ + z m w m f(y) = z = z_1w_1+ \cdots + z_mw_m f(y)=z=z1w1+⋯+zmwm ，我们有

z i = ∑ k = 1 n a i k y k , （ 3 ） ∀ i , 1 ≤ i ≤ m z_i = \sum_{k = 1}^n a_{ik}y_k,（3） \forall i , 1 \le i \le m zi=k=1∑naikyk,（3）∀i,1≤i≤m

如果 y = g ( x ) y = g(x) y=g(x) 和 z = f ( y ) z = f(y) z=f(y) , 我们有 z = f ( g ( x ) ) z = f(g(x)) z=f(g(x)) , 在 ( 2 ) (2) (2) 和 ( 3 ) (3) (3) 视图中，我们有

z i = ∑ k = 1 n a i k ( ∑ j = 1 p b k j x j ) = ∑ k = 1 n ∑ j = 1 p a i k b k j x j = ∑ j = 1 p ∑ k = 1 n a i k b k j x j = ∑ j = 1 p ( ∑ k = 1 n a i k b k j ) x j , \begin{aligned} z_i &= \sum_{k = 1}^{n}a_{ik}(\sum_{j = 1}^{p}b_{kj}x_j)\\ &= \sum_{k=1}^{n}\sum_{j = 1}^{p}a_{ik}b_{kj}x_j\\ &= \sum_{j=1}^{p}\sum_{k=1}^{n}a_{ik}b_{kj}x_j\\ &= \sum_{j=1}^{p}(\sum_{k=1}^{n}a_{ik}b_{kj})x_j, \end{aligned} zi=k=1∑naik(j=1∑pbkjxj)=k=1∑nj=1∑paikbkjxj=j=1∑pk=1∑naikbkjxj=j=1∑p(k=1∑naikbkj)xj,

因此，定义 c i j c_{ij} cij 使得

c i j = ∑ k = 1 n a i k b k j , ∀ 1 ≤ i ≤ m , 1 ≤ j ≤ p c_{ij} = \sum_{k = 1}^{n}a_{ik}b_{kj}, \forall 1 \le i \le m , 1 \le j \le p cij=k=1∑naikbkj,∀1≤i≤m,1≤j≤p

我们有

z i = ∑ j = 1 p c i j x j , ( 4 ) z_i = \sum_{j = 1}^p c_{ij}x_j, (4) zi=j=1∑pcijxj,(4)

恒等 ( 4 ) (4) (4) 证明了线性映射的复合对应于矩阵的乘积.

然后，给定一个线性映射 f : E → F f: E \rightarrow F f:E→F , 关于基 ( u 1 , ⋯ , u n ) (u_1, \cdots, u_n) (u1,⋯,un) 和 ( v 1 , ⋯ , v m ) (v_1, \cdots, v_m) (v1,⋯,vm) 的矩阵表示为 M ( f ) = ( a i j ) M(f) = (a_{ij}) M(f)=(aij) 。通过等式 ( 1 ) (1) (1) , 即

y i = ∑ j = 1 n a i j x j , 1 ≤ i ≤ m y_i = \sum_{j = 1}^{n}a_{ij}x_j , 1 \le i \le m yi=j=1∑naijxj,1≤i≤m

矩阵乘法的定义，方程 y = f ( x ) y=f(x) y=f(x) 对应矩阵方程 M ( y ) = M ( f ) M ( x ) M(y)=M(f)M(x) M(y)=M(f)M(x) 即，
( y 1 ⋮ y m ) = ( a 11 ⋯ a 1 n ⋮ ⋱ ⋮ a m 1 ⋯ a m n ) ( x 1 ⋮ x m ) \begin{pmatrix}y_1 \\ \vdots \\ y_m \end{pmatrix} = \begin{pmatrix} a_{11} & \cdots & a_{1n} \\ \vdots & \ddots & \vdots\\ a_{m1} & \cdots & a_{mn} \end{pmatrix} \begin{pmatrix}x_1 \\ \vdots \\ x_m \end{pmatrix} ⎝⎜⎛y1⋮ym⎠⎟⎞=⎝⎜⎛a11⋮am1⋯⋱⋯a1n⋮amn⎠⎟⎞⎝⎜⎛x1⋮xm⎠⎟⎞

回想一下

( a 11 a 12 ⋯ a 12 a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 ⋯ a m n ) ( x 1 x 2 ⋮ x n ) = x 1 ( a 11 a 21 ⋮ a m 1 ) + x 2 ( a 12 a 22 ⋮ a m 2 ) + ⋯ + x n ( a 1 n a 2 n ⋮ a m n ) \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{12}\\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{pmatrix} = x_1 \begin{pmatrix} a_{11} \\ a_{21} \\ \vdots \\ a_{m1} \end{pmatrix} + x_2 \begin{pmatrix} a_{12} \\ a_{22} \\ \vdots \\ a_{m2} \end{pmatrix} + \cdots + x_n \begin{pmatrix} a_{1n} \\ a_{2n} \\ \vdots \\ a_{mn} \end{pmatrix} ⎝⎜⎜⎜⎛a11a21⋮am1a12a22⋮am2⋯⋯⋱⋯a12a2n⋮amn⎠⎟⎟⎟⎞⎝⎜⎜⎜⎛x1x2⋮xn⎠⎟⎟⎟⎞=x1⎝⎜⎜⎜⎛a11a21⋮am1⎠⎟⎟⎟⎞+x2⎝⎜⎜⎜⎛a12a22⋮am2⎠⎟⎟⎟⎞+⋯+xn⎝⎜⎜⎜⎛a1na2n⋮amn⎠⎟⎟⎟⎞

有时，在用矩阵 M ( f ) M(f) M(f) 表示关于基 ( u 1 , ⋯ , u n ) (u_1, \cdots, u_n) (u1,⋯,un) 和 ( v 1 , ⋯ , v m ) (v_1, \cdots, v_m) (v1,⋯,vm) 的 f f f 时，合并这些基时必要的。

我们建议采取以下行动:

定义4.2 设 U = ( u 1 , ⋯ , u n ) \mathcal{U} = (u_1, \cdots, u_n) U=(u1,⋯,un) 和 V = ( v 1 , ⋯ , v m ) \mathcal{V} = (v_1, \cdots, v_m) V=(v1,⋯,vm) 是 E E E 和 F F F 的基，记 M U , V ( f ) M_{\mathcal{U,V}}(f) MU,V(f) 为 f f f 关于基 U \mathcal{U} U 和 V \mathcal{V} V 的矩阵。此外，记 x U x_{\mathcal{U}} xU 是关于基 U \mathcal{U} U 的坐标为 M ( x ) = ( x 1 , ⋯ , x n ) , x ∈ E M(x) = (x_1, \cdots, x_n), x \in E M(x)=(x1,⋯,xn),x∈E , y V y_{\mathcal{V}} yV 是关于基 V \mathcal{V} V 的坐标为 M ( y ) = ( y 1 , ⋯ , y m ) M(y) = (y_1, \cdots, y_m) M(y)=(y1,⋯,ym) . 那么
y = f ( x ) y = f(x) y=f(x)

用矩阵形式表示为

y V = M U , V ( f ) x U . y_{\mathcal{V}} = M_{\mathcal{U,V}}(f)x_{\mathcal{U}}. yV=MU,V(f)xU.

当 U = V \mathcal{U} = \mathcal{V} U=V, 我们将 $ M_{\mathcal{U,V}}(f)$ 写成 $ M_{\mathcal{U}}(f)$

上面的符号似乎是合理的，但它存在一个小缺点就是，在表达式 M U , V ( f ) x U M_{\mathcal{U,V}}(f)x_{\mathcal{U}} MU,V(f)xU 中，给矩阵 M U , V ( f ) M_{\mathcal{U,V}}(f) MU,V(f) 输入参数 x U x_{\mathcal{U}} xU 没有出现在 M U , V ( f ) M_{\mathcal{U, V}}(f) MU,V(f) 中下标 U \mathcal U U 的旁边. 我们可以使用 M V , U ( f ) M_{\mathcal{V,U}}(f) MV,U(f) 这样的符号。但是，我们发现有困惑，当 f f f 从空间 E E E（以 U \mathcal U U 为基）映射到空间 F F F （以 V \mathcal V V 为基）时， V \mathcal V V 在 U \mathcal U U 之前，所以，我们更喜欢用符号 M U , V ( f ) M_{\mathcal{U,V}}(f) MU,V(f).

定义4.2 表明函数与线性映射 f : E → F f:E \rightarrow F f:E→F 关于基 ( u 1 , ⋯ , u n ) (u_1, \cdots, u_n) (u1,⋯,un) 和 ( v 1 , ⋯ , v m ) (v_1, \cdots, v_m) (v1,⋯,vm) 的矩阵 M ( f ) M(f) M(f) 具有 矩阵乘法 对应于 线性映射复合 的性质。这允许我们将线性映射的性质转移到矩阵上。以下是这种技术的说明:

命题4.1

( 1 ) (1) (1) 给定任意矩阵 A ∈ M m , n ( K ) , B ∈ M n , p ( K ) A \in M_{m,n}(K), B \in M_{n,p}(K) A∈Mm,n(K),B∈Mn,p(K) 和 C ∈ M p , q ( K ) C \in M_{p, q}(K) C∈Mp,q(K) , 我们有 ( A B ) C = A ( B C ) ; (AB)C = A(BC); (AB)C=A(BC); 也就是说，矩阵乘法是结合的。
( 2 ) (2) (2) 给定任意矩阵 A , B ∈ M m , n ( K ) A, B \in M_{m,n}(K) A,B∈Mm,n(K) 和 C , D ∈ M n , p ( K ) C, D \in M_{n,p}(K) C,D∈Mn,p(K) ， ∀ λ ∈ K \forall \lambda \in K ∀λ∈K , 我们有 ( A + B ) C = A C + B C A ( C + D ) = A C + A D ( λ A ) C = λ ( A C ) A ( λ C ) = λ ( A C ) (A + B)C = AC + BC \\ A(C+D) = AC + AD \\ (\lambda A)C = \lambda(AC) \\ A(\lambda C) = \lambda (AC) (A+B)C=AC+BCA(C+D)=AC+AD(λA)C=λ(AC)A(λC)=λ(AC) 使矩阵乘法 ⋅ : M m , n ( K ) × M n , p ( K ) → M m , p ( K ) \cdot:M_{m,n}(K) \times M_{n,p}(K) \rightarrow M_{m,p}(K) ⋅:Mm,n(K)×Mn,p(K)→Mm,p(K) 是双线性的

命题4.2 给定三个线性空间 E , F , G E,F,G E,F,G , 它们的基分别是 ( u 1 , ⋯ , u p ) , ( v 1 , ⋯ , v n ) , ( w 1 , ⋯ , w m ) (u_1, \cdots, u_p), (v_1, \cdots, v_n), (w_1, \cdots, w_m) (u1,⋯,up),(v1,⋯,vn),(w1,⋯,wm) , 将矩阵 M ( g ) M(g) M(g) 与线性映射 g : E → F g : E \rightarrow F g:E→F 相关联的映射 M : H o m ( E , F ) → M n , p M: Hom(E, F) \rightarrow M_{n,p} M:Hom(E,F)→Mn,p 对所有 x ∈ E x \in E x∈E, 所有 g , h : E → F g, h : E\rightarrow F g,h:E→F , 以及所有 f : F → G f: F \rightarrow G f:F→G 满足一下性质。

M ( g ( x ) ) = M ( g ) M ( x ) M ( g + h ) = M ( g ) + M ( h ) M ( λ g ) = λ M ( g ) M ( f ∘ g ) = M ( f ) M ( g ) , M(g(x)) = M(g)M(x)\\ M(g + h) = M(g) + M(h)\\ M(\lambda g) = \lambda M(g)\\ M(f\circ g) = M(f)M(g), M(g(x))=M(g)M(x)M(g+h)=M(g)+M(h)M(λg)=λM(g)M(f∘g)=M(f)M(g),

其中 M ( x ) M(x) M(x) 是与向量 x x x 相关联的列向量， M ( g ( x ) ) M(g(x)) M(g(x)) 是与 g ( x ) g(x) g(x) 相关联的列向量，如 定义4.1 所述。

因此， M : H o m ( E , F ) → M n , p M: Hom(E,F)\rightarrow M_{n,p} M:Hom(E,F)→Mn,p 是向量空间的同构，当 p = n p=n p=n 和基 ( v 1 , ⋯ , v n ) (v_1, \cdots, v_n) (v1,⋯,vn) 与基 ( u 1 , ⋯ , u p (u_1, \cdots, u_p (u1,⋯,up 完全相同。 M : H o m ( E , E ) → M n M: Hom(E, E)→M_n M:Hom(E,E)→Mn 是环的同构。

标签：13,映射,矩阵,cdots,vdots,pmatrix,mathcal,乘法,rightarrow
来源： https://blog.csdn.net/weixin_42470629/article/details/121228345