线性变换的直观理解

本文最后更新于:2022年4月4日 上午

· 符号与约定

为避免可能出现的歧义,先对相关符号进行约定.

  • 线性空间:本文目标是展示出直观的图像,因此考虑的线性空间 \(V\) 默认是欧式空间 \(\mathbb{R}^n\).依照惯例,\(\mathbb{R}^n\) 中的向量都是列向量.同时也应注意到,本文在尽力保证一般性.对于那些不涉及 $ ^n$ 特殊性质的论述,几乎可以原封不动地推广至更一般的线性空间.

  • : 一个基由能生成全空间且线性无关的一组向量构成.我们用希腊字母表示一个基,例如 \(\eta=\left(\eta_1,\eta_2,\cdots,\eta_n\right)\),其中 \(\eta_i\in \mathbb{R}^n(i=1,2,\cdots,n)\) 称作基 \(\eta\) 的第 \(i\) 个基向量.

  • 标准正交基\(\epsilon=(\epsilon_1,\epsilon_2,\cdots,\epsilon_n)\), 其中 \(\epsilon_i\in\mathbb{R}^n\left(i=1,2,\cdots,n\right)\) 的第 \(i\) 个分量为 \(1\),其余分量为 \(0\)

  • 坐标:因为本文会考虑多个基,所以有必要将坐标和向量的概念加以区分.如果向量 \(v=(v_1,v_2,\cdots,v_n )^T\),则 \(v\) 在基 \(\eta\) 下的坐标 \(v^\eta=(v^\eta_1, v^\eta_2,\cdots, v^\eta_n)^T\) 是一个 \(n\) 维向量,由 \[ v^\eta_1 \eta _1+\cdots+ v^\eta_n \eta _n = ( \eta_1 \; \eta_2 \;\cdots\; \eta_n)\begin{pmatrix} v^\eta_1 \\ v^\eta_2 \\ \vdots\\ v^\eta_n \end{pmatrix} =v \] 确定.特别地,\(v^\epsilon =(\epsilon_1 , \epsilon_2 , \cdots, \epsilon_n )v^\epsilon=v\)

  • 基矩阵\(M_{\eta}\) \(=( \eta_1^{\epsilon} \; \eta_2^\epsilon \; \cdots \; \eta_n^\epsilon)\).注意基向量的坐标是列向量,因此得到基矩阵唯一自然的方式就是按列拼合.事实上,根据上面的讨论,我们有 \[ M_ \eta=(\eta_1 \;\eta_2 \; \cdots \; \eta_n). \] 观察可知,标准正交基的基矩阵 \(M_\epsilon\) 就是单位矩阵 \(I\)\(v^\eta=M_\eta ^{-1}v\)

  • 线性变换: $ ^n$ 上的线性变换 $ $ 是一个 $ ^n$ 到 $ ^n$ 的映射,满足 $ v_1,v_2^n\(,\)_1, _2$, \[ \mathcal{A} (\lambda_1 v_1+\lambda_2 v_2)= \lambda_1 \mathcal{A} (v_1)+\lambda_2 \mathcal{A} (v_2). \] $ (v)$ 通常简记为 $ v$.

· 线性变换的矩阵表示

有了这些约定后,我们还需要做一点必要的铺垫.我们将说明,线性变换能在给定的基下表示成矩阵.反过来,给定一个基,一个矩阵也能确定一个线性变换.

理解线性空间的一种方式,是想象它由基线性生成.基是一个基础框架,而向量则是「长」在基上.比起考虑线性变换 \(\mathcal{A}\) 在整个 \(\mathbb{R}^n\) 上进行作用,更简单的方式是考虑它在基上的作用.一旦清楚了它在基上的作用,它对生长在基上的向量的作用也就一清二楚了.具体来说,如果 \(\mathcal{A}\) 是这么生成的:

\[ v=v^\eta_1 \eta_1+\cdots+ v^\eta_n \eta_n , \]

\(v\) 在基 \(\eta\) 下的坐标是 \(v^\eta\),那么

\[ \mathcal{A} v= \mathcal{A} ( v^\eta_1 \eta_1+\cdots+ v^\eta_n \eta_n )=v^\eta_1 \mathcal{A} \eta_1 +\cdots + v^\eta_n \mathcal{A} \eta_n, \]

\(\mathcal{A} v\) 在基 \(\mathcal{A} \eta=(\mathcal{A} \eta_1,\cdots, \mathcal{A} \eta_n)\) 上的坐标也是 \(v^\eta\). 由此可以看出,虽然 \(v\)\(\mathcal{A} v\) 长在了不同的基( \(\eta\)\(\mathcal{A} \eta\))上,但是它们的生长方式(坐标)是一样的. 我们断言,如果知道了 \(\mathcal{A}\) 在旧基 \(\eta\) 上的作用的结果,又或者知道了新基 \(\mathcal{A} \eta\) 在旧基 \(\eta\) 下的坐标, \(\mathcal{A}\) 的全部信息就已经知悉了.事实上,假设

\[ \mathcal{A} \eta_i = (\eta_1\; \eta_2\;\cdots\; \eta_n )\begin{pmatrix}a_{i1}\\a_{i2}\\ \vdots\\a_{in} \end{pmatrix} \]

\[ ( \mathcal{A} \eta_1 \; \mathcal{A} \eta_2 \;\cdots\; \mathcal{A} \eta_n) = (\eta_1\; \eta_2\;\cdots\; \eta_n ) \begin{pmatrix} a_{11}& a_{12} &\cdots&a_{1n}\\ a_{21}& a_{22} &\cdots&a_{2n}\\ \vdots& \vdots &&\vdots\\ a_{n1}& a_{n2} &\cdots&a_{nn} \end{pmatrix}. \]

\(\mathcal{A}\eta\) 在基 \(\eta\) 下的这 \(n\) 个坐标向量排成的矩阵记作

\[ A^\eta= \begin{pmatrix} a_{11}& a_{12} &\cdots&a_{1n}\\ a_{21}& a_{22} &\cdots&a_{2n}\\ \vdots& \vdots &&\vdots\\ a_{n1}& a_{n2} &\cdots&a_{nn} \end{pmatrix} = \left( (\mathcal{A} \eta_1)^ \eta \; (\mathcal{A} \eta_2)^ \eta \;\cdots\; (\mathcal{A} \eta_n)^ \eta\right) , \]

称作 \(\mathcal{A}\) 在基 \(\eta\) 下的矩阵表示.这种叫法是合理的,因为我们马上会看到,\(A^\eta\) 连同基 \(\eta\) 确定了 \(\mathcal{A}\)\(\mathbb{R}^n\) 中任一向量上作用的结果,从而完全确定了 \(\mathcal{A}\).任取 \(v\in\mathbb{R}^n\) , 我们有

\[ \mathcal{A} v = v^\eta_1 \mathcal{A} \eta_1 +\cdots + v^\eta_n \mathcal{A} \eta_n =( \mathcal{A} \eta_1 \; \mathcal{A} \eta_2 \;\cdots\; \mathcal{A} \eta_n) \begin{pmatrix} v^\eta_1 \\ v^\eta_2 \\ \vdots\\ v^\eta_n \end{pmatrix} =(\eta_1\;\eta_2 \; \cdots \; \eta_n) A ^\eta v , \]

这表明 \(\mathcal{A}^\eta v\) 在基 \(\eta\) 下的坐标就是 \(A^\eta v\).特别地,在标准正交基下,\(\mathcal{A} v= A^\epsilon v\)

更进一步,可以证明矩阵与线性变换的这种一一对应保持线性运算、乘法(映射复合)和单位元.它同时构成线性同构、环同构和结合代数同构.

· 直观理解线性变换

现在让我们把目光转向具体的欧式平面.假设我们在 \(\mathbb{R}^2\) 上选取了标准正交基 \(\epsilon\),此时向量在基下的坐标就等于自己本身.那么矩阵

\[ A^\epsilon = \begin{pmatrix} 1&-1\\ 1&1 \end{pmatrix} \]

表示的线性变换是什么样子的呢?根据前面得到的结论,\(A^\epsilon\) 的第 \(i\) 列就是线性变换作用在标准正交基第 \(i\) 个基向量上得到的新向量的坐标,所以 \(A^\epsilon\) 的第 \(i\) 列就等于\(A^\epsilon \epsilon_i\).当然,我们也可以直接根据关系式

\[ (\mathcal{A} \epsilon_1 \; \mathcal{A} \epsilon_2 \;\cdots\; \mathcal{A} \epsilon_n) = ( \epsilon_1\; \epsilon_2\;\cdots\; \epsilon_n ) A ^\epsilon =IA ^\epsilon =A ^\epsilon \]

看出这一点.因为 \(\epsilon_1=(1,0)^T\) 被映成 \(A^\epsilon \epsilon_1=(1,1)^T\)\(\epsilon_2=(0,1)^T\) 被映成 \(A^\epsilon \epsilon_2=(-1,1)^T\),于是我们知道,\(A^\epsilon\) 表示的线性变换是将坐标轴逆时针旋转 \(45°\) 并拉伸 \(\sqrt{2}\) 倍.

· 基变换与相似矩阵

下面将说明一个重要事实,给定一个线性变换,它在不同基下的矩阵是相似的.

\(\eta,\zeta\) 是两个基,那么我们令线性变换 \(\mathcal{T}\) 由下式确定

\[ \mathcal{T}(\lambda_1\eta_1+\cdots+ \lambda_n\eta_n )= \lambda_1\zeta_1+\cdots+ \lambda_n\zeta_n , \]

则得到了一个将 \(\eta_i\) 映成 \(\zeta_i (i=1,2,\cdots,n)\) 的线性变换.换言之,基 \(\zeta\) 就等于基 \(\mathcal{T}\eta\)\(\mathcal{T}\) 称作从基 \(\eta\) 到基 \(\zeta\) 的转移变换,\(\mathcal{T}\) 在基 \(\eta\)下的矩阵表示 \(T^\eta\) 称作从基 \(\eta\) 到基 \(\zeta\) 的转移矩阵.

给定一个线性变换 \(\mathcal{A}\),一方面

\[ ( \mathcal{A} \zeta_1 \; \mathcal{A} \zeta_2 \;\cdots\; \mathcal{A} \zeta_n) = (\zeta_1\; \zeta_2\;\cdots\; \zeta_n )A^\zeta = ( \mathcal{T} \eta_1 \; \mathcal{T} \eta_2 \;\cdots\; \mathcal{T} \eta_n) A^\zeta = (\eta_1\; \eta_2\;\cdots\; \eta_n )T^\eta A^\zeta . \]

另一方面,

\[ (\mathcal{A} \zeta_1 \; \mathcal{A} \zeta_2 \;\cdots\; \mathcal{A} \zeta_n) = ( \mathcal{A} \mathcal{T} \eta_1\; \mathcal{A} \mathcal{T} \eta_2\;\cdots\; \mathcal{A} \mathcal{T} \eta_n )= (\eta_1\; \eta_2\;\cdots\; \eta_n ) A^\eta T^\eta . \]

由此我们得到

\[ A^\zeta = (T^\eta)^{-1} A^\eta T^\eta , \]

即同一线性变换在不同基下的矩阵是相似的.

· 基变换与坐标变换

\(\mathcal{T}\) 是从基 \(\eta\) 到基 \(\zeta\) 的转移变换,\(T^\eta\) 是从基 \(\eta\) 到基 \(\zeta\) 的转移矩阵.若 \(v\) 在旧基 \(\eta\) 下的坐标表示为

\[ v= ( \eta _1 \; \eta _2 \;\cdots\; \eta _n)\begin{pmatrix} v^\eta_1 \\ v^\eta_2 \\ \vdots\\ v^\eta_n \end{pmatrix}, \] \(v\) 在新基 \(\zeta\) 下的坐标表示为

\[ v= ( \zeta _1 \; \zeta _2 \;\cdots\; \zeta _n) \begin{pmatrix} v^\zeta_1 \\ v^\zeta_2 \\ \vdots\\ v^\zeta_n \end{pmatrix}, \] 则有

\[ v= (\mathcal{T} \eta _1 \; \mathcal{T}\eta _2 \;\cdots\; \mathcal{T}\eta _n) \begin{pmatrix} v^\zeta_1 \\ v^\zeta_2 \\ \vdots\\ v^\zeta_n \end{pmatrix}= (\eta _1 \; \eta _2 \;\cdots\; \eta _n)T^\eta \begin{pmatrix} v^\zeta_1 \\ v^\zeta_2 \\ \vdots\\ v^\zeta_n \end{pmatrix}. \] 对比系数可知

\[ \begin{pmatrix} v^\eta_1 \\ v^\eta_2 \\ \vdots\\ v^\eta_n \end{pmatrix} =T^\eta \begin{pmatrix} v^\zeta_1 \\ v^\zeta_2 \\ \vdots\\ v^\zeta_n \end{pmatrix}. \] 于是我们得到了向量 \(v\) 在新基 \(\zeta\) 和旧基 \(\eta\) 下的坐标之间的关系

\[ \begin{pmatrix} v^\zeta_1 \\ v^\zeta_2 \\ \vdots\\ v^\zeta_n \end{pmatrix} =(T^\eta)^{-1} \begin{pmatrix} v^\eta_1 \\ v^\eta_2 \\ \vdots\\ v^\eta_n \end{pmatrix}, \]

它也被称为坐标变换公式.

注意下面的交换图.(交换图是指,只要图中两个复合映射起点和终点相同,它们就相等,本例中即为 \(\mathrm{coor}^\zeta\circ\mathrm{id}=(T^\eta)^{-1}\circ\mathrm{coor}^\eta\).)

从线性空间本身来看,换基只是一次平凡的恒等变换.但从坐标空间的角度来看,坐标变换是非平凡的线性变换.

· 特征值与特征向量

给定一个线性变换 \(\mathcal{A}\),如果能够找到一个基 \(\zeta\),使得 \(\mathcal{A}\)\(\zeta\) 下的矩阵表示 \(A^ \zeta\) 为对角阵 \(\Lambda\),即

\[ A^\zeta = \Lambda = \begin{pmatrix} \lambda_{1}& &&\\ & \lambda_{2} &&\\ & &\ddots&\\ &&& \lambda_{n} \end{pmatrix} , \]

那么就有

\[ (\mathcal{A} \zeta_1 \; \mathcal{A} \zeta_2 \;\cdots\; \mathcal{A} \zeta_n) = (\zeta_1\; \zeta_2\;\cdots\; \zeta_n ) \begin{pmatrix} \lambda_{1}& &&\\ & \lambda_{2} &&\\ & &\ddots&\\ &&& \lambda_{n} \end{pmatrix} = (\lambda_{1} \zeta_1 \; \lambda_{2} \zeta_2 \;\cdots\; \lambda_{n} \zeta_n). \]

即对角阵的 \(n\) 个对角元 \(\lambda_{1},\lambda_{2},\cdots,\lambda_{n}\) 是线性变换 \(\mathcal{A}\) 的特征值,而 \(\zeta_1,\zeta_2,\cdots,\zeta_n\) 是其对应的特征向量.从几何上看,若以 \(n\) 个特征值对应的特征向量作为基,线性变换对基向量的作用仅仅是简单的缩放.

为了计算一个具体的例子,让我们把目光再次转向选取了标准正交基 $ $ 的欧式平面.我们知道,矩阵

\[ A ^\epsilon = \begin{pmatrix} 1&2\\ -1&4 \end{pmatrix} \]

表示的线性变换把 \(\epsilon_1=(1,0)^T\) 映成 \(A^\epsilon \epsilon_1=(1,-1)^T\)\(\epsilon_2=(0,1)^T\) 映成 \(A ^\epsilon \epsilon_2=(2,4)^T\)

这个变换过程有点不太容易想象.但如果我们选取这样一个由特征向量构成的基 \(\zeta_1=(2,1)^T\) , \(\zeta_2=(1,1)^T\),并计算矩阵 \(A^\epsilon\) 所表示的线性变换在基 \(\zeta_1,\zeta_2\) 上的作用,我们会发现

\[ A^\epsilon\zeta_1= \begin{pmatrix} 4\\ 2 \end{pmatrix}=2\zeta_1,\quad A^\epsilon\zeta_2= \begin{pmatrix} 3\\ 3 \end{pmatrix} =3\zeta_2. \]

这说明,矩阵 \(A^\epsilon\) 所表示的线性变换可以看成 \(\zeta_1,\zeta_2\) 方向上的一个缩放.


本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!