本文最后更新于：2025年8月30日中午

· 符号与约定

为避免可能出现的歧义，先对相关符号进行约定．

线性空间：本文目标是展示出直观的图像，因此考虑的线性空间 $V$ 默认是欧式空间 $\mathbb{R}^n$．依照惯例，$\mathbb{R}^n$ 中的向量都是列向量．同时也应注意到，本文在尽力保证一般性．对于那些不涉及 $ ^n$ 特殊性质的论述，几乎可以原封不动地推广至更一般的线性空间．
基：一个基由能生成全空间且线性无关的一组向量构成．我们用希腊字母表示一个基，例如 $\eta=\left(\eta_1,\eta_2,\cdots,\eta_n\right)$，其中 $\eta_i\in \mathbb{R}^n(i=1,2,\cdots,n)$ 称作基 $\eta$ 的第 $i$ 个基向量．
标准正交基： $\epsilon=(\epsilon_1,\epsilon_2,\cdots,\epsilon_n)$, 其中 $\epsilon_i\in\mathbb{R}^n\left(i=1,2,\cdots,n\right)$ 的第 $i$ 个分量为 $1$，其余分量为 $0$．
坐标：因为本文会考虑多个基，所以有必要将坐标和向量的概念加以区分．如果向量 $v=(v_1,v_2,\cdots,v_n )^T$，则 $v$ 在基 $\eta$ 下的坐标 $v^\eta=(v^\eta_1, v^\eta_2,\cdots, v^\eta_n)^T$ 是一个 $n$ 维向量，由 \[ v^\eta_1 \eta _1+\cdots+ v^\eta_n \eta _n = ( \eta_1 \; \eta_2 \;\cdots\; \eta_n)\begin{pmatrix} v^\eta_1 \\ v^\eta_2 \\ \vdots\\ v^\eta_n \end{pmatrix} =v \] 确定．特别地，$v^\epsilon =(\epsilon_1 , \epsilon_2 , \cdots, \epsilon_n )v^\epsilon=v$．
基矩阵：$M_{\eta}$ $=( \eta_1^{\epsilon} \; \eta_2^\epsilon \; \cdots \; \eta_n^\epsilon)$．注意基向量的坐标是列向量，因此得到基矩阵唯一自然的方式就是按列拼合．事实上，根据上面的讨论，我们有 \[ M_ \eta=(\eta_1 \;\eta_2 \; \cdots \; \eta_n). \] 观察可知，标准正交基的基矩阵 $M_\epsilon$ 就是单位矩阵 $I$；$v^\eta=M_\eta ^{-1}v$．
线性变换： $ ^n$ 上的线性变换 $ $ 是一个 $ ^n$ 到 $ ^n$ 的映射，满足 $ v_1,v_2^n$，$_1, _2$，$$ (_1 v_1+_2 v_2)= _1 (v_1)+_2 (v_2). $$ $ (v)$ 通常简记为 $ v$．

· 线性变换的矩阵表示

有了这些约定后，我们还需要做一点必要的铺垫．我们将说明，线性变换能在给定的基下表示成矩阵．反过来，给定一个基，一个矩阵也能确定一个线性变换．

理解线性空间的一种方式，是想象它由基线性生成．基是一个基础框架，而向量则是「长」在基上．比起考虑线性变换 $\mathcal{A}$ 在整个 $\mathbb{R}^n$ 上进行作用，更简单的方式是考虑它在基上的作用．一旦清楚了它在基上的作用，它对生长在基上的向量的作用也就一清二楚了．具体来说，如果 $\mathcal{A}$ 是这么生成的：

\[ v=v^\eta_1 \eta_1+\cdots+ v^\eta_n \eta_n , \]

即 $v$ 在基 $\eta$ 下的坐标是 $v^\eta$，那么

\[ \mathcal{A} v= \mathcal{A} ( v^\eta_1 \eta_1+\cdots+ v^\eta_n \eta_n )=v^\eta_1 \mathcal{A} \eta_1 +\cdots + v^\eta_n \mathcal{A} \eta_n, \]

即 $\mathcal{A} v$ 在基 $\mathcal{A} \eta=(\mathcal{A} \eta_1,\cdots, \mathcal{A} \eta_n)$ 上的坐标也是 $v^\eta$．由此可以看出，虽然 $v$ 和 $\mathcal{A} v$ 长在了不同的基（ $\eta$ 和 $\mathcal{A} \eta$）上，但是它们的生长方式（坐标）是一样的．我们断言，如果知道了 $\mathcal{A}$ 在旧基 $\eta$ 上的作用的结果，又或者知道了新基 $\mathcal{A} \eta$ 在旧基 $\eta$ 下的坐标， $\mathcal{A}$ 的全部信息就已经知悉了．事实上，假设

\[ \mathcal{A} \eta_i = (\eta_1\; \eta_2\;\cdots\; \eta_n )\begin{pmatrix}a_{i1}\\a_{i2}\\ \vdots\\a_{in} \end{pmatrix} \]

即

\[ ( \mathcal{A} \eta_1 \; \mathcal{A} \eta_2 \;\cdots\; \mathcal{A} \eta_n) = (\eta_1\; \eta_2\;\cdots\; \eta_n ) \begin{pmatrix} a_{11}& a_{12} &\cdots&a_{1n}\\ a_{21}& a_{22} &\cdots&a_{2n}\\ \vdots& \vdots &&\vdots\\ a_{n1}& a_{n2} &\cdots&a_{nn} \end{pmatrix}． \]

将 $\mathcal{A}\eta$ 在基 $\eta$ 下的这 $n$ 个坐标向量排成的矩阵记作

\[ A^\eta= \begin{pmatrix} a_{11}& a_{12} &\cdots&a_{1n}\\ a_{21}& a_{22} &\cdots&a_{2n}\\ \vdots& \vdots &&\vdots\\ a_{n1}& a_{n2} &\cdots&a_{nn} \end{pmatrix} = \left( (\mathcal{A} \eta_1)^ \eta \; (\mathcal{A} \eta_2)^ \eta \;\cdots\; (\mathcal{A} \eta_n)^ \eta\right) , \]

称作 $\mathcal{A}$ 在基 $\eta$ 下的矩阵表示．这种叫法是合理的，因为我们马上会看到，$A^\eta$ 连同基 $\eta$ 确定了 $\mathcal{A}$ 在 $\mathbb{R}^n$ 中任一向量上作用的结果，从而完全确定了 $\mathcal{A}$．任取 $v\in\mathbb{R}^n$ , 我们有

\[ \mathcal{A} v = v^\eta_1 \mathcal{A} \eta_1 +\cdots + v^\eta_n \mathcal{A} \eta_n =( \mathcal{A} \eta_1 \; \mathcal{A} \eta_2 \;\cdots\; \mathcal{A} \eta_n) \begin{pmatrix} v^\eta_1 \\ v^\eta_2 \\ \vdots\\ v^\eta_n \end{pmatrix} =(\eta_1\;\eta_2 \; \cdots \; \eta_n) A ^\eta v , \]

这表明 $\mathcal{A}^\eta v$ 在基 $\eta$ 下的坐标就是 $A^\eta v$．特别地，在标准正交基下，$\mathcal{A} v= A^\epsilon v$．

更进一步，可以证明矩阵与线性变换的这种一一对应保持线性运算、乘法（映射复合）和单位元．它同时构成线性同构、环同构和结合代数同构．

· 直观理解线性变换

现在让我们把目光转向具体的欧式平面．假设我们在 $\mathbb{R}^2$ 上选取了标准正交基 $\epsilon$，此时向量在基下的坐标就等于自己本身．那么矩阵

\[ A^\epsilon = \begin{pmatrix} 1&-1\\ 1&1 \end{pmatrix} \]

表示的线性变换是什么样子的呢？根据前面得到的结论，$A^\epsilon$ 的第 $i$ 列就是线性变换作用在标准正交基第 $i$ 个基向量上得到的新向量的坐标，所以 $A^\epsilon$ 的第 $i$ 列就等于$A^\epsilon \epsilon_i$．当然，我们也可以直接根据关系式

\[ (\mathcal{A} \epsilon_1 \; \mathcal{A} \epsilon_2 \;\cdots\; \mathcal{A} \epsilon_n) = ( \epsilon_1\; \epsilon_2\;\cdots\; \epsilon_n ) A ^\epsilon =IA ^\epsilon =A ^\epsilon \]

看出这一点．因为 $\epsilon_1=(1,0)^T$ 被映成 $A^\epsilon \epsilon_1=(1,1)^T$，$\epsilon_2=(0,1)^T$ 被映成 $A^\epsilon \epsilon_2=(-1,1)^T$，于是我们知道，$A^\epsilon$ 表示的线性变换是将坐标轴逆时针旋转 $45°$ 并拉伸 $\sqrt{2}$ 倍．

· 基变换与相似矩阵

下面将说明一个重要事实，给定一个线性变换，它在不同基下的矩阵是相似的．

设 $\eta,\zeta$ 是两个基，那么我们令线性变换 $\mathcal{T}$ 由下式确定

\[ \mathcal{T}(\lambda_1\eta_1+\cdots+ \lambda_n\eta_n )= \lambda_1\zeta_1+\cdots+ \lambda_n\zeta_n , \]

则得到了一个将 $\eta_i$ 映成 $\zeta_i (i=1,2,\cdots,n)$ 的线性变换．换言之，基 $\zeta$ 就等于基 $\mathcal{T}\eta$．$\mathcal{T}$ 称作从基 $\eta$ 到基 $\zeta$ 的转移变换，$\mathcal{T}$ 在基 $\eta$下的矩阵表示 $T^\eta$ 称作从基 $\eta$ 到基 $\zeta$ 的转移矩阵．

给定一个线性变换 $\mathcal{A}$，一方面

\[ ( \mathcal{A} \zeta_1 \; \mathcal{A} \zeta_2 \;\cdots\; \mathcal{A} \zeta_n) = (\zeta_1\; \zeta_2\;\cdots\; \zeta_n )A^\zeta = ( \mathcal{T} \eta_1 \; \mathcal{T} \eta_2 \;\cdots\; \mathcal{T} \eta_n) A^\zeta = (\eta_1\; \eta_2\;\cdots\; \eta_n )T^\eta A^\zeta . \]

另一方面，

\[ (\mathcal{A} \zeta_1 \; \mathcal{A} \zeta_2 \;\cdots\; \mathcal{A} \zeta_n) = ( \mathcal{A} \mathcal{T} \eta_1\; \mathcal{A} \mathcal{T} \eta_2\;\cdots\; \mathcal{A} \mathcal{T} \eta_n )= (\eta_1\; \eta_2\;\cdots\; \eta_n ) A^\eta T^\eta . \]

由此我们得到

\[ A^\zeta = (T^\eta)^{-1} A^\eta T^\eta , \]

即同一线性变换在不同基下的矩阵是相似的．

· 基变换与坐标变换

设 $\mathcal{T}$ 是从基 $\eta$ 到基 $\zeta$ 的转移变换，$T^\eta$ 是从基 $\eta$ 到基 $\zeta$ 的转移矩阵．若 $v$ 在旧基 $\eta$ 下的坐标表示为

\[ v= ( \eta _1 \; \eta _2 \;\cdots\; \eta _n)\begin{pmatrix} v^\eta_1 \\ v^\eta_2 \\ \vdots\\ v^\eta_n \end{pmatrix}, \] $v$ 在新基 $\zeta$ 下的坐标表示为

\[ v= ( \zeta _1 \; \zeta _2 \;\cdots\; \zeta _n) \begin{pmatrix} v^\zeta_1 \\ v^\zeta_2 \\ \vdots\\ v^\zeta_n \end{pmatrix}, \] 则有

\[ v= (\mathcal{T} \eta _1 \; \mathcal{T}\eta _2 \;\cdots\; \mathcal{T}\eta _n) \begin{pmatrix} v^\zeta_1 \\ v^\zeta_2 \\ \vdots\\ v^\zeta_n \end{pmatrix}= (\eta _1 \; \eta _2 \;\cdots\; \eta _n)T^\eta \begin{pmatrix} v^\zeta_1 \\ v^\zeta_2 \\ \vdots\\ v^\zeta_n \end{pmatrix}． \] 对比系数可知

\[ \begin{pmatrix} v^\eta_1 \\ v^\eta_2 \\ \vdots\\ v^\eta_n \end{pmatrix} =T^\eta \begin{pmatrix} v^\zeta_1 \\ v^\zeta_2 \\ \vdots\\ v^\zeta_n \end{pmatrix}. \] 于是我们得到了向量 $v$ 在新基 $\zeta$ 和旧基 $\eta$ 下的坐标之间的关系

\[ \begin{pmatrix} v^\zeta_1 \\ v^\zeta_2 \\ \vdots\\ v^\zeta_n \end{pmatrix} =(T^\eta)^{-1} \begin{pmatrix} v^\eta_1 \\ v^\eta_2 \\ \vdots\\ v^\eta_n \end{pmatrix}, \]

它也被称为坐标变换公式．

注意下面的交换图．（交换图是指，只要图中两个复合映射起点和终点相同，它们就相等，本例中即为 $\mathrm{coor}^\zeta\circ\mathrm{id}=(T^\eta)^{-1}\circ\mathrm{coor}^\eta$．）

从线性空间本身来看，换基只是一次平凡的恒等变换．但从坐标空间的角度来看，坐标变换是非平凡的线性变换．

· 特征值与特征向量

给定一个线性变换 $\mathcal{A}$，如果能够找到一个基 $\zeta$，使得 $\mathcal{A}$ 在 $\zeta$ 下的矩阵表示 $A^ \zeta$ 为对角阵 $\Lambda$，即

\[ A^\zeta = \Lambda = \begin{pmatrix} \lambda_{1}& &&\\ & \lambda_{2} &&\\ & &\ddots&\\ &&& \lambda_{n} \end{pmatrix} , \]

那么就有

\[ (\mathcal{A} \zeta_1 \; \mathcal{A} \zeta_2 \;\cdots\; \mathcal{A} \zeta_n) = (\zeta_1\; \zeta_2\;\cdots\; \zeta_n ) \begin{pmatrix} \lambda_{1}& &&\\ & \lambda_{2} &&\\ & &\ddots&\\ &&& \lambda_{n} \end{pmatrix} = (\lambda_{1} \zeta_1 \; \lambda_{2} \zeta_2 \;\cdots\; \lambda_{n} \zeta_n)． \]

即对角阵的 $n$ 个对角元 $\lambda_{1},\lambda_{2},\cdots,\lambda_{n}$ 是线性变换 $\mathcal{A}$ 的特征值，而 $\zeta_1,\zeta_2,\cdots,\zeta_n$ 是其对应的特征向量．从几何上看，若以 $n$ 个特征值对应的特征向量作为基，线性变换对基向量的作用仅仅是简单的缩放．

为了计算一个具体的例子，让我们把目光再次转向选取了标准正交基 $ $ 的欧式平面．我们知道，矩阵

\[ A ^\epsilon = \begin{pmatrix} 1&2\\ -1&4 \end{pmatrix} \]

表示的线性变换把 $\epsilon_1=(1,0)^T$ 映成 $A^\epsilon \epsilon_1=(1,-1)^T$，$\epsilon_2=(0,1)^T$ 映成 $A ^\epsilon \epsilon_2=(2,4)^T$．

这个变换过程有点不太容易想象．但如果我们选取这样一个由特征向量构成的基 $\zeta_1=(2,1)^T$ , $\zeta_2=(1,1)^T$，并计算矩阵 $A^\epsilon$ 所表示的线性变换在基 $\zeta_1,\zeta_2$ 上的作用，我们会发现

\[ A^\epsilon\zeta_1= \begin{pmatrix} 4\\ 2 \end{pmatrix}=2\zeta_1,\quad A^\epsilon\zeta_2= \begin{pmatrix} 3\\ 3 \end{pmatrix} =3\zeta_2. \]

这说明，矩阵 $A^\epsilon$ 所表示的线性变换可以看成 $\zeta_1,\zeta_2$ 方向上的一个缩放．

数学

数学线性代数

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

张量 - 计算篇上一篇

线性变换的直观理解