Processing math: 98%

线性变换 · 线性代数 01

Hailiang Zhao | 2022/01/13

Categories: math Tags: algebra linear-transformation


线性代数大约是本科阶段学习到的最神秘、最云里雾里的数学学科。总体上,线性代数提供了一套 理解和操纵线性空间 的准则与方法,即使是最优秀的应试者,也不一定真正理解这些观念的本质。本文不会严谨地给出每一个涉及的概念的定义,而是权当抛砖引玉,对一些常见的观念给出了理解它们的思路。

1 向量空间

1.1 向量的张成

同维度的向量 uRnvRn 的张成(span)是集合

{au+bva,bR}

即,仅通过 向量加法向量数乘,我们能得到的、所有的向量的集合。

由此可依次引入线性空间(向量空间)、度量空间、赋范空间以及内积空间的定义,读者可自行检索查阅。

1.2 线性无关

对于向量空间 V 中的一组向量 {v1,v2,...,vn},它们是线性相关的 当且仅当 存在非全为零的元素 a1,a2,,anR 满足

iaivi=0

否则称这一组向量 线性无关

1.3 基

向量空间的一组基是张成该空间的 一个线性无关的向量集(相互不可替代)。基的个数就是空间的维数。对于 n 维线性空间 V

{vi:=[0,...,1,...,0仅第 i 个位置为 1]T}i=1,...,n

是一组 单位正交基(关于正交的概念,后面会深入分析)。

2 线性变换

2.1 理解 “线性”

线性变换中的 “线性” 是指:

满足第一、二点但是不满足第三点的,其实是仿射变换(affine transformation),即 “线性变换 + 平移”。可以在高维度通过线性变换实现低维度的仿射变换。 本质上,线性变换是保持网格线平行且等距分布的变换

严格意义上,若一个变换 L 满足 可加性

L(u+v)=L(u)+L(v)

成比例(一阶齐次):

L(cv)=cL(v)

则称 L 是线性的。线性变换不仅可以作用于向量(当然,这取决于我们如何定义 “向量”),也可以作用在函数上。 例如,求导运算也是一种线性变换,这就是求导公式中可加性和成比例的由来:

(f+g)x=fx+gxαfx=αfx

因此,我们最好把这种特征抽象出来,而不拘泥于具体的形式。

2.2 线性变换与矩阵

如何用数值去描述线性变换?我们只需关注新的线性空间的基的位置如何描述即可,而基前面数乘的系数在变换前后不会发生变换。

以二维线性空间为例,记旧的基为 i=[1,0]Tj=[0,1]T,新的基为 i=[i1,i2]Tj=[j1,j2]T,则对于变换前的向量 [x,y]T,有

[xy]=xi+yj线性变换Lxi+yj=[xi1+yj1xi2+yj2]=[i1+j1i2+j2][xy]=[i,j][xy]

也就是说,线性变换 L=[i,j]。这意味着,我们可以用矩阵来实施线性变换。一个矩阵和一个线性变换总是一一对应,且 矩阵的每一列都是变换后的线性空间的一组 “基”(打引号是因为此处允许 i,j 线性相关)。上面的这个式子也引申出了矩阵 - 向量乘法的定义。注意,这里的新基其实仍然是用旧的坐标体系(旧基)来描述的。

2.3 线性变换的复合

线性变换作为一个函数,通过矩阵来实现可以写作 A(x),线性变换的复合可以写作 B(A(x)),去掉这些括号,就可以得到矩阵乘法的运算,即复合变换。 具体地,不妨设 A=[a1,a2]B=[b1,b2],注意这里的 a1,a2,b1,b2 均为列向量,则有

BA=[b11b21b12b22][a11a21a12a22]=[b11a11b11a21b12a11b12a21]+[b21a12b21a22b22a12b22a22]=[b11b12][a11a21]+[b21b22][a12a22]=[b1a11+b2a12b1a21+b2a22]=[[b1b2][a11a12][b1b2][a11a12]]=[Ba1Ba2]

这意味着,B 分别作用在 A 的两个基向量上。上面的变换过程还展示了矩阵运算和矩阵 - 乘法运算之间的关系。思考复合变换的形成,我们可以很容易证明矩阵乘法满足结合律:(AB)C=A(BC),但不满足交换律 ABBA

2.4 行列式

线性变换前后空间内任意区域的缩放比例即行列式(determinant)。在二维线性空间上这对应着单位面积的缩放,在三维线性空间上这对应着单位体积的缩放。

需要注意的是,行列式是定义在方阵上的,否则,新旧空间的维度是必然发生了变化的。

具体地,对于方阵 ARn×n,若其行列式 det(A)=|A| 满足:

  1. |A|>1:对图形有放大作用;

  2. |A|=1:图形大小不变;

  3. |A|(0,1):对图形有缩小作用;

  4. |A|=0:空间坍缩,不可逆;

  5. |A|<0:改变左右手规则。

因为两次线性变换缩放的比例之积和一次复合变换的缩放比例相等,所以显然有

det(A)det(B)=det(AB)

类似地,还有如下性质:

det(A)=det(AT)det(cA)=cnA

如果一个方阵和对角阵相似(即可对角化、可执行特征值分解),那么 A 的行列式等于所有特征值的积,后面会谈到这一点。

2.5 从线性变换的角度理解线性方程组

对于线性方程组 Ax=b 的求解,x 依赖于线性变换 A 对空间的操纵。

关于线性方程组,后面还会给出多更深入分析。

2.6 矩阵的秩

如何描述空间是否发生了坍缩?我们需要一种建立在线性变换之上的概念,他需要表达出经过线性变换后,新空间的维度。这就是 秩(rank)

列空间

对于任意的 ARm×n,将 x 看成旧空间的任意未知向量,则所有 Ax 的取值组成了一个新的线性空间,我们称之为 A 的列空间(column space)(也被称为 A 的像),记为 range(A) / R(A)

range(A)=R(A)={yy=Ax,xV}

这是因为 A 的每一列就是新空间的 “基”(打引号是因为此处允许新基线性相关)。因此,A 的秩等于 A 的列空间的维数rank(A)=dim(range(A))。 当秩等于新基的个数时,我们称之为 满秩,即新基线性无关。这也意味着 rank(A)n

零空间

注意,零向量一定在列空间内,这是因为线性空间必然包含原点,而线性变换不会改变原点。不过,除了零向量,可能还会存在一些向量在经过线性变换 A 之后也成为了零向量,我们将所有的这些向量放入集合 A的零空间null(A) 内:

null(A)={xVAx=0}

null(A) 又称为 A 的核(kernel)null(A) 的秩可以大于 0

正交分解

对于任意的 ARm×n,总有

dim(R(A))+dim(null(A))=n

由此可以得到全空间的正交分解:

Rn=null(A)R(AT),xy,xnull(A),yR(AT)

2.7 矩阵的转置

如何理解矩阵的转置?已知 ARm×n 的每一列 A:,jA 对应的线性变换的新基在旧的线性空间 V 的坐标,每一行 Ai,: 其实是在以新基为坐标体系、旧基在新的线性空间 U 的坐标,即旧基在新基上的投影。

因为

n=rank(range(A))+rank(null(A))=rank(range(AT))+rank(null(A))

所以 range(A)=range(AT),即矩阵的列秩与行秩相等。又因为 range(AT)m,所以可得

rank(A)min

最后

著名的数学科普博主 3Blue1Brown 在他的油管和 B 站账号上均发布了名为 线性代数的本质 系列视频,其中提供了本文所述概念的动态演示,推荐读者观看。

转载申请

本作品采用 知识共享署名 4.0 国际许可协议 进行许可,转载时请注明原文链接。您必须给出适当的署名,并标明是否对本文作了修改。