龙空技术网

机器学习基础:线性代数

昌华量化 3277

前言:

如今朋友们对“n元线性方程组n指的是行还是列”都比较注意,兄弟们都需要知道一些“n元线性方程组n指的是行还是列”的相关文章。那么小编也在网摘上汇集了一些有关“n元线性方程组n指的是行还是列””的相关知识,希望小伙伴们能喜欢,各位老铁们一起来了解一下吧!

线性代数作为数学的一个分支,广泛应用于科学和工程中。然而,因为线性代数主要是面向连续数学,而非离散数学,所以很多计算机科学家很少接触它。掌握好线性代数对于理解和从事机器学习算法相关工作是很有必要的,尤其对于深度学习算法而言。因此,在开始介绍深度学习之前,我们集中探讨一些必备的线性代数知识。

一、标量、向量、矩阵和张量

学习线性代数,会涉及以下几个数学概念:

·标量 (scalar):一个标量就是一个单独的数,它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。我们用斜体表示标量。标量通常被赋予小写的变量名称。在介绍标量时,我们会明确它们是哪种类型的数。比如,在定义实数标量时,我们可能会说“令

表示一条线的斜率”;在定义自然数标量时,我们可能会说“令

表示元素的数目”。

·向量 (vector):一个向量是一列数。这些数是有序排列的。通过次序中的索引,我们可以确定每个单独的数。通常我们赋予向量粗体的小写变量名称,比如x。向量中的元素可以通过带脚标的斜体表示。向量x的第一个元素是x 1 ,第二个元素是x 2 ,等等。我们也会注明存储在向量中的元素是什么类型的。如果每个元素都属于

,并且该向量有n个元素,那么该向量属于实数集

的n次笛卡尔乘积构成的集合,记为

。当需要明确表示向量中的元素时,我们会将元素排列成一个方括号包围的纵列:

我们可以把向量看作空间中的点,每个元素是不同坐标轴上的坐标。

有时我们需要索引向量中的一些元素。在这种情况下,我们定义一个包含这些元素索引的集合,然后将该集合写在脚标处。比如,指定x 1 、x 3 和x 6 ,我们定义集合S={1,3,6},然后写作x S 。我们用符号-表示集合的补集中的索引。比如x −1 表示x中除x 1 外的所有元素,x −S 表示x中除x 1 、x 3 、x 6 外所有元素构成的向量。

·矩阵 (matrix):矩阵是一个二维数组,其中的每一个元素由两个索引(而非一个)所确定。我们通常会赋予矩阵粗体的大写变量名称,比如 A 。如果一个实数矩阵高度为m,宽度为n,那么我们说

。我们在表示矩阵中的元素时,通常以不加粗的斜体形式使用其名称,索引用逗号间隔。比如,A 1,1 表示 A 左上的元素,A m,n 表示 A 右下的元素。我们通过用“:”表示水平坐标,以表示垂直坐标i中的所有元素。比如, A i,: 表示 A 中垂直坐标i上的一横排元素。这也被称为 A 的第i (row)。同样地, A :,i 表示 A 的第i (column)。当需要明确表示矩阵中的元素时,我们将它们写在用方括号括起来的数组中:

有时我们需要矩阵值表达式的索引,而不是单个元素。在这种情况下,我们在表达式后面接下标,但不必将矩阵的变量名称小写化。比如,f( A ) i,j 表示函数f作用在 A 上输出的矩阵的第i行第j列元素。

·张量 (tensor):在某些情况下,我们会讨论坐标超过两维的数组。一般的,一个数组中的元素分布在若干维坐标的规则网格中,我们称之为张量。我们使用字体

来表示张量“A”。张量

中坐标为(i,j,k)的元素记作A i,j,k

转置 (transpose)是矩阵的重要操作之一。矩阵的转置是以对角线为轴的镜像,这条从左上角到右下角的对角线被称为主对角线 (main diagonal)。图1显示了这个操作。我们将矩阵 A 的转置表示为

,定义如下

向量可以看作只有一列的矩阵。对应地,向量的转置可以看作只有一行的矩阵。有时,我们通过将向量元素作为行矩阵写在文本行中,然后使用转置操作将其变为标准的列向量,来定义一个向量,比如

图1 矩阵的转置可以看作以主对角线为轴的一个镜像

标量可以看作只有一个元素的矩阵。因此,标量的转置等于它本身,

只要矩阵的形状一样,我们可以把两个矩阵相加。两个矩阵相加是指对应位置的元素相加,比如 C = A B ,其中C i,j =A i,j B i,j

标量和矩阵相乘,或是和矩阵相加时,我们只需将其与矩阵的每个元素相乘或相加,比如 D =a · B c ,其中 D i,j =a · B i,j c

在深度学习中,我们也使用一些不那么常规的符号。我们允许矩阵和向量相加,产生另一个矩阵: C = A b ,其中 C i,j = A i,j b j 。换言之,向量 b 和矩阵 A 的每一行相加。这个简写方法使我们无须在加法操作前定义一个将向量 b 复制到每一行而生成的矩阵。这种隐式地复制向量 b 到很多位置的方式,称为广播 (broadcasting)。

二、矩阵和向量相乘

矩阵乘法是矩阵运算中最重要的操作之一。两个矩阵 A B 矩阵乘积 (matrix product)是第三个矩阵 C 。为了使乘法可被定义,矩阵 A 的列数必须和矩阵 B 的行数相等。如果矩阵 A 的形状是m×n,矩阵 B 的形状是n×p,那么矩阵 C 的形状是m×p。我们可以通过将两个或多个矩阵并列放置以书写矩阵乘法,例如

具体地,该乘法操作定义为

需要注意的是,两个矩阵的标准乘积不是指两个矩阵中对应元素的乘积。不过,那样的矩阵操作确实是存在的,称为元素对应乘积 (element-wise product)或者Hadamard乘积 (Hadamard product),记为

两个相同维数的向量 x y 点积 (dot product)可看作矩阵乘积

。我们可以把矩阵乘积 C = AB 中计算C i,j 的步骤看作 A 的第i行和 B 的第j列之间的点积。

矩阵乘积运算有许多有用的性质,从而使矩阵的数学分析更加方便。比如,矩阵乘积服从分配律:

矩阵乘积也服从结合律:

不同于标量乘积,矩阵乘积并不满足交换律( AB=BA 的情况并非总是满足)。然而,两个向量的点积 满足交换律:

矩阵乘积的转置有着简单的形式:

利用两个向量点积的结果是标量、标量转置是自身的事实,我们可以证明式(2.8):

现在我们已经知道了足够多的线性代数符号,可以表达下列线性方程组:

其中

是一个已知矩阵,

是一个已知向量,

是一个我们要求解的未知向量。向量 x 的每一个元素x i 都是未知的。矩阵 A 的每一行和b中对应的元素构成一个约束。我们可以把式(2.11)重写为

或者,更明确地,写作

矩阵向量乘积符号为这种形式的方程提供了更紧凑的表示。

三、单位矩阵和逆矩阵

线性代数提供了称为矩阵逆 (matrix inversion)的强大工具。对于大多数矩阵 A ,我们都能通过矩阵逆解析地求解式(2.11)。

为了描述矩阵逆,我们首先需要定义单位矩阵 (identity matrix)的概念。任意向量和单位矩阵相乘,都不会改变。我们将保持n维向量不变的单位矩阵记作 I n 。形式上,

单位矩阵的结构很简单:所有沿主对角线的元素都是1,而其他位置的所有元素都是0,如图2所示。

图2 单位矩阵的一个样例:这是 I 3

矩阵 A 矩阵逆 记作 A −1 ,其定义的矩阵满足如下条件:

现在我们可以通过以下步骤求解式(2.11):

当然,这取决于我们能否找到一个逆矩阵 A −1

当逆矩阵 A −1 存在时,有几种不同的算法都能找到它的闭解形式。理论上,相同的逆矩阵可用于多次求解不同向量b的方程。然而,逆矩阵 A −1 主要是作为理论工具使用的,并不会在大多数软件应用程序中实际使用。这是因为逆矩阵 A −1 在数字计算机上只能表现出有限的精度,有效使用向量 b 的算法通常可以得到更精确的 x

四、线性相关和生成子空间

如果逆矩阵 A −1 存在,那么式(2.11)肯定对于每一个向量 b 恰好存在一个解。但是,对于方程组而言,对于向量 b 的某些值,有可能不存在解,或者存在无限多个解。存在多于一个解但是少于无限多个解的情况是不可能发生的;因为如果 x y 都是某方程组的解,则

(其中α取任意实数)也是该方程组的解。

为了分析方程有多少个解,我们可以将 A 的列向量看作从原点 (origin)(元素都是零的向量)出发的不同方向,确定有多少种方法可以到达向量 b 。在这个观点下,向量 x 中的每个元素表示我们应该沿着这些方向走多远,即 x i 表示我们需要沿着第i个向量的方向走多远:

一般而言,这种操作称为线性组合 (linear combination)。形式上,一组向量的线性组合,是指每个向量乘以对应标量系数之后的和,即

一组向量的生成子空间 (span)是原始向量线性组合后所能抵达的点的集合。

确定 Ax=b 是否有解,相当于确定向量 b 是否在 A 列向量的生成子空间中。这个特殊的生成子空间被称为 A 列空间 (column space)或者 A 值域 (range)。

为了使方程 Ax=b 对于任意向量

都存在解,我们要求 A 的列空间构成整个

。如果 中的某个点不在 A 的列空间中,那么该点对应的 b 会使得该方程没有解。矩阵 A 的列空间是整个

的要求,意味着 A 至少有m列,即

。否则, A 列空间的维数会小于m。例如,假设 A 是一个3×2的矩阵。目标 b 是3维的,但是 x 只有2维。所以无论如何修改 x 的值,也只能描绘出

空间中的二维平面。当且仅当向量b 在该二维平面中时,该方程有解。

不等式

仅是方程对每一点都有解的必要条件。这不是一个充分条件,因为有些列向量可能是冗余的。假设有一个

中的矩阵,它的两个列向量是相同的。那么它的列空间和它的一个列向量作为矩阵的列空间是一样的。换言之,虽然该矩阵有2列,但是它的列空间仍然只是一条线,不能涵盖整个

空间。

正式地说,这种冗余称为线性相关 (linear dependence)。如果一组向量中的任意一个向量都不能表示成其他向量的线性组合,那么这组向量称为线性无关 (linearly independent)。如果某个向量是一组向量中某些向量的线性组合,那么我们将这个向量加入这组向量后不会增加这组向量的生成子空间。这意味着,如果一个矩阵的列空间涵盖整个

,那么该矩阵必须包含至少一组m个线性无关的向量。这是式(2.11)对于每一个向量 b 的取值都有解的充分必要条件。值得注意的是,这个条件是说该向量集恰好有m个线性无关的列向量,而不是至少m个。不存在一个m维向量的集合具有多于m个彼此线性不相关的列向量,但是一个有多于m个列向量的矩阵有可能拥有不止一个大小为m的线性无关向量集。

要想使矩阵可逆,我们还需要保证式(2.11)对于每一个 b 值至多有一个解。为此,我们需要确保该矩阵至多有m个列向量。否则,该方程会有不止一个解。

综上所述,这意味着该矩阵必须是一个方阵 (square),即m=n,并且所有列向量都是线性无关的。一个列向量线性相关的方阵被称为奇异的 (singular)。

如果矩阵 A 不是一个方阵或者是一个奇异的方阵,该方程仍然可能有解。但是我们不能使用矩阵逆去求解。

目前为止,我们已经讨论了逆矩阵左乘。我们也可以定义逆矩阵右乘:

对于方阵而言,它的左逆和右逆是相等的。

五、范数

有时我们需要衡量一个向量的大小。在机器学习中,我们经常使用称为范数 (norm)的函数来衡量向量大小。形式上,L p 范数定义如下

其中

范数(包括L p 范数)是将向量映射到非负值的函数。直观上来说,向量 x 的范数衡量从原点到点 x 的距离。更严格地说,范数是满足下列性质的任意函数:

·

·

三角不等式 (triangle inequality));

·

当p=2时,L 2 范数称为欧几里得范数 (Euclidean norm)。它表示从原点出发到向量 x 确定的点的欧几里得距离。L 2 范数在机器学习中出现得十分频繁,经常简化表示为

,略去了下标2。平方L 2 范数也经常用来衡量向量的大小,可以简单地通过点积

计算。

平方L 2 范数在数学和计算上都比L 2 范数本身更方便。例如,平方L 2 范数对 x 中每个元素的导数只取决于对应的元素,而L 2 范数对每个元素的导数和整个向量相关。但是在很多情况下,平方L 2 范数也可能不受欢迎,因为它在原点附近增长得十分缓慢。在某些机器学习应用中,区分恰好是零的元素和非零但值很小的元素是很重要的。在这些情况下,我们转而使用在各个位置斜率相同,同时保持简单的数学形式的函数:L 1 范数。L 1 范数可以简化如下

当机器学习问题中零和非零元素之间的差异非常重要时,通常会使用L 1 范数。每当 x 中某个元素从0增加

,对应的L 1 范数也会增加

有时候我们会统计向量中非零元素的个数来衡量向量的大小。有些作者将这种函数称为“L 0 范数”,但是这个术语在数学意义上是不对的。向量的非零元素的数目不是范数,因为对向量缩放α倍不会改变该向量非零元素的数目。因此,L 1 范数经常作为表示非零元素数目的替代函数。

另外一个经常在机器学习中出现的范数是L ∞ 范数,也被称为最大范数 (max norm)。这个范数表示向量中具有最大幅值的元素的绝对值:

有时候我们可能也希望衡量矩阵的大小。在深度学习中,最常见的做法是使用Frobenius范数 (Frobenius norm),即

其类似于向量的L 2 范数。

两个向量的点积 可以用范数来表示,具体如下

其中θ表示 x y 之间的夹角。

六、特殊类型的矩阵和向量

有些特殊类型的矩阵和向量是特别有用的。

对角矩阵 (diagonal matrix)只在主对角线上含有非零元素,其他位置都是零。形式上,矩阵 D 是对角矩阵,当且仅当对于所有的

。我们已经看到过一个对角矩阵:单位矩阵,其对角元素全部是1。我们用diag(ν)表示对角元素由向量ν中元素给定的一个对角方阵。对角矩阵受到关注的部分原因是对角矩阵的乘法计算很高效。计算乘法diag(ν)x,我们只需要将 x 中的每个元素x i 放大ν i 倍。换言之,

。计算对角方阵的逆矩阵也很高效。对角方阵的逆矩阵存在,当且仅当对角元素都是非零值,在这种情况下,

。在很多情况下,我们可以根据任意矩阵导出一些通用的机器学习算法,但通过将一些矩阵限制为对角矩阵,我们可以得到计算代价较低的(并且简明扼要的)算法。

并非所有的对角矩阵都是方阵。长方形的矩阵也有可能是对角矩阵。非方阵的对角矩阵没有逆矩阵,但我们仍然可以高效地计算它们的乘法。对于一个长方形对角矩阵 D 而言,乘法 Dx 会涉及 x 中每个元素的缩放,如果 D 是瘦长型矩阵,那么在缩放后的末尾添加一些零;如果 D 是胖宽型矩阵,那么在缩放后去掉最后一些元素。

对称 (symmetric)矩阵是转置和自己相等的矩阵,即

当某些不依赖参数顺序的双参数函数生成元素时,对称矩阵经常会出现。例如,如果 A 是一个距离度量矩阵, A i,j 表示点i到点j的距离,那么 A i,j = A j,i ,因为距离函数是对称的。

单位向量 (unit vector)是具有单位范数 (unit norm)的向量,即

如果

,那么向量 x 和向量 y 互相正交 (orthogonal)。如果两个向量都有非零范数,那么这两个向量之间的夹角是90◦。在

中,至多有n个范数非零向量互相正交。如果这些向量不但互相正交,而且范数都为1,那么我们称它们是标准正交 (orthonormal)。

正交矩阵 (orthogonal matrix)指行向量和列向量是分别标准正交的方阵,即

这意味着

正交矩阵受到关注是因为求逆计算代价小。我们需要注意正交矩阵的定义。违反直觉的是,正交矩阵的行向量不仅是正交的,还是标准正交的。对于行向量或列向量互相正交但不是标准正交的矩阵,没有对应的专有术语。

七、特征分解

许多数学对象可以通过将它们分解成多个组成部分或者找到它们的一些属性来更好地理解。这些属性是通用的,而不是由我们选择表示它们的方式所产生的。

例如,整数可以分解为质因数。我们可以用十进制或二进制等不同方式表示整数12,但是12=2×3×3永远是对的。从这个表示中我们可以获得一些有用的信息,比如12不能被5整除,或者12的倍数可以被3整除。

正如我们可以通过分解质因数来发现整数的一些内在性质,我们也可以通过分解矩阵来发现矩阵表示成数组元素时不明显的函数性质。

特征分解 (eigendecomposition)是使用最广的矩阵分解之一,即我们将矩阵分解成一组特征向量和特征值。

方阵 A 特征向量 (eigenvector)是指与 A 相乘后相当于对该向量进行缩放的非零向量ν:

其中标量λ称为这个特征向量对应的特征值 (eigenvalue)。(类似地,我们也可以定义左特征向量 (left eigenvector)

,但是通常我们更关注右特征向量 (right eigenvector))。

如果 ν A 的特征向量,那么任何缩放后的向量

也是 A 的特征向量。此外, ν 有相同的特征值。基于这个原因,通常我们只考虑单位特征向量。

假设矩阵 A 有n个线性无关的特征向量

,对应着特征值

。我们将特征向量连接成一个矩阵,使得每一列是一个特征向量:

。类似地,我们也可以将特征值连接成一个向量

。因此 A 特征分解 (eigendecomposition)可以记作

我们已经看到了构建具有特定特征值和特征向量的矩阵,能够使我们在目标方向上延伸空间。然而,我们也常常希望将矩阵分解 (decompose)成特征值和特征向量。这样可以帮助我们分析矩阵的特定性质,就像质因数分解有助于我们理解整数。

不是每一个矩阵都可以分解成特征值和特征向量。在某些情况下,特征分解存在,但是会涉及复数而非实数。我们通常只需要分解一类有简单分解的矩阵。具体来讲,每个实对称矩阵都可以分解成实特征向量和实特征值:

其中 Q A 的特征向量组成的正交矩阵, Λ 是对角矩阵。特征值Λ i,i 对应的特征向量是矩阵 Q 的第i列,记作 Q :,i 。因为 Q 是正交矩阵,我们可以将 A 看作沿方向 ν (i) 延展λ i 倍的空间,如图3所示。

图3 特征向量和特征值的作用效果。特征向量和特征值的作用效果的一个实例。在这里,矩阵 A 有两个标准正交的特征向量,对应特征值为λ 1 的 ν (1) 以及对应特征值为λ 2 的 ν (2) 。(左)我们画出了所有单位向量

​的集合,构成一个单位圆。(右)我们画出了所有 Au 点的集合。通过观察 A 拉伸单位圆的方式,我们可以看到它将 ν (i) 方向的空间拉伸了λ i

虽然任意一个实对称矩阵 A 都有特征分解,但是特征分解可能并不唯一。如果两个或多个特征向量拥有相同的特征值,那么在由这些特征向量产生的生成子空间中,任意一组正交向量都是该特征值对应的特征向量。因此,我们可以等价地从这些特征向量中构成 Q 作为替代。按照惯例,我们通常按降序排列Λ的元素。在该约定下,特征分解唯一,当且仅当所有的特征值都是唯一的。

矩阵的特征分解给了我们很多关于矩阵的有用信息。矩阵是奇异的,当且仅当含有零特征值。实对称矩阵的特征分解也可以用于优化二次方程

,其中限制

。当 x 等于 A 的某个特征向量时,f将返回对应的特征值。在限制条件下,函数f的最大值是最大特征值,最小值是最小特征值。

所有特征值都是正数的矩阵称为正定 (positive definite);所有特征值都是非负数的矩阵称为半正定 (positive semidefinite)。同样地,所有特征值都是负数的矩阵称为负定 (negative definite);所有特征值都是非正数的矩阵称为半负定 (negative semidefinite)。半正定矩阵受到关注是因为它们保证

。此外,正定矩阵还保证

八、奇异值分解

我们探讨了如何将矩阵分解成特征向量和特征值。还有另一种分解矩阵的方法,称为奇异值分解 (singular value decomposition,SVD),是将矩阵分解为奇异向量 (singular vector)和奇异值 (singular value)。通过奇异值分解,我们会得到一些与特征分解相同类型的信息。然而,奇异值分解有更广泛的应用。每个实数矩阵都有一个奇异值分解,但不一定都有特征分解。例如,非方阵的矩阵没有特征分解,这时我们只能使用奇异值分解。

回想一下,我们使用特征分解去分析矩阵 A 时,得到特征向量构成的矩阵 V 和特征值构成的向量 λ ,我们可以重新将 A 写作

奇异值分解是类似的,只不过这回我们将矩阵 A 分解成三个矩阵的乘积:

假设 A 是一个m×n的矩阵,那么 U 是一个m×m的矩阵, D 是一个m×n的矩阵, V 是一个n×n矩阵。

这些矩阵中的每一个经定义后都拥有特殊的结构。矩阵 U V 都定义为正交矩阵,而矩阵 D 定义为对角矩阵。注意,矩阵 D 不一定是方阵。

对角矩阵 D 对角线上的元素称为矩阵 A 奇异值 (singular value)。矩阵 U 的列向量称为左奇异向量 (left singular vector),矩阵 V 的列向量称右奇异向量 (right singular vector)。

事实上,我们可以用与 A 相关的特征分解去解释 A 的奇异值分解。 A 左奇异向量 (left singular vector)是

的特征向量。 A 右奇异向量 (right singular vector)是

的特征向量。 A 的非零奇异值是

特征值的平方根,同时也是

特征值的平方根。

SVD最有用的一个性质可能是拓展矩阵求逆到非方矩阵上。

九、Moore-Penrose伪逆

对于非方矩阵而言,其逆矩阵没有定义。假设在下面的问题中,我们希望通过矩阵 A 的左逆 B 来求解线性方程:

等式两边左乘左逆B后,我们得到

取决于问题的形式,我们可能无法设计一个唯一的映射将 A 映射到 B

如果矩阵 A 的行数大于列数,那么上述方程可能没有解。如果矩阵 A 的行数小于列数,那么上述矩阵可能有多个解。

Moore-Penrose伪逆 (Moore-Penrose pseudoinverse)使我们在这类问题上取得了一定的进展。矩阵 A 的伪逆定义为

计算伪逆的实际算法没有基于这个定义,而是使用下面的公式

其中,矩阵 U、D V 是矩阵 A 奇异值分解后得到的矩阵。对角矩阵 D 的伪逆 D + 是其非零元素取倒数之后再转置得到的。

当矩阵 A 的列数多于行数时,使用伪逆求解线性方程是众多可能解法中的一种。特别地,

是方程所有可行解中欧几里得范数

最小的一个。

当矩阵 A 的行数多于列数时,可能没有解。在这种情况下,通过伪逆得到的 x 使得 Ax y 的欧几里得距离

最小。

十、迹运算

迹运算返回的是矩阵对角元素的和:

迹运算因为很多原因而有用。若不使用求和符号,有些矩阵运算很难描述,而通过矩阵乘法和迹运算符号可以清楚地表示。例如,迹运算提供了另一种描述矩阵Frobenius范数的方式:

用迹运算表示表达式,我们可以使用很多有用的等式巧妙地处理表达式。例如,迹运算在转置运算下是不变的:

多个矩阵相乘得到的方阵的迹,和将这些矩阵中的最后一个挪到最前面之后相乘的迹是相同的。当然,我们需要考虑挪动之后矩阵乘积依然定义良好:

或者更一般地,

即使循环置换后矩阵乘积得到的矩阵形状变了,迹运算的结果依然不变。例如,假设矩阵

,矩阵

,我们可以得到

尽管

另一个有用的事实是标量在迹运算后仍然是它自己:a=Tr(a)。

十一、行列式

行列式,记作det( A ),是一个将方阵 A 映射到实数的函数。行列式等于矩阵特征值的乘积。行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少。如果行列式是0,那么空间至少沿着某一维完全收缩了,使其失去了所有的体积;如果行列式是1,那么这个转换保持空间体积不变。

标签: #n元线性方程组n指的是行还是列