<track id="DLXUXBr"></track>
  • <track id="DLXUXBr"></track>

        <track id="DLXUXBr"></track>

        1. 欢迎来到自拍视频网!

          自拍视频

          你想看的都在这里
          自拍视频
          当前位置:

          【机器学习】降维——PCA(非常详细)

          来源:樱井莉亚 时间:04-27 08:25:05浏览2529次

          我们看出 A 与 B 的内积等于 A 到 B 的投影长度乘以 B 的模。

          如果假设 B 的模为 1,即让 ,那么就变成了:

          也就是说,A 与 B 的内积值等于 A 向 B 所在直线投影的标量大小。

          这就是内积的一种几何说明,也是我们得到的第一个主要结论。在后面的推导中,将重复应用这个结论。

          1.2 基

          在我们常说的坐标系种,向量 (3,2) 其实隐式引入了一个定义:以 x 轴和 y 轴上正方向长度为 1 的向量为尺度。向量 (3,2) 实际是说在 x 轴投影为 3 而 y 轴的投影为 2。注意投影是一个标量,所以可认为负。

          所以,对于向量 (3, 2) 来说,如果我们想求它在 这组基下的坐标的话,分辨内积即可。当然,内积完了还是 (3, 2)。

          所以,我们大致可以得到一个结论,我们要正确描写向量,首先要断定一组基,然后给出在基所在的各个直线上的投影值,就可以了。为了便利求坐标,我们盼望这组基向量模长为 1。因为向量的内积运算,当模长为 1 时,内积可以直接表现投影。然后还须要这组基是线性无关的,我们一般用正交基,非正交的基也是可以的,不过正交基有较好的性质。

          1.3 基变换的矩阵表现

          这里我们先做一个练习:对于向量 (3,2) 这个点来说,在 这组基下的坐标是多少?

          我们拿 (3,2) 分辨与之内积,得到 这个新坐标。

          我们可以用矩阵相乘的情势简练的表现这个变换:

          左边矩阵的两行分辨为两个基,乘以原向量,其成果刚好为新基的坐标。推广一下,如果我们有 m 个二维向量,只要将二维向量按列排成一个两行 m 列矩阵,然后用“基矩阵”乘以这个矩阵就可以得到了所有这些向量在新基下的值。例如对于数据点 来说,想变换到刚才那组基上,则可以这样表现:

          我们可以把它写成通用的表现情势:

          其中 是一个行向量,表现第 i 个基, 是一个列向量,表现第 j 个原始数据记载。实际上也就是做了一个向量矩阵化的操作。

          上述剖析给矩阵相乘找到了一种物懂得释:两个矩阵相乘的意义是将右边矩阵中的每一列向量 变换到左边矩阵中以每一行行向量为基所表现的空间中去。也就是说一个矩阵可以表现一种线性变换。

          2. 最大可分性

          上面我们讨论了选择不同的基可以对同样一组数据给出不同的表现,如果基的数量少于向量本身的维数,则可以到达降维的后果。

          但是我们还没答复一个最要害的问题:如何选择基才是最优的。或者说,如果我们有一组 N 维向量,现在要将其降到 K 维(K 小于 N),那么我们应当如何选择 K 个基才干最大水平保存原有的信息?

          一种直观的见解是:盼望投影后的投影值尽可能疏散,因为如果重叠就会有样本消散。当然这个也可以从熵的角度进行懂得,熵越大所含信息越多。

          2.1 方差

          我们知道数值的疏散水平,可以用数学上的方差来表述。一个变量的方差可以看做是每个元素与变量均值的差的平方和的均值,即:

          为了便利处置,我们将每个变量的均值都化为 0 ,因此方差可以直接用每个元素的平方和除以元素个数表现:

          于是上面的问题被情势化表述为:寻找一个一维基,使得所有数据变换为这个基上的坐标表现后,方差值最大。

          2.2 协方差

          在一维空间中我们可以用方差来表现数据的疏散水平。而对于高维数据,我们用协方差进行束缚,协方差可以表现两个变量的相干性。为了让两个变量尽可能表现更多的原始信息,我们盼望它们之间不存在线性相干性,因为相干性意味着两个变量不是完整独立,必定存在反复表现的信息。

          协方差公式为:

          由于均值为 0,所以我们的协方差公式可以表现为:

          当样本数较大时,不必在意其是 m 还是 m-1,为了便利盘算,我们分母取 m。

          当协方差为 0 时,表现两个变量完整独立。为了让协方差为 0,我们选择第二个基时只能在与第一个基正交的方向上进行选择,因此最终选择的两个方向必定是正交的。

          2020 年 12 月 15 日弥补:协方差为 0 时,两个变量只是线性不相干。完整独立是有问题的,才疏学浅,还望见谅。)

          至此,我们得到了降维问题的优化目的:将一组 N 维向量降为 K 维,其目的是选择 K 个单位正交基,使得原始数据变换到这组基上后,各变量两两间协方差为 0,而变量方差则尽可能大(在正交的束缚下,取最大的 K 个方差)。

          2.3 协方差矩阵

          针对我们给出的优化目的,接下来我们将从数学的角度来给出优化目的。

          我们看到,最终要到达的目标与变量内方差及变量间协方差有亲密关系。因此我们盼望能将两者统一表现,细心察看发明,两者均可以表现为内积的情势,而内积又与矩阵相乘亲密相干。于是我们有:

          假设我们只有 a 和 b 两个变量,那么我们将它们按行组成矩阵 X:

          然后:

          我们可以看到这个矩阵对角线上的分辨是两个变量的方差,而其它元素是 a 和 b 的协方差。两者被统一到了一个矩阵里。

          我们很容易被推广到一般情形:

          设我们有 m 个 n 维数据记载,将其排列成矩阵 ,设 ,则 C 是一个对称矩阵,其对角线分辨对应各个变量的方差,而第 i 行 j 列和 j 行 i 列元素雷同,表现 i 和 j 两个变量的协方差

          2.4 矩阵对角化

          依据我们的优化条件,我们须要将除对角线外的其它元素化为 0,并且在对角线上将元素按大小从上到下排列(变量方差尽可能大),这样我们就到达了优化目标。这样说可能还不是很明晰,我们进一步看下原矩阵与基变换后矩阵协方差矩阵的关系。

          设原始数据矩阵 X 对应的协方差矩阵为 C,而 P 是一组基按行组成的矩阵,设 Y=PX,则 Y 为 X 对 P 做基变换后的数据。设 Y 的协方差矩阵为 D,我们推导一下 D 与 C 的关系:

          这样我们就看明白了,我们要找的 P 是能让原始协方差矩阵对角化的 P。换句话说,优化目的变成了寻找一个矩阵 P,满足 是一个对角矩阵,并且对角元素按从大到小依次排列,那么 P 的前 K 行就是要寻找的基,用 P 的前 K 行组成的矩阵乘以 X 就使得 X 从 N 维降到了 K 维并满足上述优化条件

          至此,我们离 PCA 还有仅一步之遥,我们还须要完成对角化。

          由上文知道,协方差矩阵 C 是一个是对称矩阵,在线性代数中实对称矩阵有一系列非常好的性质:

        2. 实对称矩阵不同特点值对应的特点向量必定正交。
        3. 设特点向量 重数为 r,则必定存在 r 个线性无关的特点向量对应于 ,因此可以将这 r 个特点向量单位正交化。
        4. 由上面两条可知,一个 n 行 n 列的实对称矩阵必定可以找到 n 个单位正交特点向量,设这 n 个特点向量为 ,我们将其按列组成矩阵:

          则对协方差矩阵 C 有如下结论:

          其中 为对角矩阵,其对角元素为各特点向量对应的特点值(可能有反复)。

          到这里,我们发明我们已经找到了须要的矩阵 P:

          P 是协方差矩阵的特点向量单位化后按行排列出的矩阵,其中每一行都是 C 的一个特点向量。如果设 P 依照 中特点值的从大到小,将特点向量从上到下排列,则用 P 的前 K 行组成的矩阵乘以原始数据矩阵 X,就得到了我们须要的降维后的数据矩阵 Y。

          2.5 弥补

          (1) 拉格朗日乘子法

          在叙述求协方差矩阵对角化时,我们给出盼望变更后的变量有:变量间协方差为 0 且变量内方差尽可能大。然后我们通过实对称矩阵的性质给予了推导,此外我们还可以把它转换为最优化问题应用拉格朗日乘子法来给予推导。

          我们知道样本点 在基 w 下的坐标为: ,于是我们有方差:

          我们看到 就是原样本的协方差,我们另这个矩阵为 ,于是我们有:

          .

          然后结构拉格朗日函数:

          对 w 求导:

          此时我们的方差为:

          于是我们发明,x 投影后的方差就是协方差矩阵的特点值。我们要找到最慷慨差也就是协方差矩阵最大的特点值,最佳投影方向就是最大特点值所对应的特点向量,次佳就是第二大特点值对应的特点向量,以此类推。

          至此我们完成了基于最大可分性的 PCA 数学证明

          (2) 最近重构性

          以上的证明思路重要是基于最大可分性的思想,通过一条直线使得样本点投影到该直线上的方差最大。除此之外,我们还可以将其转换为线型回归问题,其目的是求解一个线性函数使得对应直线能够更好地拟合样本点聚集。这就使得我们的优化目的从方差最大转化为平方误差最小,因为映射距离越短,丧失的信息也会越小。差别于最大可分性,这是从最近重构性的角度进行论证。

          3. 求解步骤

          总结一下 PCA 的算法步骤:

          设有 m 条 n 维数据。

        5. 将原始数据按列组成 n 行 m 列矩阵 X;
        6. 将 X 的每一行进行零均值化,即减去这一行的均值;
        7. 求出协方差矩阵
        8. 求出协方差矩阵的特点值及对应的特点向量;
        9. 将特点向量按对应特点值大小从上到下按行排列成矩阵,取前 k 行组成矩阵 P;
        10. 即为降维到 k 维后的数据。
        11. 4. 性质

        12. 缓解维度灾害:PCA 算法通过舍去一部分信息之后能使得样本的采样密度增大(因为维数下降了),这是缓解维度灾害的主要手腕;
        13. 降噪:当数据受到噪声影响时,最小特点值对应的特点向量往往与噪声有关,将它们舍弃能在必定水平上起到降噪的后果;
        14. 过拟合:PCA 保存了重要信息,但这个重要信息只是针对训练集的,而且这个重要信息未必是主要信息。有可能舍弃了一些看似无用的信息,但是这些看似无用的信息恰好是主要信息,只是在训练集上没有很大的表示,所以 PCA 也可能加剧了过拟合;
        15. 特点独立:PCA 不仅将数据紧缩到低维,它也使得降维之后的数据各特点相互独立;
        16. 5. 细节

          5.1 零均值化

          当对训练集进行 PCA 降维时,也须要对验证集、测试集履行同样的降维。而对验证集、测试集履行零均值化操作时,均值必需从训练集盘算而来,不能应用验证集或者测试集的中心向量。

          其原因也很简略,因为我们的训练集时可观测到的数据,测试集不可观测所以不会知道其均值,而验证集再大部分情形下是在处置完数据后再从训练集中分别出来,一般不会单独处置。如果真的是单独处置了,不能独自求均值的原因是和测试集一样。

          另外我们也须要保证一致性,我们拿训练集训练出来的模型用来预测测试集的前提假设就是两者是独立同散布的,如果不能保证一致性的话,会呈现 Variance Shift 的问题。

          5.2 与 SVD 的对照

          这是两个不同的数学定义。我们先给结论:特点值和特点向量是针对方阵才有的,而对任意形状的矩阵都可以做奇怪值分解

          PCA:方阵的特点值分解,对于一个方针 A,总可以写成:

          其中,Q 是这个矩阵 A 的特点向量组成的矩阵, 是一个对角矩阵,每一个对角线元素就是一个特点值,里面的特点值是由小排列的,这些特点值所对应的特点向量就是描写这个矩阵变更方向(从重要的变更到次要的变更排列)。也就是说矩阵 A 的信息可以由其特点值和特点向量表现。

          SVD:矩阵的奇怪值分解其实就是对于矩阵 A 的协方差矩阵 做特点值分解推导出来的:

          其中:U V 都是正交矩阵,有 。这里的约等于是因为 中有 n 个奇怪值,但是由于排在后面的很多接近 0,所以我们可以仅保存比拟大的 k 个奇怪值。

          所以,V U 两个矩阵分辨是 的特点向量,中间的矩阵对角线的元素是 的特点值。我们也很容易看出 A 的奇怪值和 的特点值之间的关系。

          PCA 须要对协方差矩阵 。进行特点值分解; SVD 也是对 进行特点值分解。如果取 则两者基础等价。所以 PCA 问题可以转换成 SVD 求解。

          而实际上 Sklearn 的 PCA 就是用 SVD 进行求解的,原因有以下几点:

        17. 当样本维度很高时,协方差矩阵盘算太慢;
        18. 方阵特点值分解盘算效力不高;
        19. SVD 除了特点值分解这种求解方法外,还有更高效更准球的迭代求解方法,避免了 的盘算;
        20. 其实 PCA 与 SVD 的右奇怪向量的紧缩后果雷同。
        21. 6. 参考

        22. 《机器学习》周志华
        23. PCA 的数学原理
        24. Singular Value Decomposition (SVD) tutorial
        25. 机器学习中的数学(4)——线性判别剖析(LDA), 主成分剖析(PCA)
        26. 从SVD到PCA——巧妙的数学游戏
        27. 分享到:

          请输入搜索内容

          最新标签

          NEWSTAGS