降维(Dimensionality Reduction) - 服务器托管|北京服务器租用|机房托管租用|IDC托管租用|机房机柜带宽租用-价格及费用咨询

一、动机一：数据压缩

这节我将开始谈论第二种类型的无监督学习问题，称为降维。有几个原因使我们可能想要做降维，其一是数据压缩，它不仅允许我们压缩数据使用较少的计算机内存或磁盘空间，而且它可以加快我们的学习算法。首先，让我们知道降维是什么：

假设我们有两个未知的特征：：长度，用厘米表示；：用英寸表示同一物体的长度，所以这明显是高度冗余，因而我们希望将这个二维的数据降至一维，如下图：

下面的这个例子中我们要将一个三维的特征向量降至成一个二维的特征向量，过程与上面是类似的，我们将三维向量投射到一个二维的平面上

这样的处理过程可以被用于把任何维度的数据降到任何想要的维度，例如将1000维的特征降至100维

二、动机二：数据可视化

在许多机器学习问题中，如果我们能将数据可视化，我们便能寻找到一个更好的解决方案，降维可以帮助我们。

假使我们有许多不同国家的数据，每一个特征向量都有50个特征（如，GDP，人均GDP，平均寿命等）。如果要将这个50维的数据可视化是不可能的，使用降维的方法将其降至2维，我们便可以将其可视化了。

这样做的问题在于降维的算法只负责减少维数，新产生的特征的意义就必须由我们自己去定义了

三、主成分分析问题

主成分分析（PCA）是最常见的降维算法，在PCA中我们要做的是找到一个方向向量（Vector direction），当我们把所有的数据都投射到该向量上时，我们希望投射误差尽可能地小。方向向量是一个经过原点的向量，而投射误差是从特征向量向该方向向量作垂线的长度

主成分分析问题的描述：要将n维数据降至k维，目标是找到向量，使得总的投射误差最小

主成分分析与线性回归的比较：

①主成分分析最小化的是投射误差（Projected Error），而线性回归最小化的是预测误差

②线性回归的目的是预测结果，而主成分分析服务器托管网不作任何预测

左边的是线性回归的误差（垂直于横轴投影），右边是主成分分析的误差（垂直于红线投影）

PCA将n个特征降维到k个，可以用来进行数据压缩，如果100维的向量最后可以用10维来表示，那么压缩率为90%，但PCA 要保证降维，还要保证数据的特性损失最小

PCA技术的一大好处是对数据进行降维的处理，我们可以对新求出的主元向量的重要性进行排序，根据需要取前面最重要的部分，将后面的维数省去，可以达到降维从而简化模型或是对数据进行压缩的效果，同时最大程度的保持了原有数据的信息

PCA技术另一个很大的优点是它是完全无参数限制的，在PCA的计算过程中完全不需要人为的设定参数或是根据任何经验模型对计算进行干预，最后的结果只与数据相关，与用户是独立的。但是这一点同时也可以看作是缺点，如果用户对观测对象有一定的先验知识，掌握了数据的一些特征却无法通过参数化等方法对处理过程进行干预，可能会得不到预期的效果，效率也不高。

四、主成分分析算法

数据预处理

PCA 从n维减少到k维：

第一步是均值归一化，如上图所示

第二步是计算协方差矩阵（covariance matrix）：

第三步是计算协方差矩阵的特征向量（eigenvectors）:

在 Octave 里我们可以利用奇异值分解（singular value decomposition）来求解，[U, S, V]= svd(sigma)