第十章 降维与度量学习

10.1 k近邻学习(KNN)

核心思想:对于测试样本,基于距离度量来找出训练集中与其最近的几个样本,然后根据邻居信息来预测,一般使用投票法(分类)或者平均法(回归),也可加权(根据距离)。

懒惰学习的杰出代表,仅仅只是保存训练样本,没有显式地训练。

Untitled

理论上,虽然KNN简单,但是性能上的泛化错误率不会超过贝叶斯最优分类器的两倍。

10.2 低维嵌入【略】

10.3 主成分分析(PCA)

主成分分析主要用于降维,还可用于去噪。对于降维,可以理解为这么一个问题:如何用超平面对所有样本进行恰当的表达?具有以下性质:

  • 最近重构性:样本点到超平面的距离都足够近
  • 最大可分性:样本点到超平面上的投影都尽量分开

考虑这两个性质,都可以推导出相同的结果。

最近重构性【略】

最大可分性

样本点x到新空间中投影为$W^Tx$,如果要使样本点尽量分开,则样本点的方差应该最大化。

Untitled

协方差矩阵为:

优化目标可改写为:

使用拉格朗日乘子法:

也就是求解左边的特征值。

具体来说:求解特征值,然后按照特征值的大小进行排序,选取前d个特征值即可。

Untitled

10.4 核化线性降维【略】