第一章 绪论

Untitled

1.1 引言

1.2 基本术语

  • 数据集

    样本的集合。每个样本可以是一个事件或对象的描述。

  • 属性、特征

    反映事件或者对象某方面的表现或性质

  • 属性空间、样本空间

    属性张成的空间,如果有三个属性,那么就是三维坐标系

  • 特征向量

    每个样本都可以在样本空间中找到自己的坐标向量,长度称为维数

  • 训练、学习

    从数据中学得模型。

    训练过程中试用的数据称为训练数据,每一个样本称为训练样本,训练样本组成的集合称为训练集

  • 输出空间、标记空间

    预测的结果的集合

1.2.1 几个比较重要的概念

  • 分类和回归

    分类任务用于预测离散值

    回归任务用于预测连续值

  • 监督学习无监督学习

    训练数据是否拥有标记信息。

    其中分类和回归是监督学习的代表,聚类是无监督学习的代表。

  • 泛化能力

    学习的模型适用于新样本的能力

    机器学习的目标是使得模型能够很好地适用于“新样本”,而不仅仅是训练样本

  • 独立同分布

    假设样本空间中全体样本服从一个未知“分布”,我们获得的每个样本都是独立地从这个分布上采样获得的

1.3 假设空间

  • 归纳与演绎

    归纳:从具体事实中归结出一般性规律,从特殊到一般的“泛化”过程。

    演绎:从基础原理推演出具体状况,从一般到特殊的“特化”过程。

  • 归纳学习

    “从样例从学习”显然是一个归纳的过程

1.4 归纳偏好

  • (归纳)偏好

    机器学习算法在学习过程中对某种类型假设的偏好。

  • 奥卡姆剃刀

    若有多个假设与观察一致,则选择最简单的那个。

  • NFL定理(天下没有免费的午餐)

    脱离具体的问题,空谈什么算法最好没有意义。

    在考虑所有潜在的问题时的期望值都相同。

1.5 发展历程

二十世纪五十年代到七十年代初期,处于推理期。

赋予机器人推理能力,“逻辑推理家”程序出现。但是慢慢发现仅有推理能力实现不了人工智能。

七十年代中期开始,进入了知识期。

大量专家系统开始问世,但是后来专家们希望机器能够自己学习知识多好。

八十年代,“从样例中学习”(广义归纳学习),研究最多,应用最广。

涵盖了监督学习和无监督学习,也是本书的主要内容

这一时期的一大主流是符号主义学习,包括决策树和基于逻辑的学习(ILP)。

九十年代中期以前,另一主流技术是基于神经网络的连结主义学习。

其实连结主义在五十年代中后期就已经取得了大发展,但是由于许多人工智能学者偏爱符号主义。当时也有巨大问题,连异或问题无法处理

1986年发明了BP算法,产生了深远影响。

局限性:连结主义是黑箱模型。最大的是试错性,学习过程涉及大量参数,参数的设置也缺乏理论指导,主要靠手工调参。

九十年代中期,“统计学习”闪亮登场占据主流,代表技术是支持向量机,以及更为一般的核方法。

二十一世纪初,连接主义卷土重来。由于数据规模大了,计算能力变强了。

虽然缺乏严格的理论指导,但是降低了机器学习应用者的门槛。

1.6 应用现状