《机器学习》周志华 第一章 绪论
第一章 绪论
1.1 引言
1.2 基本术语
数据集
样本的集合。每个样本可以是一个事件或对象的描述。
属性、特征
反映事件或者对象某方面的表现或性质
属性空间、样本空间
属性张成的空间,如果有三个属性,那么就是三维坐标系
特征向量
每个样本都可以在样本空间中找到自己的坐标向量,长度称为维数
训练、学习
从数据中学得模型。
训练过程中试用的数据称为训练数据,每一个样本称为训练样本,训练样本组成的集合称为训练集
输出空间、标记空间
预测的结果的集合
1.2.1 几个比较重要的概念
分类和回归
分类任务用于预测离散值
回归任务用于预测连续值
监督学习和无监督学习
训练数据是否拥有标记信息。
其中分类和回归是监督学习的代表,聚类是无监督学习的代表。
泛化能力
学习的模型适用于新样本的能力
机器学习的目标是使得模型能够很好地适用于“新样本”,而不仅仅是训练样本
独立同分布
假设样本空间中全体样本服从一个未知“分布”,我们获得的每个样本都是独立地从这个分布上采样获得的
1.3 假设空间
归纳与演绎
归纳:从具体事实中归结出一般性规律,从特殊到一般的“泛化”过程。
演绎:从基础原理推演出具体状况,从一般到特殊的“特化”过程。
归纳学习
“从样例从学习”显然是一个归纳的过程
1.4 归纳偏好
(归纳)偏好
机器学习算法在学习过程中对某种类型假设的偏好。
奥卡姆剃刀
若有多个假设与观察一致,则选择最简单的那个。
NFL定理(天下没有免费的午餐)
脱离具体的问题,空谈什么算法最好没有意义。
在考虑所有潜在的问题时的期望值都相同。
1.5 发展历程
二十世纪五十年代到七十年代初期,处于推理期。
赋予机器人推理能力,“逻辑推理家”程序出现。但是慢慢发现仅有推理能力实现不了人工智能。
七十年代中期开始,进入了知识期。
大量专家系统开始问世,但是后来专家们希望机器能够自己学习知识多好。
八十年代,“从样例中学习”(广义归纳学习),研究最多,应用最广。
涵盖了监督学习和无监督学习,也是本书的主要内容
这一时期的一大主流是符号主义学习,包括决策树和基于逻辑的学习(ILP)。
九十年代中期以前,另一主流技术是基于神经网络的连结主义学习。
其实连结主义在五十年代中后期就已经取得了大发展,但是由于许多人工智能学者偏爱符号主义。当时也有巨大问题,连异或问题无法处理
1986年发明了BP算法,产生了深远影响。
局限性:连结主义是黑箱模型。最大的是试错性,学习过程涉及大量参数,参数的设置也缺乏理论指导,主要靠手工调参。
九十年代中期,“统计学习”闪亮登场占据主流,代表技术是支持向量机,以及更为一般的核方法。
二十一世纪初,连接主义卷土重来。由于数据规模大了,计算能力变强了。
虽然缺乏严格的理论指导,但是降低了机器学习应用者的门槛。