《机器学习导论（原书第2版）》

书海网短评：
适读人群：人工智能领域机器学习方向及相关方向高年级本科生或低年级研究生，以及机器学习相关专业研究人员和工程师通过提供实用的建议、采用直观的例子和对相关应用进行有意义的探讨，本书以一种易于理解的方式介绍了机器学习的一些

编辑推荐

适读人群：人工智能领域机器学习方向及相关方向高年级本科生或低年级研究生，以及机器学习相关专业研究人员和工程师

通过提供实用的建议、采用直观的例子和对相关应用进行有意义的探讨，《机器学习导论（原书第2版）》以一种易于理解的方式介绍了机器学习的一些基础性概念。主要内容包括贝叶斯分类器、近邻分类器、线性与多项式分类器、决策树、神经网络和支持向量机。《机器学习导论（原书第2版）》后面几章展示了如何以“提升（Boosting）”的方式将这些简单的工具组织起来、怎样将它们应用于更加复杂的领域以及如何处理各种高难度的实际问题。有一章还专门介绍了非常流行的遗传算法。

内容简介

《机器学习导论》是一本浅显易懂的机器学习入门教材，它以理论与实际相结合的方式全面地涵盖了主流的机器学习理论与技术。《机器学习导论（原书第2版）》共17章，介绍了贝叶斯分类器、近邻分类器、线性与多项式分类器、人工神经网络、决策树、基于规则集的分类器、遗传算法等经典的机器学习方法，对计算学习理论、性能评估、统计显著性等进行了讨论。讲解了集成学习、多标签学习、无监督学习和强化学习等重要的机器学习领域。《机器学习导论（原书第2版）》还通过大量的应用实例，阐述了机器学习技术的许多应用技巧。每章结尾对相关机器学习工作都进行了历史简评，并附有练习、思考题和上机实验。

作者简介

MiroslavKubat美国迈阿密大学教授，从事机器学习教学和研究超过25年。他已发表100余篇经过同行评审的论文，与人合编了两本著作，是近60个会议和研讨会的委员会委员，并担任3本学术刊物的编委。他在两个方面的前沿研究上得到了广泛赞誉：时变概念的归纳学习和在非平衡训练集上的学习。此外，在多标签样例上的归纳学习、层次组织的类别上的归纳学习、遗传算法、神经网络的初始化等问题上，他也做出了很多贡献。

王勇，西安交通大学博士，中国海洋大学信息学院计算机系副教授，硕士生导师，软件工程教研室主任，海大惠普软件实验室主任，中国计算机学会会员、IEEE会员。主要从事软件工程、软件过程度量与管理、大数据、统计分析、机器学习与数据挖掘等领域的研究。2011-2012年间在美国南佛罗里达大学做访问学者。近年来主持或参与包括国家自然科学基金在内的研究课题多项，在包括IEEETransactions、计算机学报等在内的期刊和会议发表论文多篇。担任美国Taylor&Francis出版集团《EncyclopediaofSoftwareEngineering》审稿人，JournalofInternetTechnology、BritishJournalofAppliedScience&Technology、《电子学报》审稿人。有十余年行业软件开发经验。

译者序
原书前言
第1章　一个简单的机器学习任务//1
1.1　训练集和分类器//1
1.2　题外话：爬山搜索//4
1.3　机器学习中的爬山法//6
1.4　分类器的性能//8
1.5　可用数据的困难//9
1.6　小结和历史简评//11
1.7　巩固知识//11
第2章　概率：贝叶斯分类器//14
2.1　单属性的情况//14
2.2　离散属性值的向量//17
2.3　稀少事件的概率：利用专家的直觉//20
2.4　如何处理连续属性//23
2.5　高斯钟形函数：一个标准的pdf//24
2.6　用高斯函数的集合近似pdf//26
2.7　小结和历史简评//30
2.8　巩固知识//30
第3章　相似性：最近邻分类器//32
3.1　k近邻法则//32
3.2　度量相似性//34
3.3　不相关属性与尺度缩放问题//36
3.4　性能方面的考虑//39
3.5　加权最近邻//413.6　移除危险的样例//42
3.7　移除多余的样例//44
3.8　小结和历史简评//46
3.9　巩固知识//46
第4章　类间边界：线性和多项式分类器//49
4.1　本质//49
4.2　加法规则：感知机学习//51
4.3　乘法规则：WINNOW//55
4.4　多于两个类的域//58
4.5　多项式分类器//60
4.6　多项式分类器的特殊方面//62
4.7　数值域和SVM//63
4.8　小结和历史简评//65
4.9　巩固知识//66
第5章　人工神经网络//69
5.1　作为分类器的多层感知机//69
5.2　神经网络的误差//72
5.3　误差的反向传播//73
5.4　多层感知机的特殊方面//77
5.5　结构问题//79
5.6　RBF网络//81
5.7　小结和历史简评//83
5.8　巩固知识//84
第6章　决策树//86
6.1　作为分类器的决策树//86
6.2　决策树的归纳学习//89
6.3　一个属性承载的信息//91
6.4　数值属性的二元划分//94
6.5　剪枝//96
6.6　将决策树转换为规则//99
6.7　小结和历史简评//101
6.8　巩固知识//101
第7章　计算学习理论//104
7.1　PAC学习//104
7.2　PAC可学习性的实例//106
7.3　一些实践和理论结果//108
7.4　VC维与可学习性//110
7.5　小结和历史简评//112
7.6　巩固知识//112
第8章　典型案例//114
8.1　字符识别//114
8.2　溢油检测//117
8.3　睡眠分类//119
8.4　脑机界面//121
8.5　医疗诊断//124
8.6　文本分类//126
8.7　小结和历史简评//127
8.8　巩固知识//128
第9章　投票组合简介//130
9.1　“Bagging”方法//130
9.2　“Schapire’sBoosting”方法//132
9.3　“Adaboost”方法：“Boosting”方法的实用版本//134
9.4　“Boosting”方法的变种//138
9.5　该方法的计算优势//139
9.6　小结和历史简评//141
9.7　巩固知识//141
第10章　了解一些实践知识//143
10.1　学习器的偏好//143
10.2　不平衡训练集//145
10.3　语境相关域//148
10.4　未知属性值//150
10.5　属性选择//152
10.6　杂项//154
10.7　小结和历史简评//155
10.8　巩固知识//156
第11章　性能评估//158
11.1　基本性能标准//158
11.2　精度和查全率//160
11.3　测量性能的其他方法//163
11.4　学习曲线和计算开销//166
11.5　实验评估的方法//167
11.6　小结和历史简评//169
11.7　巩固知识//170
第12章　统计显著性//173
12.1　总体抽样//173
12.2　从正态分布中获益//176
12.3　置信区间//178
12.4　一个分类器的统计评价//180
12.5　另外一种统计评价//182
12.6　机器学习技术的比较//182
12.7　小结和历史简评//184
12.8　巩固知识//185
第13章　多标签学习//186
13.1　经典机器学习框架下的多标签
问题//186
13.2　单独处理每类数据的方法：二元相关法//188
13.3　分类器链//190
13.4　另一种方法：层叠算法//191
13.5　层次有序类的简介//192
13.6　类聚合//194
13.7　分类器性能的评价标准//196
13.8　小结和历史简评//198
13.9　巩固知识//199
第14章　无监督学习//202
14.1　聚类分析//202
14.2　简单算法：k均值//204
14.3　k均值的高级版//207
14.4　分层聚集//209
14.5　自组织特征映射：简介//211
14.6　一些重要的细节//213
14.7　为什么要特征映射//214
14.8　小结和历史简评//215
14.9　巩固知识//216
第15章　规则集形式的分类器//218
15.1　由规则描述的类别//218
15.2　通过序列覆盖归纳规则集//220
15.3　谓词与循环//222
15.4　更多高级的搜索算子//224
15.5　小结和历史简评//225
15.6　巩固知识//225
第16章　遗传算法//227
16.1　基本遗传算法//227
16.2　个体模块的实现//229
16.3　为什么能起作用//231
16.4　过早退化的危险//233
16.5　其他遗传算子//234
16.6　高级版本//235
16.7　kNN分类器的选择//237
16.8　小结和历史简评//239
16.9　巩固知识//240
第17章　强化学习//241
17.1　如何选出最高奖励的动作//241
17.2　游戏的状态和动作//243
17.3　SARSA方法//245
17.4　小结和历史简评//245
17.5　巩固知识//246
参考文献//247

前言/序言

　　机器学习已走向成熟。如果读者觉得只是说说而已，请允许我做些解释。
　　人们希望机器某一天能够自己学习，这个梦想几乎在计算机出现时就有了，也许更早。不过，长久以来，这仅仅是一个想象而已。Rosenblatt感知机的提出曾经掀起过一股热潮，但是现在回想起来，这股热潮没能持续很长的时间。至于接下来的尝试，使情况发展得更糕，这个领域甚至没有再引起人们的注意，长期被忽视，无法取得重大突破，也没有这一类的软件公司，后续研究寥寥无几并且得到的资金支持也不多。这个阶段，机器学习一直不被看好，像进入休眠一样，在其他成功学科的阴影里生存。
　　接下来一切都改变了。
　　一群有识之士指出，在20世纪70年代的人工智能领域，基于知识的系统曾经风靡一时，但它们有一个弱点：“知识”从哪里来？当时主流的观点认为，应该让工程师和领域专家合作，用if-then的形式表示出来。但是实际情况差强人意，专家们发现很难把掌握的知识表达给工程师。反过来，工程师也不知道该问什么问题以及如何表示答案。尽管有几个广为人知的成功案例，但是其他大多数研究都试图建立知识库，并且成千上万的规则令人沮丧。
　　这些有识之士主张简单和直接的操作。如果难以准确地告诉机器如何处理某个问题，为什么不间接地给出指令，让计算机通过例子来学习—对，就是学习—所需要的技能？
　　当然，这必须要有能够进行学习的算法才有意义，这是主要的困难。结果发现无论是Rosenblatt感知机还是后来出现的技术都不太管用。然而机器学习技术的缺乏不是障碍，相反是一个挑战，并激发出了很多绝妙的点子。其中使计算机有学习能力这个想法开创了一个激动人心的新领域，并引起了世人的关注。
　　这一想法在1983年爆发了。一卷很厚的论文集——《机器学习：人工智能的方法》提出了各种方法来解决这个巨大的问题。在它的影响下，几乎一夜之间一个新的学科诞生了。3年后，后续著作一本接一本地出现。相关学术刊物也很快被创立，有着巨大影响力的年度学术会议相继召开。几十或许是几百篇博士论文完成并通过答辩。
　　早期阶段，问题不仅是如何学习，而是学什么和为什么学。这段充满创造力的岁月让人难以忘怀。唯一有些遗憾的是很多非常好的想法后来被放弃了。实用主义占了上风，资源都被投向那些最有希望的方向。经过一段时间的发展，具体研究基本成形：知识系统if-then规则的归纳、分类归纳、程序基于经验来提高技能、Prolog程序自动调优以及其他方面。相关的研究方向非常多，一些知名学者希望通过写书引领未来的发展，这其中有些人做得很成功。
　　机器学习发展的一个重要的转折点是TomMitchell的传奇教科书。该书向博士生和科学家们总结了该领域的发展现状，慢慢地大学也用这《机器学习导论（原书第2版）》作为研究生的教材。同时，研究方法也变得更加系统化。大量机器学习测试库被建立起来，用于比较性能或者学习算法的优劣。统计评估方法也被广泛地使用在评估过程中。相关流行程序的公开版本很容易获得，从事这个学科的人数增至数千甚至更多。
　　现在，到了很多大学都为本科生开设机器学习课程的阶段，通常这些课程需要不同类型的教材。除了掌握基本技术以外，学生还需要了解不同方法的优点和缺点，以及不同情况下每种方法的独特之处。最重要的是，他们需要理解在特定情况下，哪些技术是可行的，哪些是不可行的。只有这样才能在解决具体问题时做出正确的选择。一本教材除了满足以上各项要求外，还应该少讲一些数学概念，多包括一些实用的建议。
　　关于教材，还要考虑材料的多少、结构以及风格，以便能够支持一个学期的导论课程。
　　第一个问题是材料的选择。当高科技公司准备成立机器学习研究团队时，大学就要向学生传授相关的知识和技能，以及对行业当前需求的理解。为此，《机器学习导论（原书第2版）》重点介绍了贝叶斯分类器、最近邻分类器、线性和多项式分类器、决策树、神经网络的基础以及提升（Boosting）算法的原理。《机器学习导论（原书第2版）》很大篇幅用来描述具体应用的典型特征。在现实中，当把基本技术用于真正有难度的任务上时，它们的表现可能和老师在课上的简单演示不完全一样。学生应对此有所了解。
　　《机器学习导论（原书第2版）》共包括17章，每章覆盖一个专题。各章分成很多节，每节介绍一个关键问题。建议学生在做完每一节后面的2~4个问题后再学习下一节。这些问题用来帮助检查对学习材料的掌握情况。如果不会做这些题，有必要重新阅读相关内容。
　　俗话说熟能生巧。每章结尾安排了必要的练习用于实际操作。如果接下来的思考、实验能够全部完成，将有助于更深入理解所学内容的各个方面。不过这些实验难度较大，只有付出很大努力才能获得正确的理解。所学的知识在上机实验中可被进一步巩固。编程对于学习同样重要。现在，人们都习惯从网上下载所需的程序，这是捷径，但《机器学习导论（原书第2版）》不建议这样做。因为只有强迫自己实现了程序的全部细节，才能领会《机器学习导论（原书第2版）》机器学习技术的精妙之处。
　　

译者序

目前，人类已经进入了智能信息时代。以机器学习为核心的人工智能技术正在推动着各个领域的发展，比如机器人、智能手机、物联网、数据挖掘等。机器学习这一学科融合了计算机科学、统计学、最优化理论和神经计算学等多个学科的精华，以学习数据内在结构和其中蕴藏的规律性知识为目标，如果说数据是矿藏资源，那无疑机器学习就是发掘资源价值的生产工具。而现在，几乎每个学科，包括社会科学领域，都在不停地产生数据，这也就是机器学习得以快速发展和普及的缘由。
　　《机器学习导论（原书第2版）》翻译自MiroslavKubat所撰写的一本入门级的机器学习教材。Kubat现在是美国迈阿密大学电子与计算机工程系的副教授，也是机器学习和人工智能方面的专家。《机器学习导论（原书第2版）》几乎覆盖了机器学习所有的基本议题，比如贝叶斯分类器、决策树、神经网络、计算学习理论、集成学习、遗传算法和强化学习等，而且《机器学习导论（原书第2版）》特别强调学以致用，不仅希望学生能够掌握基本的机器学习技术，而且希望他们作为未来的工程师了解各种方法的优势与劣势，以适应工业界的需求。和其他机器学习图书相比，《机器学习导论（原书第2版）》最大的特点是浅显易懂，可很好地满足公众想了解机器学习基本原理的需求。另外，《机器学习导论（原书第2版）》的组织和选材适合作为本科生机器学习课程的教材。当然，《机器学习导论（原书第2版）》也可以作为一本参考书来使用。
　　《机器学习导论（原书第2版）》涉及的内容广泛，对一些没有标准译法的术语，尽量采用当前流行的译法，对可能产生歧义和重要的术语均附上了英文原文。翻译时力求忠于原著，并符合中文的表述习惯，翻译过程中进行了大量讨论。尽管如此，限于水平，不当之处和错误仍在所难免，恳请读者批评指正。
　　译　者
　　2018年6月10日