《Python数据科学导论：概念、技术与应用》

书海网短评：
适读人群：本书可被用于任何入门的数据科学课程。采用基于问题的方法来引入新概念对初学者来说是有帮助的。针对不同问题实现的代码解决方案对学生来说是一种很好的练习。而且，当学生面对更大的项目时，这些代码可以作为基准。《Py

编辑推荐

适读人群：《Python数据科学导论：概念、技术与应用》可被用于任何入门的数据科学课程。采用基于问题的方法来引入新概念对初学者来说是有帮助的。针对不同问题实现的代码解决方案对学生来说是一种很好的练习。而且，当学生面对更大的项目时，这些代码可以作为基准。

《Python数据科学导论：概念、技术与应用》已用于西班牙巴塞罗那大学“数据科学和大数据”课程。

《Python数据科学导论：概念、技术与应用》具有如下特色：
1)提供了许多基于真实世界数据的实际案例研究。
2)通过使用Python解决数据科学问题的实践经验来加深理解。
3)介绍了用于统计分析、机器学习、图像分析和并行编程的技术和工具。
4)回顾了数据科学的一系列应用，包括推荐系统和基于文本数据的情感分析。
5)在相关网站上提供了补充代码资源和数据（见《Python数据科学导论：概念、技术与应用》前言）。

内容简介

《Python数据科学导论：概念、技术与应用》介绍了新兴的、跨学科的数据科学领域的基础知识，内容易懂且经过课堂检验。
《Python数据科学导论：概念、技术与应用》涵盖了统计学和机器学习中的关键概念，图分析和并行编程的有用技术，以及数据科学在推荐系统、情感分析中的实际应用。
作为一本强调实用性的教科书，《Python数据科学导论：概念、技术与应用》为计算机科学、数学、统计学及其他工科的高年级本科生和低年级研究生提供了关于该领域基础内容的有趣介绍。
《Python数据科学导论：概念、技术与应用》也非常适合参加继续教育短期课程的专业人员和自学研究人员阅读。

作者简介

LauraIgual博士是巴塞罗那大学数学和计算机科学系的副教授。她于2000年获得西班牙瓦伦西亚大学的数学学位，并于2006年获得西班牙庞培法布拉大学的博士学位。她的研究领域包括计算机视觉、医学成像、机器学习和数据科学。

SantiSeguí博士是巴塞罗那大学数学和计算机科学系的助理教授。自2007年起，他担任了西班牙巴塞罗那自治大学的计算机科学工程师。他于2011年获得西班牙巴塞罗那大学的博士学位。他的研究领域包括计算机视觉、应用机器学习和数据科学。

章宗长博士，苏州大学特聘副教授，硕士生导师，网易人工智能研究顾问。2012年6月毕业于中国科学技术大学计算机应用技术专业，获工学博士学位。2010年10月-2011年10月在美国罗格斯大学计算机科学系做访问学者，2012年8-10月在华为诺亚方舟实验室担任研究工程师，2012年11月-2014年6月在新加坡国立大学计算学院从事博士后研究，2014年7月起在苏州大学工作。目前主要从事部分可观测马氏决策过程（POMDPs）、强化学习和多智能体系统理论等方面的研究。

精彩书评

《Python数据科学导论》包含数据科学中的很多热点主题，并提供了在真实数据上使用Python的有趣实例……《Python数据科学导论：概念、技术与应用》是对Python和数据科学参考书的有益补充。不仅是学生，应用型的数据科学家和工程师也能从《Python数据科学导论：概念、技术与应用》介绍的许多技术和实例中获益。

——ComputingReviews

《Python数据科学导论》是为初步地介绍概念、技术与方法而撰写的，这些促成了科学家与数据科学初的联系……因其叙述风格，我推荐本科生和研究生阅读《Python数据科学导论：概念、技术与应用》，结束语和参考文献为下一步进行特定主题的研究提供了指导。

——IrinaIoanaMohorianu，zbMATH，卷1365.62003

第2章　数据专家的工具箱//4
2.1　引言//4
2.2　为什么选择Python//4
2.3　数据专家的基本Python库//5
2.3.1　数值和科学计算：NumPy和SciPy//5
2.3.2　Scikit-learn：Python中的机器学习库//5
2.3.3　Pandas：Python数据分析库//5
2.4　数据科学生态系统的安装//6
2.5　集成开发环境//6
2.5.1　网络集成开发环境：Jupyter//7
2.6　数据专家从Python开始//7
2.6.1　读取//11
2.6.2　选择数据//13
2.6.3　筛选数据//14
2.6.4　筛选缺失的数据//15
2.6.5　处理数据//15
2.6.6　排序//19
2.6.7　分组数据//20
2.6.8　重排数据//21
2.6.9　对数据进行排名//22
2.6.10　绘图//23
2.7　小结//24

第3章　描述统计学//25
3.1　引言//25
3.2　数据准备//25
3.2.1　Adult数据集示例//26
3.3　探索性数据分析//28
3.3.1　汇总数据//28
3.3.2　数据分布//31
3.3.3　离群点的处理//33
3.3.4　测量不对称性：偏度和皮尔逊中值偏度系数//36
3.3.5　连续分布//38
3.3.6　核密度//39
3.4　估计//41
3.4.1　样本和估计均值、方差和标准记分//41
3.4.2　协方差、皮尔逊相关和斯皮尔曼秩相关//42
3.5　小结//44
参考文献//45

第4章　统计推断//46
4.1　引言//46
4.2　统计推断：频率论方法//46
4.3　测量估计的差异性//47
4.3.1　点估计//47
4.3.2　置信区间//50
4.4　假设检验//53
4.4.1　用置信区间检验假设//53
4.4.2　使用p值检验假设//55
4.5　效应E是真实的吗//57
4.6　小结//57
参考文献//58

第5章　监督学习//59
5.1　引言//59
5.2　问题//60
5.3　第一步//60
5.4　什么是学习？//69
5.5　学习曲线//70
5.6　训练、验证和测试//73
5.7　两种学习模型//76
5.7.1　学习三要素//76
5.7.2　支持向量机//77
5.7.3　随机森林//79
5.8　结束学习过程//80
5.9　商业案例//81
5.10　小结//83
参考文献//83

第6章　回归分析//84
6.1　引言//84
6.2　线性回归//84
6.2.1　简单线性回归//85
6.2.2　多元线性回归和多项式回归//90
6.2.3　稀疏模型//90
6.3　逻辑斯蒂回归//97
6.4　小结//99
参考文献//99

第7章　无监督学习//100
7.1　引言//100
7.2　聚类//100
7.2.1　相似度和距离//101
7.2.2　什么是一个好的聚类？定义衡量聚类质量的度量//101
7.2.3　聚类技术的分类标准//104
7.3　案例学习//113
7.4　小结//118
参考文献//119

第8章　网络分析//120
8.1　引言//120
8.2　图的基本定义//121
8.3　社交网络分析//122
8.3.1　NetworkX基础//122
8.3.2　实际案例：Facebook数据集//123
8.4　中心性//125
8.4.1　在图中绘制中心性//130
8.4.2　PageRank//132
8.5　自我网络//134
8.6　社区发现//138
8.7　小结//139
参考文献//139

第9章　推荐系统//140
9.1　引言//140
9.2　推荐系统如何工作？//140
9.2.1　基于内容的过滤//141
9.2.2　协作过滤//141
9.2.3　混合推荐系统//141
9.3　建模用户偏好//142
9.4　评估推荐系统//142
9.5　实际案例//143
9.5.1　MovieLens数据集//143
9.5.2　基于用户的协作过滤//145
9.6　小结//153
参考文献//153

第10章　用于情感分析的统计自然语言处理//154
10.1　引言//154
10.2　数据清洗//155
10.3　文本表示//158
10.3.1　二元组和n元组//163
10.4　实际案例//163
10.5　小结//168
参考文献//168

第11章　并行计算//169
11.1　引言//169
11.2　架构//170
11.2.1　入门指南//171
11.2.2　连接到集群（引擎）//171
11.3　多核编程//172
11.3.1　引擎的直接视图//172
11.3.2　引擎的负载均衡视图//175
11.4　分布式计算//176
11.5　实际应用：纽约出租车旅行//177
11.5.1　直接视图非阻塞方案//178
11.5.2　实验结果//180
11.6　小结//182
参考文献//182

前言/序言

《Python数据科学导论》的主题范围
在这个时代，来自不同领域的大量信息被收集和存储，其分析和价值提取已成为公司和社会普遍关注的课题之一。需要多学科团队共同设计方案来解决数据带来的新问题。计算机科学家、统计学家、数学家、生物学家、记者和社会学家以及其他许多人现在一起工作，以便从数据中提供知识。这个新的跨学科领域被称为数据科学（datascience）。
任何数据科学都涉及提出正确的问题、收集数据、清洗数据、生成假设、做出推断、可视化数据和评估解决方案等环节。

《Python数据科学导论》的组织和特点
《Python数据科学导论：概念、技术与应用》是对数据科学的概念、技术和应用的介绍。内容侧重于数据分析，涵盖统计学和机器学习的概念，图像分析技术和并行编程技术以及推荐系统或情感分析等应用。
《Python数据科学导论：概念、技术与应用》所有章节都通过使用真实数据的实际案例来阐述新概念。《Python数据科学导论：概念、技术与应用》使用了欧盟统计局、不同的社交网络以及MovieLens等公共数据库。有关数据的具体问题在每章中都有提出。这些问题的解决方案是使用Python编程语言实现的，并在代码框中进行了恰当的展示。这
使得读者可以通过解决问题来学习数据科学，做到举一反三。
《Python数据科学导论：概念、技术与应用》不打算涵盖整套数据科学方法，也不提供完整的参考文献。目前，数据科学是一个日益增长的新兴领域，因此我们鼓励读者使用网络中的关键词来寻找具体的方法和文献。

目标读者
《Python数据科学导论》面向高年级本科生和一年级的工科研究生。此外，《Python数据科学导论：概念、技术与应用》还面向参加继续教育短期课程的专业人员和来自不同领域的自学研究人员。
计算机科学、数学和统计学的基本知识是必需的。有Python代码编程背景学习起来会更轻松。但是，即使读者不熟悉Python，也不是问题，因为在短时间内掌握Python的基础知识是可行的。

材料的先前用途
《Python数据科学导论》所提供材料的一部分已用于巴塞罗那大学“数据科学和大数据”（DataScienceandBigData）的研究生课程。《Python数据科学导论：概念、技术与应用》所有的贡献者都参与了这门课程。

《Python数据科学导论》的使用建议
《Python数据科学导论：概念、技术与应用》可被用于任何入门的数据科学课程。采用基于问题的方法来引入新概念对初学者来说是有帮助的。针对不同问题实现的代码解决方案对学生来说是一种很好的练习。而且，当学生面对更大的项目时，这些代码可以作为基准。

配套资源
《Python数据科学导论》附带一套IPython笔记本，其中包含解决《Python数据科学导论：概念、技术与应用》实际案例所需的所有代码。笔记本可以在以下GitHub库中找到：https://github.com/DataScienceUB/introduction-datasciencepython-book。

致谢
我们感谢所有的贡献者：J.Vitriagrave;、E.Puertas、P.Radeva、O.Pujol、S.Escalera，L.Garrido和F.Dantí。

LauraIgual
SantiSeguiacute;
西班牙巴塞罗那　　

数据科学是一门新兴的学科，但它与我们的距离并非遥不可及，我们每时每刻都在使用数据科学产品。例如，微博通过网络分析向我们推荐可能感兴趣的人；淘宝通过推荐系统实现商品的精准展示；Facebook通过情感分析来预测美国大选的结果等。这些应用都是基于数

据科学来实现的。

人类社会正在步入智能时代，大数据是智能革命中不可或缺的驱动力。随着各行各业生成的数据越来越多，需要对海量数据进行有效的管理和利用，数据科学是在这种社会大背景下诞生的一门应用性学科。作者为了让更多人学会管理和利用数据而编写了《Python数据科学导论》。

在第1章，作者对数据科学的现状及《Python数据科学导论：概念、技术与应用》的使用方法进行了简要阐述。学习数据科学需要一定的理论基础。如果读者此前没接触过统计学和机器学习方面的内容，也不必担心。《Python数据科学导论：概念、技术与应用》在第3、4章及第5～7章分别对统计学和机器学习进行了概要介绍，涉及描述统计学、统计推断、监督学习、回归分析、无监督学习等主题，并结合实际案例来加深读者对这些知识的理解。

除了理论，学习数据科学离不开编程实践。《Python数据科学导论》的所有代码均使用Python语言编写。Python语言简洁优美、功能强大、可读性强，对初学者非常友好。在第2章，作者对常用的Python语言数据科学工具箱进行了介绍，包括NumPy、SciPy和Pandas等。但是《Python数据科学导论：概念、技术与应用》并没有讲解Python语言的基本语法，所以建议没有这方面编程经验的读者在学习《Python数据科学导论：概念、技术与应用》之前，先阅读一本入门书籍。

数据科学有广泛的应用场景。《Python数据科学导论：概念、技术与应用》在第8～10章分别介绍了网络分析、推荐系统和情感分析这些常见的数据科学应用。为满足数据科学对计算机性能的需求，第11章介绍了并行计算及性能优化方法。

《Python数据科学导论》既可作为数据科学初学者的入门书籍，也可作为高等院校相关专业学生的参考书。

由于译者水平有限，书中难免会出现错漏之处，恳请读者朋友批评指正。

译者于苏州大学