书海网短评:
帮你构筑数据科学的逻辑思维,帮你找到数据科学的入门钥匙 作为认知科学的延伸,数据科学一方面应该越来越引起广大大数据工作者的重视,另一方面也要撩开自己的神秘面纱,以尤为亲民的姿态和每位
帮你构筑数据科学的逻辑思维,帮你找到数据科学的入门钥匙
作为认知科学的延伸,数据科学一方面应该越来越引起广大大数据工作者的重视,另一方面也要撩开自己的神秘面纱,以尤为亲民的姿态和每位大数据工作者成为亲密无间的战友,为用科学的思维方式进行工作做好理论准备。《数据科学家养成手册》从众多先贤及科学家的轶事讲起,以逐步归纳和递进的脉络总结出科学及数据科学所应关注的要点,然后在生产的各个环节中对这些要点逐一进行讨论与落实,从更高、更广的视角回看科学及数据科学在各个生产环节的缩影。《数据科学家养成手册》并不以高深的数学理论研究作为目的,也不以某一种计算机语言编程作为主线脉络,而是在一个个看似孤立的故事与工程中不断拾遗,并试着从中悟出一些道理。
《数据科学家养成手册》适合大数据从业人员和对大数据相关知识感兴趣的人,初级和中级程序员、架构师及希望通过对数据的感知改进工作的人,产品经理、运营经理、数据分析师、数据库开发工程师等对数据分析工作敏感的人,以及所有对数据科学感兴趣并希望逐步深入了解数据科学知识体系的人阅读。
高扬,北京邮电大学计算机专业毕业,重庆工商大学管理科学与工程专业硕士研究生事业导师。10年以上IT行业工作经验,3年海外工作经验。2010年后一直专注于数据库、大数据、数据挖掘、机器学习、人工智能等相关领域的研究。曾在金山软件西山居任大数据架构师,负责大数据平台构架与搭建。现任欢聚时代资深大数据专家,负责大数据、深度学习等基础技术与理论研究和实际产品的结合。
在大数据时代,招式纯熟(编程技术强)的“攻城狮”要跻身一流高手行列,缺的就是内功心法(数据科学概念和方法)。这本别开生面的数据科学书,正是你苦觅不得的心法——关键还很好看,历史人文典故和数据公式融合,读来全无枯燥之感。
驭势科技联合创始人、CEO吴甘沙
数据科学让我们越来越多地观察到人类社会复杂的行为模式。数据科学家需要激情与耐心,他们具备商业头脑和数据素养,拥有获取数据、理解统计和机器学习的算法实现、通过软件编程解决实际问题的能力,为决策支持提供有效沟通的数据思维和数据洞察力。这是一个值得付出时间和精力的职业领域,相信这《数据科学家养成手册》是您实践梦想的开始。
中国传媒大学新闻学院教授、博导,中国市场研究行业协会会长沈浩
在理想年代,读书的少年都想成为科学家,互联网浪潮奔涌,又都想当创业大牛,而未来是数据驱动的智能时代,数据科学家将独领风骚。这《数据科学家养成手册》里既有对科学史的追溯和思辨,又有对数据科学领域相关知识深入浅出的讲解,是非常难得的普及读物,更是开启新时代的一把钥匙。
饿了么北京研发中心总经理史海峰
数据科学是在我们工作的方方面面都发挥着作用的基础学科。用科学的眼光看待数据、收集数据、分析数据,用科学的眼光审视数据、解读数据,是未来每个人都应该具备的能力。这《数据科学家养成手册》通俗易懂,以小见大,适合绝大多数接触数据岗位的人员阅读。
云技术社区创始人肖力
认知篇
第1章什么是科学家2
1.1从太阳东升西落开始2
1.1.1农历2
1.1.2公历5
1.1.3小结7
1.2阿基米德爱洗澡?7
1.3托勒密的秘密10
1.4牛顿为什么那么牛11
1.4.1苹果和三大定律11
1.4.2极限和微积分12
1.5高斯——高,实在是高15
1.6离经叛道的爱因斯坦17
1.7本章小结20
第2章什么是科学23
2.1科学之科23
2.2边界的迷茫23
2.3科学之殇26
2.4本章小结27
第3章数据与数学28
3.1什么是数据28
3.2数学的奥妙29
3.2.1《几何原本》29
3.2.2《九章算术》30
3.2.3高等数学34
3.3本章小结37
第4章数据科学的使命38
4.1走近数据科学38
4.1.1介质38
4.1.2从信息到数据41
4.1.3数据科学的本质43
4.2万能的数据科学44
4.2.1测量44
4.2.2统计计算47
4.2.3指标52
4.3使命必达53
4.3.1高效生产53
4.3.2破除迷信56
4.3.3目标一致与不一致57
4.4本章小结58
第5章矛盾的世界59
5.1古希腊——学者高产的国度59
5.2矛盾无处不在61
5.3世界究竟是否可知63
5.4薛定谔的“喵星人”64
5.5本章小结66
第6章实验和哲学68
6.1朴素的认知方法68
6.1.1眼见为实69
6.1.2归纳与总结70
6.2哲学靠谱吗71
6.3数学的尽头是哲学72
6.4本章小结73
第7章辩证思维74
7.1要不要辩证有多大区别74
7.2谁对谁错76
7.3做到客观不容易77
7.4观念的存弭79
7.5本章小结82
分化篇
第8章统计学86
8.1数理统计鼻祖—阿道夫·凯特勒86
8.2统计就是统共合计88
8.3数据来源90
8.4抽样91
8.5对照实验91
8.6误差94
8.6.1抽样误差94
8.6.2非抽样误差96
8.7概括性度量97
8.7.1集中趋势度量98
8.7.2离散程度度量100
8.7.3小结100
8.8概率与分布100
8.8.1数学期望102
8.8.2正态分布103
8.8.3其他分布106
8.9统计学与大数据107
第9章信息论109
9.1模拟信号109
9.2信息量与信息熵110
9.3香农公式111
9.4数字信号112
9.5编码与压缩113
9.5.1无损压缩114
9.5.2有损压缩117
9.6本章小结126
第10章混沌论127
10.1洛伦兹在想什么128
10.2罗伯特·梅的养鱼计划129
10.3有限的大脑,无限的维130
10.4谋杀上帝的拉普拉斯132
10.5庞加莱不是省油的灯134
10.6未知居然还能做预测137
10.7本章小结137
第11章算法学139
11.1离散的世界139
11.2成本的度量142
11.3穷举法——暴力破解143
11.4分治法——化繁为简152
11.5回溯法——能省则省154
11.6贪心法——局部最优155
11.7迭代法——步步逼近156
11.7.1牛顿法157
11.7.2梯度下降法158
11.7.3遗传算法159
11.8机器学习——自动归纳161
11.8.1非监督学习162
11.8.2监督学习164
11.8.3强化学习176
11.9神经网络——深度学习178
11.9.1神经元178
11.9.2BP神经网络180
11.9.3损失函数181
11.9.4非线性分类183
11.9.5激励函数187
11.9.6卷积神经网络189
11.9.7循环神经网络191
11.9.8小结194
11.10本章小结195
实践篇
第12章数据采集198
12.1数据的源头198
12.2日志收集199
12.2.1实时上传200
12.2.2延时上传203
12.2.3加密问题204
12.2.4压缩问题205
12.2.5连接方式206
12.2.6消息格式208
12.2.7维度分解210
12.3这只是不靠谱的开始211
12.4本章小结212
第13章数据存储213
13.1读写不对等213
13.1.1读多写少214
13.1.2读少写多214
13.1.3读写都多215
13.2进快还是出快216
13.2.1最快写入216
13.2.2读出最快218
13.3文件还是数据库218
13.4要不要支持事务219
13.5表分区和索引221
13.5.1表分区222
13.5.2索引222
13.6稳定最重要225
13.7安全性和副本226
13.7.1RAID226
13.7.2软冗余228
13.8本章小结229
第14章数据统计230
14.1此“统计”恐非彼“统计”230
14.2要精确还是要简洁234
14.3统计是万能的吗235
14.4注意性能237
14.5本章小结238
第15章数据建模239
15.1模型是宝贵的财富240
15.2量化是关键241
15.3该算法出马了241
15.3.1统计学模型242
15.3.2线性关系243
15.3.3复杂的非线性关系243
15.4算法的哲学244
15.5本章小结245
第16章数据可视化与分析247
16.1看得见,摸得着247
16.2颜色很重要247
16.3别说布局没有用249
16.3.1由上而下,由简而繁249
16.3.2总-分,分-总,总-分-总251
16.3.3毗邻吸引252
16.4有图就别要表格253
16.5分析的内涵254
16.5.1相关性分析255
16.5.2预测分析256
16.5.3其他分析257
16.6有趣的统计应用257
16.6.1不规则图形的面积258
16.6.2套出你的实话258
16.6.3巧测圆周率259
16.7仁者见仁,智者见智260
16.8永恒的困惑261
16.9本章小结263
第17章数据决策264
17.1决策就是“拍脑袋”264
17.2哪里有物质,哪里就有数据265
17.2.1目的的统一265
17.2.2数据胜于雄辩266
17.3这是风险博弈267
17.3.1性价比优先267
17.3.2小迭代至上268
17.3.3不要“输不起”268
17.3.4留得青山在269
17.4本章小结270
第18章案例分析272
18.1K线图里的秘密272
18.1.1什么是市场273
18.1.2谁在控制价格273
18.1.3货币价格的形成276
18.1.4零和博弈277
18.1.5涨跌都盈利278
18.1.6价格的预测279
18.1.7形态280
18.1.8K线图周期282
18.1.9造市商与点差283
18.1.10科学分析284
18.1.11小结317
18.2数学能救命317
18.2.1阴云下的大西洋317
18.2.2护航船队的救星318
18.2.3数学家的天下324
18.2.4小结324
18.3人人都能运筹帷幄325
第19章与《数据科学家养成手册》相关内容的问与答326
后记333
附录A335
A.1VMwareWorkstation的安装335
A.1.1VMware简介335
A.1.2安装准备工作335
A.2CentOS虚拟机的安装338
A.2.1下载DVD镜像338
A.2.2创建VMware虚拟机338
A.3Ubuntu虚拟机的安装344
A.4Python语言简介350
A.4.1安装Python350
A.4.2HelloPython350
A.4.3行与缩进350
A.4.4变量类型351
A.4.5循环语句352
A.4.6函数353
A.4.7模块354
A.4.8小结354
A.5Scikit-learn库简介355
A.6安装Theano356
A.7安装Keras356
A.8安装MySQL357
A.9安装MySQL-Python驱动358
A.10MT4平台简介359
参考文献363
序
十几二十年前,读书是学习新技术的不二法门。当时如果要学习一门技术,都需要买上几本“砖头书”,一边阅读,一边动手,一页一页“啃”下来。很多在今天叱咤风云的高手,当年都是用这种方式打下基础的。
最近几年,技术学习的方式发生了深刻的变化,大量的在线视频课程、交互式学习环境、开箱即用的工具箱,使技术学习的效率大幅度提升,特别是在动手能力方面,培训效率有了质的飞跃。最近一年,受人工智能领域突破性进展的鼓舞,机器学习和数据科学成为技术圈中的显学,而在线学习成为主流的学习方式。在这种情况下,大批学习者仅仅看过一些视频教程,按要求在JupyterNotebook中做过一些练习,就基本具备动手解决问题的能力,可以上岗了。
这当然很好。但是,倘若你想在某一个领域取得真知,读书仍然是不可或缺的手段。中国信息安全领域的领军人物冯登国院士曾经说,以他的经验,想要真的搞懂某一个领域,非得深入“啃”至少一《数据科学家养成手册》不可。读书的效率相对于听课、看视频要低得多,而多维的知识体系通过单维的文字表达出来,也给理解带来了挑战。然而,唯其有这种挑战,才需要读者进入深度思考状态,使读书成为一个推敲、琢磨、设问和破解的过程。不经过这个过程,我们所学到的知识一般来说只能是浮于表面的,很难达到“知其然知其所以然”的高度。正因如此,我们已经开始发现,仅通过在线视频和动手练习的学习者,对于相关领域的理论掌握经常是肤浅的。可以说,到目前为止,读书作为一种学习手段,依然是其他方式无法取代的。
机器学习和数据科学领域有几本非常重要的著作,每一个有野心的学习者都应该选择至少一本深入研究。ChristopherBishop于2006年出版的PatternRecognitionandMachineLearning,KevinMurphy2012年的巨著MachineLearning:AProbabilisticPerspective,斯坦福大学两位机器学习泰斗TrevorHastie和RobertTibshirani及其学生合著的AnIntroductiontoStatisticalLearning,当然还有IanGoodfellow和YoshuaBengio最近出版的DeepLearning——称这几《数据科学家养成手册》为这个领域的“四书五经”,应该没有争议。
但是,这几《数据科学家养成手册》有一个共同的问题——都是按照教材的体例编写的,所以都是尽全力系统化地介绍知识,对这个领域丰富多彩的应用、历史、人文和故事却很少展开论述。而要成为一名数据科学家,仅有知识和动手能力是不够的,还需要有相应的素养,这包括特有的思维方式、价值观,对相关历史背景和掌故的了解,以及对数据科学社区的认知和互动——这恰恰是《数据科学家养成手册》的价值。
作者把数据科学放在一个更广阔的背景之中,从数学、统计学、方法论甚至认知论的层面出发,讨论数据科学的内涵和外延,内容丰富,旁征博引,语言生动,灵活有趣,帮助读者站在一个更丰富的势场中认识数据科学,理解数据科学的基本思想。尤为令人欣喜的是,作者将信息论、混沌理论纳入讨论之中,表明作者敏锐地注意到数据科学与系统科学和认识论的深层联系,这是难能可贵的。从这个角度来解说数据科学的书,应该说是中国首本,即使在全球范围内也是独具特色的。为此,我们愿意向读者推荐《数据科学家养成手册》,并相信读者一定能从中获得非常有价值的启发。
CSDN、AI100创始人蒋涛
AI100合伙人孟岩
为什么要写这《数据科学家养成手册》
随着计算机科学和数据科学的发展,越来越多的人开始把目光投向其中最为耀眼的互联网、物联网、大数据、人工智能等高新技术领域,并且有相当多的高级技术人才已经在这些领域获得了令人瞩目的成就。
在追逐信息技术发展浪潮的过程中,数据科学成为人们在信息技术海洋中遨游所沉淀下来的理论与科学基础。我们都渴望通过对数据科学的理解来对生产工作进行指导和改善,这种工作的意义与其他各种在信息技术产业一线工作所创造价值的意义一样非比寻常。它给我们更广的辩证思考的空间,更高的观察事物的眼界,更多的自新的维度与动力。它是那么神秘且有趣。
数据科学到今天已经渗透到我们每个人的工作和生活之中。在你早上起来赶公车或者地铁的时候,你其实正在享受由数据科学辅助进行的精确调度服务;在你阅读工作报表的时候,你其实正在享受由数据科学辅助进行的大数据统计服务;在你吃午餐的时候,你其实正在享受由数据科学辅助进行的外卖快餐数据分发或食堂菜品改良服务;当你晚上回到家,在网上尽情购物的时候,你其实正在享受由数据科学辅助进行的高效电子商务和智能推荐服务。驾车出行有智能导航,就医问药有分诊机器人……也许你的家人或者朋友现在就在自己的工作岗位上,作为一名普通的销售人员、产品经理、人力资源师、售后服务人员、商务代表等,通过数据决策系统、数据库甚至电子表格来观察数据,做出判断,开展工作。数据科学给我们带来的红利已经紧紧把我们包围。
这《数据科学家养成手册》绝无说教的想法,而是希望以书为媒,用谈天说地的方式,以激发每个人的思考为主要手段,归纳总结数据科学的实质及成就一位数据科学家所需要的基本素养。
遗憾的是,越是基础性、本源性的学科,与变成现实利益的距离也就越远,让人觉得似乎不够实惠,不够亲近。至少读完这《数据科学家养成手册》没办法帮你直接在第二天变出米饭、房子和汽车。不过我认为,楼房再高再漂亮,也需要人们看不到的深厚地基来支持;花儿再芬芳再娇艳,也需要在土壤之下吮吸养分的丰富根系来供能。这些看不到的东西,往往起着我们无法想象的巨大作用,而这才是我希望与你一同讨论并思考的。
我们热爱生活,我们热爱所做的工作,我们希望在不断的攀登中看到更深更远的世界并去伪存真。那就让我们在点点滴滴的知识片段中一起开始慢慢思索、细细揣摩这一养成过程吧。
《数据科学家养成手册》特色
《数据科学家养成手册》从众多先贤及科学家的轶事开始讲起,以逐步归纳和递进的脉络总结出科学及数据科学所应关注的要点,然后在生产的各个环节中对这些要点逐一进行讨论与落实,将这《数据科学家养成手册》变成一本具有一定思维升华价值的参考书,从更高、更广的视角回看科学及数据科学在各个生产环节的缩影。
《数据科学家养成手册》并不以高深的数学理论研究作为目的,也不以某一种计算机语言编程作为主线脉络,而是在一个个看似孤立的故事与工程中不断拾遗,并试着从中悟出一些道理。
简洁与深刻并重是《数据科学家养成手册》的另一大特点。作为认知科学的延伸,数据科学一方面应该越来越引起广大大数据工作者的重视,另一方面也要撩开自己的神秘面纱,以最为亲民的姿态和每位大数据工作者成为亲密无间的战友,为用科学的思维方式进行工作做好理论准备。
读者对象
(1)大数据从业人员和对大数据相关知识感兴趣的人。
(2)初级和中级程序员、架构师,以及希望通过对数据的感知改进工作的人。
(3)产品经理、运营经理、数据分析师、数据库开发工程师等对数据分析工作敏感的人。
(4)希望在思维方式领域进行拓展的高校毕业生和希望接触并了解数据科学的社会人员。
(5)所有对数据科学感兴趣并希望逐步深入了解数据科学知识体系的人。
如何阅读《数据科学家养成手册》
《数据科学家养成手册》分为3篇,分别是认知篇、分化篇和实践篇。
认知篇(第1章~第7章)
归纳了什么是科学,数据科学的范围、定义与实践价值,以及辩证思维、哲学和实验的关系等问题。这些是认知观点的基石。
分化篇(第8章~第11章)
重点介绍了数据科学中与现代社会各行业联系最为紧密的统计学、信息论、算法学,另外把混沌论作为一个知识点进行了补充。这些是认知观点在不同细分学科中所形成的一些具体解决问题的思维方式和科学观点。
实践篇(第12章~第18章)
沿着数据生命周期进行演进。任何行业的数据生命周期都是按照采集、存储、统计与建模、算法、可视化与分析、决策支持的沿革来进行的,本篇对各个环节的注意事项和思维方式都做了详细的讨论,并在第18章介绍了两个具体的数据分析案例。
在《数据科学家养成手册》的最后,补充了过去与同行们讨论过的,并在会议演讲及日常分享的过程中总结出来的一些精彩问答。
如果你希望读完这《数据科学家养成手册》后能够在数学方面有很大的提升,在工程代码能力方面有巨大的进步,这《数据科学家养成手册》恐怕帮不上什么大忙。但我相信,在读完这《数据科学家养成手册》后,你会在一些以前并不熟知的领域有所了解和感悟,并逐步完善理解和分析问题的视角。如果你不是数据研究人员,也可以把这《数据科学家养成手册》当成一个休闲读本。这《数据科学家养成手册》里既没有太多的公式,也没有太过高深的理论,有的只是我在和你攀谈的过程中与你一起发现的新视角。
特别致谢
感谢绘麟社相辉先生和李晓林女士对《数据科学家养成手册》的插画助力。
参加《数据科学家养成手册》编写工作的有高扬、卫峥、左妍、尹会生、杨艺、陈钢、肖力。
勘误和支持
由于作者的水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。如果您有更多的宝贵意见,欢迎扫描本页的二维码,关注“奇点大数据”微信公众号与我们进行互动讨论。《数据科学家养成手册》后续的代码上传及勘误等相关更新内容都会在这个微信公众号发布。关注大数据尖端技术发展,关注奇点大数据。
同时,您也可以通过邮箱77232517@qq.com与我联系,期待能够得到您的真挚反馈,在技术之路上互勉共进。
高扬
2017年1月于珠海









