书海网短评:
科大讯飞和百分点资深大数据专家实践经验结晶,秉承老庄哲学,从开发、数据分析、计算、管理和性能优化等多角度系统、深度地讲解了Spark的核心技术与高级应用 上善若水,水善利万物而不争。数
科大讯飞和百分点资深大数据专家实践经验结晶,秉承老庄哲学,从开发、数据分析、计算、管理和性能优化等多角度系统、深度地讲解了Spark的核心技术与高级应用
上善若水,水善利万物而不争。数据一如水,无色无味,非方非圆,以百态存于自然,于自然无违也。绵绵密密,微则无声,巨则汹涌;与人无争却又容纳万物。生活离不开水,同样离不开数据,我们被数据包围,在数据中生活。数据之道,水之道也。
Spark作为一个快速、通用的大规模数据处理引擎,凭借其可伸缩、基于内存计算等特点,以及可以直接读写HDFS上数据的优势,进行批处理时更加高效,并有更低的延迟,已经成为轻量级大数据快速处理的统一平台,集成SparkSQL、SparkStreaming、MLlib、GraphX、SparkR等子框架,可以提供一站式解决方案,让从业者的工作变得越来越便捷。
《Spark核心技术与高级应用》源于实践,又不囿于现有实践,以老庄哲学来探讨大数据的本质与应用,兼具高度与实用性。
阅读《Spark核心技术与高级应用》的可能受益:
爱好者——可加深对大数据生态环境发展趋势的理解,爱上大数据和Spark,开启日后探究之旅。
大数据开发人员——理解原理、编程思想、应用实现与技术优缺点。
大数据运维人员——了解Spark框架、编程思想与应用情况,保障运行环境稳定与资源的合理利用。
大数据科学家与算法研究者——深入理解原理与应用场景,降低学习成本,开启通往高阶之路的大门。
《Spark核心技术与高级应用》是Spark领域少有的专注于核心原理与深度应用的著作,由科大讯飞和百分点科技的4位大数据专家撰写。不仅细致介绍了Spark的程序开发、编程模型、作业执行解析等基础知识,而且还深度讲解了SparkSQL、SparkML、SparkStreaming等大量内部模块和周边模块的原理与使用。除此之外,还从管理和性能优化的角度对Spark进行了深入探索。
《Spark核心技术与高级应用》分为四大部分,共计20章:
基础篇(第1~10章),详细说明什么是Spark、Spark的重要扩展、Spark的部署和运行、Spark程序开发、Spark编程模型,以及Spark作业执行解析。通过阅读本篇,读者可以构建更加清晰的Spark基础知识体系,进一步加深对大数据核心技术的理解。
实战篇(第11~14章),《Spark核心技术与高级应用》重点篇章,重点讲解SparkSQL与DataFrame、SparkStreaming、SparkMLlib与SparkML、GraphX,以及基于以上内容在大数据分析、系统资源统计、LR模型、二级邻居关系图获取方面的实例。通过体察本篇的内容,读者可以掌握如何在实践中应用Spark,优化自身的应用场景,完善相应的解决方案。
高级篇(第15~18章),深入讲解Spark调度管理、存储管理、监控管理、性能调优。本篇的内容,为合理利用资源、有效进行资源监控、保障运行环境的稳定、平台性能调优、推进企业级的大数据平台管理提供了参考依据。
扩展篇(第19~20章),介绍Jobserver和Tachyon在Spark上的使用情况。通过本篇,延续基础、实战、高级等环节,并进一步扩展,更好地管理好Job、更有效地利用内存,为读者拓展出更深入、更全面的思路。
为了让读者从更高的角度认识与应用大数据,从《道德经》和《庄子》各精选10句,引导大家以老庄哲学的思考方式来认识大数据的内涵。《Spark核心技术与高级应用》不只是一本技术书,更是一本大数据哲学的思考之作。
于俊,
科大讯飞大数据专家,专注大数据Hadoop和Spark平台;主要工作是大数据统计分析和机器学习算法工程实现。
向海,
科大讯飞大数据专家,Spark爱好者,专注于大数据领域,现从事基于Spark的用户行为分析相关工作。
代其锋,
百分点科技大数据架构师,专注于分布式系统架构;主要工作是负责公司底层基础平台的建设和Spark技术的推广。
马海平,
科大讯飞大数据高级研究员,专注于用机器学习做大数据商业变现;主要工作是数据挖掘算法研究和Spark实现。
前 言
基 础 篇
第1章 Spark简介2
1.1 什么是Spark2
1.1.1 概述3
1.1.2 Spark大数据处理框架3
1.1.3 Spark的特点4
1.1.4 Spark应用场景5
1.2 Spark的重要扩展6
1.2.1 SparkSQL和DataFrame6
1.2.2 SparkStreaming7
1.2.3 SparkMLlib和ML8
1.2.4 GraphX8
1.2.5 SparkR9
1.3 本章小结10
第2章 Spark部署和运行11
2.1 部署准备11
2.1.1 下载Spark11
2.1.2 编译Spark版本12
2.1.3 集群部署概述14
2.2 Spark部署15
2.2.1 Local模式部署16
2.2.2 Standalone模式部署16
2.2.3 YARN模式部署18
2.3 运行Spark应用程序19
2.3.1 Local模式运行Spark应用程序19
2.3.2 Standalone模式运行Spark应用程序20
2.3.3 YARN模式运行Spark22
2.3.4 应用程序提交和参数传递23
2.4 本章小结26
第3章 Spark程序开发27
3.1 使用SparkShell编写程序27
3.1.1 启动SparkShell28
3.1.2 加载text文件28
3.1.3 简单RDD操作28
3.1.4 简单RDD操作应用29
3.1.5 RDD缓存30
3.2 构建Spark的开发环境30
3.2.1 准备环境30
3.2.2 构建Spark的Eclipse开发环境31
3.2.3 构建Spark的IntelliJIDEA开发环境32
3.3 独立应用程序编程40
3.3.1 创建SparkContext对象40
3.3.2 编写简单应用程序40
3.3.3 编译并提交应用程序40
3.4 本章小结43
第4章 编程模型44
4.1 RDD介绍44
4.1.1 RDD特征45
4.1.2 RDD依赖45
4.2 创建RDD47
4.2.1 集合(数组)创建RDD47
4.2.2 存储创建RDD48
4.3 RDD操作49
4.3.1 转换操作50
4.3.2 执行操作52
4.3.3 控制操作54
4.4 共享变量56
4.4.1 广播变量57
4.4.2 累加器57
4.5 本章小结58
第5章 作业执行解析59
5.1 基本概念59
5.1.1 Spark组件59
5.1.2 RDD视图60
5.1.3 DAG图61
5.2 作业执行流程62
5.2.1 基于Standalone模式的Spark架构62
5.2.2 基于YARN模式的Spark架构64
5.2.3 作业事件流和调度分析65
5.3 运行时环境67
5.3.1 构建应用程序运行时环境68
5.3.2 应用程序转换成DAG68
5.3.3 调度执行DAG图70
5.4 应用程序运行实例71
5.5 本章小结72
第6章 SparkSQL与DataFrame73
6.1 概述73
6.1.1 SparkSQL发展74
6.1.2 SparkSQL架构74
6.1.3 SparkSQL特点76
6.1.4 SparkSQL性能76
6.2 DataFrame77
6.2.1 DataFrame和RDD的区别78
6.2.2 创建DataFrame78
6.2.3 DataFrame操作80
6.2.4 RDD转化为DataFrame82
6.3 数据源84
6.3.1 加载保存操作84
6.3.2 Parquet文件85
6.3.3 JSON数据集88
6.3.4 Hive表89
6.3.5 通过JDBC连接数据库91
6.3.6 多数据源整合查询的小例子92
6.4 分布式的SQLEngine93
6.4.1 运行ThriftJDBC/ODBC服务93
6.4.2 运行SparkSQLCLI94
6.5 性能调优94
6.5.1 缓存数据94
6.5.2 调优参数94
6.5.3 增加并行度95
6.6 数据类型95
6.7 本章小结96
第7章 深入了解SparkStreaming97
7.1 基础知识97
7.1.1 SparkStreaming工作原理98
7.1.2 DStream编程模型99
7.2 DStream操作100
7.2.1 InputDStream100
7.2.2 DStream转换操作102
7.2.3 DStream状态操作104
7.2.4 DStream输出操作106
7.2.5 缓存及持久化107
7.2.6 检查点108
7.3 性能调优109
7.3.1 优化运行时间109
7.3.2 设置合适的批次大小111
7.3.3 优化内存使用111
7.4 容错处理112
7.4.1 文件输入源112
7.4.2 基于Receiver的输入源112
7.4.3 输出操作113
7.5 一个例子113
7.6 本章小结115
第8章 SparkMLlib与机器学习116
8.1 机器学习概述116
8.1.1 机器学习分类117
8.1.2 机器学习算法117
8.2 SparkMLlib介绍118
8.3 SparkMLlib库119
8.3.1 MLlib数据类型120
8.3.2 MLlib的算法库与实例123
8.4 ML库142
8.4.1 主要概念143
8.4.2 算法库与实例145
8.5 本章小结147
第9章 GraphX图计算框架与应用148
9.1 概述148
9.2 SparkGraphX架构149
9.3 GraphX编程150
9.3.1 GraphX的图操作152
9.3.2 常用图算法161
9.4 应用场景164
9.4.1 图谱体检平台164
9.4.2 多图合并工具165
9.4.3 能量传播模型165
9.5 本章小结166
第10章 SparkR(RonSpark)167
10.1 概述167
10.1.1 SparkR介绍168
10.1.2 SparkR的工作原理168
10.1.3 R语言介绍169
10.1.4 R语言与其他语言的通信170
10.2 安装SparkR170
10.2.1 安装R语言与rJava171
10.2.2 SparkR的安装171
10.3 SparkR的运行与应用示例172
10.3.1 运行SparkR172
10.3.2 SparkR示例程序173
10.3.3 R的DataFrame操作方法175
10.3.4 SparkR的DataFrame183
10.4 本章小结186
实 战 篇
第11章 大数据分析系统188
11.1 背景188
11.2 数据格式189
11.3 应用架构189
11.4 业务实现190
11.4.1 流量、性能的实时分析190
11.4.2 流量、性能的统计分析192
11.4.3 业务关联分析193
11.4.4 离线报表分析195
11.5 本章小结199
第12章 系统资源分析平台200
12.1 业务背景200
12.1.1 业务介绍201
12.1.2 实现目标201
12.2 应用架构201
12.2.1 总体架构202
12.2.2 模块架构202
12.3 代码实现203
12.3.1 Kafka集群203
12.3.2 数据采集207
12.3.3 离线数据处理207
12.3.4 数据表现207
12.4 结果验证213
12.5 本章小结214
第13章 在Spark上训练LR模型215
13.1 逻辑回归简介215
13.2 数据格式216
13.3 MLlib中LR模型源码介绍217
13.3.1 逻辑回归分类器217
13.3.2 优化方法219
13.3.3 算法效果评估221
13.4 实现案例223
13.4.1 训练模型223
13.4.2 计算AUC223
13.5 本章小结224
第14章 获取二级邻居关系图225
14.1 理解PageRank225
14.1.1 初步理解PageRank225
14.1.2 深入理解PageRank227
14.2 PageRank算法基于Spark的实现228
14.3 基于PageRank的二级邻居获取232
14.3.1 系统设计232
14.3.2 系统实现232
14.3.3 代码提交命令235
14.4 本章小结236
高 级 篇
第15章 调度管理238
15.1 调度概述238
15.1.1 应用程序间的调度239
15.1.2 应用程序中的调度241
15.2 调度器242
15.2.1 调度池243
15.2.2 Job调度流程243
15.2.3 调度模块245
15.2.4 Job的生与死249
15.3 本章小结253
第16章 存储管理254
16.1 硬件环境254
16.1.1 存储系统254
16.1.2 本地磁盘255
16.1.3 内存255
16.1.4 网络和CPU255
16.2 Storage模块256
16.2.1 通信层256
16.2.2 存储层258
16.3 Shuff?le数据持久化261
16.4 本章小结263
第17章 监控管理264
17.1 Web界面264
17.2 SparkUI历史监控266
17.2.1 使用spark-server的原因266
17.2.2 配置spark-server266
17.3 监控工具269
17.3.1 Metrics工具269
17.3.2 其他工具271
17.4 本章小结272
第18章 性能调优273
18.1 文件的优化273
18.1.1 输入采用大文件273
18.1.2 lzo压缩处理274
18.1.3 Cache压缩275
18.2 序列化数据277
18.3 缓存278
18.4 共享变量278
18.4.1 广播变量279
18.4.2 累加器279
18.5 流水线优化280
18.6 本章小结280
扩 展 篇
第19章 Spark-jobserver实践282
19.1 Spark-jobserver是什么282
19.2 编译、部署及体验283
19.2.1 编译及部署283
19.2.2 体验286
19.3 Spark-jobserver程序实战288
19.3.1 创建步骤288
19.3.2 一些常见的问题289
19.4 使用场景:用户属性分布计算289
19.4.1 项目需求290
19.4.2 计算架构290
19.4.3 使用NamedRDD291
19.5 本章小结291
第20章 SparkTachyon实战292
20.1 Tachyon文件系统292
20.1.1 文件系统概述293
20.1.2 HDFS和Tachyon294
20.1.3 Tachyon设计原理294
20.1.4 Tachyon特性295
20.2 Tachyon入门295
20.2.1 Tachyon部署295
20.2.2 TachyonAPI297
20.2.3 在Spark上使用Tachyon298
20.3 容错机制299
20.4 本章小结300
上善若水,水善利万物而不争。
数据一如水,无色无味,非方非圆,以百态存于自然,于自然无违也。绵绵密密,微则无声,巨则汹涌;与人无争却又容纳万物。
生活离不开水,同样离不开数据,我们被数据包围,在数据中生活,在数据中入梦和清醒。
某夜入梦时分,趴桌而眠,偶遇庄周那只彩色翅膀的蝴蝶飞入梦中,在数据上翩翩起舞;清醒时分,蝴蝶化身数据,继续在眼前飞舞,顿悟大数据之哲学。《Spark核心技术与高级应用》从《道德经》和《庄子》各精选10句名言,并结合大数据相关内容,对名言加以讲解,引导大家以老庄的思考方式来认识大数据的内涵,探求老子道之路和庄子智慧之路。
为什么要写这《Spark核心技术与高级应用》2014年春天,我所在的知识云团队聚焦大数据,调研过程中,深深感觉到国内资料匮乏,可供参考的资料仅是Spark官方文档。团队人员英文水平参差不齐,Spark官方文档门槛比较高,学习起来困难重重。
当时和几个同事一起,对Spark官方文档进行了翻译,参考了机械工业出版社《Spark快速数据处理》的小册子,编了一本《Spark数据处理》内部文档,解决了一部分问题,并将Spark应用推向具体业务。在实际业务中,相比传统的数据处理,尤其是实时处理和迭代计算,MapReduce在Spark面前显得苍白无力。随着Spark的应用越来越多,深深感觉到《Spark数据处理》内部文档的不足,遗憾的是,一直没有时间进行补充和完善,俨然成了一块心病。
2014年9月,在机械工业出版社华章公司福川兄的指导下,开始重点思索:Spark解决哪些问题、优势在哪里、从业人员遇到哪些困难、如何解决这些困难等问题,并得到了吴爱华、吕劲松、代其锋、马海平、向海、陈明磊等几位同事的支持。怀着一颗“附庸风雅”之心,我决定和大家一起写一本具有一定实战价值的Spark方面的书籍。
当前大数据从业者,有数据科学家、算法专家、来自互联网的程序员、来自传统行业的工程师等,无论来自哪里,作为新一代轻量级计算框架,Spark集成SparkSQL、SparkStreaming、MLlib、GraphX、SparkR等子框架,都提供了一种全新的大数据处理方式,让从业者的工作变得越来越便捷,也让机器学习、数据挖掘等算法变得“接地气”。数据科学家和算法专家越来越了解社会,程序员和工程师有了逆袭的机会。
《Spark核心技术与高级应用》写作过程中,Spark版本从1.0一直变化到1.5,秉承大道至简的主导思想,我们尽可能地按照1.5版本进行了统筹,希望能抛砖引玉,以个人的一些想法和见解,为读者拓展出更深入、更全面的思路。
《Spark核心技术与高级应用》只是一个开始,大数据之漫漫雄关,还需要迈步从头越。
《Spark核心技术与高级应用》特色《Spark核心技术与高级应用》虽是大数据相关书籍,但对传统文化进行了一次缅怀,吸收传统文化的精华,精选了《道德经》和《庄子》各10句名言,实现大数据和文学的有效统一。结合老子的“无为”和庄子的“天人合一”思想,引导读者以辩证法思考方式来认识大数据的内涵,探求老子道之路和庄子智慧之路,在大数据时代传承“老庄哲学”,让中国古代典籍中的瑰宝继续发扬下去。
从技术层面上,Spark作为一个快速、通用的大规模数据处理引擎,凭借其可伸缩、基于内存计算等特点,以及可以直接读写HDFS上数据的优势,实现了批处理时更加高效、延迟更低,已然成为轻量级大数据快速处理的统一平台。Spark集成SparkSQL、SparkStreaming、MLlib、GraphX、SparkR等子框架,并且提供了全新的大数据处理方式,让从业者的工作变得越来越便捷。《Spark核心技术与高级应用》从基础讲起,针对性地给出了实战场景;并围绕DataFrame,兼顾在SparkSQL和SparkML的应用。
从适合读者阅读和掌握知识的结构安排上讲,分为“基础篇”、“实战篇”、“高级篇”、“扩展篇”四个维度进行编写,从基础引出实战,从实战过渡高级,从高级进行扩展,层层推进,便于读者展开讨论,深入理解分析,并提供相应的解决方案。
《Spark核心技术与高级应用》的案例都是实际业务中的抽象,都经过具体的实践。作为《Spark核心技术与高级应用》的延续,接下来会针对Spark机器学习部分进行拓展,期待和读者早点见面。
读者对象(1)对大数据非常感兴趣的读者伴随着大数据时代的到来,很多工作都变得和大数据息息相关,无论是传统行业、IT行业以及移动互联网行业,都必须要了解大数据的概念,对这部分人员来说,《Spark核心技术与高级应用》的内容能够帮助他们加深对大数据生态环境和发展趋势的理解,通过《Spark核心技术与高级应用》可以了解Spark使用场景和存在价值,充分体验和实践Spark所带来的乐趣,如果希望继续学习Spark相关知识,《Spark核心技术与高级应用》可以作为一个真正的开始。
(2)从事大数据开发的人员Spark是类HadoopMapReduce的通用并行计算框架,基于MapReduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点,并且克服了MapReduce在实时查询和迭代计算上较大的不足,对这部分开发人员,《Spark核心技术与高级应用》能够拓展开发思路,了解Spark的基本原理、编程思想、应用实现和优缺点,参考实际企业应用经验,减少自己的开发成本,对生产环境中遇到的技术问题和使用过程中的性能优化有很好的指导作用。
(3)从事大数据运维的人员除了大数据相关的开发之外,如何对数据平台进行部署、保障运行环境的稳定、进行性能优化、合理利用资源,也是至关重要的,对于一名合格的大数据运维人员来说,适当了解Spark框架的编程思想、运行环境、应用情况是十分有帮助的,不仅能够很快地排查出各种可能的故障,也能够让运维人员和开发人员进行有效的沟通,为推进企业级的运维管理提供参考依据。
(4)数据科学家和算法研究者基于大数据的实时计算、机器学习、图计算等是互联网行业比较热门的研究方向,这些方向已经有一些探索成果,都是基于Spark实现的,这部分研究人员通过《Spark核心技术与高级应用》的阅读可以加深对Spark原理与应用场景的理解,对大数据实时计算、机器学习、图计算等技术框架研究和现有系统改进也有很好的参考价值,借此降低学习成本,往更高层次发展。
如何阅读《Spark核心技术与高级应用》《Spark核心技术与高级应用》分为四篇,共计20章内容。
基础篇(第1~10章),详细说明什么是Spark、Spark的重要扩展、Spark的部署和运行、Spark程序开发、Spark编程模型以及Spark作业执行解析。
实战篇(第11~14章),重点讲解SparkSQL与DataFrame、SparkStreaming、SparkMLlib与SparkML、GraphX、SparkR,以及基于以上内容实现大数据分析、系统资源统计、LR模型、二级邻居关系图获取等方面的实战案例。
高级篇(第15~18章),深入讲解Spark调度管理、存储管理、监控管理、性能调优。
扩展篇(第19~20章),介绍Jobserver和Tachyon在Spark上的使用情况。
其中,第二部分实战篇为《Spark核心技术与高级应用》重点,如果你没有充足的时间完成《Spark核心技术与高级应用》的阅读,可以选择性地进行重点章节的阅读。如果你是一位有着一定经验的资深人员,《Spark核心技术与高级应用》有助于你加深基础概念和实战应用的理解。如果你是一名初学者,请在从基础篇知识开始阅读。
勘误和支持由于笔者的水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。如果你有更多的宝贵意见,可以通过Spark技术QQ交流群435263033,或者邮箱ustcyujun@163.com联系到我,期待能够得到你们的真挚反馈,在技术之路上互勉共进。
致谢感谢Spark官方文档,在写作期间提供给我们最全面、最深入、最准确的参考材料。
感谢我亲爱的搭档向海、代其锋、马海平三位大数据专家,在《Spark核心技术与高级应用》写作遭遇困惑的时候,一直互相鼓励,对《Spark核心技术与高级应用》写作坚持不放弃。
感谢知识云团队的范仲毅、杨志远、万文强、张东明、周熠晨、吴增锋、韩启红、吕劲松、张业胜,以及贡献智慧的陈明磊、林弘杰、王文庭、刘君、汪黎、王庆庆等小伙伴,由于你们的参与使《Spark核心技术与高级应用》完成成为可能。
感谢机械工业出版社华章公司的首席策划杨福川和编辑高婧雅,在近一年的时间中始终支持我们的写作,你们的鼓励和帮助引导我们顺利完成全部书稿。
最后,特别感谢我的老婆杨丽静,在宝宝出生期间,因为麻醉意外躺在病房一个月多的时间里,以微笑的生活态度鼓励我,时时刻刻给我信心和力量;还有我可爱的宝宝于潇杨,让我的努力变得有意义。
谨以此书献给我亲爱的家人,知识云团队的小伙伴,以及众多热爱Spark技术的朋友们!
于 俊









