编辑推荐

  全面透彻剖析SparkStreaming技术内幕和源码,并结合SparkStreaming调优实践的经验总结,适合所有大数据应用的技术管理和开发人员阅读。
  《Spark Streaming技术内幕及源码剖析》涵盖SparkStreaming的内部技术原理、源码分析、性能调优方法以及对未来SparkStreaming新版本的新功能分析。

内容简介

  《Spark Streaming技术内幕及源码剖析》以大数据处理引擎Spark的稳定版本1.6.x为基础,从应用案例、原理、源码、流程、调优等多个角度剖析Spark上的实时计算框架SparkStreaming。在勾勒出SparkStreaming架构轮廓的基础上,从基本源码开始进行剖析,由浅入深地引导已具有Spark和SparkStreaming基础技术知识的读者进行SparkStreaming的进阶学习,理解SparkStreaming的原理和运行机制,为流数据处理的决策和应用提供了技术参考;结合SparkStreaming的深入应用的需要,对SparkStreaming的性能调优进行了分析,也对SparkStreaming功能的改造和扩展提供了指导。
  《Spark Streaming技术内幕及源码剖析》适合大数据领域CTO、架构师、高级软件工程师,尤其是Spark领域已有SparkStreaming基础知识的从业人员阅读,也可供需要深入学习Spark、SparkStreaming的高校研究生和高年级本科生参考。

作者简介

  王家林,中国著名的Spark培训专家,ApacheSpark、Android技术中国区布道师,DT大数据梦工厂创始人和首席专家,Android软硬整合专家。彻底研究了Spark从0.5.0到2.1.0中共28个版本的Spark源码,目前致力于开发优化的Spark中国版本。尤其擅长Spark在生产环境下各种类型和场景故障的排除和解决,痴迷于Spark生产环境下任意类型(例如Shuffle和各种内存问题及数据倾斜问题等)的Spark程序的深度性能优化。从2014年6月24日起,已开启免费的Spark公开课《决胜大数据时代Spark100期公益大讲堂》。在2015年6月27日成立DT大数据梦工厂,开启IMF(ImpossibleMissionForce)行动,率先在全球开展以Spark为核心的,免费为社会培养100万企业级实战高级大数据人才行动计划,截止目前已有数千人参与到这个行动之中。

  夏阳,系统架构师,从事平台和应用软件研发工作多年,行业阅历丰富,对行业技术发展有独到见解和精准判断,近几年先后就职于中创中间件公司、蚁坊软件公司、任子行网络技术股份有限公司,从事大数据相关的技术研发工作。对大数据处理、机器学习、图计算、文本处理等技术领域有丰富工作经验和浓厚兴趣。

目录

第1章SparkStreaming应用概述······1
1.1SparkStreaming应用案例·······2
1.2 SparkStreaming应用剖析·····13
第2章SparkStreaming基本原理····15
2.1 SparkCore简介··················16
2.2SparkStreaming设计思想·····26
2.3SparkStreaming整体架构·····30
2.4编程接口·························33
第3章SparkStreaming运行流程详解·············39
3.1从StreamingContext的初始化到启动··········40
3.2数据接收·························54
3.3数据处理·························91
3.4数据清理························115
3.5容错机制························127
3.5.1容错原理·························128
3.5.2Driver容错机制·················152
3.5.3Executor容错机制··············161
3.6NoReceiver方式···············167
3.7输出不重复·····················175
3.8消费速率的动态控制·········176
3.9状态操作························189
3.10窗口操作·······················212
3.11页面展示·······················216
3.12SparkStreaming应用程序的停止··········227
第4章SparkStreaming性能调优机制···········237
4.1并行度解析·····················238
4.1.1数据接收的并行度·············238
4.1.2数据处理的并行度·············240
4.2内存······························240
4.3序列化···························240
4.4BatchInterval···················241
4.5Task·······························242
4.6JVMGC·························242
第5章Spark2.0中的流计算··········245
5.1连续应用程序··················246
5.2无边界表unboundedtable····248
5.3增量输出模式··················249
5.4API简化··························250
5.5其他改进························250

其他推荐