《Spark Streaming技术内幕及源码剖析》

书海网短评：
　　全面透彻剖析SparkStreaming技术内幕和源码，并结合SparkStreaming调优实践的经验总结，适合所有大数据应用的技术管理和开发人员阅读。　　本书涵盖SparkStreaming的内部技术原理、源码分析

编辑推荐

　　全面透彻剖析SparkStreaming技术内幕和源码，并结合SparkStreaming调优实践的经验总结，适合所有大数据应用的技术管理和开发人员阅读。
　　《Spark Streaming技术内幕及源码剖析》涵盖SparkStreaming的内部技术原理、源码分析、性能调优方法以及对未来SparkStreaming新版本的新功能分析。

内容简介

　　《Spark Streaming技术内幕及源码剖析》以大数据处理引擎Spark的稳定版本1.6.x为基础，从应用案例、原理、源码、流程、调优等多个角度剖析Spark上的实时计算框架SparkStreaming。在勾勒出SparkStreaming架构轮廓的基础上，从基本源码开始进行剖析，由浅入深地引导已具有Spark和SparkStreaming基础技术知识的读者进行SparkStreaming的进阶学习，理解SparkStreaming的原理和运行机制，为流数据处理的决策和应用提供了技术参考；结合SparkStreaming的深入应用的需要，对SparkStreaming的性能调优进行了分析，也对SparkStreaming功能的改造和扩展提供了指导。
　　《Spark Streaming技术内幕及源码剖析》适合大数据领域CTO、架构师、高级软件工程师，尤其是Spark领域已有SparkStreaming基础知识的从业人员阅读，也可供需要深入学习Spark、SparkStreaming的高校研究生和高年级本科生参考。

作者简介

　　王家林，中国著名的Spark培训专家，ApacheSpark、Android技术中国区布道师，DT大数据梦工厂创始人和首席专家，Android软硬整合专家。彻底研究了Spark从0.5.0到2.1.0中共28个版本的Spark源码，目前致力于开发优化的Spark中国版本。尤其擅长Spark在生产环境下各种类型和场景故障的排除和解决，痴迷于Spark生产环境下任意类型(例如Shuffle和各种内存问题及数据倾斜问题等)的Spark程序的深度性能优化。从2014年6月24日起，已开启免费的Spark公开课《决胜大数据时代Spark100期公益大讲堂》。在2015年6月27日成立DT大数据梦工厂，开启IMF(ImpossibleMissionForce)行动，率先在全球开展以Spark为核心的，免费为社会培养100万企业级实战高级大数据人才行动计划，截止目前已有数千人参与到这个行动之中。

　　夏阳，系统架构师，从事平台和应用软件研发工作多年，行业阅历丰富，对行业技术发展有独到见解和精准判断，近几年先后就职于中创中间件公司、蚁坊软件公司、任子行网络技术股份有限公司，从事大数据相关的技术研发工作。对大数据处理、机器学习、图计算、文本处理等技术领域有丰富工作经验和浓厚兴趣。

第1章SparkStreaming应用概述······1
1.1SparkStreaming应用案例·······2
1.2　SparkStreaming应用剖析·····13
第2章SparkStreaming基本原理····15
2.1　SparkCore简介··················16
2.2SparkStreaming设计思想·····26
2.3SparkStreaming整体架构·····30
2.4编程接口·························33
第3章SparkStreaming运行流程详解·············39
3.1从StreamingContext的初始化到启动··········40
3.2数据接收·························54
3.3数据处理·························91
3.4数据清理························115
3.5容错机制························127
3.5.1容错原理·························128
3.5.2Driver容错机制·················152
3.5.3Executor容错机制··············161
3.6NoReceiver方式···············167
3.7输出不重复·····················175
3.8消费速率的动态控制·········176
3.9状态操作························189
3.10窗口操作·······················212
3.11页面展示·······················216
3.12SparkStreaming应用程序的停止··········227
第4章SparkStreaming性能调优机制···········237
4.1并行度解析·····················238
4.1.1数据接收的并行度·············238
4.1.2数据处理的并行度·············240
4.2内存······························240
4.3序列化···························240
4.4BatchInterval···················241
4.5Task·······························242
4.6JVMGC·························242
第5章Spark2.0中的流计算··········245
5.1连续应用程序··················246
5.2无边界表unboundedtable····248
5.3增量输出模式··················249
5.4API简化··························250
5.5其他改进························250