编辑推荐

如今,流式数据是大数据中的一个大问题。随着越来越多的企业试图掌控遍布全球的无限海量数据集,流式系统终于到了足以被主流接纳的成熟度。通过这本实用指南,数据工程师、数据科学家和开发人员将学习到如何以概念化和无关于平台的方式处理流式数据。

基于对TylerAkidau的热门博文《Streaming101》和

《Streaming102》的拓展,《流式系统(影印版)》将带你从入门到细致入微地理解实时数据流处理的what、where、when和how。你还将与合著者SlavaChernyak和ReuvenLax一起深入了解水印和exactly-once处理。

你将学习到:

如何比较流式和批量数据处理模式

健全的乱序数据处理背后的核心原理和概念

水印如何在无限数据集中跟踪进度和完整性

exactly-once数据处理技术如何确保正确性

流和表的概念如何构成批量和流式数据处理的基础

用现实世界的例子演示强大的持久状态机制背后的实用动机

时变关系(time-varyingrelations)如何将流处理和熟悉的SQL及关系代数世界联系起来

内容简介

在传统的数据处理流程中,总是先收集数据,然后将数据放到DB中。当人们需要的时候通过DB对数据做query,得到答案或进行相关的处理。这样看起来虽然非常合理,但是结果却非常的紧凑,尤其是在一些实时搜索应用环境中的某些具体问题,类似于MapReduce方式的离线处理并不能很好地解决问题。这就引出了一种新的数据计算结构---流计算方式。它可以很好地对大规模流动数据在不断变化的运动过程中实时地进行分析,捕捉到可能有用的信息,并把结果发送到下一计算节点。《流式系统(影印版)》讲解流计算原理。

作者简介

TylerAkidau是Google的高级软件工程师,担任着DataProcessingLanguages&Systems小组技术负责人的职务。他也是ApacheBeamPMC的创始成员。


SlavaChernyak是Google的高级软件工程师。他花了六年时间研究Google内部的大规模流式数据处理系统。


ReuvenLax是Google的高级软件工程师,在过去十年间一直在帮助制定Google的数据处理和分析策略,同时他也是ApacheBeamPMC的成员。

精彩书评

“如果你关心流式作业和批处理作业的正确性,那么《流式系统(影印版)》是必读之作。它对该主题所展开的讨论是我迄今为止所见到过的清晰和合理的,同时极好地解释了相关的概念。”

——MartinKleppmann剑桥大学


其他推荐