编辑推荐

适读人群:《爬虫实战:从数据到产品》适合对大数据、爬虫、数据可视化等感兴趣的读者,包括但不限于程序员、产品经理,以及相关专业的学生等。

爬虫实战:从数据到产品》以介绍思路为主,通过丰富的案例讲解爬取数据的思路,

介绍数据分析、可视化的方法,

以及如何根据数据分析结果,开发一个应用,

为读者提供一个从采集数据到应用数据的完整视角。

内容简介

爬虫实战:从数据到产品》从多个数据项目实例出发,介绍爬虫、反爬虫的各种案例,使读者了解到数据抓取和分析的完整过程。书中案例的难度由浅入深,以作者原创的代码为主,不借助现成的框架,强调在数据采集过程中的发散思维,总结攻克反爬虫的思维模式,实现以低成本的方式得到想要的数据的愿望。最后,用一个“爱飞狗”的例子,为读者展示如何从0到1地开发一个大数据产品。

作者简介

贺思聪,毕业于电子科技大学,在ThoughtWorks任高级咨询师,担任海外交付团队技术负责人、架构师。

具有十余年产品研发经验,涉及澳洲矿业相关数字产品研发、保险业网站技术架构、光网络设备软件研发、医疗AR/VR、机械控制、加工仿真模拟等领域。

精通大规模重构实践、测试驱动开发,熟悉微服务架构及架构实践,熟悉敏捷项目开发管理流程和相关实践,具有丰富的敏捷团队管理经验。

目录

第1章基础知识1
1.1什么是爬虫1
1.2数据获取渠道2
1.3抓包分析工具4
1.4爬虫和反爬虫的斗争5
1.5数据处理、分析和可视化20
1.6延深阅读21
第2章基于位置信息的爬虫Ⅰ23
2.1背景及目标23
2.2爬虫原理24
2.3数据来源分析26
2.4简单的矩形区域爬取方式38
2.5高级区域爬取方式46
2.6坐标转换49
2.7存储数据的方式49
2.8数据导入51
2.9基本数据分析52
2.10地图可视化56
2.11轨迹可视化58
2.12总结60
第3章基于位置信息的爬虫Ⅱ62
3.1背景及目标62
3.2爬虫原理62
3.3优化方案一71
3.4优化方案二75
3.5优化方案三82
3.6导入数据到数据库97
3.7基本数据分析及可视化100
3.8总结117
第4章网站信息爬取及可视化118
4.1背景及目标118
4.2网站API分析118
4.3数据爬取122
4.4数据导入129
4.5数据分析及可视化133
4.6总结173
第5章基于逆向分析小程序的爬虫174
5.1背景及目标174
5.2数据来源分析176
5.3数据爬取方案177
5.4转换数据格式195
5.5总结196
第6章从数据到产品197
6.1从一张机票说起197
6.2从价值探索到交付落地201
6.3数据爬取203
6.4爬虫架构设计203
6.5发现数据的价值211
6.6创新的不确定性223
6.7产品设计226
6.8产品交付235
6.9总结236

前言/序言

  前言
  智能设备(如智能手环、百度音箱、扫地机器人等)的普及使收集个人数据变得非常容易。机器性能的提高使得分析、使用数据变得更加自动化。大量的数据结合强大的计算性能使数据从量变到质变的过程极短,我们的导航早已不再是傻傻地按照既有的策略规划行驶路线,而是一直在向“老司机”学习,不断更新算法,从而带来更精准的预测。
  在这个时代,数据就是新一代的资源。我们的身边充满了数据流。我们既是数据流的生产者,也是数据流的消费者。对个人而言,如果我们能够合理地识别、收集、分析、利用这些数据,就能够在我们做决策时给出一些新的想法。例如,在GitHub上一个非常有效的比特币高频交易的源代码,其作者在2016年年底到2017年1月这段时期内,用6000元的初始资金赚到了25万元。他所利用的就是对比特币这种新交易手段的交易数据的洞察,利用机器自动收集分析行情并进行自动化交易。为了解决“什么时候买机票最便宜”的问题,我通过长达两年的数据爬取,收集到上百亿条机票价格数据并进行数据分析及可视化,最后形成了一个名为“爱飞狗”的产品。爱飞狗可将近期各平台的历史价格展示给用户,让不对称的价格信息变得更加透明化。通过对这些数据进行分析,我们可以掌握国内航空公司机票票价变化规律。基于人的经验,在机器学习的帮助下,我的这套方法可以对国内的航班价格提供较为准确的预测,为用户的出行节约成本。
  掌握获取信息的能力使我们能够站在更高的角度识别出一些规律。例如,在求职的过程中,大量的公司信息很难进行分辨,即便是某些APP提供了很多的筛选功能,但仍无法满足我们分析的需求。再如,大量的房产信息淹没在海量数据中,跟踪这些数据的变化或许能够发现一些规律或结论。在这样一个数据丰富的时代,每个人都应该学习一些从数据采集到数据分析的综合技能。
  《爬虫实战:从数据到产品》从基础知识出发,通过丰富的案例,详细介绍数据抓取和分析的整个过程,帮助读者构建相关能力。
  《爬虫实战:从数据到产品》不同于大多数介绍爬虫的技术书,不仅讲述如何进行数据爬取,而且通过丰富的案例讲解爬取数据的思路,介绍数据分析、可视化的方法,以及如何根据数据分析结果,开发一个应用,以求为读者提供一个从采集数据到应用数据的完整视角。《爬虫实战:从数据到产品》以介绍技术思路为主,不会详细介绍一些特别基础的知识点,例如,Python的基础知识、软件包的安装操作等,所以需要读者自行查阅一些相关资料。另外,由于移动应用、网站等更新速度非常快,当阅读到《爬虫实战:从数据到产品》时,可能书中介绍的一些方法已经发生了变化,读者可以自行研究,把知识灵活地运用到实践中。
  ‘特别声明
  《爬虫实战:从数据到产品》仅限于讨论爬虫技术,书中展示的案例只是为了读者更好地理解爬取的思路和操作,达到防范信息泄漏、保护信息安全的目的,请勿用于非法用途!严禁利用《爬虫实战:从数据到产品》所提到的技术进行非法爬取,否则后果自负,本人和出版商不承担任何责任。

其他推荐