《Python网络爬虫实战（第2版）》

书海网短评：
网络爬虫，又被称为网页蜘蛛、网络机器人，是一种按照一定的规则，自动地抓取互联网信息的程序或者脚本。很多站点，尤其是搜索引擎，都使用爬虫（它主要用于提供访问页面的一个副本）提供新的数据，然后，搜索引擎对得到的页面进行索引，以便

编辑推荐

网络爬虫，又被称为网页蜘蛛、网络机器人，是一种按照一定的规则，自动地抓取互联网信息的程序或者脚本。很多站点，尤其是搜索引擎，都使用爬虫（它主要用于提供访问页面的一个副本）提供新的数据，然后，搜索引擎对得到的页面进行索引，以便快速访问。爬虫也可以用来在Web上自动执行一些任务，例如检查链接、确认HTML代码；还可以用来抓取网页上某种特定类型的信息，例如电子邮件地址（通常用于垃圾邮件）。因此，网络爬虫技术对互联网企业具有很大的应用价值。

《Python网络爬虫实战（第2版）》从Python3.6.4基础的部分讲起，延伸到Python流行的应用方向之一网络爬虫，讲解目前流行的几种Python爬虫框架，并给出详细示例，以帮助读者学习Python并开发出符合自己要求的网络爬虫。

内容简介

《Python网络爬虫实战（第2版）》从Python3.6.4的安装开始，详细讲解了Python从简单程序延伸到Python网络爬虫的全过程。《Python网络爬虫实战（第2版）》从实战出发，根据不同的需求选取不同的爬虫，有针对性地讲解了几种Python网络爬虫。

《Python网络爬虫实战（第2版）》共10章，涵盖的内容有Python3.6语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、BeautifulSoup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器、Pyspider爬虫框架、爬虫与反爬虫。《Python网络爬虫实战（第2版）》所有源代码已上传网盘供读者下载。

《Python网络爬虫实战（第2版）》内容丰富，实例典型，实用性强。适合Python网络爬虫初学者、Python数据分析与挖掘技术初学者，以及高等院校和培训学校相关专业的师生阅读。

作者简介

胡松涛，高级工程师，参与多个Linux开源项目，github知名代码分享者，活跃于国内著名的多个开源论坛。

前言/序言

前言

计算机技术飞速发展，人们对计算机使用技能的要求也越来越高。在编写软件时，大家既希望有超高的效率，又希望这门语言简单易用。这种鱼与熊掌皆得的要求的确很高，Python编程语言恰好符合这么苛刻的要求。

Python的执行效率仅比效率之王C略差一筹，在简单易用方面Python也名列三甲。可以说Python在效率和简单之间达到了平衡。另外，Python还是一门胶水语言，可以将其他编程语言的优点融合在一起，达到1+1>2的效果。这也是Python如今使用人数越来越多的原因。

Python语言发展迅速，在各行各业都发挥独特的作用。在各大企业、学校、机关都运行着Python明星程序。但就个人而言，运用Python最多的还是网络爬虫（这里的爬虫仅涉及从网页提取数据，不涉及深度、广度算法爬虫搜索）。在网络上经常更新的数据，无须每次都打开网页浏览，使用爬虫程序，一键获取数据，下载保存后分析。考虑到Python爬虫在网络上的资料虽多，但大多都不成系统，难以提供系统有效的学习。因此笔者抛砖引玉，编写了这本有关Python网络爬虫的书，以供读者学习参考。

Python简单易学，Python爬虫也不复杂。只需要了解了Python的基本操作即可自行编写。《Python网络爬虫实战（第2版）》中介绍了几种不同类型的Python爬虫，可以针对不同情况的站点进行数据收集。

《Python网络爬虫实战（第2版）》特色

?附带全部源代码。为了便于读者理解《Python网络爬虫实战（第2版）》内容，作者已将全部的源代码上传到网络，供读者下载使用。读者通过代码学习开发思路，精简优化代码。

?涵盖了Linux&Windows上模块的安装配置。《Python网络爬虫实战（第2版）》包含了Python模块源的配置、模块的安装，以及常用IDE的使用。

?实战实例。通过常用的实例，详细说明网络爬虫的编写过程。

《Python网络爬虫实战（第2版）》内容

《Python网络爬虫实战（第2版）》共10章，前面4章简单地介绍了Python3.6的基本用法和简单Python程序的编写。第5章的Scrapy爬虫框架主要针对一般无须登录的网站，在爬取大量数据时使用Scrapy会很方便。第6章的BeautifulSoup爬虫可以算作爬虫的“个人版”。BeautifulSoup爬虫主要针对一些爬取数据比较少的，结构简单的网站。第7章的Mechanize模块，主要功能是模拟浏览器。它的作用主要是针对那些需要登录验证的网站。第8章的Selenium模块，主要功能也是模拟浏览器，它的作用主要是针对JavaScript返回数据的网站。第9章的Pyspider是由国人自产的爬虫框架。Pyspider框架独具一格的Web接口让爬虫的使用更加简单。第10章简单介绍了反爬虫技术，使读者编写的爬虫可以绕过简单的反爬虫技术更加灵活地获取数据。

《Python网络爬虫实战（第2版）》用于Python3编程与Python3网络爬虫快速入门。另外，为了让读者多了解几个爬虫框架，《Python网络爬虫实战（第2版）》也介绍了Python2.7下运行的Mechanize与Pyspider工具。

修订说明

《Python网络爬虫实战（第2版）》第1版使用了Python2.7，由于Python2未来不再被官方支持，今后Python将逐渐转换到Python3版本。Python3基本上可以与Python2兼容，但细节方面略有差异，比如某些模块的名称（Python2中的urllib2在Python3中变成了urllib.request）。本次修订将所有支持Python3的爬虫全部转换成了Python3的版本，更加符合主流。目前暂时不支持Python3、只支持Python2的爬虫（Mechanize与Pyspider）也修订了代码，改正了一些因为目标网站改版而造成爬虫不能使用的问题。

源代码下载

《Python网络爬虫实战（第2版）》源代码下载地址请扫描右边二维码。如果下载有问题，或者对《Python网络爬虫实战（第2版）》有

任何疑问与建议，请联系booksaga@163.com，邮件主题为“Python网络爬虫”。

《Python网络爬虫实战（第2版）》读者与作者

?Python编程及Python网络爬虫初学者

?数据分析与挖掘技术初学者

?高等院校和培训学校相关专业的师生

《Python网络爬虫实战（第2版）》由胡松涛主笔，其他参与创作的还有王立平、刘祥淼、王启明、樊爱宛、张倩、曹卉、林江闽、王铁民、殷龙、李春城、赵东、李玉莉、李柯泉、李雷霆。

著者

2018年8月