《实战Python网络爬虫》

书海网短评：
从爬虫软件开发到自己动手开发爬虫框架从原理到实践，深入浅出，热门爬虫核心技术全掌握涵盖丰富的爬虫工具、库、框架，十余个实战项目资深爬虫工程师倾力奉献，入门、进阶、求职必备

编辑推荐

从爬虫软件开发到自己动手开发爬虫框架

从原理到实践，深入浅出，热门爬虫核心技术全掌握

涵盖丰富的爬虫工具、库、框架，十余个实战项目

资深爬虫工程师倾力奉献，入门、进阶、求职必备

内容简介

《实战Python网络爬虫》从原理到实践，循序渐进地讲述了使用Python开发网络爬虫的核心技术。《实战Python网络爬虫》从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网络爬虫所需的基础知识，包括网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网站做全面分析；数据抓取介绍了Python爬虫模块Urllib和Requests的基础知识；数据清洗主要介绍字符串操作、正则和BeautifulSoup的使用；数据入库讲述了MySQL和MongoDB的操作，通过ORM框架SQLAlchemy实现数据持久化，进行企业级开发。实战篇深入讲解了分布式爬虫、爬虫软件的开发、12306抢票程序和微博爬取等。框架篇主要讲述流行的爬虫框架Scrapy，并以Scrapy与Selenium、Splash、Redis结合的项目案例，让读者深层次了解Scrapy的使用。此外，《实战Python网络爬虫》还介绍了爬虫的上线部署、如何自己动手开发一款爬虫框架、反爬虫技术的解决方案等内容。

《实战Python网络爬虫》使用Python3.X编写，技术先进，项目丰富，适合欲从事爬虫工程师和数据分析师岗位的初学者、大学生和研究生使用，也很适合有一些网络爬虫编写经验，但希望更加全面、深入理解Python爬虫的开发人员使用。

作者简介

黄永祥,CSDN博客专家和签约讲师，多年软件研发经验，主要从事机器人流程系统研发、大数据系统研发、网络爬虫研发以及自动化运维系统研发。擅长使用Python编写高质量代码，对Python有深入研究，热爱分享和新技术的探索。

前言/序言

前言

随着大数据和人工智能的普及，Python的地位也变得水涨船高，许多技术人员投身于Python开发，其中网络爬虫是Python最为热门的应用领域之一。在爬虫领域，Python可以说是处于霸主地位，Python能解决爬虫开发过程中所遇到的难题，开发速度快且支持异步编程，大大缩短了开发周期。此外，从事数据分析的工程师，为获取数据，很多时候也会用到网络爬虫的相关技术，因此，Python爬虫编程已成为爬虫工程师和数据分析师的必备技能。

《实战Python网络爬虫》结构

《实战Python网络爬虫》共分28章，各章内容概述如下：

第1章介绍什么是网络爬虫、爬虫的类型和原理、爬虫搜索策略和爬虫的合法性及开发流程。

第2章讲解爬虫开发的基础知识，包括HTTP协议、请求头和Cookies的作用、HTML的布局结构、JavaScript的介绍、JSON的数据格式和Ajax的原理。

第3章介绍使用Chrome开发工具分析爬取网站，重点介绍开发工具的Elements和Network标签的功能和使用方式，并通过开发工具分析QQ网站。

第4章主要介绍Fiddler抓包工具的原理和安装配置，Fiddler用户界面的各个功能及使用方法。

第5章讲述了Urllib在Python2和Python3的变化及使用，包括发送请求、使用代理IP、Cookies的读写、HTTP证书验收和数据处理。

第6章~第8章介绍Python第三方库Requests、Requests-Cache爬虫缓存和Requests-HTML，包括发送请求、使用代理IP、Cookies的读写、HTTP证书验收和文件下载与上传、复杂的请求方式、缓存的存储机制、数据清洗以及Ajax动态数据爬取等内容。

第9章介绍网页操控和数据爬取，重点讲解Selenium的安装与使用，并通过实战项目“百度自动答题”，讲解了Selenium的使用。

第10章介绍手机App数据爬取，包括Appium的原理与开发环境搭建、连接Android系统，并通过实战项目“淘宝商品采集”，介绍了App数据的爬取技巧。

第11章介绍Splash、Mitmproxy与Aiohttp的安装和使用，包括Splash动态数据抓取、Mitmproxy抓包和Aiohttp高并发抓取。

第12章介绍验证码的种类和识别方法，包括OCR的安装和使用、验证码图片处理和使用第三方平台识别验证码。

第13章讲述数据清洗的三种方法，包括字符串操作（截取、查找、分割和替换）、正则表达式的使用和第三方库BeautifulSoup的安装以及使用。

第14章讲述如何将数据存储到文件，包括CSV、Excel和Word文件的读取和写入方法。

第15章介绍ORM框架SQLAlchemy的安装及使用，实现关系型数据库持久化存储数据。

第16章讲述非关系型数据库MongoDB的操作，包括MongoDB的安装、原理和Python实现MongoDB的读写。

第17章至第21章介绍了5个实战项目，分别是：爬取51Job招聘信息、分布式爬虫——QQ音乐、12306抢票爬虫、微博爬取和微博爬虫软件的开发。

第22章至第25章介绍了Scrapy爬虫框架，包括Scrapy的运行机制、项目创建、各个组件的编写（Setting、Items、ItemPipelines和Spider）和文件下载及Scrapy中间件，并通过实战项目“Scrapy+Selenium爬取豆瓣电影评论”、“Scrapy+Splash爬取B站动漫信息”和“Scrapy+Redis分布式爬取猫眼排行榜”、“爬取链家楼盘信息”和“QQ音乐全站爬取”，深入讲解了Scrapy的应用和分布式爬虫的编写技巧。

第26章介绍爬虫的上线部署，包括非框架式爬虫和框架式爬虫的部署技巧。

第27章介绍常见的反爬虫技术，并给出了可行的反爬虫解决方案。

第28章介绍爬虫框架的编写，学习如何自己动手编写一款爬虫框架，以满足特定业务场景的需求。

《实战Python网络爬虫》特色

循序渐进，涉及面广：《实战Python网络爬虫》站在初学者的角度，循序渐进地介绍了使用Python开发网络爬虫的各种知识，内容由浅入深，几乎涵盖了目前网络爬虫开发的各种热门工具和前瞻性技术。

实战项目丰富，扩展性强：《实战Python网络爬虫》采用大量的实战项目进行讲解，力求通过实际应用使读者更容易地掌握爬虫开发技术，以应对业务需求。《实战Python网络爬虫》项目经过编者精心设计和挑选，根据实际开发经验总结而来，涵盖了在实际开发中所遇到的各种问题。对于精选项目，尽可能做到步骤详尽、结构清晰、分析深入浅出，而且案例的扩展性强，读者可根据实际需求扩展开发。

从理论到实践，注重培养爬虫开发思维：在讲解过程中，不仅介绍理论知识，注重培养读者的爬虫开发思维，而且安排了综合应用实例或小型应用程序，使读者能顺利地将理论应用到实践中。

特色干货，倾情分享：《实战Python网络爬虫》大部分内容都来自作者多年来的编程实践，操作性很强。值得关注的是，《实战Python网络爬虫》还介绍了爬虫软件和爬虫框架的开发，供学有余力的读者扩展知识结构，提升开发技能。

源代码下载

《实战Python网络爬虫》所有程序代码均在Python3.6下调试通过，源代码Github下载地址：

https://github.com/xyjw/python-Reptile

你也可以扫描下面的二维码下载。

如果你在下载过程中遇到问题，可发送邮件至554301449@qq.com获得帮助，邮件标题为“实战Python网络爬虫下载资源”。

技术服务

读者在学习或者工作的过程中，如果遇到实际问题，可以加入QQ群93314951与笔者联系，笔者会在第一时间给予回复。

读者对象

《实战Python网络爬虫》主要适合以下读者阅读：

?Python网络爬虫初学者及在校学生。