龙空技术网

Python爬虫书籍大盘点|上篇

机器学习与数据分析 166

前言:

目前看官们对“firebug调试ajax”大概比较重视,看官们都想要学习一些“firebug调试ajax”的相关内容。那么小编在网摘上收集了一些有关“firebug调试ajax””的相关资讯,希望小伙伴们能喜欢,同学们一起来学习一下吧!

序言

今天我就带着大家一起盘点一下一些好的Python爬虫书,方便学习,参考。我们直接在豆瓣读书上搜索"python 爬虫":

第一篇

这本书从基本的爬虫原理开始讲解,通过介绍Pthyon编程语言和Web前端基础知识引领读者入门,之后介绍动态爬虫原理以及Scrapy爬虫框架,最后介绍大规模数据下分布式爬虫的设计以及PySpider爬虫框架等。

目录:

第1章 回顾Python编程第2章 Web前端基础第3章 初识网络爬虫第4章 HTML解析大法第5章 数据存储(无数据库版)第6章 实战项目:基础爬虫第7章 实战项目:简单分布式爬虫第8章 数据存储(数据库版)第9章 动态网站抓取第10章 Web端协议分析第11章 终端协议分析第12章 初窥Scrapy爬虫框架第13章 深入Scrapy爬虫框架第14章 实战项目:Scrapy爬虫第15章 增量式爬虫第16章 分布式爬虫与Scrapy第17章 实战项目:Scrapy分布式爬虫第18章 人性化PySpider爬虫框架

总体而言书本内容完整,实践比较多,包括豆瓣,知乎网站爬虫。美中不足的是代码以Python2为主。

发现一个了不得的Github项目,

<<python爬虫开发与项目实战>>书籍配套源码和说明:

第二篇

作为使用Python来爬取网络数据的杰出指南,这本书讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法。此外,本书还介绍了如何使用AJAX URL和Firebug扩展来爬取数据,以及有关爬取技术的更多真相,比如使用浏览器渲染、管理cookie、通过提交表单从受验证码保护的复杂网站中抽取数据等。本书使用Scrapy创建了一个高级网络爬虫,并对一些真实的网站进行了爬取。

目录:

第1章 网络爬虫简介第2章 数据抓取第3章 下载缓存第4章 并发下载第5章 动态内容第6章 表单交互第7章 验证码处理第8章 Scrapy第9章 总结

和上一本比起来内容相对较少,而且代码也是Python2。

Github代码实践:

第三篇

这本书是所有书本当中评分最高的,读者们也不吝惜赞美之词:

本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容,接着通过多个案例介绍了不同场景下如何实现数据爬取,后介绍了pyspider框架、Scrapy框架和分布式爬虫。

作者:崔庆才 北京航空航天大学硕士,静觅博客()博主,爬虫博文访问量已过百万,喜欢钻研,热爱生活,乐于分享。

目录:

第1章 开发环境配置 第2章 爬虫基础第3章 基本库的使用第4章 解析库的使用第5章 数据存储第6章 Ajax数据爬取第7章 动态渲染页面爬取第8章 验证码的识别第9章 代理的使用第10章 模拟登录第11章 App的爬取第12章 pyspider框架的使用第13章 Scrapy框架的使用第14章 分布式爬虫第15章 分布式爬虫的部署

不说啥了,盘就完事了。

第四篇

本书采用简洁强大的Python语言,介绍了网络数据采集,并为采集新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网络数据采集的基本原理:如何用Python从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何通过更多的方式接入网络。

目录:

第1章 初见网络爬虫第2章 复杂HTML解析第3章 开始采集第4章 使用API第5章 存储数据第6章 读取文档第7章 数据清洗第8章 自然语言处理第9章 穿越网页表单与登录窗口进行采集第10章 采集JavaScript第11章 图像识别与文字处理第12章 避开采集陷阱第13章 用爬虫测试网站第14章 远程采集

这本书适合初学者,这里有一个Github上代码实现:

标签: #firebug调试ajax