Scrapy爬虫框架之爬取ajax动态数据（三）

乐上轻至 06-03 167

前言：

而今你们对“scrapy发送ajax请求”大概比较重视，我们都需要分析一些“scrapy发送ajax请求”的相关内容。那么小编同时在网上汇集了一些对于“scrapy发送ajax请求””的相关内容，希望小伙伴们能喜欢，同学们快快来了解一下吧！

简书业务分析

文章目录

简书结构分析创建简书爬虫项目创建crawl解析器配置简书下载格式

简书结构分析

创建简书爬虫项目

创建crawl解析器

之前创建的spider解析器采用都是basic模板，这次爬虫是要下载简书文章，需要支持正则表达式匹配，因此建议采用crawl模板来创建spider解析器

配置简书下载格式

获取简书文章数据

文章目录

简书URL地址分析

获取简书文章数据

根据业务需求创建模型

测试parse_item解析函数

简书URL地址分析

可以指定爬虫抓取的规则，支持正则表达式，目前简书

?*****

获取简书文章数据

根据业务需求创建模型

测试parse_item解析函数

获取ajax数据

文章目录

ChromeDriver介绍

重构下载器增加ajax功能

重写process_request方法

ChromeDriver介绍

chromeDriver 是 google 为网站开发人员提供的自动化测试接口,WebDriver是一个开源工具，用于在许多浏览器上自动测试webapps。它提供了导航到网页，用户输入，JavaScript执行等功能

ChromeDriver的安装一定要与Chrome的版本一致，不然就不起作用,查看chrom的版本则在浏览器地址栏输入：chrome://version/

chromedriver下载地址:

重构下载器增加ajax功能

首先要在setting.py中开启下载器中间件：JianshuDownloaderMiddleware

重写process_request方法

Python爬虫进阶（九）：http&scrapy请求与响应