前言:
眼前姐妹们对“scrapy定时爬虫”都比较关心,你们都想要分析一些“scrapy定时爬虫”的相关内容。那么小编也在网上网罗了一些对于“scrapy定时爬虫””的相关知识,希望我们能喜欢,朋友们快快来了解一下吧!首先给大家推荐一份比较好的python学习资料,关注,转发,私信小编“01”即可免费领取,是不是很简单?
测试环境
一、命令行运行爬虫
1、编写爬虫文件 baidu.py
2、运行爬虫(2种方式)
二、文件中运行爬虫
1、cmdline方式运行爬虫
2、CrawlerProcess方式运行爬虫
3、通过CrawlerRunner 运行爬虫
三、文件中运行多个爬虫
项目中新建一个爬虫 SinaSpider
1、cmdline方式不可以运行多个爬虫
如果将两个语句放在一起,第一个语句执行完后程序就退出了,执行到不到第二句
不过有了以下两个方法来替代,就更优雅了
2、CrawlerProcess方式运行多个爬虫
备注:爬虫项目文件为:
scrapy_demo/spiders/baidu.py
scrapy_demo/spiders/sina.py
此方式运行,发现日志中中间件只启动了一次,而且发送请求基本是同时的,说明这两个爬虫运行不是独立的,可能会相互干扰
3、通过CrawlerRunner 运行多个爬虫
此方式也只加载一次中间件,不过是逐个运行的,会减少干扰,官方文档也推荐使用此方法来运行多个爬虫
总结
cmdline.execute 运行单个爬虫文件的配置最简单,一次配置,多次运行
标签: #scrapy定时爬虫