Python爬虫:Scrapy从脚本运行爬虫的5种方式！

程序员编程分享 08-12 550

前言：

眼前姐妹们对“scrapy定时爬虫”都比较关心，你们都想要分析一些“scrapy定时爬虫”的相关内容。那么小编也在网上网罗了一些对于“scrapy定时爬虫””的相关知识，希望我们能喜欢，朋友们快快来了解一下吧！

首先给大家推荐一份比较好的python学习资料，关注，转发，私信小编“01”即可免费领取，是不是很简单？

测试环境

一、命令行运行爬虫

1、编写爬虫文件 baidu.py

2、运行爬虫（2种方式）

二、文件中运行爬虫

1、cmdline方式运行爬虫

2、CrawlerProcess方式运行爬虫

3、通过CrawlerRunner 运行爬虫

三、文件中运行多个爬虫

项目中新建一个爬虫 SinaSpider

1、cmdline方式不可以运行多个爬虫

如果将两个语句放在一起，第一个语句执行完后程序就退出了，执行到不到第二句

不过有了以下两个方法来替代，就更优雅了

2、CrawlerProcess方式运行多个爬虫

备注：爬虫项目文件为：

scrapy_demo/spiders/baidu.py

scrapy_demo/spiders/sina.py

此方式运行，发现日志中中间件只启动了一次，而且发送请求基本是同时的，说明这两个爬虫运行不是独立的，可能会相互干扰

3、通过CrawlerRunner 运行多个爬虫

此方式也只加载一次中间件，不过是逐个运行的，会减少干扰，官方文档也推荐使用此方法来运行多个爬虫

总结

cmdline.execute 运行单个爬虫文件的配置最简单，一次配置，多次运行