龙空技术网

python爬虫入门实战(二)!快!快!快!让爬虫赢在起跑线!多线程

白玉无冰 79

前言:

如今大家对“python怎样运行径传多赢软件的数据和文件”大约比较讲究,各位老铁们都想要知道一些“python怎样运行径传多赢软件的数据和文件”的相关内容。那么小编也在网络上网罗了一些有关“python怎样运行径传多赢软件的数据和文件””的相关资讯,希望小伙伴们能喜欢,你们快快来学习一下吧!

怎么样才能爬得更快一点呢?

在 python爬虫入门实战!爬取博客文章标题和链接 上一篇文章我们已经学会基本用法了。最近我又学到一新技能,让它爬的更快一些。

准备阶段

python3 、 正则表达式库 re 、多线程库 multiprocessing 、和第三方库 requests 。 安装这里就不再叙述啦。

引入库。

多线程

什么是多线程?先从单线程说起。比如,我在写这篇文章,写完后我去听歌,对于写文章和听歌来说,是单线程,是一个接着一个。我也可以一边写文章一边听歌,这就成了多线程,是同时进行的。

上一篇文章中,我们是一页一页的爬。现在我们把他改成三页三页的爬。

一起看看python是如何使用多线程的。

pool.map 是使用了映射,把 orign_num 里的每一个数值传给 scrapy ,并返回到对应的结果里。

再一起看看,爬取一页的代码。看不懂的话,一定要回到python爬虫入门实战!爬取博客文章标题和链接 的分析哦。

最后把结果存起来。

小结

我们这次多线程用到的是 multiprocessing.dummy 里的 Pool 。利用map 映射出每一页的爬虫结果。

以上就是我最新学到的东西。如有错误,欢迎斧正!后续有更好的内容一定会第一时间分享给大家,点个关注不迷路。

我是白玉无冰,游戏开发小赤佬,也玩python和shell。

标签: #python怎样运行径传多赢软件的数据和文件