第5天 | 10天搞定Python网络爬虫，解析库，如何选？

老陈说编程 12-10 370

前言：

当前咱们对“python爬虫用什么库最好”大致比较关切，我们都想要剖析一些“python爬虫用什么库最好”的相关资讯。那么小编在网络上搜集了一些有关“python爬虫用什么库最好””的相关资讯，希望各位老铁们能喜欢，兄弟们快快来了解一下吧！

在前几天，咱们学习爬虫编程时，爬取数据的库，只用到了requests(过两天有新库出现)，而解析的方法，却用到了正则表达式、BeautifulSoup和Lxml库。

有认真思考的老铁问了：那我该选择哪种方式才好啊？是的，有时多，未必就是好的。为此，我特意用不科学的方法，对3者的性能进行了测试，结果如下。

选择哪种方法，关键看你要爬取的网页结构和数据量。如果网页结构简单，不想安装第3方库的话，就使用正则表达式；如果爬取的数据量较少的话，用BeautifulSoup是完全没问题的；如果数据量大，需要追求效率的话，那Lxml是最好的选择。

另外，BeautifulSoup和Lxml是可以结合使用的。有关BeautifulSoup集成第3方解析库的方法和性能比较，我也给你放在这了，是否转发，你看着办。

好了，有关解析库的比较内容，老陈讲完了，如果觉得对你有所帮助，希望老铁能转发点赞，让更多的人看到这篇文章。你的转发和点赞，就是对老陈继续创作和分享最大的鼓励。

一个当了10年技术总监的老家伙，分享多年的编程经验。想学编程的朋友，可关注今日头条：老陈说编程。分享Python，前端(小程序)、App和嵌入式方面的干货。关注我，没错的。

12个高效的Python爬虫框架，你用过几个？