龙空技术网

豆瓣爬虫,为自己定制一个Python书单

机器学习与数据分析 211

前言:

今天咱们对“流利的python语言”可能比较关怀,大家都想要剖析一些“流利的python语言”的相关知识。那么小编同时在网络上搜集了一些对于“流利的python语言””的相关文章,希望大家能喜欢,大家一起来学习一下吧!

序言

豆瓣读书作为一个囊括市场上大部分书本的书评网站,里面藏有大量值得挖掘的信息。对于某个领域书籍的搜索,我们通过关键词搜索,逐个浏览相关书籍的信息。

但是,这个方法太耗时间。于是,我们想到了可以借助网络爬虫技术,为我们先按照豆瓣评分和评论人数把相关书籍列出来,变成一个书单。然后我们再按照这个书单找自己喜欢的书本。

注:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

代码准备

这次的代码是在一位大神Python2豆瓣爬虫程序基础改成Python3版本的。

Python2原版本地址:

Python3版本请访问我的Github:

豆瓣爬虫Python3

由于Python2和Python3的很多差别,我们需要对原代码做一些改动。比如print函数需要加上括号,urllib2改成urllib.request等等

我们把可能遇到的问题参考解决办法放在了代码里面,供大家参考:

有了代码之后,我们仅仅做一个简单的修改,就可以运行程序了:

没错,就是把搜索关键词book_tag_lists改成Python就完成了。当然你也拿这个程序去做你感兴趣话题的书单。

Python书单

经过十分钟左右的程序运行,我们便获得了书单结果。我们用Excel打开就可以使用了:

从书名,评分到评价人数,作者,出版社信息一应俱全。我们一共爬了300本书,按照评分从大到小排列。最高得分者为《流利的Python语言》,而最低的得分来自于《深入浅出强化学习》,4.9分。当然我们这里没有把评论人数为0的计算在内。

事实上第一名,第三名以及第十名是一本书,中文版一般叫做《流畅的Python》,由于版本的不同,豆瓣把这本书建立了好几个界面。

不难发现,我们可以在这个书单中找到很多熟悉的面孔:

Scikit-Learn与TensorFlow机器学习Python深度学习集体智慧编程笨办法学PythonA Byte of Python

我们从这个书单注意到Python和机器学习联系特别紧密,到处可以见到机器学习和深度学习的字眼,而且高评分书籍也不少。大家快去根据自己需求浏览这些书籍吧。

标签: #流利的python语言