前言:
现在小伙伴们对“python 爬虫源码”大概比较注重,朋友们都需要学习一些“python 爬虫源码”的相关资讯。那么小编在网上收集了一些有关“python 爬虫源码””的相关文章,希望同学们能喜欢,同学们一起来了解一下吧!准备模块
安装两个类库,requests和BeautifulSoup4
下载类库后执行
pip install requestspip install bs4实现
我们爬取斗图拉网站()上的所有表情包)
#导入模块mport requests as reqfrom bs4 import BeautifulSoupimport osimport urllibcount=1for i in range(1,3367):#爬取1到3367页的表情包 url=';+str(i)#URL网址 response=req.get(url) content=response.content#获取URL soup=BeautifulSoup(content,'lxml')#调用类 img_list=soup.find_all('img',attrs={'class':'img-responsive lazy image_dta'}) for img in img_list: img_url=img['data-original'] filename=str(count)+'.jpg' count=count+1 path=os.path.join('D:/image',filename) urllib.request.urlretrieve(img_url,filename=path)结果
在你设定的文件夹下就会有很多表情包。
结尾
最后多说一句,小编是一名python开发工程师,这里有我自己整理了一套最新的python系统学习教程,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些资料的可以关注小编,并在后台私信小编:“01”即可领取。
本文的文字及图片来源于网络加上自己的想法,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
标签: #python 爬虫源码