前言:
眼前各位老铁们对“python抓取豆瓣电影”都比较注重,看官们都想要了解一些“python抓取豆瓣电影”的相关资讯。那么小编也在网络上收集了一些有关“python抓取豆瓣电影””的相关内容,希望兄弟们能喜欢,兄弟们一起来了解一下吧!本文介绍抓取斗图啦这一网址的表情包,内容比较简单,数据没有加密。
一.思路介绍
受害者网址:
抓包工具找到表情包数据类型与所在位置,即数据为静态数据,存放在页面源代码中,可以通过xpath与正则表达式进行数据提取,提取出图片地址,如下图。
知道图片地址即可下载了。
二.代码思路requests请求网址,得到内容利用正则表达式进行数据解析,提取表情包的链接requests请求表情包链接,下载图片三.python实现
import requestsimport reurl = ';headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36 Edg/107.0.1418.56'}resp = requests.get(url,headers= headers)# print(resp.text)obj = re.compile(r'data-backup="(.*?)"',re.S)img_list = obj.findall(resp.text)print(img_list)for img_url in img_list: name = img_url.split('_')[-1] # print(name) with open('./pictures/' + name, 'wb') as f: f.write(requests.get(img_url, headers=headers).content) print(name+'下载完毕')四.总结
本文讲述的内容比较基础,大家可以进行拓展,例如爬取多页表情包,利用协程,多线程等进行快速大量爬取,欢迎大家讨论学习,谢谢。
版权声明:
本站文章均来自互联网搜集,如有侵犯您的权益,请联系我们删除,谢谢。
标签: #python抓取豆瓣电影