龙空技术网

python抓取斗图网站的表情包

繁花水漪 344

前言:

眼前各位老铁们对“python抓取豆瓣电影”都比较注重,看官们都想要了解一些“python抓取豆瓣电影”的相关资讯。那么小编也在网络上收集了一些有关“python抓取豆瓣电影””的相关内容,希望兄弟们能喜欢,兄弟们一起来了解一下吧!

本文介绍抓取斗图啦这一网址的表情包,内容比较简单,数据没有加密。

一.思路介绍

受害者网址:

抓包工具找到表情包数据类型与所在位置,即数据为静态数据,存放在页面源代码中,可以通过xpath与正则表达式进行数据提取,提取出图片地址,如下图。

知道图片地址即可下载了。

二.代码思路requests请求网址,得到内容利用正则表达式进行数据解析,提取表情包的链接requests请求表情包链接,下载图片三.python实现

import requestsimport reurl = ';headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36 Edg/107.0.1418.56'}resp = requests.get(url,headers= headers)# print(resp.text)obj = re.compile(r'data-backup="(.*?)"',re.S)img_list = obj.findall(resp.text)print(img_list)for img_url in img_list:    name = img_url.split('_')[-1]    # print(name)    with open('./pictures/' + name, 'wb') as f:        f.write(requests.get(img_url, headers=headers).content)        print(name+'下载完毕')
四.总结

本文讲述的内容比较基础,大家可以进行拓展,例如爬取多页表情包,利用协程,多线程等进行快速大量爬取,欢迎大家讨论学习,谢谢。

标签: #python抓取豆瓣电影