前言:
如今咱们对“python浏览器内核库”大体比较关心,小伙伴们都需要知道一些“python浏览器内核库”的相关内容。那么小编在网上汇集了一些对于“python浏览器内核库””的相关内容,希望我们能喜欢,同学们快快来了解一下吧!爬取目标网站的图片
先查看网页结构
这里用的Requests库
Requests是用python语言基于urllib编写的。与urllib相比,Requests更加方便,可以节约我们大量的工作,建议爬虫使用Requests库
equests提供的请求各个请求方式:
import requestsrequests.get(url)requests.post(url)requests.put(url)requests.delete(url)requests.head(url)requests.options(url)
还使用了PyQuery库,它是 Python 仿照 jQuery 的严格实现,一个非常强大又灵活的网页解析库,语法与 jQuery 几乎完全相同。
User Agent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,User Agent也简称UA。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个标 识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计;例如用手机访问谷歌和电脑访问是不一样的,这些是谷歌根据访问者的 UA来判断的。UA可以进行伪装。
headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 ' '(KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
话不多说 这里是部分代码:
请求网页 获取源码def start_request(url): r = requests.get(url, headers=headers) # 这个网站页面使用的是GBK编码 这里进行编码转换 r.encoding = 'GBK' html = r.text return html# 解析网页 获取图片def parse(text): doc = pq(text) # 锁定页面中的img标签 images = doc('div.list ul li img').items() x = 0 for image in images: # 获取每一张图片的链接 img_url = image.attr('src') # 获得每张图片的二进制内容 img = requests.get(img_url, headers=headers).content # 定义要存储图片的路劲 path = "E:\\image\\" + str(x) + ".jpg" # 将图片写入指定的目录 写入文件用"wb" with open(path, 'wb') as f: f.write(img) time.sleep(1) print("正在下载第{}张图片".format(x)) x += 1 print("下载完成")
运行完的结果:
为解决初学者学习上的困难,专门建立的Python学习圈,从零基础开始到Python各领域的项目实战教程、开发工具与电子书籍。与你分享企业当下对于python人才需求及学好python的高效技巧,不停更新最新教程!感兴趣的小伙伴可以私聊我
标签: #python浏览器内核库