龙空技术网

使用python和re正则爬取电影网站的图片和标题

厚积薄发爱python 253

前言:

今天各位老铁们对“python爬取新闻网站标题和内容”可能比较讲究,大家都需要分析一些“python爬取新闻网站标题和内容”的相关资讯。那么小编在网摘上搜集了一些有关“python爬取新闻网站标题和内容””的相关内容,希望姐妹们能喜欢,兄弟们快快来学习一下吧!

本代码作用:使用python和re正则爬取电影网站的图片和标题

操作步骤如下:

1、在浏览器打开,按F12-F5,依次解析出图片标签在img标签里,如下图所示:

2、在pycharm里编写源代码,爬取思路依次如下:

①导入相应的库

②对网站进行GET请求并按照正则表达式解析img标签的信息

③对img标签的网站进行get请求并解析

④读取img标签的网站的响应内容,并写入本机

代码如下:

import requestsfrom bs4 import BeautifulSoupimport reimport randomdef down_movie(): fronturl="; #设置请求网站 headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"} #设置请求头 response=requests.get(fronturl,headers=headers) #对网站进行get请求并将请求结果赋值给response response.encoding=response.apparent_encoding #根据响应内容解析出编码格式,并赋值给response.encoding html=response.text #将响应的文本内容赋值给html pattern1=re.compile(r'<img.*?data-original="(.*?)".*?alt="(.*?)".*?>') #对网站的img标签进行正则匹配,并赋值给pattern1 result1=re.findall(pattern1,html) #使用正则匹配规则pattern1对网页源代码html进行查找,并将所有的查找结果赋值给result1 print(result1) #打印result1的值 path="F:/PPT图片/" #设置相对路径 try: for info in result1: #遍历result1里的信息info abspath=path+info[1]+".jpg" #设置绝对路径,用来保存图片 respons1=requests.get(url=info[0],headers=headers) #对info[0]即图片网址进行get请求,并将请求结果赋值给response1 respons1.encoding=respons1.apparent_encoding #根据响应内容解析出编码格式,并赋值给response1.encoding content1=respons1.content #将网页的二进制数据赋值给content1 with open(abspath,"wb") as f: #打开绝对路径,并进行写入操作,并将路径赋值给f f.write(content1) #对f进行写入操作,写入的数据为content1 f.close() #关闭f文件 print(info[1]+"爬取结束!") #打印爬取结束 except: #否则当接收到错误信息时 print("爬取失败") #打印爬取失败 finally: #最终 print("爬取结束") #打印爬取结束if __name__ == '__main__': down_movie() #调用down_movie函数

代码运行结果如下:

[(';, '斗罗大陆'), (';, '谍战深海之惊蛰'), (';, '没有秘密的你'), (';, '初恋那件小事'), (';, '少年的你'), (';, '从前有座灵剑山'), (';, '西行纪'), (';, '恋恋江湖'), (';, '奔腾年代'), (';, '海贼王'), (';, '明月照我心'), (';, '光荣时代'), (';, '知否知否应是绿肥红瘦'), (';, '火影忍者'), (';, '陈情令'), (';, '海棠经雨胭脂透'), (';, '鸡毛飞上天'), (';, '小丑'), (';, '纪实72小时[中国版]第二季'), (';, '快递员'), (';, '伯纳黛特你去了哪'), (';, '极速车王'), (';, '攀登者'), (';, '冰雪奇缘2'), (';, '灼人秘密'), (';, '第一滴血5:最后的血'), (';, '准备好了没'), (';, '她的马拉松'), (';, '豫见后来'), (';, '再次,春天'), (';, '融和不容易'), (';, '完美之声'), (';, '幻想工程故事第一季'), (';, '弗莱彻夫人'), (';, '威尔和格蕾丝第十一季'), (';, '麻辣拳拳'), (';, '为全人类第一季'), (';, '邪恶第一季'), (';, '小谢尔顿第三季'), (';, '邪恶'), (';, '海棠经雨胭脂透'), (';, '暹罗密码'), (';, '鲁豫有约'), (';, '妻子的浪漫旅行3秘密版'), (';, '女儿们的恋爱第二季'), (';, '这样唱好美'), (';, '演员请就位'), (';, '寻情记'), (';, '欢乐集结号'), (';, '演技派'), (';, '非常静距离2019'), (';, '超次元对决'), (';, '麻辣天后传'), (';, '明星大侦探第五季'), (';, '穿越时空的少女'), (';, '红辣椒'), (';, '银河英雄传说 Die Neue These 星乱 第1章'), (';, '探险活宝第四季'), (';, '探险活宝第一季'), (';, '心理测量者3'), (';, '非枪人生'), (';, '霹雳靖玄录下阕'), (';, '独步星海'), (';, '逆天邪神第一季'), (';, '蜘蛛侠第二季'), (';, '全金属狂潮3')]

斗罗大陆爬取结束!

谍战深海之惊蛰爬取结束!

没有秘密的你爬取结束!

初恋那件小事爬取结束!

少年的你爬取结束!

从前有座灵剑山爬取结束!

西行纪爬取结束!

恋恋江湖爬取结束!

奔腾年代爬取结束!

海贼王爬取结束!

明月照我心爬取结束!

光荣时代爬取结束!

知否知否应是绿肥红瘦爬取结束!

火影忍者爬取结束!

陈情令爬取结束!

海棠经雨胭脂透爬取结束!

鸡毛飞上天爬取结束!

小丑爬取结束!

纪实72小时[中国版]第二季爬取结束!

快递员爬取结束!

伯纳黛特你去了哪爬取结束!

极速车王爬取结束!

攀登者爬取结束!

冰雪奇缘2爬取结束!

灼人秘密爬取结束!

第一滴血5:最后的血爬取结束!

准备好了没爬取结束!

她的马拉松爬取结束!

豫见后来爬取结束!

再次,春天爬取结束!

融和不容易爬取结束!

完美之声爬取结束!

幻想工程故事第一季爬取结束!

弗莱彻夫人爬取结束!

威尔和格蕾丝第十一季爬取结束!

麻辣拳拳爬取结束!

为全人类第一季爬取结束!

邪恶第一季爬取结束!

小谢尔顿第三季爬取结束!

邪恶爬取结束!

海棠经雨胭脂透爬取结束!

暹罗密码爬取结束!

鲁豫有约爬取结束!

妻子的浪漫旅行3秘密版爬取结束!

女儿们的恋爱第二季爬取结束!

这样唱好美爬取结束!

演员请就位爬取结束!

寻情记爬取结束!

欢乐集结号爬取结束!

演技派爬取结束!

非常静距离2019爬取结束!

超次元对决爬取结束!

麻辣天后传爬取结束!

明星大侦探第五季爬取结束!

穿越时空的少女爬取结束!

红辣椒爬取结束!

银河英雄传说 Die Neue These 星乱 第1章爬取结束!

探险活宝第四季爬取结束!

探险活宝第一季爬取结束!

心理测量者3爬取结束!

非枪人生爬取结束!

霹雳靖玄录下阕爬取结束!

独步星海爬取结束!

逆天邪神第一季爬取结束!

蜘蛛侠第二季爬取结束!

全金属狂潮3爬取结束!

爬取结束

代码和代码运行结果图如下所示:

存入本机的图片如下图所示:

标签: #python爬取新闻网站标题和内容 #python爬取新闻网站标题和内容怎么写 #python爬取网页标题