龙空技术网

python通过findAll('h4')获取jin10网站的消息

厚积薄发爱python 204

前言:

而今兄弟们对“cssh4”都比较关注,朋友们都想要剖析一些“cssh4”的相关文章。那么小编也在网上搜集了一些有关“cssh4””的相关内容,希望各位老铁们能喜欢,大家一起来学习一下吧!

python通过findAll('h4')获取jin10网站的消息,jin10是一个财经资讯类网站

注意事项:本电脑环境是python 3.7

网页爬取数据的步骤:

1、导入相应的模块,例如request,BeautifulSoup等。2、对网站进行请求3、对网站HTML源代码进行解析4、尝试打印所获取的数据

代码如下:

import requestsfrom bs4 import BeautifulSoupimport pandas as pd#1、网页请求url="" #设置请求网址为jin10网站response=requests.get(url) #对金十财经网站进行get请求并将请求结果赋值给responseresponse.encoding='utf-8' #设置网页的编码为'utf-8'html=response.text #获取网页的html源代码并赋值给html#2、解析网站#经查实发现所有的消息类信息都在h4标签里,故去获取h4标签数据soup=BeautifulSoup(html,'lxml') #解析html网页的lxml代码,并赋值给soupcontent=soup.findAll('h4') #查找网页的h4标签#3、遍历p标签数据for msg in content: #遍历h4标签的内容 print(msg.text) #打印h4标签的内容,用text获取数据

代码运行结果如下图所示:

标签: #cssh4