前言:
现时同学们对“python网页分析”大约比较注重,兄弟们都需要知道一些“python网页分析”的相关知识。那么小编同时在网络上网罗了一些有关“python网页分析””的相关资讯,希望小伙伴们能喜欢,各位老铁们快快来学习一下吧!图/文:迷神
我们做python爬虫,通过requests抓取到内容就需要正则匹配,或者其他解析库解析内容。很多可能和我一样的人,都使用jquery的,那用的还是非常爽的。而pyquery库就是jQuery的Python实现,能够以jQuery的语法来操作解析 HTML 文档,易用性和解析速度都不错。
虽然,Beautiful Soup 中可以使用 CSS 选择器,但是好像他的 CSS 选择器并没有想像中的强大,PyQuery反而更优一些,因此,我们来说说,Python爬虫神器:PyQuery。
PyQuery库官方文档
官方文档:
PyPI:
Github:
1、PyQuery初始化内容
PyQuery初始化有3种形式:
1.1、直接初始化requests返回的html内容
from pyquery import PyQuery as pq#初始化为PyQuery对象doc = pq(html)print(type(doc))print(doc)
1.2、直接读取文件的形式
#filename参数为html文件路径doc = pq(filename = 'test.html')print(type(doc))print(doc)
1.3、读取网址的形式
doc = pq(url = ';)print(type(doc))print(doc)2、常用CSS选择器:
pyquery强大的地方,就是在于使用了类似jquery一样的选择,进行网页节点解析。
html = """ <ul id="container"> <li class="object-1">Python</li> <li class="object-2">大法</li> <li id="object-1">好</li> </ul>"""
获取id为object-1的标签
print(doc('#object-1'))#返回:<li id="object-1">好</li>#还可以:print(doc('#container #object-1'))
获取class为object-1的标签
print(doc('.object-1'))#返回:<li class="object-1">Python</li>
获取ul标签:
print(doc('ul'))#返回<ul id="container"> <li class="object-1">Python</li> <li class="object-2">大法</li> <li id="object-1">好</li></ul>
如果获取多个li,可以遍历:
a = doc('li')for item in a.items(): print(item)
其他的我们还可以查找节点
我们接着介绍一下常用的查找函数,这些查找函数最赞的地方就是它们和 JQuery 的用法完全一致。
find() : 查找节点的所有子孙节点。
children() : 只查找子节点。
parent() : 查找父节点。
parents() : 查找祖先节点。
siblings() : 查找兄弟节点。
3、获取标签的信息
我们在定位到目标之后,就需要获取标签的内容信息,常用的有:
3.1、attr() 获取属性,返回属性值
object_2 = doc.find('.object-2')print(object_2.attr('class'))#返回object-2
3.2、text() 标签的文本
object_1 = docs.find('.object-1')print(object_1.text())#返回Python
当然pyquery还有很多,比如remove去掉节点内容,获取url网址的,还可以自定义cookie和header等。
Beautiful Soup 对新手比较友好,pyquery对用过jquery的来说,更简单更方便,是一个非常不错的选择。
好了,就这么多啦,我是迷神,更多精彩python内容,可以关注我哦,有问题也可以评论哦。
标签: #python网页分析