龙空技术网

Python爬虫神器:PyQuery,解析网页更简单,小白也能学会

迷神笔记 262

前言:

现时同学们对“python网页分析”大约比较注重,兄弟们都需要知道一些“python网页分析”的相关知识。那么小编同时在网络上网罗了一些有关“python网页分析””的相关资讯,希望小伙伴们能喜欢,各位老铁们快快来学习一下吧!

图/文:迷神

我们做python爬虫,通过requests抓取到内容就需要正则匹配,或者其他解析库解析内容。很多可能和我一样的人,都使用jquery的,那用的还是非常爽的。而pyquery库就是jQuery的Python实现,能够以jQuery的语法来操作解析 HTML 文档,易用性和解析速度都不错。

虽然,Beautiful Soup 中可以使用 CSS 选择器,但是好像他的 CSS 选择器并没有想像中的强大,PyQuery反而更优一些,因此,我们来说说,Python爬虫神器:PyQuery。

PyQuery库官方文档

官方文档:

PyPI:

Github:

1、PyQuery初始化内容

PyQuery初始化有3种形式:

1.1、直接初始化requests返回的html内容

from pyquery import PyQuery as pq#初始化为PyQuery对象doc = pq(html)print(type(doc))print(doc)

1.2、直接读取文件的形式

#filename参数为html文件路径doc = pq(filename = 'test.html')print(type(doc))print(doc)

1.3、读取网址的形式

doc = pq(url = ';)print(type(doc))print(doc)
2、常用CSS选择器:

pyquery强大的地方,就是在于使用了类似jquery一样的选择,进行网页节点解析。

html = """        <ul id="container">            <li class="object-1">Python</li>            <li class="object-2">大法</li>            <li id="object-1">好</li>        </ul>"""

获取id为object-1的标签

print(doc('#object-1'))#返回:<li id="object-1">好</li>#还可以:print(doc('#container #object-1'))

获取class为object-1的标签

print(doc('.object-1'))#返回:<li class="object-1">Python</li>

获取ul标签:

print(doc('ul'))#返回<ul id="container">		<li class="object-1">Python</li>		<li class="object-2">大法</li>		<li id="object-1">好</li></ul>

如果获取多个li,可以遍历:

a = doc('li')for item in a.items():    print(item)

其他的我们还可以查找节点

我们接着介绍一下常用的查找函数,这些查找函数最赞的地方就是它们和 JQuery 的用法完全一致。

find() : 查找节点的所有子孙节点。

children() : 只查找子节点。

parent() : 查找父节点。

parents() : 查找祖先节点。

siblings() : 查找兄弟节点。

3、获取标签的信息

我们在定位到目标之后,就需要获取标签的内容信息,常用的有:

3.1、attr() 获取属性,返回属性值

object_2 = doc.find('.object-2')print(object_2.attr('class'))#返回object-2

3.2、text() 标签的文本

object_1 = docs.find('.object-1')print(object_1.text())#返回Python

当然pyquery还有很多,比如remove去掉节点内容,获取url网址的,还可以自定义cookie和header等。

Beautiful Soup 对新手比较友好,pyquery对用过jquery的来说,更简单更方便,是一个非常不错的选择。

好了,就这么多啦,我是迷神,更多精彩python内容,可以关注我哦,有问题也可以评论哦。

标签: #python网页分析