龙空技术网

GooSeeker如何翻页采集列表数据

语义网络爬虫 143

前言:

而今各位老铁们对“爬虫如何实现翻页”大约比较关怀,同学们都想要知道一些“爬虫如何实现翻页”的相关知识。那么小编也在网上汇集了一些关于“爬虫如何实现翻页””的相关知识,希望同学们能喜欢,咱们一起来了解一下吧!

一、操作步骤

采集具有一页以上的列表网页就要设置翻页,这样DS打数机才能自动翻页采集数据。选取一个具有翻页的样本网址来做规则,就可以用这个规则来批量采集同类网址(一页和多页都可以适用)。下面以大众点评网做案例。

二、案例步骤

先做上样例复制,来采集列表数据,这一教程在上一篇文章中已经讲到,就不重复操作了。《GooSeeker用样例复制批量采集列表数据》

三、设置翻页

1.1,新建记号线索:选择“爬虫路线”,点击“新建”,选择“记号线索”,勾选上“连贯抓取”,“目标主题名”就会自动的填入进去,这里是指循环调用了这个规则。

1.2,设置好了记号线索是要做两次映射的,第一次是映射翻页区块的范围,第二次是映射翻页记号。

第一次是选定翻页区域的网页节点进行映射:点击翻页标志,定位到包含它的翻页区域所在的网页节点,这里是指包含了“下一页”、“加载更多”等这些翻页按钮的翻页区,然后右键节点选择“线索映射”->“定位”->“线索*”,爬虫路线中的“定位编号”就会映射上该节点的编号。

第二次是把翻页记号值所在的网页节点做映射:双击翻页区域节点逐层展开,找到翻页记号所在的节点,这里指翻页按钮的文本节点或属性值节点,右键节点选择“线索映射”->“记号映射”,爬虫路线中“记号值”和“记号定位编号”就会分别映射上该节点的值和编号。

1.3,定位选项的默认项是编号id,由于不同页码的翻页区id值可能会发生变化,而class值却通常是保持不变的,所以,最好是改为偏好class。

四、存规则、抓数据

点击存规则,爬数据,在DS打数机里看是否翻页成功,翻页采集成功的话,在本地DataScraperWorks文件夹中会生成多个XML文件,详情见文章《怎么将采集下来的xml文件转换成Excel文件?》。

标签: #爬虫如何实现翻页