GooSeeker如何翻页采集列表数据

语义网络爬虫 04-26 153

前言：

而今各位老铁们对“爬虫如何实现翻页”大约比较关怀，同学们都想要知道一些“爬虫如何实现翻页”的相关知识。那么小编也在网上汇集了一些关于“爬虫如何实现翻页””的相关知识，希望同学们能喜欢，咱们一起来了解一下吧！

一、操作步骤

采集具有一页以上的列表网页就要设置翻页，这样DS打数机才能自动翻页采集数据。选取一个具有翻页的样本网址来做规则，就可以用这个规则来批量采集同类网址（一页和多页都可以适用）。下面以大众点评网做案例。

二、案例步骤

先做上样例复制，来采集列表数据，这一教程在上一篇文章中已经讲到，就不重复操作了。《GooSeeker用样例复制批量采集列表数据》

三、设置翻页

1.1，新建记号线索：选择“爬虫路线”，点击“新建”，选择“记号线索”，勾选上“连贯抓取”，“目标主题名”就会自动的填入进去，这里是指循环调用了这个规则。

1.2，设置好了记号线索是要做两次映射的，第一次是映射翻页区块的范围，第二次是映射翻页记号。

第一次是选定翻页区域的网页节点进行映射：点击翻页标志，定位到包含它的翻页区域所在的网页节点，这里是指包含了“下一页”、“加载更多”等这些翻页按钮的翻页区，然后右键节点选择“线索映射”->“定位”->“线索*”，爬虫路线中的“定位编号”就会映射上该节点的编号。

第二次是把翻页记号值所在的网页节点做映射：双击翻页区域节点逐层展开，找到翻页记号所在的节点，这里指翻页按钮的文本节点或属性值节点，右键节点选择“线索映射”->“记号映射”，爬虫路线中“记号值”和“记号定位编号”就会分别映射上该节点的值和编号。

1.3，定位选项的默认项是编号id，由于不同页码的翻页区id值可能会发生变化，而class值却通常是保持不变的，所以，最好是改为偏好class。

四、存规则、抓数据

点击存规则，爬数据，在DS打数机里看是否翻页成功，翻页采集成功的话，在本地DataScraperWorks文件夹中会生成多个XML文件，详情见文章《怎么将采集下来的xml文件转换成Excel文件？》。

简单爬虫-Web Scraper简易教学