前言:
而今各位老铁们对“爬虫如何实现翻页”大约比较关怀,同学们都想要知道一些“爬虫如何实现翻页”的相关知识。那么小编也在网上汇集了一些关于“爬虫如何实现翻页””的相关知识,希望同学们能喜欢,咱们一起来了解一下吧!一、操作步骤
采集具有一页以上的列表网页就要设置翻页,这样DS打数机才能自动翻页采集数据。选取一个具有翻页的样本网址来做规则,就可以用这个规则来批量采集同类网址(一页和多页都可以适用)。下面以大众点评网做案例。
二、案例步骤
先做上样例复制,来采集列表数据,这一教程在上一篇文章中已经讲到,就不重复操作了。《GooSeeker用样例复制批量采集列表数据》
三、设置翻页
1.1,新建记号线索:选择“爬虫路线”,点击“新建”,选择“记号线索”,勾选上“连贯抓取”,“目标主题名”就会自动的填入进去,这里是指循环调用了这个规则。
1.2,设置好了记号线索是要做两次映射的,第一次是映射翻页区块的范围,第二次是映射翻页记号。
第一次是选定翻页区域的网页节点进行映射:点击翻页标志,定位到包含它的翻页区域所在的网页节点,这里是指包含了“下一页”、“加载更多”等这些翻页按钮的翻页区,然后右键节点选择“线索映射”->“定位”->“线索*”,爬虫路线中的“定位编号”就会映射上该节点的编号。
第二次是把翻页记号值所在的网页节点做映射:双击翻页区域节点逐层展开,找到翻页记号所在的节点,这里指翻页按钮的文本节点或属性值节点,右键节点选择“线索映射”->“记号映射”,爬虫路线中“记号值”和“记号定位编号”就会分别映射上该节点的值和编号。
1.3,定位选项的默认项是编号id,由于不同页码的翻页区id值可能会发生变化,而class值却通常是保持不变的,所以,最好是改为偏好class。
四、存规则、抓数据
点击存规则,爬数据,在DS打数机里看是否翻页成功,翻页采集成功的话,在本地DataScraperWorks文件夹中会生成多个XML文件,详情见文章《怎么将采集下来的xml文件转换成Excel文件?》。
标签: #爬虫如何实现翻页