前言:
今天看官们对“爬虫如何实现翻页”大约比较注意,小伙伴们都想要剖析一些“爬虫如何实现翻页”的相关内容。那么小编也在网络上收集了一些有关“爬虫如何实现翻页””的相关知识,希望兄弟们能喜欢,姐妹们一起来学习一下吧!前言
相信许多不懂技术的小伙伴一看到代码就懵圈,我也一样,看到密密麻麻的数字脑子就疼,大学不听劝非要选 C 语言,没翘过一节课但啥也没听懂,背了两道题就上考场了,最后还是因为前面坐了个哥们,抄他的都只抄了60分……
话说回来,很多时候我们感知一个产品的受众,稍微体验下就可做出判断,但调研的越多,就越不确定自己的答案,要么就掉进“幸存者偏差”里,越做越错,然后用勤奋掩盖了懒惰。
所以,当有了项目或者需求,我们除了用心感知,用爱发电,也可以用“大数据”来看看相关趋势,做出更好的判断。那么,回到第一段,不会代码,该如何去找大数据?
傻瓜爬虫工具 - Web Scraper
介绍这个工具之前,我还想强调一下“目的”,做事情前,花几分钟思考下你想要的结果,这比盲做更有价值。Web Scraper 只是具有工具属性,但它不是结果,只要几十分钟,你就能学会。
下载安装
你需要:
- Chrome 浏览器
- Web Scraper 插件
- 下载完成后浏览器输入chrome://extensions/
- 将下载完成的东西拖进来即可
打开软件
打开 Chrome;
mac:command + option + I
Windows:Ctrl + Shift + I
正式开始
创建sitemap
比如,我在知乎上看到一个好看的小姐姐,我想看下关注她的粉丝是什么样的。
打开粉丝数界面,启动 Web Scraper,创建sitemap。
Create New Sitemap - create new sitemap
create new sitemap 页面
Sitemap name :xiaojiejie (随便输个就好)
Start url:“输入当前网址”
点击 create sitemap 后的页面
点击 Add new selecter
点击 create sitemap 后的页面
id :content (也是随便输,自己看懂就行)
Type:选择 Element
选择 Select,将鼠标移到用户头像所在区域,颜色会变绿。
点击所在区域,要变红
再点击下面的 “嘿嘿 小蛋子”,所有同类别的区域都会自动变红啦~
再点击 Done Selecting,这里一定要点,不点后面会报错。
勾选 Multiple,并点击 Save selector
点击我们刚刚创建的 content
id:name (依旧随便写)
Type:选择 Text (因为我们选择是人名)
点击 Select,选择“火山兄”,点击 Done Selecting
不勾选 Multiple,因为此时我只要用户名。
我们的用户名采集工作就做完了~
接下来,我依次再爬去“用户介绍”、“回答问题数”、“关注者数”,步骤与采集用户名一样。
*用户介绍
点击 Scrape,开始采集数据
这里直接点击 Start scraping 就好啦
数据采集完成后,点击 refresh
喵喵喵,东西就出来了,但此时我们发现只有一页数据。
返回第一层,选择 Edit metadata
小姐姐有396页粉丝,每点击一次新页面,发现 url 后的数字有变化,所以,此时在网址后添加 [1-396:1]
再次 Scrape 就可以坐等结果了,爬完后将文件导出就慢慢分析吧~
后记
就算你有了大量数据,还需要一些数据分析思维和方法,不然也是干瞪眼,瞎哔乱炮写一堆,没人看懂你想表达什么。
明确目的比掌握工具更重要
留两个小问题
如果我爬的网站不是点击翻页的,而是不断下滑的该怎么办?微博的评论既有下滑又有点击,又该怎么办?
标签: #爬虫如何实现翻页