简单爬虫-Web Scraper简易教学

余老师讲机器学习 10-20 154

前言：

今天看官们对“爬虫如何实现翻页”大约比较注意，小伙伴们都想要剖析一些“爬虫如何实现翻页”的相关内容。那么小编也在网络上收集了一些有关“爬虫如何实现翻页””的相关知识，希望兄弟们能喜欢，姐妹们一起来学习一下吧！

前言

相信许多不懂技术的小伙伴一看到代码就懵圈，我也一样，看到密密麻麻的数字脑子就疼，大学不听劝非要选 C 语言，没翘过一节课但啥也没听懂，背了两道题就上考场了，最后还是因为前面坐了个哥们，抄他的都只抄了60分……

话说回来，很多时候我们感知一个产品的受众，稍微体验下就可做出判断，但调研的越多，就越不确定自己的答案，要么就掉进“幸存者偏差”里，越做越错，然后用勤奋掩盖了懒惰。

所以，当有了项目或者需求，我们除了用心感知，用爱发电，也可以用“大数据”来看看相关趋势，做出更好的判断。那么，回到第一段，不会代码，该如何去找大数据？

傻瓜爬虫工具 - Web Scraper

介绍这个工具之前，我还想强调一下“目的”，做事情前，花几分钟思考下你想要的结果，这比盲做更有价值。Web Scraper 只是具有工具属性，但它不是结果，只要几十分钟，你就能学会。

下载安装

你需要：

- Chrome 浏览器

- Web Scraper 插件

- 下载完成后浏览器输入chrome://extensions/

- 将下载完成的东西拖进来即可

打开软件

打开 Chrome；

mac：command + option + I

Windows：Ctrl + Shift + I

正式开始

创建sitemap

比如，我在知乎上看到一个好看的小姐姐，我想看下关注她的粉丝是什么样的。

打开粉丝数界面，启动 Web Scraper，创建sitemap。

Create New Sitemap - create new sitemap

create new sitemap 页面

Sitemap name ：xiaojiejie （随便输个就好）

Start url：“输入当前网址”

点击 create sitemap 后的页面

点击 Add new selecter

点击 create sitemap 后的页面

id ：content （也是随便输，自己看懂就行）

Type：选择 Element

选择 Select，将鼠标移到用户头像所在区域，颜色会变绿。

点击所在区域，要变红

再点击下面的 “嘿嘿小蛋子”，所有同类别的区域都会自动变红啦~

再点击 Done Selecting，这里一定要点，不点后面会报错。

勾选 Multiple，并点击 Save selector

点击我们刚刚创建的 content

id：name （依旧随便写）

Type：选择 Text （因为我们选择是人名）

点击 Select，选择“火山兄”，点击 Done Selecting

不勾选 Multiple，因为此时我只要用户名。

我们的用户名采集工作就做完了~

接下来，我依次再爬去“用户介绍”、“回答问题数”、“关注者数”，步骤与采集用户名一样。

*用户介绍

点击 Scrape，开始采集数据

这里直接点击 Start scraping 就好啦

数据采集完成后，点击 refresh

喵喵喵，东西就出来了，但此时我们发现只有一页数据。

返回第一层，选择 Edit metadata

小姐姐有396页粉丝，每点击一次新页面，发现 url 后的数字有变化，所以，此时在网址后添加 [1-396:1]

再次 Scrape 就可以坐等结果了，爬完后将文件导出就慢慢分析吧~

后记

就算你有了大量数据，还需要一些数据分析思维和方法，不然也是干瞪眼，瞎哔乱炮写一堆，没人看懂你想表达什么。

明确目的比掌握工具更重要

留两个小问题

如果我爬的网站不是点击翻页的，而是不断下滑的该怎么办？微博的评论既有下滑又有点击，又该怎么办？

本文地址：http://www.longkongtuishu.com/cabfbAGsCDFMOClc.html

标签： #爬虫如何实现翻页

简单爬虫-Web Scraper简易教学

简单爬虫-Web Scraper简易教学

GooSeeker如何翻页采集列表数据

超详细SpiderFlow可视化爬虫实践教程