龙空技术网

简单爬虫-Web Scraper简易教学

余老师讲机器学习 147

前言:

今天看官们对“爬虫如何实现翻页”大约比较注意,小伙伴们都想要剖析一些“爬虫如何实现翻页”的相关内容。那么小编也在网络上收集了一些有关“爬虫如何实现翻页””的相关知识,希望兄弟们能喜欢,姐妹们一起来学习一下吧!

前言

相信许多不懂技术的小伙伴一看到代码就懵圈,我也一样,看到密密麻麻的数字脑子就疼,大学不听劝非要选 C 语言,没翘过一节课但啥也没听懂,背了两道题就上考场了,最后还是因为前面坐了个哥们,抄他的都只抄了60分……

话说回来,很多时候我们感知一个产品的受众,稍微体验下就可做出判断,但调研的越多,就越不确定自己的答案,要么就掉进“幸存者偏差”里,越做越错,然后用勤奋掩盖了懒惰。

所以,当有了项目或者需求,我们除了用心感知,用爱发电,也可以用“大数据”来看看相关趋势,做出更好的判断。那么,回到第一段,不会代码,该如何去找大数据?

傻瓜爬虫工具 - Web Scraper

介绍这个工具之前,我还想强调一下“目的”,做事情前,花几分钟思考下你想要的结果,这比盲做更有价值。Web Scraper 只是具有工具属性,但它不是结果,只要几十分钟,你就能学会。

下载安装

你需要:

- Chrome 浏览器

- Web Scraper 插件

- 下载完成后浏览器输入chrome://extensions/

- 将下载完成的东西拖进来即可

打开软件

打开 Chrome;

mac:command + option + I

Windows:Ctrl + Shift + I

正式开始

创建sitemap

比如,我在知乎上看到一个好看的小姐姐,我想看下关注她的粉丝是什么样的。

打开粉丝数界面,启动 Web Scraper,创建sitemap。

Create New Sitemap - create new sitemap

create new sitemap 页面

Sitemap name :xiaojiejie (随便输个就好)

Start url:“输入当前网址”

点击 create sitemap 后的页面

点击 Add new selecter

点击 create sitemap 后的页面

id :content (也是随便输,自己看懂就行)

Type:选择 Element

选择 Select,将鼠标移到用户头像所在区域,颜色会变绿。

点击所在区域,要变红

再点击下面的 “嘿嘿 小蛋子”,所有同类别的区域都会自动变红啦~

再点击 Done Selecting,这里一定要点,不点后面会报错。

勾选 Multiple,并点击 Save selector

点击我们刚刚创建的 content

id:name (依旧随便写)

Type:选择 Text (因为我们选择是人名)

点击 Select,选择“火山兄”,点击 Done Selecting

不勾选 Multiple,因为此时我只要用户名。

我们的用户名采集工作就做完了~

接下来,我依次再爬去“用户介绍”、“回答问题数”、“关注者数”,步骤与采集用户名一样。

*用户介绍

点击 Scrape,开始采集数据

这里直接点击 Start scraping 就好啦

数据采集完成后,点击 refresh

喵喵喵,东西就出来了,但此时我们发现只有一页数据。

返回第一层,选择 Edit metadata

小姐姐有396页粉丝,每点击一次新页面,发现 url 后的数字有变化,所以,此时在网址后添加 [1-396:1]

再次 Scrape 就可以坐等结果了,爬完后将文件导出就慢慢分析吧~

后记

就算你有了大量数据,还需要一些数据分析思维和方法,不然也是干瞪眼,瞎哔乱炮写一堆,没人看懂你想表达什么。

明确目的比掌握工具更重要

留两个小问题

如果我爬的网站不是点击翻页的,而是不断下滑的该怎么办?微博的评论既有下滑又有点击,又该怎么办?

标签: #爬虫如何实现翻页