前言:
现在看官们对“如何爬取多个网页数据”都比较关怀,姐妹们都需要分析一些“如何爬取多个网页数据”的相关内容。那么小编也在网络上汇集了一些对于“如何爬取多个网页数据””的相关资讯,希望各位老铁们能喜欢,姐妹们一起来学习一下吧!在Excel2016版本起都自带power query,本文实例同样可以在Excel中执行。下面介绍的是更加优秀的工具Power BI Desktop。该软件可以直接在官网下载。
Power BI是商业可视化的免费软件,非常好用,同时还能爬取网页数据,无需写代码,还能刷新数据,非常实用。下面举个简单的例子看看。
在淘宝网页上,查找“日系女装”的数据
首先,打开软件Power BI Desktop,点击获取数据——web
在打开的窗口中选择,高级
接下来看看第1页网页地址
0
第2页网页地址
1
往下对比发现,变化的只是最后那个数值。然后,我们把网页地址分成两部分,复制到URL内
点击确定
在跳出的导航器里,选中表,点击转换数据
在打开的power query中修改表头名称,
然后,点击高级编辑器
在代码前定义一个用来存放页码的参数
同时,把原来网页上的“0”,即是拆分出来变化那部分URL
修改为 (Number.ToText(p)),注意要区分大小写。没有语法错误后,点完成
会出现以下页面
在P下面输入任意数字,比如3,点调用,那么网页上这个页面的数据就会加载进来
接下来看看如何批量爬取网页上的数据。
首先,点击新建源——其他源——空查询
在进来的页面,输入你要查询的页面数量。注意要在英文下输入,例如,我要0到100页的数据,则输入={0..100}
按回车,会出现一个列表0到100
点击列表——到表,
直接点确认
在添加列——调用自定义函数
点击查询,在选择里面的表1,新列名会自动调用它。确定
如果出现要求与数据隐私有关的信息,则点继续,在弹出来的隐私级别里,勾选忽略此文件隐私,保存即可。数据会自动加载进来。加载进来后是如下图
点击进来的任意一个table,会看到下面都有对应的页面信息
点击符号
把使用原始列名为前缀那个勾去掉,确定
数据会直接进来,然后把第1列序号,右键删掉。
点击关闭并应用
可以看到数据都加载进来了呢
剩下的工作,就是对数据简单清洗,做可视化报表了。即使网页上的数据实施更新,在power BI里点击刷新数据,就能直接更新数据,无需重新导入数据了呢。是不是非常方便呢?仿照这样的例子小白都能上手哈。
标签: #如何爬取多个网页数据