龙空技术网

power query爬取多个页面数据

小王子1680 144

前言:

现在看官们对“如何爬取多个网页数据”都比较关怀,姐妹们都需要分析一些“如何爬取多个网页数据”的相关内容。那么小编也在网络上汇集了一些对于“如何爬取多个网页数据””的相关资讯,希望各位老铁们能喜欢,姐妹们一起来学习一下吧!

在Excel2016版本起都自带power query,本文实例同样可以在Excel中执行。下面介绍的是更加优秀的工具Power BI Desktop。该软件可以直接在官网下载。

Power BI是商业可视化的免费软件,非常好用,同时还能爬取网页数据,无需写代码,还能刷新数据,非常实用。下面举个简单的例子看看。

在淘宝网页上,查找“日系女装”的数据

首先,打开软件Power BI Desktop,点击获取数据——web

在打开的窗口中选择,高级

接下来看看第1页网页地址

0

第2页网页地址

1

往下对比发现,变化的只是最后那个数值。然后,我们把网页地址分成两部分,复制到URL内

点击确定

在跳出的导航器里,选中表,点击转换数据

在打开的power query中修改表头名称,

然后,点击高级编辑器

在代码前定义一个用来存放页码的参数

同时,把原来网页上的“0”,即是拆分出来变化那部分URL

修改为 (Number.ToText(p)),注意要区分大小写。没有语法错误后,点完成

会出现以下页面

在P下面输入任意数字,比如3,点调用,那么网页上这个页面的数据就会加载进来

接下来看看如何批量爬取网页上的数据。

首先,点击新建源——其他源——空查询

在进来的页面,输入你要查询的页面数量。注意要在英文下输入,例如,我要0到100页的数据,则输入={0..100}

按回车,会出现一个列表0到100

点击列表——到表,

直接点确认

在添加列——调用自定义函数

点击查询,在选择里面的表1,新列名会自动调用它。确定

如果出现要求与数据隐私有关的信息,则点继续,在弹出来的隐私级别里,勾选忽略此文件隐私,保存即可。数据会自动加载进来。加载进来后是如下图

点击进来的任意一个table,会看到下面都有对应的页面信息

点击符号

把使用原始列名为前缀那个勾去掉,确定

数据会直接进来,然后把第1列序号,右键删掉。

点击关闭并应用

可以看到数据都加载进来了呢

剩下的工作,就是对数据简单清洗,做可视化报表了。即使网页上的数据实施更新,在power BI里点击刷新数据,就能直接更新数据,无需重新导入数据了呢。是不是非常方便呢?仿照这样的例子小白都能上手哈。

标签: #如何爬取多个网页数据