龙空技术网

13分钟,教你python可视化分析20W数据,找到妹子最爱的内衣

IT技术管理那些事儿 678

前言:

现在我们对“python爬取京东图书并可视化”大概比较重视,你们都需要剖析一些“python爬取京东图书并可视化”的相关知识。那么小编同时在网上搜集了一些对于“python爬取京东图书并可视化””的相关内容,希望看官们能喜欢,同学们快快来学习一下吧!

最近正值“618活动”,阿里、拼多多、京东等都在发力,商品的价格也下降了不少。我打开某宝首页,顿时想对某些商品的评论进行一次爬取分析。

一提到爬取,我们肯定先想到python,那可真的是利器,不过我提醒一句,不允许爬的千万不要碰。python虽然爬取简单,但是做可视化分析需要费不少力气,虽然有 Matplotlib 和 Seaborn 两个包就足够了。

如果只调用基本的函数可能做出来的图会比较简陋,要达到好看的效果还是需要很多的精力和代码的,不适用于零基础小白。

所以我想到了当下最火的BI分析工具,有了数据,直接拖拽就能得到可视化分析,完全就是零代码,python+BI在手,打遍无敌手。原理也很简单,数据获取是通过Python进行的,然后得到Excel表,BI可以直接连接数据源,负责最后应用层的数据处理、加工和可视化。

那分析什么呢?想来想去,我选择了女性的内衣。

不要想歪,不要怀疑,这就是一个数据可视化项目,纯属娱乐,大家看看就行,重要是我分析的过程,如果能学到东西我就更开心了,我只用了13分钟。

话不多说,进入主题。

一、数据获取

数据来自python爬虫获取,淘宝约50个文胸商品的20W条评论数据,原始数据是txt格式,为了方便处理,这边转为Dataframe~

由于篇幅的限制,这里只放部分代码,感兴趣的可以到文末。

二、分析目的

这里先给大家做一个科普,对于很多只知道A/B/C的绅士们,我们在看数据之前可能先得了解点知识,内衣是有上围和下围的区分的。

通过上围与下围的差值,我们就可以确定大小了。

虽然我没买过,但是对分析维度还是了解的:

颜色与肤色的对比款式尺码大小评价分析三、数据可视化

虽然获取到的数据数量不是很大,才20W,但是Excel分析这个体量,肯定是会卡死的,而且Excel的可视化图表简直一言难尽,还需要各种函数...

上面说到BI工具,那市面上这么多BI工具,怎么去挑选呢?市面上知名的有Tableau、FineBI等,这两个也是在知乎最受好评的工具,我从下面几个方面简单给你们讲一下。

部署安装:都是基于浏览器端即可使用的工具学习教程:FineBI更全面使用体验(上手难度)和需求符合度:FineBI更适合小白产品功能:Tableau更占优一点,但有些功能并不是国内企业所看重的,FineBI能做复杂报表报价和服务:FineBI的性价比很高,Tableau很贵

所以我选择FineBI进行这次可视化分析,先通过下面这个来了解一下:

(此处已添加小程序,请到今日头条客户端查看)

不要单纯的以为它只是个可视化工具,它的本质是数据分析工具,能通过数据对业务产生指导:

1、评论里出现最多的关键词

可以看见,内衣的颜色和肤色还是有很大关系的,不过据数据统计,妹子喜欢黑色占大多数,因为在人的印象里,好像粉色、紫色都有点怪怪的?

知道给自己女朋友/老婆买什么颜色了吗?不对,你们不一定有....

2、哪个尺寸的妹子最多?

D的数量很少,符合我们的认知。B的数量等于A+C的总和,这数据应该是准确的,穿B不代表就是B,就像你买衣服也喜欢宽松的,自己体会。

3、具体大小受什么影响?

我从上下围两个角度来分析A/B/C/D的分布,这个应该是迄今为止最全面的内衣分析了,想说的都在图里。

4、她们喜欢什么时候买内衣?

高峰期在上午和晚上,这也可以理解,大家都在玩手机,但是夜里3点买的人,我想问问,你图啥?

5、内衣的评价如何?

图片来自于网络

这是词云图,字越大,代表占的比重就越大,FineBI也能做,方法也是一样,有了数据直接拖拽,然后选择合适的图表类型即可。

内衣毕竟是衣服,女性关注的点肯定是效果与舒适度,男性的话我就不知道了。

关于代码和数据可视化工具,关注我,并转发该文章,回复“内衣”即可获得!!!

各位绅士,你们怎么看?

标签: #python爬取京东图书并可视化