龙空技术网

Python、PowerBI、Excel、MySQL,都能做?搞清楚数据聚合与分箱

心梗后余生 559

前言:

当前我们对“python开发bi”可能比较注重,咱们都需要知道一些“python开发bi”的相关内容。那么小编在网摘上网罗了一些有关“python开发bi””的相关文章,希望看官们能喜欢,同学们一起来学习一下吧!

阅读提示

本内容为日常频繁使用的数据处理操作,不涉及底层技术问题,烦请爱钻牛角的杠精绕行。

本内容尽量简单直白、步骤详细,适合数据分析入门。特别喜欢技术语言的大佬们,可自行跳过。

上一篇:数据更新删除与排序:横向对比 Python、PowerBI、Excel、MySQL中,介绍了数据更新、数据删除、以及排序。有兴趣的可以翻看之前的内容。

本期内容主要聊聊数据分组聚合,以及数据分箱操作。

聚合和分箱是什么?

简单来说:

聚合与分箱,完全是两种不同的操作。分箱是数据分组的一种方式,用于减少次要观察误差的影响。而聚合是数据分组后采用的统计动作,没有后续的统计动作,数据分组就没有意义!

具体来说:

数据分组聚合,就是把数据按照某列的非重复值进行分组,然后统计每个组别的情况。

比如:把所有销售人员的业绩,按照不同地区进行分组,然后统计每个组别的合计、平均值、极值等等

数据分箱(也称为离散分箱或分段)是一种数据预处理技术,是一种将多个连续值分组为较少数量的“分箱”的方法。

比如:把销售人员的年龄字段,如25、36、48的数值型字段,分组转化为少年、青年、中年、老年。

数据聚合

使用Excel时:

在Excel中一般使用数据透视表来完成聚合统计操作,是日常操作步骤。根据需要来选择行、列、值,比如我们选择门店城市为行分组依据,选择顾客ID、购买数量作为聚合数值,分别计算汇总和计数。

使用SQL时:

GROUP BY是SQL中用来分组的语句,而在SELECT中,放入被分组的字段,以及被聚合的字段,比如:我们按门店城市来分组,聚合运算的是顾虑ID的数量上面的情况,没有考虑顾问ID是否重复出现过,此时加入DISTINCT去重计数即可

使用Power BI时:

在PowerBI中使用“分组表”来进行简单的分组聚合,而更灵活的方式是利用度量来完成分组聚合。

使用Python时:

类似SQL,在pandas中同样使用groupby来进行分组聚合操作,相对SQL来说,写法更加简洁也可以进行多字段聚合、多统计方式的聚合操作

数据分箱

使用Excel时:

我们可以使用LOOKUP可以快速实现数据分箱操作

使用SQL时:

在MySql中,使用case when来进行分箱转化,比较方便

使用Power BI时:

Power BI中可以使用“添加列”中的“分组表”来进行分箱,使用或者使用DAX函数SWITCH来完成

使用Python时:

在pandas中,直接使用cut方法即可实现分箱操作,不过要注意分箱区间的左右闭合范围本系列文章:

第一篇:Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

第二篇:数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第三篇:数据更新删除与排序:横向对比 Python、PowerBI、Excel、MySQL

写在最后

OK,限于篇幅和时间,本篇内容先到这里了。原本计划5篇总结完,还剩最后1篇了。

欢迎关注后续内容,涉及多表关联、多表联合、存储与导出等操作。

本系列文章内容较长,总结了经常使用的操作提示

可以随手收藏下来,相信总有需要的时候!

觉得不错,别忘了点赞、转发一下,哈~

标签: #python开发bi #pythonmysqlexcel #mysql数据透视