前言:
当前我们对“python开发bi”可能比较注重,咱们都需要知道一些“python开发bi”的相关内容。那么小编在网摘上网罗了一些有关“python开发bi””的相关文章,希望看官们能喜欢,同学们一起来学习一下吧!阅读提示
本内容为日常频繁使用的数据处理操作,不涉及底层技术问题,烦请爱钻牛角的杠精绕行。
本内容尽量简单直白、步骤详细,适合数据分析入门。特别喜欢技术语言的大佬们,可自行跳过。
上一篇:数据更新删除与排序:横向对比 Python、PowerBI、Excel、MySQL中,介绍了数据更新、数据删除、以及排序。有兴趣的可以翻看之前的内容。
本期内容主要聊聊数据分组聚合,以及数据分箱操作。
聚合和分箱是什么?
简单来说:
聚合与分箱,完全是两种不同的操作。分箱是数据分组的一种方式,用于减少次要观察误差的影响。而聚合是数据分组后采用的统计动作,没有后续的统计动作,数据分组就没有意义!
具体来说:
数据分组聚合,就是把数据按照某列的非重复值进行分组,然后统计每个组别的情况。
比如:把所有销售人员的业绩,按照不同地区进行分组,然后统计每个组别的合计、平均值、极值等等
数据分箱(也称为离散分箱或分段)是一种数据预处理技术,是一种将多个连续值分组为较少数量的“分箱”的方法。
比如:把销售人员的年龄字段,如25、36、48的数值型字段,分组转化为少年、青年、中年、老年。
数据聚合
使用Excel时:
在Excel中一般使用数据透视表来完成聚合统计操作,是日常操作步骤。根据需要来选择行、列、值,比如我们选择门店城市为行分组依据,选择顾客ID、购买数量作为聚合数值,分别计算汇总和计数。
使用SQL时:
GROUP BY是SQL中用来分组的语句,而在SELECT中,放入被分组的字段,以及被聚合的字段,比如:我们按门店城市来分组,聚合运算的是顾虑ID的数量上面的情况,没有考虑顾问ID是否重复出现过,此时加入DISTINCT去重计数即可
使用Power BI时:
在PowerBI中使用“分组表”来进行简单的分组聚合,而更灵活的方式是利用度量来完成分组聚合。
使用Python时:
类似SQL,在pandas中同样使用groupby来进行分组聚合操作,相对SQL来说,写法更加简洁也可以进行多字段聚合、多统计方式的聚合操作
数据分箱
使用Excel时:
我们可以使用LOOKUP可以快速实现数据分箱操作
使用SQL时:
在MySql中,使用case when来进行分箱转化,比较方便
使用Power BI时:
Power BI中可以使用“添加列”中的“分组表”来进行分箱,使用或者使用DAX函数SWITCH来完成
使用Python时:
在pandas中,直接使用cut方法即可实现分箱操作,不过要注意分箱区间的左右闭合范围本系列文章:
第一篇:Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇
第二篇:数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快
第三篇:数据更新删除与排序:横向对比 Python、PowerBI、Excel、MySQL
写在最后
OK,限于篇幅和时间,本篇内容先到这里了。原本计划5篇总结完,还剩最后1篇了。
欢迎关注后续内容,涉及多表关联、多表联合、存储与导出等操作。
本系列文章内容较长,总结了经常使用的操作提示
可以随手收藏下来,相信总有需要的时候!
觉得不错,别忘了点赞、转发一下,哈~
标签: #python开发bi #pythonmysqlexcel #mysql数据透视