龙空技术网

浅谈:为什么要用python对Excel文件做数据分析以及操作流程。

睡觉偷懒的肥猫 243

前言:

今天姐妹们对“python的数据分析库有哪些”大体比较关怀,朋友们都想要了解一些“python的数据分析库有哪些”的相关文章。那么小编在网上搜集了一些对于“python的数据分析库有哪些””的相关资讯,希望朋友们能喜欢,同学们一起来了解一下吧!

#暑期创作大赛#

用python做数据分析的库非常的多,本篇主要以pandas库为主。

我们在用excel做数据分析的时候,我们一般的流程是:

1、获得原数据

2、对原数据进行清洗

3、对清洗后的数据进行汇总

4、对汇总后的数据进行分析

5、最后给出结果报告

用python做数据分析的时候的流程是和用Excel做数据分析的流程是一样的,那么我们为什么还要用python去做数据分析呢?现在根据做数据分析流程的每一步来说明有什么好处。

一、原数据方面

要知道在做数据分析的时候,对汇总后的表格需要对数据分组聚合、条件筛选、数据透视表等操作,这就需要我们的数据中的索引字段或者分类字段必须是连续的。

如果获得的原数据,是已经排版好的数据,里面可能会有合并单元格,或者原数据是一张对数据已经透视后的二维表,这里指的二维表,除了第一行和第一列,余下全都是数值,这就需要我们修改原数据的排版结构或者把二维表转换成一维表。如果用Excel去处理,这就大大增加了我们的工作时间,而且如果原数据更新了,还需要重复上面的步骤,增加了我们的重复劳动。

用python处理原数据的好处,是在不修改原Excel文件的排版结构和数据结构,直接对数据导入到pandas的数据结构中去处理。

二、对导入的数据进行清洗

对数据的清洗,主要是填充缺失值、删除无效数据、数据替换。对表格进行转换操作二维表转换成一维表。

像pandas导入的Excel原数据中有合并单元格,pandas会对合并单元格进行拆分,然后会对没有值的数据添加NaN值,也就是缺失值。如果被拆分的单元格列,是我们在数据分析中的主要索引列,就需要用pandas的fillna方法进行缺失值填充,达到让索引列是一个连续的数据。

无效数据用pandas中dropna方法。

数据替换用pandas的replace方法。

用pandas汇总有合并单元格的Excel表格数据避免对源数据反复修改

三、清洗后对数据进行汇总

为什么做数据汇总,因为有时候要分析的不是一张数据表,而是多张工作表。有以下几种情况:

1、多张相同结构的数据表,可以用pandas中的concat方法,把多张相同结构的数据表链接成一张数据表。

2、几张工作表之间存在关系,可以用pandas中的merge方法,把几张有关联的表,根据有共同属性的列,关联成一张数据表

3、几张工作表既有相同结构的,还有关联的表,可以联合以上两种方法进行联合处理。

四、对汇总后的数据进行分析

可以对数据直接或者对数据筛选后进行数据透视、分组聚合等操作。

数据筛选主要有根据行列索引筛选、条件筛选、切片筛选。

1、数据透视、pandas的pivot_table方法。

2、分组聚合、pandas的groupby方法。

五、输出结果和报告

输出结果报告,由于最终结果只能是Excel文件,所以可以通过以下几种方法,进行生成报告。

1、用pandas直接导出结果数据

2、结合xlwings库,对pandas处理完的数据,对数据自动填入Excel文件里。

如果你希望是Word版的分析报告的话,还可以用python其他库自动生成Wrod版的数据分析报告。

六、总结

最终说白了好处就是可以在不改动Excel文件的前提下对多张工作表进行汇总分析,避免了重复劳动,而且写一次代码就可以受用到不用干这个活的时候。

文章到此结束

标签: #python的数据分析库有哪些