浅谈：为什么要用python对Excel文件做数据分析以及操作流程。

睡觉偷懒的肥猫 08-07 243

前言：

今天姐妹们对“python的数据分析库有哪些”大体比较关怀，朋友们都想要了解一些“python的数据分析库有哪些”的相关文章。那么小编在网上搜集了一些对于“python的数据分析库有哪些””的相关资讯，希望朋友们能喜欢，同学们一起来了解一下吧！

#暑期创作大赛#

用python做数据分析的库非常的多，本篇主要以pandas库为主。

我们在用excel做数据分析的时候，我们一般的流程是：

1、获得原数据

2、对原数据进行清洗

3、对清洗后的数据进行汇总

4、对汇总后的数据进行分析

5、最后给出结果报告

用python做数据分析的时候的流程是和用Excel做数据分析的流程是一样的，那么我们为什么还要用python去做数据分析呢？现在根据做数据分析流程的每一步来说明有什么好处。

一、原数据方面

要知道在做数据分析的时候，对汇总后的表格需要对数据分组聚合、条件筛选、数据透视表等操作，这就需要我们的数据中的索引字段或者分类字段必须是连续的。

如果获得的原数据，是已经排版好的数据，里面可能会有合并单元格，或者原数据是一张对数据已经透视后的二维表，这里指的二维表，除了第一行和第一列，余下全都是数值，这就需要我们修改原数据的排版结构或者把二维表转换成一维表。如果用Excel去处理，这就大大增加了我们的工作时间，而且如果原数据更新了，还需要重复上面的步骤，增加了我们的重复劳动。

用python处理原数据的好处，是在不修改原Excel文件的排版结构和数据结构，直接对数据导入到pandas的数据结构中去处理。

二、对导入的数据进行清洗

对数据的清洗，主要是填充缺失值、删除无效数据、数据替换。对表格进行转换操作二维表转换成一维表。

像pandas导入的Excel原数据中有合并单元格，pandas会对合并单元格进行拆分，然后会对没有值的数据添加NaN值，也就是缺失值。如果被拆分的单元格列，是我们在数据分析中的主要索引列，就需要用pandas的fillna方法进行缺失值填充，达到让索引列是一个连续的数据。

无效数据用pandas中dropna方法。

数据替换用pandas的replace方法。

用pandas汇总有合并单元格的Excel表格数据避免对源数据反复修改

三、清洗后对数据进行汇总

为什么做数据汇总，因为有时候要分析的不是一张数据表，而是多张工作表。有以下几种情况：

1、多张相同结构的数据表，可以用pandas中的concat方法，把多张相同结构的数据表链接成一张数据表。

2、几张工作表之间存在关系，可以用pandas中的merge方法，把几张有关联的表，根据有共同属性的列，关联成一张数据表

3、几张工作表既有相同结构的，还有关联的表，可以联合以上两种方法进行联合处理。