龙空技术网

pandas处理缺失值

最爱企鹅 72

前言:

目前同学们对“python查看空值”可能比较关心,姐妹们都需要知道一些“python查看空值”的相关知识。那么小编也在网摘上汇集了一些关于“python查看空值””的相关内容,希望我们能喜欢,朋友们一起来学习一下吧!

缺失值的类型

在数据集中可能存在缺失值有如下3种:

None:python的空值np.nan:numpy的空值pd.NaT:pandas的缺失(空)时间值

作为后面的实验素材,先构造一个包含各种缺失值的DataFrame:

是否存在缺失值?

判断是一个数据集中是否存在缺失值,可以使用以下3个方法:

isnullnotnullisna:等价于isnull,建议使用isnull,意义更加明确。

当数据集比较大的时候,可以使用numpy.any/all方法判断数据集是否存在缺失值(存在任意True元素则np.any返回True):

存在缺失值的列有哪些?

如下方法可以判断缺失值在哪些列:

可以看出,df在ABD三列存在缺失值。这里巧妙的利用了True在python内部表示为1,False表示为0,这样如果存在True(即空值)的话,该列的平均值一定不为0,就可以筛选出存在缺失值的列了。

缺失值的比例多大?

统计各列的缺失值的数量:

数据集中缺失值的总数:

缺失值的比例:

删除缺失值

dropna默认删除存在缺省值的所有行:

替换缺失值

fillna可以将缺失值替换为指定值,比如将全部缺失值替换为100:

也可以根据列指定替换:

标签: #python查看空值