Pandas进阶修炼120题之题目6：去除重复值

默至 07-06 141

前言：

眼前看官们对“pandas两个dataframe相减”大概比较关注，你们都需要分析一些“pandas两个dataframe相减”的相关内容。那么小编也在网络上搜集了一些有关“pandas两个dataframe相减””的相关文章，希望咱们能喜欢，我们一起来学习一下吧！

为帮助学习pandas，特意从和鲸社区中提炼出120道经典数据处理常见操作例题，从基础入门到进阶来更快速、更专业的角度理解pandas。主要包括：

Pandas基础Pandas进阶金融数据处理NumPy科学计算一些补充

（）

正文：

将字典创建为DataFrame

data_dict={   "City":["北京","上海","郑州","hangzhou",np.nan,"tianjin","武汉","上海"],   "Air_quality":[80,88,np.nan,85,85,85,87,88]}data = pd.DataFrame(data_dict)data

需求分析：

去除重复值包括两个方面：

一:当所有列都重复时，则直接选择重复的第一行数据，即保留非重复值和重复值的第一行数据。

二：当某列数值重复值，其他列不重复时，则选择重复值中的第一行数据作为最终输出

数据理解：

根据数据，可得：

一：第二行和第8行数据全部重复，则任意去掉一行数据即可。

二：Air_quality列中85、88重复，则保留第二行（上海，88.0）及第四行数据（hangzhou，85.0）

代码实现：

一：第二行和第8行数据全部重复，则任意去掉一行数据即可。

data.drop_duplicates(inplace=True)data

二：Air_quality列中85、88重复，则保留第二行（上海，88.0）及第四行数据（hangzhou，85.0）

data.drop_duplicates(subset='Air_quality',keep='first',inplace=True)data

注：drop_duplicates方法使用说明

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

subset参数：根据哪个字段进行重复筛选（多个字段就写成列表形式）

inplace参数：是否在原数据集更改

keep参数：是从头开始筛选还是从末尾数据开始筛选（{‘first’, ‘last’, False}, default ‘first’）

总结：数据去重是非常频繁的碰到的，可以根据drop_duplicates()函数，进行快速的处理，非常方便快捷。

#python#

本文地址：http://www.longkongtuishu.com/ca398AGsCBlMCAFM.html

标签： #pandas两个dataframe相减 #dataframe去除重复值

Pandas进阶修炼120题之题目6：去除重复值

Pandas进阶120题之34:计算前一行与后一行数据的差值（1）

Pandas进阶修炼120题之题目6：去除重复值