龙空技术网

Pandas进阶修炼120题之题目6:去除重复值

默至 141

前言:

眼前看官们对“pandas两个dataframe相减”大概比较关注,你们都需要分析一些“pandas两个dataframe相减”的相关内容。那么小编也在网络上搜集了一些有关“pandas两个dataframe相减””的相关文章,希望咱们能喜欢,我们一起来学习一下吧!

为帮助学习pandas,特意从和鲸社区中提炼出120道经典数据处理常见操作例题,从基础入门到进阶来更快速、更专业的角度理解pandas。主要包括:

Pandas基础Pandas进阶金融数据处理NumPy科学计算一些补充

()

正文:

将字典创建为DataFrame

data_dict={   "City":["北京","上海","郑州","hangzhou",np.nan,"tianjin","武汉","上海"],   "Air_quality":[80,88,np.nan,85,85,85,87,88]}data = pd.DataFrame(data_dict)data

需求分析:

去除重复值包括两个方面:

一:当所有列都重复时,则直接选择重复的第一行数据,即保留非重复值和重复值的第一行数据。

二:当某列数值重复值,其他列不重复时,则选择重复值中的第一行数据作为最终输出

数据理解:

根据数据,可得:

一:第二行和第8行数据全部重复,则任意去掉一行数据即可。

二:Air_quality列中85、88重复,则保留第二行(上海,88.0)及第四行数据(hangzhou,85.0)

代码实现:

一:第二行和第8行数据全部重复,则任意去掉一行数据即可。

data.drop_duplicates(inplace=True)data

二:Air_quality列中85、88重复,则保留第二行(上海,88.0)及第四行数据(hangzhou,85.0)

data.drop_duplicates(subset='Air_quality',keep='first',inplace=True)data

注:drop_duplicates方法使用说明

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

subset参数:根据哪个字段进行重复筛选(多个字段就写成列表形式)

inplace参数:是否在原数据集更改

keep参数:是从头开始筛选还是从末尾数据开始筛选({‘first’, ‘last’, False}, default ‘first’)

总结:数据去重是非常频繁的碰到的,可以根据drop_duplicates()函数,进行快速的处理,非常方便快捷。

#python#

标签: #pandas两个dataframe相减 #dataframe去除重复值