pandas对DataFrame内的数据去重

文和乱武 03-29 157

前言：

而今大家对“dataframe重复行统计”都比较关注，小伙伴们都需要剖析一些“dataframe重复行统计”的相关文章。那么小编也在网摘上收集了一些对于“dataframe重复行统计””的相关文章，希望朋友们能喜欢，兄弟们一起来了解一下吧！

在 Pandas 中，可以使用 drop_duplicates() 方法进行去重操作。该方法返回一个新的 DataFrame，其中包含原始 DataFrame 中所有重复行的第一次出现，并删除了所有后续重复行。

假设有一个 DataFrame 对象 df，其中包含一些重复行，我们可以使用 drop_duplicates() 方法进行去重：

import pandas as pddata = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Alice'], 'Age': [20, 21, 19, 20, 20], 'Gender': ['F', 'M', 'M', 'M', 'F']}df = pd.DataFrame(data)df = df.drop_duplicates()

在这个例子中，我们使用 drop_duplicates() 方法删除了所有重复行，并将结果存储在原始 DataFrame 对象中。

可以根据具体需求设置一些参数。例如，可以使用 subset 参数来指定特定的列进行去重操作；可以使用 keep 参数来指定保留哪些重复行的第一次出现，例如 keep='last' 可以保留最后一次出现的重复行；还可以使用 inplace 参数来直接修改原始 DataFrame 对象，而不是返回一个新的对象。

需要注意的是，drop_duplicates() 方法默认比较所有列的值，如果要根据特定的列进行去重操作，需要设置 subset 参数。另外，该方法并不会改变原始 DataFrame 对象，而是返回一个新的对象。

本文地址：http://www.longkongtuishu.com/cabc6AGsEAVcGDw.html

标签： #dataframe重复行统计 #dataframe去重复行 #dataframe 列去重 #dataframe去除重复值