前言:
眼前看官们对“pandas两个dataframe相减”大概比较关注,你们都需要分析一些“pandas两个dataframe相减”的相关内容。那么小编也在网络上搜集了一些有关“pandas两个dataframe相减””的相关文章,希望咱们能喜欢,我们一起来学习一下吧!为帮助学习pandas,特意从和鲸社区中提炼出120道经典数据处理常见操作例题,从基础入门到进阶来更快速、更专业的角度理解pandas。主要包括:
Pandas基础Pandas进阶金融数据处理NumPy科学计算一些补充
()
正文:
将字典创建为DataFrame
data_dict={ "City":["北京","上海","郑州","hangzhou",np.nan,"tianjin","武汉","上海"], "Air_quality":[80,88,np.nan,85,85,85,87,88]}data = pd.DataFrame(data_dict)data
需求分析:
去除重复值包括两个方面:
一:当所有列都重复时,则直接选择重复的第一行数据,即保留非重复值和重复值的第一行数据。
二:当某列数值重复值,其他列不重复时,则选择重复值中的第一行数据作为最终输出
数据理解:
根据数据,可得:
一:第二行和第8行数据全部重复,则任意去掉一行数据即可。
二:Air_quality列中85、88重复,则保留第二行(上海,88.0)及第四行数据(hangzhou,85.0)
代码实现:
一:第二行和第8行数据全部重复,则任意去掉一行数据即可。
data.drop_duplicates(inplace=True)data
二:Air_quality列中85、88重复,则保留第二行(上海,88.0)及第四行数据(hangzhou,85.0)
data.drop_duplicates(subset='Air_quality',keep='first',inplace=True)data
注:drop_duplicates方法使用说明
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
subset参数:根据哪个字段进行重复筛选(多个字段就写成列表形式)
inplace参数:是否在原数据集更改
keep参数:是从头开始筛选还是从末尾数据开始筛选({‘first’, ‘last’, False}, default ‘first’)
总结:数据去重是非常频繁的碰到的,可以根据drop_duplicates()函数,进行快速的处理,非常方便快捷。
#python#