龙空技术网

MapReduce实战(2)——文件内容合并去重

小人物XnQJ 82

前言:

此刻你们对“两个map集合合并”大概比较注意,我们都想要知道一些“两个map集合合并”的相关内容。那么小编在网摘上搜集了一些对于“两个map集合合并””的相关知识,希望咱们能喜欢,各位老铁们一起来学习一下吧!

题目要求思路:

根据前面介绍的,我们大致可以将流程分为以下:

因此还是老样子,咱们先在map层将数据统一为需求格式输出,然后将其作为reduce层的输入并统一处理最后得到结果。

Map层处理

对于数据输入,我们可以根据题目要求:

因此咱们可以先将每行的数据进行split分割,然后按照指定格式输出:

Reduce层处理

在Map层处理完数据格式后,咱们在reduce层利用print函数打印一下输入的数据格式:

这里可以看出,reduce层传入的k为序号,values为对应的参数集合。那如何快速的去重呢?这里咱们可以利用一种python的一种数据结构——集合set,它默认具有去重效果。

同时,题目还有第二个要求,就是将这个进行排序,因此咱们可以利用python的list自带的sort函数进行排序。

标签: #两个map集合合并