走进大数据丨 MapReduce之分组

微笑游戏建模师 11-02 46

前言：

现时你们对“两个map的key相同value合并”大约比较关怀，各位老铁们都想要了解一些“两个map的key相同value合并”的相关知识。那么小编同时在网摘上搜集了一些关于“两个map的key相同value合并””的相关知识，希望朋友们能喜欢，朋友们快快来学习一下吧！

基本概念

分组和分区类似，是根据Map<key,value>中的key进行分组。在同一个分区中，相同key的值记录是属于同一个分组的，相当于groupby key的功能。将相同的key2进行合并,value形成一个集合。也就是用来划分数据的，只不过更加细致，如果不使用自定义分组而是使用默认分组的话，和分区类似，也就是通过对比Key来进行分组逻辑。

分区与分组的区别

分区：决定我们的数据究竟去往哪一个reduceTask，发生在mapTask后面，决定 mapTask里面的数据，去往哪一个reduceTask

分组：合并相同的k2 作用在每一个reduceTask上面

自定义分组

(1).自定义分组比较器继承RawComparator，实现compare()方法。

(2).设置job.setGroupingComparatorClass()。

如果你想要进阶大数据开发，且目前已掌握Hadoop基本概念、scala语言基础语法和Spark基础知识，这份学习资料将特别适合您！本资料免费领取名额仅有100名哦（超额之后需要付费观看）！

「大数据零基础入门」

「大数据架构系统组件」

「大数据全套系统工具安装包」

Java必备工具

大数据必备工具