龙空技术网

大数据之-Hadoop3.x_MapReduce_切片源码总结

一只爱笑的程序猿 325

前言:

此时同学们对“hadoop切片”都比较看重,咱们都需要了解一些“hadoop切片”的相关文章。那么小编同时在网摘上网罗了一些有关“hadoop切片””的相关资讯,希望咱们能喜欢,同学们一起来学习一下吧!

可以看到我们分析完,切片的源码,然后总结一下hadoop3.x的MapReduce的切片

过程

首先要知道切片这个过程是在InputFormat这个类中进行的

我们在InputFormat上按下ctrl+H 就可以看到这个InputFormat的子类都有哪些

我们找到这个FileInputFormat这个类,然后在上面,进行ctrl+f12可以看到这个

类的所有的方法

我们找到这个getSplits这个方法就是用来切片的

然后我们再看看这个切片的过程,要知道多个文件的时候,切片的按照文件一个个进行切片处理的

可以看到他的切片过程

要知道他是如何切片的,上一节我们说的很清楚了.

我们可以调整minSize的大小来把切片的大小变大,调整

maxSize的大小来把切片变小.

切片以后,把切片规划文件,传到yarn上,然后yarn的mrAppMaster就可以根据切片规划文件

来计算MapTask个数了,

我们说这个MapTask个数和切片个数是一致的,然后

这个切片是个逻辑切片并不是对文件真正的切...这个要知道..

标签: #hadoop切片