前言:
此时同学们对“hadoop切片”都比较看重,咱们都需要了解一些“hadoop切片”的相关文章。那么小编同时在网摘上网罗了一些有关“hadoop切片””的相关资讯,希望咱们能喜欢,同学们一起来学习一下吧!
可以看到我们分析完,切片的源码,然后总结一下hadoop3.x的MapReduce的切片
过程
首先要知道切片这个过程是在InputFormat这个类中进行的
我们在InputFormat上按下ctrl+H 就可以看到这个InputFormat的子类都有哪些
我们找到这个FileInputFormat这个类,然后在上面,进行ctrl+f12可以看到这个
类的所有的方法
我们找到这个getSplits这个方法就是用来切片的
然后我们再看看这个切片的过程,要知道多个文件的时候,切片的按照文件一个个进行切片处理的
可以看到他的切片过程
要知道他是如何切片的,上一节我们说的很清楚了.
我们可以调整minSize的大小来把切片的大小变大,调整
maxSize的大小来把切片变小.
切片以后,把切片规划文件,传到yarn上,然后yarn的mrAppMaster就可以根据切片规划文件
来计算MapTask个数了,
我们说这个MapTask个数和切片个数是一致的,然后
这个切片是个逻辑切片并不是对文件真正的切...这个要知道..
标签: #hadoop切片