前言:
现在你们对“分布式技术平台”大约比较注意,大家都想要学习一些“分布式技术平台”的相关知识。那么小编也在网上搜集了一些有关“分布式技术平台””的相关知识,希望大家能喜欢,看官们一起来学习一下吧!三人行必有我师,人生是需要不断学习的,在这里我们相遇就是缘分,欢迎大家加群----四六零五七零八二四----让我们共同进步!
假期结束了,各位玩的开心否,反正我知道微博的工程师应该是崩溃的,和岳父喝酒好好的,服务器崩溃了,想想都惨,都怪鹿晗就不能忍忍等假期结束?
好了,我也蹭蹭热度,给大家介绍一些常用的分布式计算平台。
第一个当然是我们最常听说的Hadoop分布式计算平台,整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过MR来实现对分布式并行任务处理的程序支持。MR框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点上的TaskTracker共同组成。HDFS和MR共同组成Hadoop分布式系统体系结构的核心。HDFS在集群上实现了分布式文件系统,MR在集群上实现了分布式计算和任务处理。
还有就是MapReduce(MR),最为general和流行的一个分布式计算框架,其开源实现Hadoop已经得到了极为广泛的运用(Facebook, Yahoo!等等),同时在Hadoop基础上发展起来的项目也有很多(Hive是发展最好的),另外像Cloudera,Hortonworks,MapR这样的在Hadoop基础上发展起来的公司也有很多。
还有Pregel,和MR一样也是Google发明的,其优势是在完成一些适合于抽象为图算法的应用的计算时可以更为高效,Giraph可以算是一个比较好的发展中的开源实现。
还有Storm,Twitter的项目,号称Hadoop的实时计算平台,对于一些需要real time performance的job可以拥有比MR更高的效率。
还有Spark,UC Berkeley AMPLab的项目,其很好地利用了JVM中的heap,对于中间计算结果可以有更好的缓存支持,因此其在performance上要比MR高出很多。Shark是其基础上类似于Hive的一个项目。
还有Dryad和Scope,都是MR(Microsoft Research)的项目,从paper上来看Dryad是一个更为general purpose的计算框架,在vertices里实现计算,通过channels实现communication,两者组成一个graph workflow;而Scope有点类似于Hive和Shark,都是将某种类似于SQL的script language编译成可以在底层分布式平台上计算的job。但是这两个项目因为不开源,所以资料不多,也没有开源项目那样的community。
最后,如果想有一群“臭味相投”的朋友来一起交流学习的话,欢迎大家搜索群号:460570824,让我们共同进步!
标签: #分布式技术平台