龙空技术网

大数据hadoop和spark怎么选择?

IT三宝 65

前言:

今天小伙伴们对“mysql和hadoop”都比较重视,看官们都需要分析一些“mysql和hadoop”的相关内容。那么小编同时在网摘上汇集了一些对于“mysql和hadoop””的相关知识,希望兄弟们能喜欢,你们一起来了解一下吧!

Hadoop框架的主要模块包括如下:

Hadoop CommonHadoop分布式文件系统(HDFS)Hadoop YARNHadoop MapReduce

虽然上述四个模块构成了Hadoop的核心,不过还有其他几个模块。这些模块包括:Ambari、Avro、Cassandra、Hive、 Pig、Oozie、Flume和Sqoop,它们进一步增强和扩展了Hadoop的功能。

Spark

是Apache的另一个开源项目,它无法与整个Hadoop生态系统竞争。它是一个集群计算框架,具有类似于MapReduce的功能,甚至没有自己的分布式文件系统。实际上,Spark和Hadoop之间的最大区别在于,前者在内存中工作,而后者将文件写入HDFS。

同时,Spark运行任务的速度提高了100倍。它能够在短短23分钟内整理100TB数据,这在2014年创造了新的世界纪录。

除了核心引擎,Spark还具有以下功能:

集群管理一与包括Hadoop YARN在内的各种集群管理系统兼容;Spark Streaming 一实时数据分析工具;Spark SQL 一集成关系处理;GraphX 一通过图并行计算扩展了Spark功能;MLlib 一专门用于机器学习的库。spark和hadoop的比较

Hadoop主要用普通硬件解决存储和计算问题;而Spark用于构建大型的、低延迟的数据分析应用程序,不进行存储、只进行计算。

Hadoop 将文件读取和写入 HDFS,而 Spark 使用 RDD(弹性分布式数据集)处理内存中的数据。

Spark 可以在独立模式(stand alone)下运行,也可以与Hadoop配合, 使用Yarn来进行资源调度,使用 Hadoop 集群作为数据源。

总而言之, Spark主要用于大数据的计算,而Hadoop主要用于大数据的存储,以及资源调度。Spark和Hadoop的组合算是大数据领域的基础。

大数据具体学啥

大数据基础Python+大数据开发自学教程_Python+大数据开发视频教程从入门到精通_黑马程序员【有码源】Python 入门教程完整版(全 547 集)Python 进阶之 MySQL 入门教程Python 深入浅出进阶课程 - 知乎2 小时玩转 Python 多线程编程2022年python大数据开发学习路线

标签: #mysql和hadoop