大数据hadoop和spark怎么选择?

IT三宝 07-04 65

前言：

今天小伙伴们对“mysql和hadoop”都比较重视，看官们都需要分析一些“mysql和hadoop”的相关内容。那么小编同时在网摘上汇集了一些对于“mysql和hadoop””的相关知识，希望兄弟们能喜欢，你们一起来了解一下吧！

Hadoop框架的主要模块包括如下：

Hadoop CommonHadoop分布式文件系统(HDFS)Hadoop YARNHadoop MapReduce

虽然上述四个模块构成了Hadoop的核心，不过还有其他几个模块。这些模块包括：Ambari、Avro、Cassandra、Hive、 Pig、Oozie、Flume和Sqoop，它们进一步增强和扩展了Hadoop的功能。

Spark

是Apache的另一个开源项目，它无法与整个Hadoop生态系统竞争。它是一个集群计算框架，具有类似于MapReduce的功能，甚至没有自己的分布式文件系统。实际上，Spark和Hadoop之间的最大区别在于，前者在内存中工作，而后者将文件写入HDFS。

同时，Spark运行任务的速度提高了100倍。它能够在短短23分钟内整理100TB数据，这在2014年创造了新的世界纪录。

除了核心引擎，Spark还具有以下功能:

集群管理一与包括Hadoop YARN在内的各种集群管理系统兼容;Spark Streaming 一实时数据分析工具;Spark SQL 一集成关系处理;GraphX 一通过图并行计算扩展了Spark功能;MLlib 一专门用于机器学习的库。spark和hadoop的比较

Hadoop主要用普通硬件解决存储和计算问题；而Spark用于构建大型的、低延迟的数据分析应用程序，不进行存储、只进行计算。

Hadoop 将文件读取和写入 HDFS，而 Spark 使用 RDD（弹性分布式数据集）处理内存中的数据。

Spark 可以在独立模式(stand alone)下运行，也可以与Hadoop配合, 使用Yarn来进行资源调度，使用 Hadoop 集群作为数据源。

总而言之， Spark主要用于大数据的计算，而Hadoop主要用于大数据的存储，以及资源调度。Spark和Hadoop的组合算是大数据领域的基础。

大数据具体学啥

大数据基础Python+大数据开发自学教程_Python+大数据开发视频教程从入门到精通_黑马程序员【有码源】Python 入门教程完整版（全 547 集）Python 进阶之 MySQL 入门教程Python 深入浅出进阶课程 - 知乎2 小时玩转 Python 多线程编程2022年python大数据开发学习路线

本文地址：http://www.longkongtuishu.com/cad20BARsBFEPDFNc.html

标签： #mysql和hadoop