Hadoop、Hive、Spark 之间是什么关系？

传智教育官方账号 06-24 137

前言：

现在同学们对“sparksql hive on spark”都比较关切，大家都想要剖析一些“sparksql hive on spark”的相关资讯。那么小编也在网上搜集了一些有关“sparksql hive on spark””的相关内容，希望咱们能喜欢，姐妹们快快来了解一下吧！

先了解一下Hadoop、Hive、Spark三者的基本概念：

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，主要就是解决数据存储和数据分析计算的问题（通过HDFS和MapReduce实现）。Hive是基于Hadoop的数据仓库工具，可以存储，查询，分析数据，方便决策人员和数据分析人员统计分析历史数据。Spark是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加快速。从Hadoop到大数据生态

广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。

Hadoop对应于Google三驾马车：HDFS对应于GFS，即分布式文件系统，MapReduce即并行计算框架，HBase对应于BigTable，即分布式NoSQL列数据库，外加Zookeeper对应于Chubby，即分布式锁设施。

Hadoop发展史：Hadoop之父： Doug CuttingHadoop起源于Apache Lucene子项目： Nutch，Nutch的设计目标是构建一个大型的全网搜索引擎。遇到瓶颈：如何解决数十亿网页的存储和索引问题Google三篇论文

《The Google file system》：谷歌分布式文件系统GFS

《MapReduce: Simpliied Data Processing on Large Clusters》：谷歌分布式计算框架MapReduce

《Bigtable: A Distributed Storage System for Structured Data》：谷歌结构化数据存储系统

变化：

① 在Hadoop1.x时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大。

② 在Hadoop2.x时代，增加了Yarn。Yarn只负责资源的调度，MapReduce只负责运算。

③ Hadoop3.x在组成上没有什么变化。

现状：

HDFS作为分布式文件存储系统，处在生态圈的底层与核心地位；

YARN作为分布式通用的集群资源管理系统和任务调度平台，支撑各种计算引擎运行，保证了Hadoop地位；

MapReduce作为大数据生态圈第一代分布式计算引擎，由于自身设计的模型所产生的弊端，导致企业一线几乎不再直接使用MapReduce进行编程处理，但是很多软件的底层依然在使用MapReduce引擎来处理数据。

大数据技术生态体系

来源网络 | 侵删

Sqoop： Sqoop 是一款开源的工具，主要用于在 Hadoop、 Hive 与传统的数据库（MySQL）间进行数据的传递，可以将一个关系型数据库（例如： MySQL， Oracle 等）中的数据导进到 Hadoop 的 HDFS 中，也可以将 HDFS 的数据导进到关系型数据库中。

Flume： Flume 是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume 支持在日志系统中定制各类数据发送方，用于收集数据；

Kafka： Kafka 是一种高吞吐量的分布式发布订阅消息系统

Spark： Spark 是当前最流行的开源大数据内存计算框架。可以基于 Hadoop 上存储的大数据进行计算。

Flink： Flink 是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。

Oozie： Oozie 是一个管理 Hadoop 作业（job）的工作流程调度管理系统。

Hbase： HBase 是一个分布式的、面向列的开源数据库。 HBase 不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

Hive： Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的 SQL 查询功能，可以将 SQL 语句转换为 MapReduce 任务进行运行。其优点是学习成本低，可以通过类 SQL 语句快速实现简单的 MapReduce 统计，不必开发专门的 MapReduce 应用，十分适合数据仓库的统计分析。

ZooKeeper：它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

附：官方文档内容MySQL：MySQL 5.7 Reference ManualHadoop：Hadoop Cluster SetupSpark：RDD Programming GuideHive：LanguageManual - Apache Hive - Apache Software FoundationFlink：Stateful Computations over Data StreamsHbase：Sqoop：Flume：Flume 1.9用户手册中文版Kafka：Oozie：ZooKeeper：ZooKeeper: Because Coordinating Distributed Systems is a Zoo

本文地址：http://www.longkongtuishu.com/caf16B2sABVYBDw.html

标签： #sparksql hive on spark