「大数据系列」:Apache Hive 分布式数据仓库项目介绍

超级架构师 05-31 990

前言：

今天看官们对“apache分布式框架”都比较讲究，同学们都需要知道一些“apache分布式框架”的相关文章。那么小编也在网上汇集了一些有关“apache分布式框架””的相关资讯，希望大家能喜欢，姐妹们快快来学习一下吧！

Apache Hive™数据仓库软件有助于读取，编写和管理驻留在分布式存储中的大型数据集并进行查询

使用SQL语法。

Hive 特性

Hive构建于Apache Hadoop™之上，提供以下功能：

通过SQL轻松访问数据的工具，从而实现数据仓库任务，如提取/转换/加载（ETL），报告和数据分析。一种在各种数据格式上强加结构的机制访问直接存储在Apache HDFS™或其他数据存储系统（如Apache HBase™）中的文件通过Apache Tez™，Apache Spark™或MapReduce执行查询使用HPL-SQL的过程语言通过Hive LLAP，Apache YARN和Apache Slider进行亚秒级查询检索。

Hive提供标准的SQL功能，包括许多后来的SQL：2003和SQL：2011分析功能。

Hive的SQL也可以通过用户定义的函数（UDF），用户定义的聚合（UDAF）和用户定义的表来扩展用户代码

函数（UDTF）。

没有唯一的“Hive格式”存储数据。 Hive附带内置连接器，用于逗号和制表符分隔值（CSV/ TSV）文本文件，Apache Parquet™，Apache ORC™和其他格式。

用户可以使用其他格式的连接器扩展Hive。有关详细信息，请参阅开发人员指南中的File Formats和Hive SerDe。

Hive不适用于联机事务处理（OLTP）工作负载。它最适用于传统的数据仓库任务。

Hive旨在最大限度地提高可伸缩性（通过向Hadoop集群动态添加更多计算机来扩展），性能，可扩展性，容错，与输入格式松散耦合。

Hive的组件包括HCatalog和WebHCat。

HCatalog是Hive的一个组件。它是Hadoop的表和存储管理层，使用户可以使用不同的数据

处理工具 - 包括Pig和MapReduce - 可以更轻松地在网格上读写数据。WebHCat提供的服务可用于运行Hadoop MapReduce（或YARN），Pig，Hive作业或执行Hive元数据使用HTTP（REST样式）接口的操作。Hive 使用

Hive SQL语言手册：命令，CLI，数据类型，

DDL（创建/删除/更改/截断/显示/描述），统计（分析），索引，存档，