龙空技术网

Kudu内部机制和内部原理

无限云科技 188

前言:

如今朋友们对“apachekudu代替hdfs”大概比较关切,小伙伴们都想要学习一些“apachekudu代替hdfs”的相关知识。那么小编在网络上收集了一些有关“apachekudu代替hdfs””的相关内容,希望大家能喜欢,小伙伴们一起来了解一下吧!

kudu概述:

Kudu是Cloudera开源的新型列式存储系统,是Apache Hadoop生态圈的新成员之一(incubating),专门为了对快速变化的数据进行快速的分析,填补了以往Hadoop存储层的空缺。

新的硬件设备

RAM的技术发展非常快,它变得越来越便宜,容量也越来越大。Cloudera的客户数据显示,他们的客户所部署的服务器,2012年每个节点仅有32GB RAM,现如今增长到每个节点有128GB或256GB RAM。存储设备上更新也非常快,在很多普通服务器中部署SSD也是屡见不鲜。HBase、HDFS、以及其他的Hadoop工具都在不断自我完善,从而适应硬件上的升级换代。然而,从根本上,HDFS基于03年GFS,HBase基于05年BigTable,在当时系统瓶颈主要取决于底层磁盘速度。当磁盘速度较慢时,CPU利用率不足的根本原因是磁盘速度导致的瓶颈,当磁盘速度提高了之后,CPU利用率提高,这时候CPU往往成为系统的瓶颈。HBase、HDFS由于年代久远,已经很难从基本架构上进行修改,

而Kudu是基于全新的设计,因此可以更充分地利用RAM、I/O资源,并优化CPU利用率。我们可以理解为,Kudu相比与以往的系统,CPU使用降低了,I/O的使用提高了,RAM的利用更充分了。

Kudu特点:

快速处理OLAP工作负载。

与MapReduce,Spark和其他Hadoop生态系统组件集成。

与Apache Impala紧密集成,使其成为在Apache Parquet中使用HDFS的一个好的,可变的替代方案。

强大但灵活的一致性模型,允许您根据每个请求选择一致性要求,包括严格可序列化一致性的选项。

同时运行顺序和随机工作负载的强大性能。

使用Cloudera Manager轻松管理和管理。

高可用性。平板电脑服务器和大师使用筏共识算法,该算法确保只要可用副本总数的一半以上,平板电脑就可以进行读写操作。例如,如果有3个副本中的2个或5个副本中的3个可用,则可以使用平板电脑。

即使在领导者平板电脑发生故障的情况下,只读跟随者平板电脑也可以为读取提供服务。

结构化数据模型。

通过结合所有这些属性,Kudu的目标是支持在当前一代Hadoop存储技术上难以或无法实现的应用程序系列。Kudu是一个很好的解决方案的一些应用示例是:

报告需要立即为最终用户提供新到达数据的应用程序

必须同时支持的时间序列应用程序:

查询大量历史数据

关于必须非常快速返回的单个实体的粒度查询

使用预测模型进行实时决策的应用程序,基于所有历史数据定期刷新预测模型

Apache Hadoop 起源

1、Apache Lucene 开源的高性能全文检索工具包

2、Apache Nutch 开源的 Web 搜索引擎

3、 Google 三大论文 MapReduce / GFS / BigTable

4、Apache Hadoop 大规模数据处理

Kudu内部机制

Kudu内部原理

标签: #apachekudu代替hdfs