龙空技术网

Apache四个大型开源数据和数据湖系统

威风琪琪 63

前言:

此时小伙伴们对“apache的支持”大致比较珍视,同学们都需要分析一些“apache的支持”的相关资讯。那么小编也在网上搜集了一些关于“apache的支持””的相关内容,希望我们能喜欢,我们一起来学习一下吧!

为了解决大数据管理中的数据突变、数据校正、流媒体支持和架构演进,Apache提供了4个系统进行应对:Apache ShardingSphere,Apache Iceberg,Apache Hudi和Apache IotdB。

01.ApacheShardingSphere

Apache ShardingSphere是一个数据库中间件系统,包含3个独立模块:JDBC、Proxy和Sidecar。Apache Shardingsphere可以提供标准化的数据分片功能、分布式事务管理和数据库治理功能,可以根据不同的需求提供不同方案。

现在的电子商务主要依赖于关系数据库和分布式环境,高效的数据查询和数据高速转移就显得尤为重要。作为数据库中间件生态系统的Apache Shardingsphere在这个领域具有非常大的优势,它为开发人员提供了合理的计算和存储功能关系数据库。

02.Apache Iceberg

Apache Iceberg的核心思想是跟踪时间表上表中的所有文件的更改,通常用于大表的跟踪,对于轻量级的数据湖给出解决方案,解决大量分区和耗时和不一致的元数据和HDFS数据的问题,并允许在单个文件中跳过数据。

Apache Iceberg专为对象存储而设计,其中一个非常重要的概念就是快照,Apache Iceberg会为每一个更新操作生成一个新的快照。

Apache Iceberg的特征:

1. ACID 事务能力,在不影响当前运行数据处理任务的情况下进行上游数据写入,提供更好的数据合并能力,大大减少数据存储延迟。

2. 支持更多分析引擎优异的内核抽象,使其不被绑定到特定的计算引擎。目前,Apache Iceberg支持的计算发动机是Spark、Flink、Presto和Hive。

3. Apache Iceberg为文件存储、组织,基于流的增量计算模型和基于批处理的全尺度计算模型提供统一和灵活的数据。批处理和流式传输任务可以使用类似的存储模型,并且不再隔离数据。Apache Iceberg支持隐藏的分区和分区演进,这促进了业务更新数据分区策略。

4. 增量读取处理能力,以流式方式读取增量数据,支持流和传输表源。

03.Apache Hudi

Apache Hudi作为大数据增量处理框架,旨在提高摄取管道的效率,和大数据中插入、更新和增量消耗基元的ETL管道。其可以在几分钟内将更改应用于HDF中的数据集,并支持多个增量处理系统来处理数据。通过自定义InputFormat与Hadoop生态系统的集成使框架无缝呈现给最终用户。

Hudi利用两种更新数据的方法来快速且逐步更新HDFS上的数据集:

1.读写编写并合并读取。通过索引获取更新数据,然后读取数据并合并更新的数据。这种模式更易于更新数据,但是当涉及的数据更新时,效率非常低;

2.并合并读取。将更新写入单独的新文件,再与原始数据合并。因为这种模式仅仅是编写新文件,因此效率更高。

在MySQL,HBase和Cassandra中收集增量数据时,可以轻而易举的通过Hudi系统将采集的数据保存到Hudi。再利用presto、spark和hive、快速读取递增更新的数据。

04.Apache IotdB

Apache IotdB是一种物联网时间序列工业数据库,采用高性能和多功能轻量级架构,与Apache Hadoop,Spark和Flink进行深度集成,能够满足工业在互联网中大规模数据存储、高速数据读数和复杂数据分析的需求。

Apache IotdB由多个组件组成,形成一系列功能,例如“数据收集-数据写入-数据存储-数据查询-数据可视化-数据分析”。

用户导入从设备传感器收集的时间序列数据、服务器负载和CPU内存等消息队列中的时间序列数据、应用程序的时间序列数据或从其他数据库到本地或远程 IotdB的时间序列数据JDBC。用户还可以直接将上述数据写入本地TSFile文件。将TSFile文件写入HDF,从而实现数据处理平台的异常检测和机器学习等数据处理任务。

对于写入HDFS或本地的TSFile文件,可以使用TSFile-Hadoop或TSFile-Spark连接器来允许Hadoop或Spark处理数据。分析结果可以写回TSFile文件。IotdB和TSFile还提供相应的客户端工具,以满足用户在SQL、脚本和图形格式中查看数据的需求。

标签: #apache的支持