龙空技术网

一文读懂大数据(Big/BI)的架构与应用

DGBOK星云计划 83

前言:

如今朋友们对“大数据架构是什么意思”大致比较关切,各位老铁们都想要知道一些“大数据架构是什么意思”的相关知识。那么小编也在网摘上收集了一些对于“大数据架构是什么意思””的相关资讯,希望你们能喜欢,大家快快来学习一下吧!

14.1.3.3.大数据。早期定义大数据(Big Data),指的是数据量、处理速度和多样性三个特征,即体量(Volume)、速度(Velocity)和种类"(Variety)(Laney 2001)111。随着越来越多的组织开始利用大数据的潜力,V的列表也在扩大:

·1.体量(Volume):指数据体量,大数据通常在数十亿条记录中具有数千个实体或元素。

·2.速度(Velocity):是指捕获生成或共享数据的速度,大数据通常会实时生成可能也需要实时分发甚至实时分析。

·3.种类和可变性(Variety和Variability):是指捕获或传送数据的形式,大数据需要存储多种格式;数据结构在数据集之内或之间通常是不一致的。

·4.粘度(Viscosity):是指数据使用或集成的难度。

·5.易失性(Volatility):指的是数据变更发生的频率以及数据有用的时间。

·6.准确性(Veracity):指数据的可信度,大数据体量异常大(大于100TB,通常在PB和EB量级)在建仓和分析解决方案中大量数据对数据加载、建模清洗和分析提出了挑战,这些挑战通常使用大规模并行处理(MPP)来解决或者并行处理和分布式数据解决方案,但是它们具有更广泛的含义。

数据集的大小需要改变存储和访问数据的整体方式以及如何理解数据(例如,我们当前有关数据的许多思考方式都基于关系型数据库结构),以及如何管理数据(Adams 2009年)。图99通过大数据技术呈现了可视范围的数据摘要以及对数据存储选择的影响。

14.1.3.4.大数据架构组件:大数据和数据科学环境的选择、安装和配置需要专业知识,必须根据现有的数据探索工具和新的获得工具来开发和理顺端端的架构。

图100描述了DW/BI和大数据架构(有关DW/BI组的详细信息请参阅第11章)。DW/BI与大数据处理之间的最大区别在于:

→1.在传统的数据仓库中数据在集成(ETL:提取转换加载)之后整合到数据仓库之中。

→2.在大数据环境中数据在集成(ELT:提取加载转换)之前已被摄取和加载。在某些情况下,传统意义上的数据可能根本没有被集成,它通常不是通过准备使用而集成,而是通过特定用途而集成(例如构建预测模型的过程驱动了特定数据集的集成),DW/BI和大数据架构的原版和优化版参考如下:

ETL和ELT之间的差异对数据的管理方式具有重要意义。集成过程不一定依赖或产生企业数据模型。风险在于,如果以临时方式执行摄取和使用流程,可能会丢失大量有关数据的知识。要了解和利用这些过程,需要收集和管理与这些流程相关的元数据。

本节将介绍大数据源和数据湖的构建,并在“活动”部分下探讨活动(摄取集成探索评估模型)14.1.3.5.大数据源。

随着人类活动的电子化,每天都会积累大量数据,包括电子邮件、社交媒体在线订单以及在线视频游戏。数据不仅通过电话和销售网点设备生成,还通过监视系统运输系统中的传感器、医疗监视系统工业和公用事业监视系统、卫星以及军事设备生成。例如,一次航班可以生成1TB的数据。

与Internet直接交互的设备会生成大部分的大数据,这些设备与Internet之间的连接有时被称为物联网(IoT)。

标签: #大数据架构是什么意思 #大数据架构是什么意思啊 #大数据架构的优缺点