龙空技术网

大数据之数据架构的历史--简述

数据人--Alex 85

前言:

眼前咱们对“常用的几种大数据架构剖析”大概比较注重,朋友们都想要剖析一些“常用的几种大数据架构剖析”的相关知识。那么小编也在网摘上搜集了一些关于“常用的几种大数据架构剖析””的相关文章,希望姐妹们能喜欢,各位老铁们快快来学习一下吧!

从单体应用架构时代到大数据时代

在不同的时期,数据架构的形式也不完全相同。数据架构的形式会随着企业架构和信息技术一起不断发展和演变。

一:应用架构时代

20世纪80年代,企业信息化初见雏形,信息系统相对简单,功能单一。这一时期的数据架构并不复杂,主要就是数据模型满足应用即可,没有数据管理的概念。如下图:

单体应用架构图

二:数据仓库时代

随着信息化的发展,业务系统不断积累。企业需要对业务数据进行提取分析以便发现其价值,但因之前预见性有限,系统建设为统一规划,导致产生大量的数据孤岛。企业无法有效利用数据进行相关业务应用。“数据仓库”之父比尔恩门提出了一种专门用于数据分析的新架构--数据仓库架构。数据仓库是面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

数据仓库架构主要满足了企业的业务分析应用场景,即我们常说OLAP(online analytical processing),联机分析处理应用场景。它让企业获得了更一致,更快的数据分析和决策支持。数据不再直接在业务数据库中进行分析,而是先流入一个集中的仓库,再重新组织并存储。如下图:

数据仓库架构图

数据仓库架构是一种用于存储、管理和分析大量数据的数据系统,是进行数据挖掘,商务智能应用和数据分析的基础。

数据仓库通常有以下5个主要组件组成:

² 数据源:这是数据仓库的输入层,可以是企业内部的应用程序,外部的数据源,或者他们的结合。

² 数据清洗:这是将数据从原格式转换为数据仓库格式的重要组件,提供数据验证,消除重复数据,格式化数据等功能。

² 数据存储:这是对数据进行存储和管理的核心组件。

² 数据模型:是定义数据仓库中数据是如何存储和组织的组件。常见数据模型有星形模型,雪花模型,维度模型等

² 数据查询和分析:是从数据仓库中查询数据并进行分析的组件,常见数据查询和分析工具有SQL、BI工具、数据科学工具等。

三:湖仓一体时代

湖仓一体数据架构是一种将数据仓库和数据湖的优点结合在一起的数据架构,它不仅拥有数据仓库的高效存储和分析能力,还拥有数据湖的弹性和灵活性。

总的来说,可按照上图划分多层次,并在每层解决对应问题。从底层数据源,需对接多种数据源(包括结构化、半结构化及非结构化数据)。之上的数据集成需提供针对不同特征数据的集成能力(包括批量、流式)。处理过后的数据放入统一存储层,为面对不同结构的数据,需提供多模态存储能力,甚至为满足性能要求提供不同存储引擎。再之上是统一的元数据、安全、管控层,通过对全局数据的完整视角管理。为满足不同加工需求的统一处理层,层内提供多种加工能力。最上面是数据应用层。

湖仓一体数据架构图(图片来源于网络)

四:大数据时代

大数据架构(Hadoop架构)主要借助Hadoop技术来解决传统数据仓库面临的难扩展和性能问题,在数据处理模式上没有明显差别,主要通过大数据技术代替传统技术进行提速,相比传统的数据仓库,性能确实有了巨大提升。

此外常用大数据架构还有Lambda 架构、它结合了批处理和实时处理的能力,以满足不同的数据处理需求。Kappa 架构:是对 Lambda 架构的一种简化,主要依赖实时处理来处理数据。

Hadoop数据架构

四:其他

总之,在实际应用中,很多组织会根据具体情况选择合适的架构,或者采用混合架构来兼顾不同的需求。。

标签: #常用的几种大数据架构剖析