龙空技术网

数据仓库:初识数据仓库(二)

半月弦本尊 182

前言:

现时咱们对“主机采用什么表示数据”大体比较珍视,兄弟们都需要学习一些“主机采用什么表示数据”的相关资讯。那么小编也在网摘上汇集了一些有关“主机采用什么表示数据””的相关知识,希望大家能喜欢,姐妹们快快来了解一下吧!

数据仓库变化历程

数据仓库在不同阶段都经历了不同的变化,从最初的只读数据库,到分布式、云化、智能化的数据湖,从传统的数据仓库模型到数据仓库2.0模型,再到当前的数据湖模型,可以看到数据管理的技术不断进步和变化。

大数据

第一阶段 数据集成

在数据仓库的早期,主要目标是将不同的数据源整合到一个集中式存储中,以实现企业中的数据集成。这个阶段主要关注数据的提取、转换和加载(ETL),将数据从不同的来源抽取到数据仓库中,早期主要应用于金融、保险、医疗等行业,以支持决策支持系统(DSS)的发展。此时,数据仓库基本上是一个只读的数据库。

大型主机数据库

这时候的数据应用场景主要有以下几个代表场景:

中国电信中国电网中国移动传统银行证券公司

并且主要使用的组件包括:

mysqloraclesqlseverpgsever

这时候对数据应用业务特点为:

业务简单层次分明业务变化缓慢业务周期性强

在数据建模方面主要遵循范式建模:

遵循三范式建模(第一范式:每个属性都不可再分,第二范式:非主字段都完全依赖于主键,第三范式:非主键字段不能依赖于其他非主键字段)自上而下(先拥有数据集市来设计dw层,瀑布模型,不易于后期扩展)低冗余高精度

数据仓库分层比较简单,分为两层:

ods(贴源层)dw(数仓)第二阶段 查询与分析

随着数据量的增长,数据仓库开始成为一种支持企业数据分析的平台。这个阶段主要关注数据仓库的查询和分析,包括在线分析处理(OLAP)和数据挖掘等技术。此时,数据仓库开始关注数据质量、数据一致性和数据可靠性等方面。

商业智能(BI)的发展使数据仓库的应用越来越广泛,不仅仅应用于传统行业,也涉及到了电子商务、物联网、社交媒体等领域。此时,数据仓库的建设不再仅仅是一个技术问题,更多的是一个组织和管理问题。此时,数据仓库架构逐渐演化为主数据仓库(enterprise data warehouse,EDW)和数据驱动型数据仓库(data mart),同时,数据仓库建设也逐渐从集中式向分布式、云化方向发展。

数据量的爆炸式增长和数据种类的多样化,传统的数据仓库架构遇到了越来越多的问题。在此背景下,数据仓库2.0模型应运而生。数据仓库2.0模型相比传统模型,最大的变化是引入了Hadoop和NoSQL等新型技术。同时,数据仓库2.0模型强调数据的价值和重要性,更加注重数据的灵活性、可扩展性和易维护性,以满足大数据时代的需求。

hadoop生态

数据仓库2.0模型的主要特点包括:

引入了Hadoop和NoSQL等新型技术,提高了数据的存储和处理能力;强调数据的价值和重要性,更加注重数据的灵活性、可扩展性和易维护性;数据仓库强调更加全面、灵活和实时的数据管理。

这时的数据仓库的特点可以概括为以下几点:

业务变化快开发周期短平快-敏捷开发业务复杂度高数据量大(通常GB为单位)

需要Hadoop组件相互组合实现数仓功能组件包括:

HBase(存储库)ClickHouse、Doris(OLAP库)Kylin、presto、impala(OLAP)Atlas(数据血缘)Azkaban、DophinScheduler(调度)DataX、Sqoop、SeaTunnel(数据抽取)

这时数据建模主要遵循维度建模,适应大数据变化:

遵循维度建模(按照多个维度进行分析)使用星型模型自下而上(先拥有dw层再往上按照主题进行设计dm,敏捷模型,易于扩展易于后期维护及使用)先按照业务主线建立最小粒度的事实表,再建立维度表,形成数据集市冗余较高

数据仓库主要分层逻辑变为以下几层:

ods(接入层)dwd(明细层)dwm(轻度汇总层)dws(汇总层)ads(应用层)

数据仓库分层

第三阶段 实时数据仓库和数据湖

随着企业对实时数据的需求增加,数据仓库开始向实时数据处理方向发展。这个阶段的数据仓库主要用于支持实时数据查询和分析,以及实时决策制定。此时,数据仓库需要支持实时数据的提取、转换和加载(ETL),并提供实时的数据查询和分析功能。但数据量和数据类型的爆炸式增长,数据仓库开始面临着大数据的挑战。数据仓库的建设逐渐从数据的收集、清洗、存储转向数据的整合、分析、挖掘。此时,数据仓库架构逐渐演化为 LAMDA(Lambda)架构,即批处理与实时处理相结合的架构,以满足大数据处理的需求。

数据湖是一种新型的数据仓库架构,它允许企业将各种不同类型、不同结构和不同格式的数据存储在一个统一的存储池中。与传统数据仓库不同,数据湖支持原始数据的存储和处理,同时提供实时的数据查询和分析功能。此时,数据湖开始成为大数据时代的新型数据仓库,数据的规模和种类越来越多样化,数据湖模型逐渐成为大数据管理的新标准。数据湖模型是基于云计算和大数据技术的新型数据管理模型,它强调数据的存储和管理,同时兼顾数据的处理和分析。与传统的数据仓库模型相比,数据湖模型更加灵活、可扩展和易于维护,可以更好地适应大数据时代的需求。

数据仓库组件构成

数据湖模型的主要特点包括:

强调数据的存储和管理,数据以原始形式存储在数据湖中;支持多种数据类型和数据格式,数据湖可以存储结构化数据、半结构化数据和非结构化数据等多种数据类型;引入了云计算和大数据技术,具有高可扩展性、高性能和低成本的特点;支持多种数据处理和分析方式,如数据挖掘、机器学习、自然语言处理等

这时的数据仓库主要应用场景为:

互联网公司部分传统行业数字化转型

这些业务场景的特点:

业务变化更快(周迭代)高度敏捷开发业务复杂度高数据量更大(通常TB为单位)

随着业务和数据服务的发展,比较突出的云端产品有:

- 阿里

Dataworks(离线开发集成平台)DataPhin(实时开发平台)QuickBI(报表工具)DataV(大屏工具)Hologres(OLAP库)

- 网易

猛犸(离线实时开发平台) 数(可视化平台)

- 京东

DataPilot平台(离线实时开发平台)京东动力(可视化平台)第四阶段 云数据仓库

随着云计算的发展,云数据仓库开始兴起。云数据仓库是一种基于云计算平台的数据仓库,它具有高度可扩展性、高可靠性和低成本等特点。云数据仓库主要用于支持企业的数据分析和决策制定,同时具有快速部署和灵活的付费模式等优势。

云端数据仓库选型

云数据仓库是指部署在云平台上的数据仓库解决方案,其基础设施、计算和存储资源都由云服务提供商管理。与传统的自建数据仓库相比,云数据仓库具有更高的弹性、可伸缩性和可靠性。

云数据仓库的优势包括:

弹性和可伸缩性:云数据仓库可以根据需求快速扩容或缩容,满足业务的变化需求。同时,由于云平台的自动化管理和弹性计算能力,也能够在高负载时自动增加计算资源。低成本和低风险:云数据仓库的构建不需要购买硬件设施,也无需担心硬件故障导致的数据丢失问题。此外,由于云服务商可以通过多租户资源共享来降低成本,因此相对于自建数据仓库,云数据仓库的成本更低。高可用性和灾备性:云平台提供商通常会在多个地理位置部署数据中心,这种分布式架构保证了云数据仓库的高可用性和灾备性。同时,云平台还提供了自动备份、恢复等功能,确保数据安全。更快的时间到市场:由于云数据仓库的构建和部署不需要购买和配置硬件设施,因此可以更快地部署和使用,从而更快地实现业务价值。

云数据仓库通常采用云计算技术,如云存储、云计算、云计费等,它们为企业提供了更灵活的部署、更高效的数据处理和更低的总体拥有成本。此外,云平台通常提供了丰富的数据分析和可视化工具,可以帮助企业更好地理解和利用数据。

以上就是数据仓库的发展历程,感谢浏览!记得关注收藏哦!

标签: #主机采用什么表示数据