数据仓库：初识数据仓库（二）

半月弦本尊 09-23 193

前言：

现时咱们对“主机采用什么表示数据”大体比较珍视，兄弟们都需要学习一些“主机采用什么表示数据”的相关资讯。那么小编也在网摘上汇集了一些有关“主机采用什么表示数据””的相关知识，希望大家能喜欢，姐妹们快快来了解一下吧！

数据仓库变化历程

数据仓库在不同阶段都经历了不同的变化，从最初的只读数据库，到分布式、云化、智能化的数据湖，从传统的数据仓库模型到数据仓库2.0模型，再到当前的数据湖模型，可以看到数据管理的技术不断进步和变化。

大数据

第一阶段数据集成

在数据仓库的早期，主要目标是将不同的数据源整合到一个集中式存储中，以实现企业中的数据集成。这个阶段主要关注数据的提取、转换和加载（ETL），将数据从不同的来源抽取到数据仓库中，早期主要应用于金融、保险、医疗等行业，以支持决策支持系统（DSS）的发展。此时，数据仓库基本上是一个只读的数据库。

大型主机数据库

这时候的数据应用场景主要有以下几个代表场景：

中国电信中国电网中国移动传统银行证券公司

并且主要使用的组件包括：

mysqloraclesqlseverpgsever

这时候对数据应用业务特点为：

业务简单层次分明业务变化缓慢业务周期性强

在数据建模方面主要遵循范式建模：

遵循三范式建模（第一范式：每个属性都不可再分，第二范式：非主字段都完全依赖于主键，第三范式：非主键字段不能依赖于其他非主键字段）自上而下（先拥有数据集市来设计dw层，瀑布模型，不易于后期扩展）低冗余高精度

数据仓库分层比较简单，分为两层：

ods（贴源层）dw（数仓）第二阶段查询与分析

随着数据量的增长，数据仓库开始成为一种支持企业数据分析的平台。这个阶段主要关注数据仓库的查询和分析，包括在线分析处理（OLAP）和数据挖掘等技术。此时，数据仓库开始关注数据质量、数据一致性和数据可靠性等方面。

商业智能（BI）的发展使数据仓库的应用越来越广泛，不仅仅应用于传统行业，也涉及到了电子商务、物联网、社交媒体等领域。此时，数据仓库的建设不再仅仅是一个技术问题，更多的是一个组织和管理问题。此时，数据仓库架构逐渐演化为主数据仓库（enterprise data warehouse，EDW）和数据驱动型数据仓库（data mart），同时，数据仓库建设也逐渐从集中式向分布式、云化方向发展。

数据量的爆炸式增长和数据种类的多样化，传统的数据仓库架构遇到了越来越多的问题。在此背景下，数据仓库2.0模型应运而生。数据仓库2.0模型相比传统模型，最大的变化是引入了Hadoop和NoSQL等新型技术。同时，数据仓库2.0模型强调数据的价值和重要性，更加注重数据的灵活性、可扩展性和易维护性，以满足大数据时代的需求。

hadoop生态

数据仓库2.0模型的主要特点包括：

引入了Hadoop和NoSQL等新型技术，提高了数据的存储和处理能力；强调数据的价值和重要性，更加注重数据的灵活性、可扩展性和易维护性；数据仓库强调更加全面、灵活和实时的数据管理。

这时的数据仓库的特点可以概括为以下几点：

业务变化快开发周期短平快-敏捷开发业务复杂度高数据量大（通常GB为单位）

需要Hadoop组件相互组合实现数仓功能组件包括：

HBase（存储库）ClickHouse、Doris（OLAP库）Kylin、presto、impala（OLAP）Atlas(数据血缘)Azkaban、DophinScheduler（调度）DataX、Sqoop、SeaTunnel（数据抽取）

这时数据建模主要遵循维度建模，适应大数据变化：

遵循维度建模（按照多个维度进行分析）使用星型模型自下而上（先拥有dw层再往上按照主题进行设计dm，敏捷模型，易于扩展易于后期维护及使用）先按照业务主线建立最小粒度的事实表，再建立维度表，形成数据集市冗余较高

数据仓库主要分层逻辑变为以下几层：

ods（接入层）dwd（明细层）dwm（轻度汇总层）dws（汇总层）ads（应用层）

数据仓库分层

第三阶段实时数据仓库和数据湖

随着企业对实时数据的需求增加，数据仓库开始向实时数据处理方向发展。这个阶段的数据仓库主要用于支持实时数据查询和分析，以及实时决策制定。此时，数据仓库需要支持实时数据的提取、转换和加载（ETL），并提供实时的数据查询和分析功能。但数据量和数据类型的爆炸式增长，数据仓库开始面临着大数据的挑战。数据仓库的建设逐渐从数据的收集、清洗、存储转向数据的整合、分析、挖掘。此时，数据仓库架构逐渐演化为 LAMDA（Lambda）架构，即批处理与实时处理相结合的架构，以满足大数据处理的需求。

数据湖是一种新型的数据仓库架构，它允许企业将各种不同类型、不同结构和不同格式的数据存储在一个统一的存储池中。与传统数据仓库不同，数据湖支持原始数据的存储和处理，同时提供实时的数据查询和分析功能。此时，数据湖开始成为大数据时代的新型数据仓库，数据的规模和种类越来越多样化，数据湖模型逐渐成为大数据管理的新标准。数据湖模型是基于云计算和大数据技术的新型数据管理模型，它强调数据的存储和管理，同时兼顾数据的处理和分析。与传统的数据仓库模型相比，数据湖模型更加灵活、可扩展和易于维护，可以更好地适应大数据时代的需求。

数据仓库组件构成

数据湖模型的主要特点包括：

强调数据的存储和管理，数据以原始形式存储在数据湖中；支持多种数据类型和数据格式，数据湖可以存储结构化数据、半结构化数据和非结构化数据等多种数据类型；引入了云计算和大数据技术，具有高可扩展性、高性能和低成本的特点；支持多种数据处理和分析方式，如数据挖掘、机器学习、自然语言处理等

这时的数据仓库主要应用场景为：

互联网公司部分传统行业数字化转型

这些业务场景的特点：

业务变化更快（周迭代）高度敏捷开发业务复杂度高数据量更大（通常TB为单位）

随着业务和数据服务的发展，比较突出的云端产品有：

- 阿里

Dataworks（离线开发集成平台）DataPhin（实时开发平台）QuickBI（报表工具）DataV（大屏工具）Hologres（OLAP库）

- 网易

猛犸（离线实时开发平台）数（可视化平台）

- 京东

DataPilot平台（离线实时开发平台）京东动力（可视化平台）第四阶段云数据仓库

随着云计算的发展，云数据仓库开始兴起。云数据仓库是一种基于云计算平台的数据仓库，它具有高度可扩展性、高可靠性和低成本等特点。云数据仓库主要用于支持企业的数据分析和决策制定，同时具有快速部署和灵活的付费模式等优势。

云端数据仓库选型

云数据仓库是指部署在云平台上的数据仓库解决方案，其基础设施、计算和存储资源都由云服务提供商管理。与传统的自建数据仓库相比，云数据仓库具有更高的弹性、可伸缩性和可靠性。

云数据仓库的优势包括：

弹性和可伸缩性：云数据仓库可以根据需求快速扩容或缩容，满足业务的变化需求。同时，由于云平台的自动化管理和弹性计算能力，也能够在高负载时自动增加计算资源。低成本和低风险：云数据仓库的构建不需要购买硬件设施，也无需担心硬件故障导致的数据丢失问题。此外，由于云服务商可以通过多租户资源共享来降低成本，因此相对于自建数据仓库，云数据仓库的成本更低。高可用性和灾备性：云平台提供商通常会在多个地理位置部署数据中心，这种分布式架构保证了云数据仓库的高可用性和灾备性。同时，云平台还提供了自动备份、恢复等功能，确保数据安全。更快的时间到市场：由于云数据仓库的构建和部署不需要购买和配置硬件设施，因此可以更快地部署和使用，从而更快地实现业务价值。

云数据仓库通常采用云计算技术，如云存储、云计算、云计费等，它们为企业提供了更灵活的部署、更高效的数据处理和更低的总体拥有成本。此外，云平台通常提供了丰富的数据分析和可视化工具，可以帮助企业更好地理解和利用数据。

以上就是数据仓库的发展历程，感谢浏览！记得关注收藏哦！

本文地址：http://www.longkongtuishu.com/ca680BwRsBFQDC1RW.html

标签： #主机采用什么表示数据