龙空技术网

数据治理浅谈之数据字典

数亦有术 191

前言:

而今咱们对“数据字典干嘛的”可能比较看重,你们都想要剖析一些“数据字典干嘛的”的相关知识。那么小编在网络上汇集了一些有关“数据字典干嘛的””的相关知识,希望姐妹们能喜欢,你们一起来了解一下吧!

数据治理浅谈之数据字典

导读

数据字典作为数据治理整体体系中重要的一环,理解和使用数据字典尤为重要。本文将从数据字典概念、定义、结构、应用、治理等方面进行详细阐述。

01概念

数据字典(Data Dictionary)是一个容器,用于包含有组织定义和使用的所有数据元素的信息。它旨在管理、维护、分析企业中各种数据元素及其相关信息。它提供了一种集中管理和查询组织数据资源的方式,可避免重复定义已有数据元素,提高数据质量和减少数据错误,同时可基于数据字典相关属性分析,使得数据资源整体降本增效。

02定义

数据字典集中对数据库表字段进行定义与描述,它将文档型数据字典做了线上化管理,可实现客户各系统库表字段信息、表分类/表描述、字段标准映射等信息的维护,便于系统间数据信息共享。

数据字典可借助元数据的能力,可实现获取各业务系统、大数据平台库表字段等诸多信息,例如表字段级血缘、数据质量监控告警规则、数据安全等级、字段加密、数据表字段与指标、标签、报表关联关系。同时可基于数据表计算消耗与存储属性,结合一定规则策略,实现提升性能优化资源的目的。

不少朋友可能对数据字典、数据模型、数据库三者的定义有所混淆,以下展示了三者的区别。

数据字典

数据模型

数据库

目的

数据库表模式下每个数据属性的设计定义文档

数据结构关系设计

数据库物理实现

内容

内容详细程度非常高,定义对象、实体、属性、综合关系

内容详细程度中,定义对象、实体、属性

内容详细程度高,定义数据结构、关系

用户

数据/系统架构师、DBA、开发人员、测试人员、系统管理员

业务分析师、业务用户、数据/系统架构师

开发人员、DBA

工具

Word/Excel、扩展属性/注释、数据字典产品工具

PowerDesigner、ERWin

数据库开发和管理工具

形式

元数据表

图形化UML类图

数据库管理系统中的结构:表、列、外键等

03建设思路

数据字典在元数据基础上提供的企业数据目录管理模块,面向数据开发人员,快速查找表统一管理,跟踪血缘。数据字典将涵盖全局数据检索、元数据详情查看、数据预览、数据探查、数据血缘和数据类目管理等功能。数据地图可以帮助用户更好地查找、理解和使用数据。

数据字典与数据治理整理架构体系的关系图举例如下:

说明:

1.数据集成->元数据:采集数据集成脚本关系,并解析表级字段级血缘

2.数据建模->元数据:采集模型表数仓分层、业务分类、存储策略等信息

3.数据开发->元数据:采集SQL代码,并解析表级字段级血缘

4.运维中心->元数据:

(1)采集数据表周期性任务运行完成后数据量变化;

(2)【读取趋势图】统计数据表是从开发环境还是生产环境进行读取,字段关联次数与任务执行次数和该字段在代码中出现的次数相关,此数据为离线统计,有T+1的延迟

(3)【字段热明细】字段在SQL中的使用次数(where、select、join、groupBy)的统计信息

(4)【读取Top人员】统计近30天内,在SQL中对表的读取人员的统计信息(包含调度使用的生产账号和个人账号的访问),其读取内容包括对字段的where、select、join、groupBy等操作

5.数据保护伞->元数据:数据经过数据保护伞脱敏加密后,再由元数据采集6.数据质量->元数据:采集表配置的检核规则

7.元数据->数据地图:数据地图基于元数据采集信息,做加工展示

8.数据地图->数据质量:

(1)数据探查:可设置手动探查与自动探查,展示数据统计信息和分布情况

(2)检核规则:展示当前表配置的数据质量监控规则及DQC告警列表

(3)配置规则:跳转数据质量页面为表配置质量监控规则

9.数据地图->数据服务:数据表可直接跳转数据服务进行API开发、API注册、服务编排

10.数据地图->数据分析:数据表可直接跳转数据分析产品模块进行分析

04治理应用

通过对数据表使用消耗进行分析,全局把控计算与存储成本,提升使用效率。

通过获取完整的元数据信息:涵盖表粒度元数据信息、任务粒度元数据信息、hdfs文件元数据信息;基于元数据和内部气体数据,构建丰富的元数据CDM层宽表和维表。通过模型产出的报告可实现更多视角观测数据现状和任务现状;通过建监控、定规范、搭工具完成治理动作。

详细路径如下:

图 数据治理实施路径

标签: #数据字典干嘛的