前言:
而今咱们对“数据字典干嘛的”可能比较看重,你们都想要剖析一些“数据字典干嘛的”的相关知识。那么小编在网络上汇集了一些有关“数据字典干嘛的””的相关知识,希望姐妹们能喜欢,你们一起来了解一下吧!数据治理浅谈之数据字典
导读
数据字典作为数据治理整体体系中重要的一环,理解和使用数据字典尤为重要。本文将从数据字典概念、定义、结构、应用、治理等方面进行详细阐述。
01概念
数据字典(Data Dictionary)是一个容器,用于包含有组织定义和使用的所有数据元素的信息。它旨在管理、维护、分析企业中各种数据元素及其相关信息。它提供了一种集中管理和查询组织数据资源的方式,可避免重复定义已有数据元素,提高数据质量和减少数据错误,同时可基于数据字典相关属性分析,使得数据资源整体降本增效。
02定义
数据字典集中对数据库表字段进行定义与描述,它将文档型数据字典做了线上化管理,可实现客户各系统库表字段信息、表分类/表描述、字段标准映射等信息的维护,便于系统间数据信息共享。
数据字典可借助元数据的能力,可实现获取各业务系统、大数据平台库表字段等诸多信息,例如表字段级血缘、数据质量监控告警规则、数据安全等级、字段加密、数据表字段与指标、标签、报表关联关系。同时可基于数据表计算消耗与存储属性,结合一定规则策略,实现提升性能优化资源的目的。
不少朋友可能对数据字典、数据模型、数据库三者的定义有所混淆,以下展示了三者的区别。
数据字典
数据模型
数据库
目的
数据库表模式下每个数据属性的设计定义文档
数据结构关系设计
数据库物理实现
内容
内容详细程度非常高,定义对象、实体、属性、综合关系
内容详细程度中,定义对象、实体、属性
内容详细程度高,定义数据结构、关系
用户
数据/系统架构师、DBA、开发人员、测试人员、系统管理员
业务分析师、业务用户、数据/系统架构师
开发人员、DBA
工具
Word/Excel、扩展属性/注释、数据字典产品工具
PowerDesigner、ERWin
数据库开发和管理工具
形式
元数据表
图形化UML类图
数据库管理系统中的结构:表、列、外键等
03建设思路
数据字典在元数据基础上提供的企业数据目录管理模块,面向数据开发人员,快速查找表统一管理,跟踪血缘。数据字典将涵盖全局数据检索、元数据详情查看、数据预览、数据探查、数据血缘和数据类目管理等功能。数据地图可以帮助用户更好地查找、理解和使用数据。
数据字典与数据治理整理架构体系的关系图举例如下:
说明:
1.数据集成->元数据:采集数据集成脚本关系,并解析表级字段级血缘
2.数据建模->元数据:采集模型表数仓分层、业务分类、存储策略等信息
3.数据开发->元数据:采集SQL代码,并解析表级字段级血缘
4.运维中心->元数据:
(1)采集数据表周期性任务运行完成后数据量变化;
(2)【读取趋势图】统计数据表是从开发环境还是生产环境进行读取,字段关联次数与任务执行次数和该字段在代码中出现的次数相关,此数据为离线统计,有T+1的延迟
(3)【字段热明细】字段在SQL中的使用次数(where、select、join、groupBy)的统计信息
(4)【读取Top人员】统计近30天内,在SQL中对表的读取人员的统计信息(包含调度使用的生产账号和个人账号的访问),其读取内容包括对字段的where、select、join、groupBy等操作
5.数据保护伞->元数据:数据经过数据保护伞脱敏加密后,再由元数据采集6.数据质量->元数据:采集表配置的检核规则
7.元数据->数据地图:数据地图基于元数据采集信息,做加工展示
8.数据地图->数据质量:
(1)数据探查:可设置手动探查与自动探查,展示数据统计信息和分布情况
(2)检核规则:展示当前表配置的数据质量监控规则及DQC告警列表
(3)配置规则:跳转数据质量页面为表配置质量监控规则
9.数据地图->数据服务:数据表可直接跳转数据服务进行API开发、API注册、服务编排
10.数据地图->数据分析:数据表可直接跳转数据分析产品模块进行分析
04治理应用
通过对数据表使用消耗进行分析,全局把控计算与存储成本,提升使用效率。
通过获取完整的元数据信息:涵盖表粒度元数据信息、任务粒度元数据信息、hdfs文件元数据信息;基于元数据和内部气体数据,构建丰富的元数据CDM层宽表和维表。通过模型产出的报告可实现更多视角观测数据现状和任务现状;通过建监控、定规范、搭工具完成治理动作。
详细路径如下:
标签: #数据字典干嘛的