龙空技术网

情境与数据质量评估

慕测科技 116

前言:

此时我们对“数据库模式之间的映射由什么负责”可能比较注意,朋友们都想要了解一些“数据库模式之间的映射由什么负责”的相关知识。那么小编同时在网摘上汇集了一些对于“数据库模式之间的映射由什么负责””的相关资讯,希望同学们能喜欢,朋友们快快来了解一下吧!

引 用: L. Bertossi和F. Rizzolo, 《Contexts and Data Quality Assessment》, arXiv:1608.04142 [cs], 2016年8月.

论文摘要:

数据质量是情境相关的。从这种直觉和经验出发,我们提出并开发了一个概念框架,以正式术语表示情境相关的数据质量的概念。我们首先提出一个通用且抽象的情境概念,以及它的用途,特别是在数据管理中。在此基础上,我们将数据质量评估和质量查询回答作为情境相关的活动进行调查。用于评估手头的数据库D的情境被建模为外部数据库模式,它具有实体或虚拟数据并且与外部数据源有关系。数据库D被放在情境中,通过和情境模式建立映射。情境模式生成D的可替代的清洁版本集合C。数据库D的质量是根据它与C的距离来评估的。集合C也用于定义和执行质量查询回答。我们所提出的模型允许自然扩展,例如使用数据质量谓词,通过外部数据源的情境优化数据库访问,以及通过更具表现力的本体来表示情境的意义。

介绍:

对数据源质量的评估是依赖于情境的,即“好”或“差”数据的概念不能与产生和使用数据的情境分开。例如,季节性变化的产品的年度销售数据可能被业务分析师视为质量数据,用来评估产品年收入。但是对于仓库经理来说,试图用年度销售数据估算下个月订单可能不够好。

此外,数据质量与实际存储值和应该存储的“实际”值之间的出入有关。例如,如果使用故障温度计进行温度测量,则存储值(测量值)将与声称存储的值(实际温度)不同。 这是语义不准确的数据的一个例子。

另一种类型的语义差异发生在不同代理人赋予数据库中实际值的意义不一致时。本文主要研究了这种语义差异导致的数据质量问题。本文形式化了这样一个直觉和经验:数据质量是情境相关的。这需要对情境进行合适的形式化。在我们的例子中,这是一个集成数据和元数据的系统,质量评估中的数据源可视为一个特殊的组件。

总的来说,我们提出了一个通用的情境模型,并描述了如何将其用于数据质量评估。我们将情境模型应用于:质量问答以及通过直接从模型中发现的一些自然数据质量度量进行数据质量评估。我们还提出了一种质量查询应答算法。我们考虑的另一个特殊情况是这种情境实例不存在。它必须首先(重新)根据可用信息和元数据创建。我们指出如何在后续工作中自然地扩展我们的通用框架,以包括其他特性,如外部定义的质量谓词。此外,我们提出了一个情境的一般概念,不仅是为了评估数据质量的目的。根据这个概念,我们讨论了可以根据情境实施的其他任务。然后,评估数据质量使用的情境被定义为这个一般框架的一个特殊情况。

1. 关于情境的意义和用处

情境的概念不仅与数据质量有关,而且与计算机科学内外的许多其他活动有关。在计算机科学中,我们在几个地方发现了“情境”,例如数据库、语义网、知识表示、移动应用程序等。它通常用于情境感知(context awareness),例如情境感知搜索、情境感知数据库(和查询应答)、情境感知的移动设备等。然而,大多数时候没有明确的情境概念,只有一些算法考虑(或计算)一些明显的情境方面。最典型的是时间和地理位置,即特定的维度,而且没有过多解释。

要强调的是,与计算机科学领域一样,在数据质量和数据清理领域也没有太多关于情境的科学或基础研究。一般来说,在这一领域的研究往往是非常特殊的,其中垂直的,不可扩展的,不可适应的解决方案(通常是算法性质的)是为特定的问题和特定的领域提供的,所以一个精确的和形式化的情境的一般概念变得必要。

我们将情境视为元数据的一种形式,可以将其形式化为语义层,并表示为一个理论。借助这种直觉,我们描述了一些在这个一般的情境概念中设想的元素。

“放在情境中”是一个逻辑理论T。实际情境是另一个独立的逻辑理论C。这两个理论用相应的逻辑语言及其逻辑语义来表达。这两个理论用相应的逻辑语言及其逻辑语义来表达。理论T和C可能共享一些谓词符号。T和C之间的连接是通过谓词和逻辑映射建立的,即逻辑公式,如图1所示。

2. 数据质量评估的情境

我们从一般角度描述基于情境的数据质量评估和基于情境的质量查询应答的方法。图2说明了主要的高层思想。 接下里,我们构造了一个情境框架。我们有一个关系模式S={R1,R2,....Rn},以及情境关系模式C。其中参与的模式通过模式映射相互关联。尤其是,评估数据源D可以映射到情境模式中,如图3所示。

除了情境模式C之外,我们可能还有一个集合P来表示情境质量谓词(CQP),在C中有定义。直观来说,CQP可以用来表示数据使用者请求的或数据生产者满足的原子质量要求。使用它们,我们可以限制元组中某些属性的允许值,以便只有高质量的元组才能进入高质量版本的数据库。更准确地说,不同的数据源,包括原始的D和情境级的任何数据源、C中元素的质量谓词定义、模式映射和视图定义等,决定了情境模式C允许的情境实例。

至于如何测量数据质量和质量答案,我们给出了以下定义。

可以发现,查询Q的质量答案是确定的。请注意,由于D的质量评估是通过比较D的内容和

的内容来进行的,因此可以将其视为质量查询应答的特定情况,即质量答案的概念可用于定义质量。

3. 质量展开算法(QUA)

我们给出了如下算法。

算法的第3步考虑仅在模式C之上定义的CQP的可能性。例如,当它们吸引外部源以及其他较低级别的质量谓词时就是这种情况。

4. 创建情境实例和质量标准

来自情境的数据或模式的质量谓词的这种独立性显得特别有趣,当我们想要使用它们从D中的关系中过滤元组的情况下。它开辟了如何处理我们没有给定情境模式(也没有情境实例),但只有一些谓词定义的情况。这种情况可以在下述的框架内进行:对于谓词R∈S,我们在情境级别中创建副本或昵称R',获得一个情境模式C。每个R'共享参数数量、R的属性及其域。我们还有一个简单的R'的本地视图映射定义:

在虚拟数据集成的术语中将R视为确切数据来源。同样地,我们可以通过数据记录规则定义R',依据R'上的封闭世界假设:

通过这种方式,我们创建了一个情境实例I := {R′(D) | R ∈ S},D是一个精确的数据源。

5. 没有情境数据的情况下进行质量评估

当然,我们不能总是假设我们有情境模式C的情境实例I。可能存在一些关于C的数据,很可能是不完整(或空)的实例I,并且我们可能有权访问其他外部资源。在这样的情况下,评估的实例D中的数据可以映射到C,通过附加组合来在在情境质量谓词下进行分析。

在这种更一般的情况下,自然会出现类似于在虚拟数据集成系统中研究的情况。情境模式充当中介模式和全局模式,实例D充当物理化数据源。由于我们将原始实例D视为情境系统的开源,我们可以利用现有算法在开放性假设下计算全局查询的某些答案。由于并非D中的所有数据都不符合C的质量预期,因此我们需要说明D与其预期质量版本之间的关系。 为此目的,我们使用模式S的副本S'扩展C(或者它可能已经是它的一部分):S'={R'| R∈S},我们给出如下定义:

系统C的合法情境实例(LCI)是全局模式C的一个实例I。该定义上将R作为全局视图范例下的开源数据来捕获。(a)中的条件基本上将D的数据向上提升到C。现在,我们想向D提出查询,但期待质量答案。我们通过根据Rp'的谓词提出相同的查询,定义如下:

这就是一个答案语义应用于质量查询答案。

6. 多个质量实例下的数据质量

如果有几个可能的情境实例候可用于数据质量评估,我们就可以提供任务的替代方案。首先,如果我们想要评估D的数据,我们可以考虑,对于每个LCI I,

也可以看作是模式S的一个实例。在此基础上,我们现在介绍两种可能的数据质量测量方法如下:

我们对这些可能的质量测量的分析和比较留待将来工作。

总结:

我们已经提出了一个用于在质量属性方面评估数据库实例的通用框架。评估基于与通过原始数据与附加情境数据或元数据的交互获得的一类备选预期实例的比较。查询的质量答案也与这些可选择的实例相关。我们的框架和交互涉及数据库模式之间的映射,如数据交换,虚拟数据集成和对等数据管理系统(PDMS)中的模式。

同时,我们的工作非常总体和抽象,足以根据情境信息适应不同形式的数据质量评估。因为缺乏对数据质量的基础研究,我们认为这种工作是必要的。实际上,该领域的大多数研究都围绕着特定的问题和应用,不能轻易地适应其他问题,场景和应用领域。我们有必要确定、概念化并且研究数据质量评估的一般原则和方法。实际上,我们通过在数据质量评估中引入维度和本体,在这方面取得了进展。

当然,我们建议的框架应该扩展以包含更复杂的映射。我们必须开发和研究更多算法,用于质量评估和质量查询应答。在这方面还有许多研究工作要做。

致谢

此文由南京大学软件学院2019级硕士郭子琛翻译转述。

参考文献:

[1] Abiteboul, S., Hull, R. and Vianu, V. Foundations of Databases. Addison-Wesley, 1995.

[2] Batini, C. and Scannapieco, M. Data and Information Quality - Dimensions, Principles and Techniques. Data-Centric Systems and Applications, Springer, 2016.

[3] Beeri, C. and Ramakrishnan, R. On the Power of Magic. Proc. SIGMOD 1987, pp. 269-284.

[4] Bernstein, Ph. and Melnik, S. Model Management 2.0: Manipulating Richer Mappings. Proc. SIGMOD 2007, pp. 1-12.

[5] Bertossi, L., Rizzolo, F. and Lei, J. Data Quality is Context Dependent. Proc. VLDB-WS on Enabling Real-Time Business Intelligence (BIRTE 2010). Springer LNBIP 48, 2011, pp. 52-67.

[6] Bertossi, L. Database Repairing and Consistent Query Answering. Synthesis Lectures on

Data Management, Morgan & Claypool, 2011.

[7] Ghidini, C. and Giunchiglia, F. Local Models Semantics, or Contextual Reasoning = Locality + Compatibility. Artificial Intelligence, 2001, 127:221-259.

[8] Giunchiglia, F. and Serafini, L. Multilanguage Hierarchical Logics. Artificial Intelligence, 1994, 65:29-70.

标签: #数据库模式之间的映射由什么负责