演讲实录丨CAAI副理事长周志华教授：探索纯学习到学习+推理的AI

中国人工智能学会 05-31 294

前言：

现时朋友们对“tritraining算法”大概比较讲究，你们都需要学习一些“tritraining算法”的相关知识。那么小编同时在网络上搜集了一些有关“tritraining算法””的相关知识，希望各位老铁们能喜欢，你们快快来了解一下吧！

转自机器之心

首届国际学习与推理联合大会（IJCLR）已于10月25-27日在线上举行，该会议代表了国际推理与学习相融合方面的重大趋势，多位国内外领域学者发表演讲，其中，CAAI副理事长、欧洲科学院外籍院士、南京大学人工智能学院院长、ACM/AAAI/IEEE/CAAI Fellow周志华教授作了大会的开场主旨报告，分享了题为《利用无标签数据：从「纯学习」到「学习 + 推理」》的主旨演讲。

在本次大会的开场主旨报告演讲中，周志华教授先简要介绍了机器学习中利用无标签数据的重要性，以及过去利用无标签数据主要依赖的「纯学习」解决方案，然后重点介绍了他最近提出的「反绎学习」。这是一种全新的「学习 + 推理」方案，与以往的「学习 + 推理」方案重点依赖学习、获得的结果牺牲了推理能力，或重点依赖推理、获得的结果牺牲了学习能力不同，反绎学习提供了一种以平衡和互利方式利用机器学习和逻辑推理的「学习 + 推理」解决方案。通过逻辑推理对领域知识进行利用，从而可以显著缓解对有标签数据的需求；而通过机器学习可以利用数据对领域知识进行精化和改善，甚至可能发现新知识。

以下为机器之心根据周志华教授的现场演讲内容进行的整理。

周志华教授演讲内容概要

自训练方法（Self-training）

机器学习通常依赖大量的有标签数据，而现实中很容易获得大量无标签数据，如何利用无标签数据辅助少量有标签数据进行学习，是一个重大挑战问题。很容易想到的办法有自训练 / 自学习，用有标签数据训练一个模型，然后用模型来对无标签数据提供伪标签，然后基于伪标签数据来更新模型。但这样做不太“靠谱”，因为当初始有标签数据很少时，训练出的初始模型性能差，伪标签中会有大量错误，导致学习性能越来越差。

这样的做法在很久以前就有所改进，例如对伪标签数据进行数据编辑，对数据净化之后再用于学习。编辑过程可以采用一些统计假设检验方法。然而总体上这样的方法仍然是启发式的，人们希望有一些有理论支撑的方法。

主动学习（Active learning）

主动学习（Active learning）是机器学习的一个分支，其主要思路是，从大量无标签样本中挑选少量样本给人类专家进行标注，从而让人类专家的力气用在「最有价值」的地方。其目标是通过尽量少地选择样本给人类专家标注，能够大幅度提升学习性能。

典型的两大类代表性方法是有选择最 informative 的示例进行标注，和选择最有代表性的示例进行标注。新的发展是同时兼顾 informative 和代表性。

然而，主动学习假设了「人在环中」（human-in-the-loop），如果没有人类专家的帮助，则必须考虑其他的办法来利用无标签数据，例如半监督学习。

半监督学习

半监督学习具有代表性的方法包括生成式方法、半监督 SVM、基于图的方法、基于分歧的方法。

基于分歧的半监督学习是该领域的主流范型之一, 通过训练多个学习器，利用它们之间的分歧来对无标签数据进行利用。协同训练（Co-training）是基于分歧方法的代表，它最初是针对「多视图」数据提出，多视图数据是指一个样本同时由多个属性集合描述，每个属性集合称为一个「视图」。协同训练首先基于两个视图分别训练一个分类器，然后每个分类器挑选一些可信度高的无标签样本，标注后提供给另一个分类器作为有标签数据进行使用。由于这些分类器从不同角度训练出来，可以形成一种互补，从而提高分类精度；就如同从不同角度可以更好地理解事物一样。

这个简单的算法被广泛应用，在应用中有令人惊讶的优越性能。研究者们努力理解它为什么有效、在什么时候有效。机器学习领域奠基人、CMU 的 Tom Mitchell 教授等人证明，如果数据具有两个满足条件独立性的视图、且每个视图都包含足够产生最优学习器的信息，则协同训练能够通过利用无标签数据任意提升弱学习器的性能。

然而这个理论条件在现实中并不成立，因为关联到同一个样本的两个视图通常并不满足条件独立性。此后有许多著名学者，如计算学习理论大会主席 Balcan 等人做了重要工作，最后周志华教授课题组在理论上最终给出了协同训练能够奏效的充分条件和充分必要条件。其理论揭示出只要两个学习器有较大差异，就能通过协同训练利用无标签数据提升性能。该理论说明，「两个视图」并非必须，只要想办法让学习器之间具有较大差异即可。

该理论结果导致了一系列「单视图方法」，例如 tri-training 方法等，最近在深度学习领域也有基于 tri-training 的半监督深度神经网络模型。

然而，半监督学习仍然需要一批有标签数据，例如在半监督 SVM 或基于分歧的方法中训练初始分类器。如果既没有「人在环中」的人类专家帮助、也没有充分的有标签数据，还有没有办法利用无标签数据呢？周志华课题组提出，如果有「领域知识」，那么可以通过机器学习和逻辑推理的结合来做。

机器学习和逻辑推理

逻辑推理容易利用规则知识，机器学习容易利用数据事实，从人类决策来看，通常需要结合知识和事实以解决问题。研究一个能够融合机器学习和逻辑推理并使其协同工作的统一框架，被视为人工智能界的圣杯挑战。

在人工智能研究的历史中，机器学习和逻辑推理两者基本是独立发展起来的，1956~1990 年是逻辑推理 + 知识工程作为人工智能主流的发展时期，但此时关心机器学习的人很少；1990 年之后是机器学习作为人工智能主流的发展时期，但此时逻辑推理已经相对冷门。

目前流行的逻辑推理技术通常基于一阶逻辑表示，而流行的机器学习一般基于特征表示。这两者几乎是基于完全不同的表示方式，难以相互转化，使得两者的结合极为困难。

为了融合机器学习和逻辑推理，历史上已经有很多研究者在做努力。他们通常采用扩展其中一种技术来适应另一种技术的方法。例如，概率逻辑程序（PLP）尝试扩展一阶逻辑以引入概率推理。而统计关系学习（SRL）基于领域知识构建、初始化概率模型。

前者「重推理、轻学习」，开头引进了一点机器学习的成分，然后几乎完全依赖逻辑推理解决问题；后者「重学习、轻推理」，开头引进了一点逻辑推理的成分，然后几乎完全依赖机器学习解决问题。总是「一头重、一头轻」，意味着总有一端的能力没有完全发挥出来。

这就面临一个问题，能不能有一个新的机制帮助我们把这两大类技术的优势都充分地发挥起来、相对均衡地「互利式地」结合逻辑推理和机器学习呢？反绎学习的提出就是为了解决这个问题。

反绎学习（abductive learning）

反绎学习，是一种将机器学习和逻辑推理联系起来的新框架。在理解反绎学习之前，我们先来理解这个反绎的含义。

在人类对现实问题的分析抽象上，通常有两种典型方法论：演绎，从一个普遍的规则开始，到一个有保证的特定结论，这就是一个从一般到特殊的过程；归纳，从一些特定事实开始，然后我们从特定的事实中总结出一般的规律，这就是从特殊到一般。定理证明可以说是演绎的典型代表，而机器学习是归纳的典型代表。反绎则与两者有所区别，其标准定义是首先从一个不完备的观察出发，然后希望得到一个关于某一个我们特别关心的集合的最可能的解释。

周志华说他提出的反绎学习可大致理解为将演绎过程反过来嵌入到归纳过程中去，所以他提出「反绎」这个中文名字，而不是直接翻译为「诱导」或「溯因」。

现在返回来看传统的监督学习。监督学习首先需要有很多示例以及标签，将它们结合起来进行监督学习，训练出一个分类器。

反绎学习的设置不太一样，反绎学习中假设有一个知识库，以及一个初始分类器。

在这个学习中，我们先把所有的数据提供给这个初始分类器，初始分类器猜测一个结果，得到结果之后就会把它转化成一个知识推理系统能够接受的符号表示。

那么接下来这一步，我们就要根据知识库里面的知识来发现有没有什么东西是不一致的？如果有不一致，我们能不能找到某一个东西，一旦修改之后它就能变成一致？或者修改之后使得不一致程度大幅度降低？这就需要我们去找最小的不一致。如下图所示：假设我们现在找到，只要把这个非 C 改成 C，那么你得到的事实就和知识都一致了。我们就把它改过来，这就是红色的这个部分，这就是一个反绎的结果。而反绎出来的这个 C，我们现在会回到原来的标签中，把标签改掉，接下来我们就用修改过的标签和原来的数据一起来训练一个新分类器。这个分类器可以代替掉旧的分类器。这个过程可以不断地迭代下去。这个过程一直到分类器不发生变化，或者我们得到的伪事实和知识库完全一致，这时候就停止了。

从上图可以看到，左半部在进行机器学习，而右半部在进行逻辑推理。机器学习和逻辑推理这两者互相依赖，循环处理往复，直到分类器与知识库一致（此时相当于分类器已经「学到」了知识库中的内容）或者分类器连续数轮不再提升；如果允许对知识库进行修改，还可以使得知识库中的内容可以被精化或更新（这是利用数据经验来改善知识的过程）。

反绎学习不依赖于真实标签，但如果存在有标签数据，它也可以充分利用，例如可以生成更可靠的伪标签等，从这个意义上说，反绎学习可以被视为一种更具一般性的弱监督学习，其监督信息不仅限于标签，还可以是领域知识。

初始分类器可以是预训练好的深度模型或者迁移学习模型，甚至可以很简单，例如基于聚类或最近邻分类的预处理；其基本作用是让整个过程「启动」起来。在领域知识丰富可靠时，通过知识的利用可以使得整个过程并不依赖于初始分类器的强度。

知识库目前仍需要人工总结人类经验并写成一阶逻辑规则。今后可能通过学习来对知识库进行改善和提炼。对数据事实与符号知识的联合优化不再能依靠常规的梯度方法，使用了周教授团队自己开发的不依赖梯度计算的零阶优化方法。

周教授还简要介绍了反绎学习应用于司法案件辅助量刑的初步情况。

最后，如果将反绎学习示意图旋转一下，上半部是逻辑推理对应了认知过程，下半部是机器学习对应了感知过程，则反绎学习也为探索认知和感知交互提供了一个框架。

本文地址：http://www.longkongtuishu.com/ca2b7BA1sA1YCDQ.html

标签： #tritraining算法