龙空技术网

编码、标记和实现:一种可控且高效的文本生成方法

算法的秘密 90

前言:

现在各位老铁们对“高效算法的奥秘下载”都比较关切,你们都想要分析一些“高效算法的奥秘下载”的相关文章。那么小编也在网上收集了一些有关“高效算法的奥秘下载””的相关资讯,希望各位老铁们能喜欢,兄弟们快快来了解一下吧!

序列到序列(seq2seq) 模型已经彻底改变了机器翻译领域,并已成为各种文本生成任务的首选工具,例如摘要、句子融合和语法错误纠正。模型架构(例如Transformer)的改进以及通过无监督预训练利用大量未注释文本的能力使我们近年来看到的神经网络方法的质量提高。

然而,根据用例的不同,使用 seq2seq 模型生成文本可能会带来许多实质性的缺点,例如产生输入文本不支持的输出(称为幻觉)以及需要大量训练数据才能达到很棒的表演。此外,seq2seq 模型在推理时本质上很慢,因为它们通常会逐字生成输出。

在“编码、标记、实现:高精度文本编辑”中,我们展示了一个新颖的、开源的文本生成方法,专门针对这三个缺点而设计。由于该方法的速度和精度,这种方法被称为 LaserTagger。LaserTagger 不是从头开始生成输出文本,而是通过使用预测的编辑操作标记单词来生成输出,然后在单独地实现步骤中将这些操作应用于输入单词。这是处理文本生成的一种不易出错的方法,可以通过更容易训练和更快执行的模型架构来处理。

LaserTagger 的设计和功能

许多文本生成任务的一个明显特征是输入和输出之间通常存在高度重叠。例如,在检测和修复语法错误或融合句子时,大部分输入文本可以保持不变,只有一小部分单词需要修改。出于这个原因,LaserTagger 会生成一系列编辑操作而不是实际单词。我们使用的四种编辑操作是:Keep(将一个词复制到输出)、Delete(删除一个词)和Keep-AddX / Delete-AddX(添加短语X在标记词之前,并可选择删除标记词)。这个过程如下图所示,展示了 LaserTagger 在句子融合中的应用。

所有添加的短语都来自有限的词汇。该词汇表是优化过程的结果,该过程具有两个目标:(1) 最小化词汇量大小和 (2) 最大化训练示例的数量,其中唯一需要添加到目标文本的单词仅来自词汇表。有限的短语词汇使输出决策的空间更小,并防止模型添加任意单词,从而减轻幻觉问题。输入和输出文本的高重叠特性的一个必然结果是所需的修改往往是局部的并且彼此独立。这意味着可以以高精度并行预测编辑操作,与顺序执行预测的自回归 seq2seq 模型相比,可以显着提高端到端的速度,

结果

我们在四个任务上评估了 LaserTagger:句子融合、拆分和改写、抽象摘要和语法校正。在所有任务中,LaserTagger 的性能与使用大量训练示例的强大的基于BERT的 seq2seq 基线相当,并且在训练示例数量有限时明显优于该基线。下面我们展示了WikiSplit数据集上的结果,其中的任务是将一个长句改写成两个连贯的短句。

LaserTagger 的主要优势

与传统的 seq2seq 方法相比,LaserTagger 具有以下优势:

1.控制:通过控制输出短语词汇,我们也可以手动编辑或管理,LaserTagger 比 seq2seq 基线更不容易出现幻觉。 2.推理速度:LaserTagger 计算预测的速度比 seq2seq 基线快 100 倍,使其适用于实时应用程序。 3.数据效率:即使仅使用几百或几千个训练样本进行训练,LaserTagger 也能产生合理的输出。在我们的实验中,有竞争力的 seq2seq 基线需要数万个示例才能获得可比的性能。

为什么这很重要

当大规模应用时,LaserTagger 的优势变得更加明显,例如通过减少响应的长度和减少重复性来改进某些服务中语音回答的制定。较高的推理速度使得模型可以插入现有的技术堆栈,而不会在用户端增加任何明显的延迟,同时提高的数据效率可以收集多种语言的训练数据,从而使来自不同语言背景的用户受益。

标签: #高效算法的奥秘下载