AI研习丨Paperformer：基于全文 Transformer 的引用量预测方法

中国人工智能学会 05-06 374

前言：

而今各位老铁们对“netinput”大体比较注重，姐妹们都需要了解一些“netinput”的相关资讯。那么小编同时在网络上汇集了一些关于“netinput””的相关知识，希望咱们能喜欢，兄弟们快快来了解一下吧！

文 /齐继扬，李泽康，王兴刚，白翔，刘文予

摘要

本文基于Transformer模型，构建了一套论文引用量预测系统——Paperformer，针对论文文本过长导致难以处理的问题，采用注意力机制挑选出对引用量预测最有价值的段落，再进行学习和预测。实验表明，在收集的计算机领域论文数据集上，相比其他引用量预测模型， Paperformer能够在同等计算资源情况下对论文的潜在影响力进行更有效评价，并挑选出有价值的论文。

关键字

引用量预测；论文引用量；长文本；Transformer；深度学习

0 引言

在科技大数据中，占比最大、分量最重的莫过于学术论文。近年来，论文投稿量呈井喷式发展，如计算机视觉领域会议之一CVPR，2001年投稿数不到1000，2019年投稿量增长到5000多，2020年投稿量更是超过6500；而录稿数，2019年1300篇，2020年1470篇，接收率仅在22%左右，且呈下降趋势。另外，2020年CVPR审稿人接近4000。可以预见，随着时间发展，审稿的人力、物力消耗将会越来越大。研究者们在海量的论文中也更难找出自己兴趣、有价值的论文，影响了科研效率。因此，让有价值、有潜力的论文在被广泛认可和引用之前，及时发现它们，对读者和作者都十分有利。

近年来，基于NLP技术（如Transformer、Bert）的文本理解技术取得了巨大成功。然而，Bert等基础模型由于模型的参数过多，难以处理较长文本的输入（受限于GPU显存等硬件条件）。部分针对长文本的变体（如TransformerXL、XLNet）在一定程度上降低了其处理长文本的硬件需求，但也远远无法处理整篇文章。

为了能够快速评估科技大数据（大量论文）价值，并且相对客观地遴选出有价值的科技数据，针对目前存在的问题，我们提出了一种基于Sentence Attention的 Transformer模型——Paperformer，实现了基于 Transformer的全文内容理解的论文引用量预测。模型的主要贡献有如下两点。

（1）新方法。这是一种基于Transformer的论文引用量预测模型，为准确预测论文价值（以论文引用量为代理指标），将论文的段落输入在海量无监督文本数据上预训练的BERT模型，采用sentence attention机制，在整个论文中自动学习关键句子；然后将其输入transformer 中训练，以L1距离作为损失函数，在真实数据集上进行端到端训练。最终训练得到的模型，可以获得当前精确度（以SPRank作为指标）最高的论文引用量预测模型。

（2）新的数据库，一个计算机论文引用量预测数据集。数据集包含发表于2000—2010年间计算机学科论文8.2万篇，每篇论文包括标题、作者、摘要、主体、引用列表和发表时间。通过分析该数据集中论文的引用列表，记录每篇论文引用的其他论文，可以找到每篇论文在这个数据集里的被引次数，然后可以计算得到在8 年内的总被引次数。

1 Paperformer：提取关键信息进行论文引用量预测

为了更有效地处理整篇论文，需要尽可能考虑论文中每句话的信息，但由于GPU显存等硬件资源的限制，我们无法将整篇文章同时输入到模型中。为此需要挑选出文章中一些关键句子作为模型输入。本章将对Paperformer的训练和测试流程进行详细介绍。

1.1 Sentence Attention 模块训练

Sentence Attention采用hard attention的形式进行关键句子挑选，无法通过反向传播进行端到端训练。因此，我们将模型的训练拆开成两个阶段。

Sentence Attention模块训练阶段网络的模型结构，如图1所示。

图1 Sentence Attention 训练阶段网络结构图

首先将一篇长论文分成K段（如每个句子算一段，共K个句子），表示为 {S1, S2, …, SK}，将每段分别输入到预训练好的XLNet网络中，得到每段的特征 {h1, h2, …, hK} 后，将{h1, h2, …, hK} 送入Sentence Attention模块中计算每段的注意力权重 {a1, a2, …, aK}，其中Sentence Attention模块的具体形式为

式中，w、V、U均为Sentence Attention模块中的参数，可以通过反向传播进行学习和更新；⊙是逐元素乘法；tanh（▪）代表tanh函数；sigm（▪）代表sigmoid 非线性；输出的ak即为第 k 段文本的注意力权重。其中的sigmoid门控机制引入了可学习非线性，有可能消除 tanh（▪）带来的麻烦的线性问题。

之后，以 {a1, a2, …, aK} 作为权重对 {h1, h2, …, hK} 进行加权和，得到此阶段的粗糙全文特征，再通过一层全连接层预测出最后的论文引用量。

对于模型的优化，采用L1 Loss作为损失函数计算预测的引用量与真实引用量之间的损失，根据这个损失进行反向传播，一步步更新模型中的参数，Sentence Attention模块中的w、V、U即可得到训练。

1.2 最终引用量预测模型训练

最终引用量预测模型的网络结构如图2所示。

图2 最终引用量预测模型的网络结构图

首先仍然按Sentence Attention模块训练阶段的做法将长论文分成K段，利用预训练XLNet 和上一步优化好的 Sentence Attention模块得到每段注意力权重 {a1, a2, …, aK}。不同于上一阶段对每段文本的特征进行加权和，此阶段首先将注意力权重进行排序，筛选出注意力权重最大的一些句子拼接起来，直到GPU显存等硬件条件可以处理的最大文本长度。将这些注意力权重大的句子拼接成一段更长的并且包含关键信息更多的文本后，再送入预训练好的XLNet模型中提取更精细的全文特征，最后通过一层全连接层得到我们最终预测出的论文引用量。

如图2所示，假设计算出的注意力权重a1 ＞ aK ＞ a3 ＞…＞ a2，那么在进行预测时会优先选择注意力权重较高的S1、SK、S3，而注意力权重较低的S2将被过滤掉，不参与最终的预测。

模型的优化同样采用L1 Loss作为损失函数计算损失，并进行反向传播，同时优化XLNet、Sentence Attention模块和最后的全连接层。

相比Sentence Attention模块训练阶段的做法，我们最终引用量预测模型的优势主要体现在：①利用Attention模块挑选出了更关键信息，过滤掉了信息较少、可能会对结果产生干扰无效段落；②使用的特征提取器是在海量数据上无监督预训练的XLNet，这种把挑选出的句子重新拼接后再送入预训练的XLNet网络方式，没有改变XLNet输出特征分布，可以最大程度发挥 XLNet 预训练的优势。

2 实验结果分析

为了证明Paperformer的有效性，在收集的计算机论文引用量预测数据集上进行了大量实验。下面首先简单介绍我们的实验设置，之后展示实验结果并进行分析。

2.1 实验设置

数据集。为了最大程度上利用现有资源，基于S2ORC提出了一个计算机论文引用量预测数据集。S2ORC是一个用于自然语言处理和科技论文文本挖掘研究的通用语料库，它提供了136M+篇论文的基本信息，其中12.7M+篇论文包含全文文本信息，共467M+条相互引用的数据。

基于S2ORC，首先对文章进行筛选。我们保留了包含题目、摘要、文章主体，且发表时间为2000—2010年及其所属领域为计算机领域的论文，共筛选出8.2万篇。根据S2ORC提供的相互引用数据，记录每篇论文引用其他论文的信息，可以找到每篇论文在我们的数据集中被引用次数，然后筛选出在8年内的引用次数，这个引用次数是引用量预测模型所要预测的引用量。

我们将数据集中90%论文用于训练，剩下10%用于测试。此外，数据集中有2.8万篇论文没有被引用，为了让训练集和测试集的引用量分布尽可能相似，保证有被引用和没被引用的论文分别有90%被分到训练集、10%被分到测试集。

实现细节。由于GPU显存的限制，实验中的batch size设为1，采用Adam优化器，学习率设为0.001，动量参数设为0.9，共训练100个epoch。实验中，输入文本为文章的题目、摘要、正文这些信息。在模型最后一层全连接层之前，将模型得到的特征与论文发表年份的独热编码进行连接，之后再送入全连接层，以充分利用论文发表年份的信息。

为了让训练更稳定、简单，我们将预测的引用量和真实引用量都先进行变换以降低其数值（防止数值过大导致模型难以优化），再计算它们之间的损失。具体公式为label=log(c+1)，其中c为预测的或者真实的引用量、label为送入L1 Loss损失函数计算损失的输入。

基础模型。我们尝试了三种基础Transformer模型。

（1） BERT是基于Transformer结构构造的一个多层双向的Encoder网络，通常先通过大量数据进行无监督训练得到通用模型，再在下游任务上进行finetune。

（2）XLNet采用AR模型替代AE模型，解决mask带来的负面影响，并构造了双流注意力机制，且引入Transformer-XL，能在一定程度上节省硬件资源，以处理更长的输入文本。

（3）Longformer通过将全连接注意力机制改进为稀疏连接注意力，改善了BERT在长文本处理上的性能。速度更快且占用显存更少。评价指标。采用Spearman Rank衡量预测引用量序列与真实引用量序列之间的整体相关性，以此来判断不同模型对论文影响力大小的准确度。

评价指标。采用Spearman Rank衡量预测引用量序列与真实引用量序列之间的整体相关性，以此来判断不同模型对论文影响力大小的准确度。

2.2 基础模型实验结果与分析

首先测试了之前的基础模型在我们数据集上的结果，如表1所示。

表1 基础模型的引用量预测结果

在表1实验中，模型的参数设置hidden size/embedding dim为768；隐藏层数为12；注意力层头数为12。其中， BERT的batch size为32；其他模型的batch size 为1。

BERT模型由于其预训练长度的限制，最长只能输入长度为512的文本。XLNet网络在输入文本长度为2048时，需要占用13G显存，由于GPU显存限制，我们没有尝试更长的输入文本。Longformer在输入长度为4096时，只占用了12G显存，对硬件的要求更低一些。

从结果上看，XLNet的效果最好，且其指标随着输入文本长度的边长而变高；Longformer虽然能处理更长的文本，但并不能有效利用长文本中的信息，导致输入更长的文本也没有使得到更好效果；BERT由于输入长度的限制并没有得到太好结果。因此，我们选择XLNet作为Paperformer的特征提取器。

此外，还基于BERT模型研究了预训练参数对论文引用量预测效果的影响，如表2所示。可以看到，使用预训练参数对于提升最终论文引用量预测效果有着非常大的作用。但是从后两列也可以看出，预训练的参数虽然重要，但也必须针对我们的引用量预测任务进行finetune，否则也很难达到好的效果。这也证明了BERT等自然语言处理基础模型先预训练再在下游任务 finetune，整个流程的重要性。

表2 基于Bert模型研究预训练参数对论文引用量预测效果的影响

2.3 Paperformer 实验结果与分析

Paperformer模型实验结果如表3所示。

表3基于Paperformer模型的论文引用量预测结果

我们在Paperformer模型上尝试了以不同长度的文本为段落进行预测，其中第一行为直接使用XLNet输入前2048个词得到的效果，最后一行所采用的39为平均每个句子的单词数量。从表3可以看出，Paperformer在以64个词为一段的情况下效果最好，比XLNet直接输入长2048的文本的结果要高0.5个点。此结果可能是因为这样既能保证大多数句子不被切分，又保证了我们用Sentence Attention模块挑选关键句子的粒度足够小，充分发挥了Paperformer只处理关键句子的优势。

此外，我们的最终引用量预测模型也比在Sentence Attention模块训练阶段采用的模型预测效果要好很多。这是因为Sentence Attention模块训练阶段采用的模型将 XLNet 提取特征进行加权和，虽然融合了全文特征，但也包含了很多具有干扰性的无效信息。并且加权和破坏了XLNet提取特征的原本特征分布，无法直接使用XLNet提取特征，而最终引用量预测模型可以最大程度发挥XLNet预训练参数优势，直接采用XLNet输出的特征进行预测。

同时可以看到，Sentence Attention模块训练阶段采用的模型上预测效果随着段落长度的减少而降低。从这里也可见，采用加权和进行信息融合时，最终结果的提升很大程度上还是依赖于单个段落所能包含的信息量。这说明加权和虽然理论上能融合全文信息，但融合性能并不高。

Paperformer相比BERT等基础模型，一个明显的优势在于它可以通过提炼关键文本来处理任意长度的输入文本，没有对输入文本长度的限制，可以根据硬件条件动态地调整最终关键文本长度。

为了进一步研究论文各部分对于预测引用量的重要程度，我们将Sentence Attention挑选出的关键句子在原文中的位置进行了可视化，如图3所示。其中，横轴代表句子在文章中出现的位置，从左到右代表从文章开头到文章结尾；纵轴代表句子被Sentence Attention模块选为关键句子的次数。可以看出，论文前面的标题、摘要、引言及论文结尾总结等，对预测论文引用量更关键，这一点与一般的直观感受相符合。

图3 注意力分布趋势，论文前面摘要部分和结论部分具有较高的注意力

3 结束语

本文对使用Transformer模型预测论文引用量进行了系统研究。基于Attention机制提出了能处理任意长度文本的引用量预测模型Paperformer，并构建了一个新的计算机领域论文引用量预测数据集。通过充分的实验，本文研究并分析了不同基础模型的优缺点，证明了Paperformer在论文引用量预测上的有效性。相信Paperformer在其他长文本处理领域也能得到较好效果，并给之后的研究带来启发。

（参考文献略）

选自《中国人工智能学会通讯》

2021年第11卷第5期

科技大数据理论和技术专辑

本文地址：http://www.longkongtuishu.com/ca6e1A2sKAFUPCg.html

标签： #netinput