龙空技术网

#文献研读# 生成扩散模型综述

拓扑流形红房子 86

前言:

眼前姐妹们对“c语言程序设计文献”可能比较关心,各位老铁们都需要剖析一些“c语言程序设计文献”的相关文章。那么小编也在网络上网罗了一些有关“c语言程序设计文献””的相关资讯,希望你们能喜欢,我们一起来学习一下吧!

生成扩散模型综述

摘要-由于深层的潜在表征,深度学习在生成任务中显示出了巨大的潜力。生成模型是一类可以根据某些隐含参数随机生成观察结果的模型。近年来,扩散模型凭借其强大的生成能力,成为一类新兴的生成模型。如今,我们已经取得了巨大的成就。除计算机视觉、语音生成、生物信息学和自然语言处理外,该领域还有待探索。然而,扩散模型有其生成过程缓慢的自然缺点,导致了许多增强的工作。本文对扩散模型领域进行了总结。我们首先用DDPM和DSM来说明主要问题。然后,我们提出了一种多样性范围的先进技术来加速扩散模型——训练计划、无训练采样、混合建模和分数与扩散统一。对于现有的模型,我们还根据特定的NFE提供了FID评分、IS和NLL的基准。此外,还介绍了扩散模型的应用,包括计算机视觉、序列建模、音频、人工智能。最后,这是对这一领域的总结,以及局限性和进一步的方向。

我们能赋予机器类似人的想象力吗?深层生成模型,如.,VAE[1],[2],[3],[4],EBM[5],[6],[7],[8],[9],[10],[11],[12],[13],[14],[15],[16],[17],[18],[19],[20],[21],GAN[22],[23],[24],归一化流[25],[26],[27],[28],[29],[30]和扩散模型[31],[32],[33],[34],[35],在创造人类无法正确区分的新模式方面显示出了巨大的潜力。我们关注基于扩散的生成模型,它不需要将后验分布对齐为VAE,处理棘手的配分函数作为EBM,训练额外的鉴别器作为GAN,或施加网络约束作为归一化流。由于上述优点,基于扩散的方法已经引起了从计算机视觉、自然语言处理到图形分析的广泛关注。然而,对扩散模型的研究进展仍缺乏系统的分类学和分析。

扩散模型的发展为描述模型提供了易于处理的概率参数化,稳定的训练过程和理论支持的充分,统一的损失函数设计。扩散模型的目的是将先验数据分布转化为随机噪声,然后再逐步修正变换,重建一个全新的样本分布作为先前的[36]。近年来,扩散模型在计算机视觉(CV)[31]、[37]、生物信息学[38]、[39]和语音处理[40]、[41]等领域都显示出了其卓越的潜力。例如,去噪扩散GANs仅四个采样步骤就生成高分辨率假图像,超过GAN [42]。Luo等人[33]首先利用DDPMs对蛋白质特征在原子分辨率下生成抗体CDR序列和结构。波格勒[43]生成恒定的生成高保真音频样本,优于现有的基于gan的音频生成模型。受扩散模型在CV、生物信息学和语音处理领域的成功的启发,将扩散模型应用于其他领域的生成相关任务将是开发强大生成能力的有利途径。

另一方面,与生成对抗网络(GANs)和变分自动编码器(VAEs)相比,扩散模型具有采样步骤长、采样时间长的固有缺点。这是因为使用马尔可夫核的扩散步骤只需要微小的扰动,从而导致大量的扩散。同时,可处理的模型在推理过程中需要相同的步数。因此,它需要数千个步骤来从一个随机噪声中采样,直到它最终改变为类似于之前的高质量数据。因此,许多工作渴望加速扩散过程,同时提高采样质量[47],[48],[49]。例如,dpm求解器利用ODE的稳定性,在10步[50]内生成最先进的样本。ES-DDPM [51]成功地将轨迹学习与变分自动编码器相结合,实现了扩散模型的高速采样。部分受到Bao等人[50]的启发,我们将扩散模型的改进工作总结为5类。(1)训练计划,(2)高级无培训抽样,(3)混合生成建模,(4)得分与扩散统一。详细内容见第3节。

图1。在这个图中,我们为每一类生成模型提供了一个直观的机制。(a)生成性对抗网(GAN)[44]在生成器上应用对抗性训练策略,使其能够生成无法被真假鉴别器和先验鉴别器区分的样本。(b)基于能量的模型(EBM)[45]以类似的方式训练,它找到一个合适的能量函数,包括一个软max鉴别器和一个预先输入生成器,这样它就可以输出随机输入的最佳匹配样本。(c)变分自动编码器(VAE)[46]应用该编码器将先验投影到一个潜在的空间中,解码器可以从中采样。(d)归一化流(NF)[29]使用一个设计良好的可逆流函数,将输入转换为潜在变量,然后返回到具有流函数逆的样本。(e)扩散模型逐渐将噪声注入原始数据,直到它转向已知的噪声分布,然后在采样步骤中的每一步进行反转。

通过对算法改进的多角度思考,我们的目标是提供一个关于扩散模型的当前方面的详细调查。通过对增强的谈判协议和其他领域的应用程序进行分类,本文的核心贡献如下:

总结了扩散模型领域的基本算法的本质数学公式和推导,包括方法公式、训练策略和采样算法。

•对改进的扩散算法进行了全面和最新的分类,并将其分为五类:蒸馏、噪声/轨迹学习、高级无训练采样、混合生成建模和分数和扩散统一。

•提供了关于扩散模型在计算机视觉、自然语言处理、生物信息学和语音处理上的应用的广泛陈述,其中包括领域专门的问题制定、相关数据集、评估度量、下游任务以及基准集。

•阐明了目前模型的局限性,以及有关扩散模型领域的可能的进一步证明方向。

5结论与讨论

扩散模型正成为广泛应用领域的热门话题。为了利用扩散模型的力量,本文提供了对扩散模型的几个方面的全面和最新的回顾,使用对各种态度的详细见解,包括理论、改进的算法和应用。我们希望本调查能为读者对扩散模型增强和模型增强提供指导。

5.1 局限

基于扩散模型的技术已经有广泛的改进技术和应用领域。然而,对快速采样的关注越多,导致对训练方案和原始设置的效果越差。首先,存在一个由负对数似然和证据下界之间的差异所定义的变分差距。目前的工作大多集中在优化ELBO上,而忽略了变化差距的最小化任务,但仍有相对较大的优化空间。其次,训练目标与评价指标的绩效存在不匹配。有时,较低的损失并不会带来更高的质量。因此,需要探索统一这两个术语的机制,包括连接指示和度量改进。第三,现有的工作对噪声类型和扰动核类型的关注不多。相反,高斯扰动和最终状态作为高斯噪声是最有可能被使用的,其中我们不知道高斯噪声在某些特定的任务中是否合理。这应该引起更多的注意。最后,模型速度和采样质量之间的权衡仍然不清楚和调查。定量权衡的优化任务可以为调整模型的效率提供一个启示。

5.2进一步说明

从算法和应用的角度出发,我们在本小节中提出了一些预期的方向。一方面,对不同的数据类型应该进行更多的尝试,包括离散空间、去量化空间和潜在空间。此外,还需要进行实验来探索不同的最终状态噪声类型和扰动核,如正态分布、伯努利分布、二项分布和泊松分布,以扩大扩散模型的多样性。此外,明确的损失优化机制以及加速和质量权衡将对可控调节和更令人满意的性能产生良好的影响。另一方面,也有许多领域采用了扩散模型为了获得更好的生成性能。然而,目前的大多数应用仍然是表面的。希望有更多针对问题的扩散模型,特别是对于科学问题。

标签: #c语言程序设计文献