龙空技术网

一文读懂扩散模型(Diffusion Models)

小鱼儿说AI 3296

前言:

今天大家对“物质的扩散模型有哪几种”大概比较注意,各位老铁们都需要剖析一些“物质的扩散模型有哪几种”的相关资讯。那么小编同时在网摘上收集了一些有关“物质的扩散模型有哪几种””的相关内容,希望各位老铁们能喜欢,大家快快来了解一下吧!

背景:图像生成领域最常见生成模型有Generative Adversarial Network (GAN)和Variational Autoencoder (VAE)。2020年,DDPM (Denoising Diffusion Probabilistic Model)被提出,被称为扩散模型(Diffusion Model),同样可用于图像生成。近年扩散模型大热,Stability AI、OpenAI、Google Brain等相继基于扩散模型提出的以文生图,图像生成视频生成等模型。

原理介绍:扩散模型的主要机理主要是实现噪音样本(从简单的分布中,e.g., 高斯分布中进行采样)到目标数据的生成。扩散模型包括两个过程:前向过程(forward process)和反向过程(reverse process),其中前向过程又称为扩散过程(diffusion process)。无论是前向过程还是反向过程都是一个参数化的马尔可夫链(Markov chain),其中反向过程可用于生成数据样本(反向生成的过程中数据的维度与原图大小一致,这导致模型的计算量很高,而计算效率较低)。前向过程是加噪的过程,前向过程中图像只和上一时刻的有关, 该过程可以视为马尔科夫过程,并且通过重参化技术将随机性转移到上。逆向过程是去噪的过程,如果得到逆向过程,就可以通过随机噪声逐步还原出一张图像。DDPM使用神经网络拟合逆向过程。

算法流程:

从数据中抽取一个样本,从中随机选取一个时间t将和传给GaussionDiffusion,GaussionDiffusion采样一个随机噪声,加到,形成,然后将 和t放入神经网络中,神经网络根据t生成正弦位置编码和 结合,模型预测加的这个噪声,并返回噪声,GaussionDiffusion计算该噪声和随机噪声的损失将神经网络预测的噪声与之前GaussionDiffusion采样的随机噪声求L2损失,计算梯度,更新权重。重复以上步骤,直到网络训练完成。

Latent Diffusion Models

Latent Diffusion Models通过在一个潜在表示空间中迭代“去噪”数据来生成图像,然后将表示结果解码为完整的图像,让文图生成能够在消费级GPU上,在10秒级别时间生成图片,大大降低了落地门槛,也带来了文图生成领域的大火。

论文贡献:

Diffusion model相比GAN可以取得更好的图片生成效果,然而该模型是一种自回归模型,需要反复迭代计算,因此训练和推理代价都很高。论文提出一种在潜在表示空间(latent space)上进行diffusion过程的方法,从而能够大大减少计算复杂度,同时也能达到十分不错的图片生成效果。相比于其它空间压缩方法(如),论文提出的方法可以生成更细致的图像,并且在高分辨率图片生成任务(如风景图生成,百万像素图像)上表现得也很好。论文将该模型在无条件图片生成(unconditional image synthesis), 图片修复(inpainting),图片超分(super-resolution)任务上进行了实验,都取得了不错的效果。论文还提出了cross-attention的方法来实现多模态训练,使得条件图片生成任务也可以实现。论文中提到的条件图片生成任务包括类别条件图片生成(class-condition), 文图生成(text-to-image), 布局条件图片生成(layout-to-image)。这也为日后Stable Diffusion的开发奠定了基础。

Latent Diffusion Models整体框架如图,首先需要训练好一个自编码模型(AutoEncoder,包括一个编码器 和一个解码器 )。这样一来,我们就可以利用编码器对图片进行压缩,然后在潜在表示空间上做diffusion操作,最后我们再用解码器恢复到原始像素空间即可,论文将这个方法称之为感知压缩(Perceptual Compression)。有一个重要的地方是论文为diffusion操作引入了条件机制(Conditioning Mechanisms),通过cross-attention的方式来实现多模态训练,使得条件图片生成任务也可以实现。

Denoising Diffusion GAN

本文提出了一种结合Diffusion和GAN的生成模型, 在CIFAR-10数据集上能够比DDPM快2000倍, 同时与传统的GAN相比, 又可以生成质量相近又具有多样性的结果. 作者指出DiffusionGAN是第一个可以把Diffusion采样步骤降低到可以被应用到实际当中的模型.

本文提出了一种比较贴切的说法叫做:生成学习的三元悖论(The Generative Learning Trilemma). 现有的各种各样的生成模型都需要满足三个方面的需求:

生成的样本的质量要高 high-quality sampling.模态覆盖率要高/多样性 mode coverage/diversity.快速高效的采样 fast and computational inexpensive sampling.

为了能在数据的边缘分布不是高斯分布的情况下, 也能减少采样的步数, 这种情况下既然真实的去噪过程的分布不再服从高斯分布的形式, 那么将反向过程的分布也不再建模为高斯分布的形式, 而是通过Conditional GAN来使得两个分布对齐, 而不是显式地去学习高斯分布的均值和方差。

标签: #物质的扩散模型有哪几种