AI革命性应用DragGAN，专注于精修和细节调整，即将开源发布！

影视制作杂志 08-12 2292

前言：

目前各位老铁们对“算法的软件实现”可能比较注重，小伙伴们都需要了解一些“算法的软件实现”的相关内容。那么小编同时在网络上汇集了一些有关“算法的软件实现””的相关文章，希望你们能喜欢，咱们快快来学习一下吧！

整理自 | Wuhu 动人空间、影视后期系统教学、机器之心

订、阅 | 010-86092062

AI是当今科技领域中最受关注的技术之一，从自然语言处理到图像识别，从预测分析到自动化，AI在各个领域都有着广泛的应用。它可以帮助我们更高效地完成日常任务，同时对众多领域产生重大影响。

本文着重介绍AI革命性应用DragGAN。

火出圈的“一秒修图”视频

视频中只要用鼠标箭头拖拽就可以在照片中修改想要的造型，想怎么变就怎么变。甚至连狮子张嘴的效果，以及风景的光影变化效果都可以实现。

对于人物修图而已同样很方便，如果还想在照片里加一些创意，也可以轻松操作。

“一秒”修图的背后

DragGAN 提供了简单易用的 GUI 界面，主要是通过简单的拖动任意图片中想要修改的点就可以实现精确的画面控制，DragGAN 通过点跟踪的方法，基于 3D 模型的控制，对画面进行调整。

DragGAN开发者：潘新钢，本人照片

他的基础算法，也就是 GAN，全名 Generative Adversarial Networks，中文名：生成对抗网络。该算法最强大的就是他的自动化，不需要人工标注，自动完成学习过程。

DragGAN 主要就是利用 GAN 算法自动生成 3D 模型，进而可以通过一张图片就可以实现在 3D 世界的转动、调整。

DragGAN 能够通过精确控制像素的位置对图像进行改变，可处理的图像类型包括动物、汽车、人类、风景等，涵盖大量物体姿态、形状、表情和布局，并且用户的操作方法简单通用。

GAN 有一个很大的优势是特征空间具有足够的判别力，可以实现运动监督（motion supervision）和精确的点跟踪。用户可以对图像进行多次变换更改，直到获得所需输出。

幕后开发者

这个名叫DragGAN的模型，本质上是为各种GAN开发的一种交互式图像操作方法。论文以StyleGAN2架构为基础，实现了点点鼠标、拽一拽关键点就能P图的效果。

DragGAN的作者一共6位，分别来自马克斯・普朗克计算机科学研究，萨尔布吕肯视觉计算、交互与AI研究中心，MIT，宾夕法尼亚大学和谷歌AR/VR部门。

其中包括两位华人，本篇论文的一作是潘新钢。

另一位是Liu Lingjie。

近年来，AI 作为一种全新工具，其便利性开始在各行各业得以显现。但我们始终相信，只要善于利用新工具、保持学习的态度，未来将会是越来越好的。

一个平台，两套算法 | Autoware&Apollo双系统集成