图像生成领域，Prompt的七个缺陷

人人都是产品经理 08-25 112

前言：

目前同学们对“边缘检测意义”大致比较关注，小伙伴们都想要学习一些“边缘检测意义”的相关知识。那么小编也在网上网罗了一些对于“边缘检测意义””的相关文章，希望我们能喜欢，同学们一起来了解一下吧！

在向AI模型传递指令的过程中，我们常常需要借助Prompt这一形式，那么Prompt作为载体，是否存在一定的缺陷呢？本文作者讨论了图像生成领域里Prompt的七个缺陷，一起来看看吧。

Prompt是向AI模型传递指令的核心形式，随着AI绘画从艺术领域向设计领域深入，创作诉求趋于严谨、精确，Prompt作为创作意图的重要载体，一些缺陷日益凸显，对生成结果的可控性、可用性有很大影响。

一、写作技能

创作者要将大脑中构思的画面通过文字表达出来，画面是三维的、立体的，而文字却是一维的、线性的。

对于较为复杂的创作意图，这个转化过程极具挑战性、技巧性，依赖反复书写带来的经验累积或是专门的学习。

二、文本特性

同一组用词，同一句话，受到语境、文化、群体共识等客观因素的影响，可能存在多重含义，面对文本的多义性，模型理解很容易发生偏差，生成内容无法切中创作者的真实意图。而创作者要基于错误反馈不断对导致歧义的内容进行替换、校正。

三、字数限制

尽管多一些描述可以给模型更多细节，但当前AI模型对字数始终存在一个模糊的理解“上限”，超过“上限”后的内容，要么理解错乱，要么直接无视，所以创作平台往往对Prompt字数加以限制，这就导致更多的创意想法无法被完整表达。

四、范式规则

相比口语化表达，模板化的描述指令更容易被模型理解而且更稳定，具有长期创作需求的创作者，需要学习并熟练掌握基于技术逻辑反推出的的指令公式（如：画面主体+场景+细节+风格修饰），还有控制各类权重的命令参数（如：-seed；-chaos；-::；—iw等）。

五、作用关系

对于不是描述主体的指令，往往难以判断它是否已对画面产生影响，因此我们看到“绝美、完美、超美”、“大师画质、超高画质、顶级画质”经常出现在一条Prompt中，冗余甚至相互对立。如需调整，则要通过删A留B，删B留A的方式反复比对来定位修改点。

六、细节控制

尤其是设计师的创作场景，对形式、位置、比例、层次、关系等要素的处理更加专业严谨，文字型指令可以做到但书写成本极高，用户能否写出“画面偏左四分之三居中位置，一条高一百像素的金鱼”？模型又能否对此精准执行？目前看，依靠Prompt进行精细化控制并不现实。

七、生成预期

除使用“创作相似”外，创作者生成前对生成结果不可预测，生成过程又类似于黑箱，所以大家往往先生成几张，看看什么效果，找到符合预期的那张再继续深入。这个交互关系中最大的问题在于反馈的高延迟，造成了过高的尝试成本。

Prompt的这些特点或问题，让人不得不想起PC系统早期的DOS命令行界面：需要掌握语言范式、缺乏提示反馈、没有快捷操作、不直观等问题，让很多计算机初学者望而却步。

以上为输入环节，而在模型一侧，Prompt的解码过程又会丢失一部分信息，使得创作者大量意图指令无法精准、有效的传递给生成模型，最终得到一个错误的或是可用性较低的生成结果，人们感到挫败并对技术能力产生质疑，其实，生成模型的能力往往由于语义理解的限制，并没有得到充分发挥。

如果经常使用AI绘画平台，可能对这些Prompt功能并不陌生：一键复制、创作相似、灵感推荐、智能补全、咒语大全、咒语生成器、创作手册、词包、撰写教程等等。这些功能在一定程度上降低了Prompt的撰写成本，尤其针对体验型、尝鲜型的用户，创作效率和质量均有提升，但对带有明确应用场景的设计师群体来说，上述问题依然存在。

那Prompt指令的问题如何解决？又如何让操作体验真正做到“平民化”呢？

显然技术侧的进展更快，涂抹、叠加、扩展等二次编辑能力，以Lora为代表的微调模型，还有Controlnet技术，支持边缘检测、草图处理、姿势识别等前沿黑科技，都在试图融合更多其他模态的意图信息，与Prompt形成互补，让生成结果更加精准可控。

说回体验层面，以Prompt为核心的创作范式可能并非终极形态，这方面的探索尚未达成共识。我想，在PC时代，图形用户界面基于出色的交互体验，快速“取代”了DOS命令行一直影响至今，即使进入AIGC时代，答案也许仍在其中。

本文由 @设计来电原创发布于人人都是产品经理。未经许可，禁止转载。

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

本文地址：http://www.longkongtuishu.com/caff5BA1sBFYODlZX.html

标签： #边缘检测意义 #边缘检测的概念和意义