2024-08-08发表2025-03-21更新 ByteAILab 8 分钟读完 (大约1125个字)

AI画家的「滑铁卢」：为什么冰可乐不愿意住进茶杯里？

设想一下，如果让你画一幅 “茶杯中的冰可乐” 的图片，尽管茶杯与冰可乐的组合可能并不恰当，你仍然会很自然地先画出一个茶杯，然后画上冰块与可乐。那么，当我们给 AI 画家提出 “画出茶杯中的冰可乐” 的要求时，会发生什么呢？在 2023 年 10 月大规模 AI 图像生成模型刚刚兴起时，我们便进行了这种尝试，得到了以下结果：

考虑到 AI 模型更新换代带来的性能提升，我们在 2024 年 7 月又使用了最先进的模型进行了同样的尝试：

可以看出，即使是最先进的 AI 画家（例如 Dall・E 3），也无法凭空构建 “茶杯中的冰可乐” 的场景，它们往往会摸不着头脑，纠结良久后画出一个装满冰可乐的透明玻璃杯。

即使是拥有昂贵数据标注基础以及 ChatGPT-4 加持下的最新 Dall・E 3 也无法稳定地 “将冰可乐装进茶杯里”，这一问题在学术界被归类为文生图模型的文本图像不对齐问题（text-image misalignment）。最近，上海交通大学王德泉老师课题组在论文《Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models》中深入探索了这一问题的新分支，该论文即将发表在 2024 年 10 月份的第 18 届欧洲计算机视觉大会（ECCV）上。

论文链接：https://arxiv.org/abs/2408.00230
项目链接：https://lcmis.github.io

文本图像不对齐问题是图像生成领域中的一个重要方向，与传统不对齐问题不同的是，在传统不对齐问题中，人们主要关注的是一组概念对中两个概念的相互影响，例如给定 “一个苹果和一个梨” 的需求，得到的图像要么是两个苹果，要么是两个梨，不会出现第三种概念。而在 “茶杯中的冰可乐” 这一例子中，有一个关键的隐藏变量 “透明玻璃杯”，其从未在文本提示中出现，却替代 “茶杯” 出现在了图像中。这种现象在本文中被称为包含隐藏变量的不对齐问题（Latent Concept Misalignment，简称 LC-Mis）。

为了更深入地探索为什么茶杯会消失在图像中，我们首先希望收集一些与 “茶杯中的冰可乐” 存在相似问题的数据。然而，“茶杯中的冰可乐” 问题源于人类的奇思妙想与 AI 的死记硬背之间的冲突，如果仅依靠人类专家冥思苦想来创造新的概念对，效率将会非常低下。因此，我们设计了一个基于大语言模型（LLMs）的系统，利用 LLMs 体内蕴含的人类思维来帮助我们快速收集与 “茶杯中的冰可乐” 存在类似问题的概念对。在这个系统中，我们首先向 LLMs 解释 “茶杯中的冰可乐” 问题背后的逻辑，然后简单地将这一问题划分为几个类别，让 LLMs 按照不同类别的逻辑生成更多的类别和概念对，最后我们使用文生图模型来绘制图像进行检查。然而，我们在后续实验中发现，现有的自动化评价指标在 “茶杯中的冰可乐” 这一新问题上存在一定缺陷。因此，我们只能采用人工…

。注意：Title、Date、Body 三个部分的内容，放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

AI画家的「滑铁卢」：为什么冰可乐不愿意住进茶杯里？

https://www.gptnb.com/2024/08/08/2024-08-07-auto5-bD5z96/

作者

ByteAILab

发布于

2024-08-08

更新于

2025-03-21

AI画家的「滑铁卢」：为什么冰可乐不愿意住进茶杯里？

。注意：Title、Date、Body 三个部分的内容，放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新