商务服务
Parrot:用于文本到图像生成的帕累托最优多奖励强化学习框架
2025-01-02 18:56

论文题目:Parrot: Pareto-optimal Multi-Reward Reinforcement Learning framework for Text-to-Image Generation 论文链接:http://arxiv.org/abs/2401.05675 论文作者:Seung Hyun Lee, Yinxiao Li, Junjie Ke, Innfarn Yoo, Han Zhang, Jiahui Yu, Qifei Wang, Fei Deng, Glenn Entis, Junfeng He, Gang Li, Sangpil Kim, Irfan Essa, Feng Yang 内容整理:黄海涛 本文介绍了 Parrot,一种用于 T2I (text to image)生成的新型多奖励 RL 框架。通过使用批量 Pareto 最优选择,Parrot 在 T2I 的 RL 优化过程中自动识别不同奖励之间的最佳权衡。此外,Parrot对T2I模型和提示扩展网络采用联合优化方法,有助于生成质量感知的文本提示,从而进一步提高最终图像质量。为了抵消由于提示扩展而导致的对原始用户提示的潜在灾难性遗忘,本文在推理时引入了以原始提示为中心的指导,确保生成的图像保持忠实于用户输入。大量实验和用户研究表明,Parrot 在各种质量标准(包括美学、人类偏好、图像情感和文本图像对齐)方面均优于多种基线方法。

最近的工作表明,使用具有质量奖励的强化学习(RL)可以提高文本到图像(T2I)生成中生成图像的质量。然而,多个奖励的简单聚合可能会导致某些指标的过度优化和其他指标的退化,并且手动找到最佳权重具有挑战性。所以非常需要一种有效的策略来联合优化 RL 中的多种奖励以生成 T2I。

为了实现这一目标,本文提出了一种用于文本到图像生成的新型帕累托最优多奖励强化学习框架,表示为 Parrot。在 T2I 模型产生的样本中,每个样本都体现了各种奖励函数之间的独特权衡。通过识别和利用在这样的训练批次中实现最佳权衡的集合(即帕累托最优集合),Parrot 有效地同时优化了多个奖励。这会生成具有良好美感、正确的图文对齐、符合人类偏好以及整体令人愉悦的情感的图像。

生成图像的质量很大程度上受到提供给 T2I 模型的文本提示输入的影响。语义丰富的提示已被证明可以生成更高质量的图像。认识到手动制作有效提示的难度,promptist 被引入以通过大型语言模型(LLM)自主学习提示扩展。这涉及 LLM 的 RLtuning,同时保持 T2I 模型冻结为黑匣子。然而,由于 T2I 模型没有与提示扩展网络协作进行调整,因此它可能很难适应生成的文本输入。在 Parrot 中,使用多种质量奖励来联合优化提示扩展网络和 T2I 模型。这使得提示扩展网络和T2I模型能够协同生成更高质量的图像。

Parrot概述

图 1

上图显示了Parrot的流程图,它由提示扩展网络(PEN)

和T2I扩散模型

组成。PEN 首先从提示扩展的有监督微调模型初始化,T2I 模型从预训练的扩散模型初始化。给定原始提示

,PEN 生成扩展提示

,T2I 模型根据该扩展提示生成图像。在多重奖励强化学习微调过程中,会对一批

个图像进行采样,并为每个图像计算多个质量奖励,涵盖文本图像对齐、美观、人类偏好和图像情感等方面。基于这些奖励分数,Parrot 使用非支配排序算法识别批量帕累托最优集。然后,通过 RL 策略梯度更新,将这组最佳图像用于 PEN 和 T2I 模型参数的联合优化。在推理过程中,Parrot 同时利用原始提示及其扩展,在保持对原始提示的忠实度和融入额外细节以提高质量之间取得平衡。

批量帕累托最优选择

图 2

上图的算法概述了 Parrot 的过程。Parrot 没有使用所有图像来更新梯度,而是专注于高质量样本,考虑每个小批量中的多个质量奖励。在多奖励强化学习中,T2I 模型生成的每个样本都为每个奖励提供了不同的权衡。在这些样本中,存在一个具有不同目标的最佳权衡的子集,称为帕累托集。对于帕累托最优样本,其目标值中的任何一个都无法在不损害其他目标值的情况下进一步提高。换句话说,帕累托最优集不被任何数据点支配,也称为非支配集。为了通过 T2I 扩散模型实现帕累托最优解,Parrot 使用非支配排序算法选择性地使用非支配集中的数据点。这自然会鼓励 T2I 模型针对多奖励目标生成帕累托最优样本。

奖励特定偏好:受到多目标优化中偏好信息的使用的启发,Parrot 通过奖励特定标识合并偏好信息。这使得 Parrot 能够自动确定每个奖励目标的重要性。具体来说,通过为第 k 个奖励添加奖励特定标识符“”来丰富扩展提示

。基于该奖励特定提示,生成

张图像,并用于在梯度更新期间最大化相应的第

个奖励模型。在推理时,所有奖励标识符“<reward 1>,...,”的串联用于图像生成。

非支配排序:Parrot 基于多种奖励之间的权衡,用非支配点构造 Pareto 集。这些非支配点优于其余解并且互不支配。形式上,支配关系定义如下:图像

支配图像

,表示为

, 当且仅当

对于所有

,并且存在

使得

。例如,给定小批量中第

个生成的图像

,当小批量中没有点支配

时,它被称为非支配点。

梯度更新策略:我们为不包含在非支配集中的数据点分配奖励值为零,并且仅更新这些非支配数据点的梯度,如下所示:

其中

表示小批量中图像的索引,

表示批量的一组非支配点。

分别是奖励模型的总数和总扩散时间步长。每批次更新扩散模型时都会使用相同的文本提示。

原始提示集中指导

虽然及时扩展可以增强细节并通常提高生成质量,但人们担心添加的上下文可能会淡化原始输入的主要内容。为了在推理过程中缓解这种情况,本文引入了原始的以提示为中心的指导。当以原始提示为条件进行采样时,扩散模型

通常通过结合无条件分数估计和提示条件估计来预测噪声。本文建议使用两个指导的线性组合来生成 T2I,而不是仅仅依赖于 PEN 的扩展提示:一个来自用户输入,另一个来自扩展提示。原始提示的强度由引导尺度

控制。噪声

是根据下式估算得出的,其中 null 表示空文本。

定性分析

与基线比较:下图显示了Parrot和多个基线的视觉比较。Parrot通常会得到更好的图像,特别是在图像的颜色组合、裁剪、透视和细节等方面。这一改进可归因于 Parrot 的 T2I 模型与在训练过程中融入美学关键词的即时扩展模型一起进行了微调。Parrot 生成的结果与输入提示更加一致,并且视觉上更令人愉悦。

图 3

下图对比了使用Parrot和使用奖励分数线性组合的训练曲线。每个子图代表一个奖励。WS1和WS2表示具有多个奖励分数的两个不同权重。WS1 更注重审美得分,而 WS2 在审美、人类偏好、文本图像对齐和图像情感之间采用平衡权重。尽管美学和人类偏好显着增强,但采用多种奖励的加权和会导致图像情感得分下降。相比之下,Parrot 在所有指标上始终表现出改进。

图 4

定量评价

与基线比较:下表展示了在四种质量奖励中的质量得分结果:文本图像对齐得分、审美得分、人类偏好得分、和情绪得分。Parrot 在每个子组中都显示出更好的文本-图像对齐。

表 1

消融实验

帕累托最优多重奖励强化学习的效果:为了展示帕累托最优多重奖励强化学习的有效性,通过一次删除一个奖励模型来进行消融研究。下图显示了 Parrot、具有单一奖励的 Parrot 和未选择批量帕累托最优解的 Parrot 之间的视觉比较。使用单一奖励模型往往会导致另一个奖励的退化,尤其是文本图像对齐。例如,在第三列中,第一行的结果缺少提示高帽,即使稳定扩散结果包含该属性。另一方面,Parrot 结果捕获了所有提示,改善了其他质量信号,例如美观、图像情感和人类偏好。

图 5

原始以提示为中心的指导的效果:下图显示了所提出的原始以提示为中心的指导的效果。从图中可以明显看出,仅使用扩展提示作为输入通常会导致主要内容被添加的上下文淹没。例如,给定原始提示“A shiba inu”,扩展提示的结果显示缩小的图像,并且预期的主要主题(shiba inu)变小。所提出的以提示为中心的原始指南有效地解决了这个问题,生成一个忠实捕捉原始提示的图像,同时融入视觉上更令人愉悦的细节。

图 6

    以上就是本篇文章【Parrot:用于文本到图像生成的帕累托最优多奖励强化学习框架】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/news/14809.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 https://sicmodule.kub2b.com/mobile/ , 查看更多   
最新文章
手机贴膜硬核科普,一分钟搞懂8种手机膜的区别手机钢化膜「手机贴膜硬核科普,一分钟搞懂8种手机膜的区别」
创作立场声明:文中列举商品仅为示范作用,与品牌无关。说起手机贴膜,想必大家并不陌生,很多人拿到手机后的第一件事,就是贴膜
你以为它死了,其实它复活了,诺基亚手机回归带来十个疑问高颜值手机「你以为它死了,其实它复活了,诺基亚手机回归带来十个疑问」
  2008年1月16日,德国波鸿,在一次员工示威期间,一位诺基亚公司的女员工落泪。你以为它死了,其实它复活了,是的,说的就是
华为折叠手机2023新款价格 华为最新款手机折叠华为新款手机「华为折叠手机2023新款价格 华为最新款手机折叠」
折叠手机是智能手机的一种造型,柔性AMOLED屏幕是折叠手机的突破关键。寰宇舷窗,探索未来独创寰宇舷窗设计,以探索之姿洞见未⁠
139手机邮箱注册(139手机号邮箱注册)
  关于《139手机邮箱注册》的文章  在当今信息化社会,电子邮件已成为人们日常生活和工作中不可或缺的一部分。而手机邮箱因
信息门户手机信息「信息门户」
我校信息门户于2019年1月上线,与南京大学APP互为移动端服务补充,为师生提供在线服务、消息提醒、推文宣传等服务功能。 微信搜
手机能一直开着录音吗 手机一直开着录音行吗【详解】手机录音「手机能一直开着录音吗 手机一直开着录音行吗【详解】」
  能一直开着录音,但是要保证电量和储存空间的充足。一旦录音的储存空间被占满,录音就会停止,保证电量充足,可以边充边录音
张蔷属于昨天,更属于“明天”(音乐节)v i v o 手机「张蔷属于昨天,更属于“明天”(音乐节)」
张蔷,中国内地流行音乐代表人物,传奇天才女歌手,80年代中国流行文化偶像符号,21世纪迪斯科回潮的新女皇。 从小深受从事音乐
2k14手机(2k14手机版中文版下载)
  《2K14手机》:超越视觉的极致体验  在当今科技飞速发展的时代,手机已经成为了我们生活中不可或缺的一部分。而《2K14手机
适合情侣玩的手机游戏前五名 有适合两个人玩的游戏吗情侣手机「适合情侣玩的手机游戏前五名 有适合两个人玩的游戏吗」
游戏还是两个人一起玩有意思,特别是情侣之间,不但能娱乐,还能增进俩人之间的亲密感情。还有异地恋的情侣们,每天只能依靠煲电
创新之城,非凡园区!星海红领巾访园区展示中心v i v o 手机「创新之城,非凡园区!星海红领巾访园区展示中心」
创新之城 非凡园区红领巾寻访苏州工业园区展示中心 这里的街道宽敞整洁,很少见到密如蛛网的电线和凌乱的街边小店; 这里的马路