Diffusion——RLHF

本文最后更新于:2023年5月31日 下午

最近读的两篇关于使用RLHF微调diffusion的论文。

Diffusion_RLHF

Training Diffusion Models with Reinforcement Learning

5.23, University of California, Berkeley

研究问题 (Research Problem): 论文主要解决的问题是如何优化扩散模型以实现特定目标。扩散模型是一种生成模型,通常使用对对数似然目标的近似进行训练。然而,大多数扩散模型的使用场景并不关心似然性,而是关心下游目标,如人类感知的图像质量或药物效果。

动机 (Motivation): 这项研究的动机是通过更紧密地将扩散模型与实际目标对齐,以提高其性能。这对于难以通过提示表达的任务(如图像可压缩性)以及从人类反馈中得出的任务(如审美质量)尤其相关。

新颖性 (What's New): 作者提出了一种名为Denoising Diffusion Policy Optimization (DDPO)的方法,该方法将去噪视为多步决策问题。这使得可以使用比替代奖励加权似然方法更有效的策略梯度算法。此外,作者还展示了DDPO如何改进使用视觉语言模型反馈的提示图像对齐,而无需额外的数据收集或人类注释。

方法的总体思想 (Overall Idea of the Method): DDPO方法的总体思想是将去噪过程视为一个多步骤的决策问题,从而可以使用策略梯度算法进行优化。这种方法可以适应各种目标,包括那些难以通过提示表达的目标,如图像可压缩性,以及那些从人类反馈中得出的目标,如审美质量。

1
2
3
4
5
6
7
8
9
10
11
12
import io
from PIL import Image
def encode_jpeg( x , quality = 95 ) :
'''
x : np array of shape (H, W, 3) and dtype uint8
'''
   img = Image.fromarray(x)
   buffer = io.BytesIO()
   img.save(buffer, ‘JPEG’, quality = quality)
   jpeg = buffer.getvalue()
   bytes = np.frombuffer(jpeg, dtype =np.uint8)
   return len(bytes)/1000

实验主要提升的效果 (Main Improvements in Experiments): 实验结果表明,DDPO在所有任务上都明显优于RWR,表明将去噪过程形式化为马尔可夫决策过程并直接估计策略梯度比优化奖励加权似然的下界更有效。此外,DDPO还能够有效地适应预训练模型,只需指定奖励函数,无需进行任何进一步的数据策划。

具体来说,DDPO的实现可以分为以下几个步骤:

  1. 定义决策问题:首先,DDPO将去噪过程定义为一个马尔可夫决策过程(MDP)。在这个MDP中,每一步都包括一个状态(当前的去噪图像)和一个动作(下一步的去噪操作)。
  2. 定义奖励函数:然后,DDPO定义了一个奖励函数,用于评估每一步去噪操作的效果。这个奖励函数可以基于任何与任务目标相关的度量,例如在这篇论文中,奖励可能是基于图像的压缩性、审美质量或与提示的对齐程度。
  3. 优化策略:接下来,DDPO使用策略梯度算法来优化去噪策略。这个过程包括生成一组去噪轨迹,计算每个轨迹的预期奖励,然后使用这些预期奖励来更新策略的参数。
  4. 迭代优化:最后,DDPO通过迭代这个过程,逐步改进去噪策略。每一轮迭代都会生成新的去噪轨迹,计算新的预期奖励,然后使用这些新的预期奖励来更新策略的参数。 \[ \hat{g}_{\mathrm{IS}}=\mathbb{E}\left[\sum_{t=0}^T \frac{p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{c}, t, \mathbf{x}_t\right)}{p_{\theta_{\text {old }}}\left(\mathbf{x}_{t-1} \mid \mathbf{c}, t, \mathbf{x}_t\right)} \nabla_\theta \log p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{c}, t, \mathbf{x}_t\right) r\left(\mathbf{x}_0, \mathbf{c}\right)\right] \]

DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models

5.25,Google research

研究问题 (Research Problem): 本文主要研究如何通过在线强化学习(RL)来优化和微调文本到图像的模型,以改善其性能和质量。

动机 (Motivation): 尽管文本到图像的模型已经取得了显著的进步,但它们仍然存在系统性的弱点,例如有限的对象组合能力和在生成指定颜色和数量的对象时的困难。此外,使用人类反馈进行学习已被证明是一种有效的方法来克服这些限制。然而,基于奖励的监督微调往往会导致图像质量的下降。因此,本文提出了一种新的在线RL微调方法来解决这些问题。

新颖性 (What's New): 本文提出了一种名为DPOK的新方法,该方法将策略优化与KL正则化结合起来。与以往的工作不同,本文将微调任务定义为一个RL问题,并使用策略梯度来更新预训练的文本到图像扩散模型,以最大化反馈训练的奖励。

方法的总体思想 (Overall Idea of the Method): DPOK方法的核心思想是利用在线强化学习来微调文本到图像的模型。在这个过程中,模型是在新的样本上进行更新的,这些样本来自于之前训练的模型。此外,该方法还引入了Kullback-Leibler (KL) 散度作为正则化项,以确保更新后的模型不会偏离原始模型太远。

作者引入了两种KL正则化方法,一种是KL-D,另一种是KL-O。KL-D基于预训练模型的数据,通过调整原始奖励中的一个移位因子来实现正则化,使得每个样本的权重更趋向于均匀分布。而KL-O则通过在奖励加权损失中引入一个额外的项来实现,这个额外的项惩罚了从预训练模型和当前模型得出的去噪方向之间的L2距离。

\[ \begin{aligned} & \mathbb{E}_{p(z)}\left[\alpha \mathbb{E}_{p_\theta^*\left(x_{0: T} \mid z\right)}\left[-r\left(x_0, z\right) \sum_{t=1}^T \log p_\theta\left(x_{t-1} \mid x_t, z\right)\right]\right. \\ & \left.+\beta \sum_{t=1}^T \mathbb{E}_{p_\theta^*\left(x_t \mid z\right)}\left[\operatorname{KL}\left(p_\theta\left(x_{t-1} \mid x_t, z\right) \| p_{\mathrm{pre}}\left(x_{t-1} \mid x_t, z\right)\right)\right]\right] \end{aligned} \]

实验主要提升的效果 (Main Improvements in Experiments): 在实验中,作者发现在线RL微调能够在保持高图像保真度的同时,实现强大的文本-图像对齐。此外,与监督微调相比,在线训练允许在(监督)训练数据集之外评估奖励模型和条件KL散度,这提供了明显的优势。在实证比较中,作者还在监督微调方法中引入了KL正则项,以进行公平的比较。

与上面一篇的对比:

  1. 相似性:Black等人的工作和本文都探讨了在线强化学习微调用于改进文本到图像扩散模型。他们都展示了RL微调可以优于监督微调,这与本文的观察结果一致。
  2. 差异性:在本文中,作者不仅关注奖励优化,还受到监督微调中的失败案例(如过饱和或非真实感图像)的启发,旨在找到一种带有KL正则化的RL解决方案来解决问题。此外,本文还系统地分析了监督微调和在线微调中KL正则化的理论依据,并展示了在线RL微调中KL正则化比监督微调更有效。通过采用在线KL正则化,本文的算法成功地在保持高奖励和图像质量的同时,避免了过度优化的问题。

Diffusion——RLHF
http://enderfga.cn/2023/05/31/diffrlhf/
作者
Enderfga
发布于
2023年5月31日
许可协议