RL | Rs' Log

KL Regularization Analysis

Two Level KL 关于LLM强化学习中的KL散度，假设策略模型为$\pi_\theta$，参考模型为$\pi_{ref}$，两个模型的KL散度定义为 $$ D_{KL}(\pi_\theta\Vert\pi_{ref})=\mathbb E_{y\sim\pi_\theta}\log\frac{\pi_\theta(y)}{\pi_{ref}(y)}=\sum_{y\in\mathcal Y}\pi_\theta(y)\log\frac{\pi_\theta(y)}{\pi_{ref}(y)} $$ ...

Multi-Teacher On-Policy Distillation

最近小米开源了新模型Mimo-v2-flash的技术报告，其中提出的Multi-Teacher On-Policy Distillation感觉有点业务价值，能够将多个teacher model的能力蒸馏到一个模型上，同时减少模型之间的性能差异。 ...

Conversational Rewards

最近一些关于训练对话模型强化学习中奖励函数设计的工作，有一些启发，记录一下。 CURIO: Curiosity-driven User-modeling Reward as an Intrinsic Objective TLDR: 在做对话模型时，使用常规RL训练，其奖励函数对所有训练数据做相同的计算，优化的方向都一致，导致对于所有用户，模型的回复模式，方式都一致。这实际上对于对话模型（尤其是助手类/陪伴类对话模型）并不是最优解。作者基于此引入belief update，模型通过用户每轮的回复，逐渐优化belief function，最终实现模型能够在对话中逐渐了解用户的特性/类型，从而给出更能让用户满意的回复。 ...

Knowledge Distillation

KL-Based Divergences 给定两个离散分布$P(\mathcal C)$和$Q(\mathcal C)$，它们的KL散度定义为： $$ \mathcal D_{KL}(P\Vert Q)=\sum_{c\in\mathcal C}P(c)\log\frac{P(c)}{Q(c)} $$ 由于KL散度的不对称性：$\mathcal D_{KL}(P\Vert Q)\neq \mathcal D_{KL}(Q\Vert P)$，定义前向KL散度（forward KL）为$\mathcal D_{KL}(P\Vert Q)$，定义反向KL散度（reverse KL）为$\mathcal D_{KL}(Q\Vert P)$。 ...

RL

KL Regularization Analysis

Multi-Teacher On-Policy Distillation

Conversational Rewards

Knowledge Distillation

大模型post-training方法——强化学习篇

GRPO From Scratch

强化学习笔记