Multi-Teacher On-Policy Distillation

最近小米开源了新模型Mimo-v2-flash的技术报告,其中提出的Multi-Teacher On-Policy Distillation感觉有点业务价值,能够将多个teacher model的能力蒸馏到一个模型上,同时减少模型之间的性能差异。 ...

 2025-12-19        5 min        Rs        

Conversational Rewards

最近一些关于训练对话模型强化学习中奖励函数设计的工作,有一些启发,记录一下。 CURIO: Curiosity-driven User-modeling Reward as an Intrinsic Objective TLDR: 在做对话模型时,使用常规RL训练,其奖励函数对所有训练数据做相同的计算,优化的方向都一致,导致对于所有用户,模型的回复模式,方式都一致。这实际上对于对话模型(尤其是助手类/陪伴类对话模型)并不是最优解。 作者基于此引入belief update,模型通过用户每轮的回复,逐渐优化belief function,最终实现模型能够在对话中逐渐了解用户的特性/类型,从而给出更能让用户满意的回复。 ...

 2025-12-13        3 min        Rs        

Knowledge Distillation

KL-Based Divergences 给定两个离散分布$P(\mathcal C)$和$Q(\mathcal C)$,它们的KL散度定义为: $$ \mathcal D_{KL}(P\Vert Q)=\sum_{c\in\mathcal C}P(c)\log\frac{P(c)}{Q(c)} $$ 由于KL散度的不对称性:$\mathcal D_{KL}(P\Vert Q)\neq \mathcal D_{KL}(Q\Vert P)$,定义前向KL散度(forward KL)为$\mathcal D_{KL}(P\Vert Q)$,定义反向KL散度(reverse KL)为$\mathcal D_{KL}(Q\Vert P)$。 ...

 2025-11-01        4 min        Rs        

大模型post-training方法——强化学习篇

PPO PPO(Proximal Policy Optimization)算法出自Schulman et al.,在微调大模型中,该算法通过最大化以下目标函数来优化模型参数: ...

 2025-03-19        11 min        Rs        

GRPO From Scratch

简介 本篇博客基于Andriy Burkov的grpo开源代码,简单跑通GRPO的完整流程。使用的GPU资源为1张3090(24G)。原作者代码见:GRPO_From-Scratch以及GRPO_Qwen-0_5_Instruct。注:原作者使用8张80G A100完成实验。 ...

 2025-03-05        13 min        Rs        

强化学习笔记

1. 基本概念,公式 策略$\pi$,状态$s\in\mathcal S$,动作$a\in\mathcal A$,奖励$r\in\mathcal R$ 转移函数$P$给出当采取行动$a$从状态$s$转移到$s^\prime$,同时获得奖励$r$的概率 ...

 2024-11-21        18 min        Rs