Rs' Log

Self-Distillation as Privileged-Context Distillation

Overview 最近几篇 self-distillation 的论文，核心结构非常一致： Self-Distillation Enables Continual Learning Reinforcement Learning via Self-Distillation Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models 这三篇工作都不是传统意义上的“大模型蒸馏小模型”。更准确的表述是：同一个模型同时扮演 student 和 teacher，teacher 只是比 student 多看了一份特权上下文。 ...

KL Regularization Analysis

Two Level KL 关于LLM强化学习中的KL散度，假设策略模型为$\pi_\theta$，参考模型为$\pi_{ref}$，两个模型的KL散度定义为 $$ D_{KL}(\pi_\theta\Vert\pi_{ref})=\mathbb E_{y\sim\pi_\theta}\log\frac{\pi_\theta(y)}{\pi_{ref}(y)}=\sum_{y\in\mathcal Y}\pi_\theta(y)\log\frac{\pi_\theta(y)}{\pi_{ref}(y)} $$ ...

From OneRec to RL

最近读到LLM做推荐比较火热的工作oncrec，感觉其整体思路挺有意思，这篇blog记录一下 OneRec 在25年2月份快手团队先推出了onerec [1]，这个版本使用一个encoder-decoder模型架构，同时在decoder使用moe架构搭建了整个模型框架，然后在训练中分别使用Next Token Prediction损失冷启动模型，后使用一个RM构造偏序数据并基于DPO做进一步微调。 ...

Multi-Teacher On-Policy Distillation

最近小米开源了新模型Mimo-v2-flash的技术报告，其中提出的Multi-Teacher On-Policy Distillation感觉有点业务价值，能够将多个teacher model的能力蒸馏到一个模型上，同时减少模型之间的性能差异。 ...

Conversational Rewards

最近一些关于训练对话模型强化学习中奖励函数设计的工作，有一些启发，记录一下。 CURIO: Curiosity-driven User-modeling Reward as an Intrinsic Objective TLDR: 在做对话模型时，使用常规RL训练，其奖励函数对所有训练数据做相同的计算，优化的方向都一致，导致对于所有用户，模型的回复模式，方式都一致。这实际上对于对话模型（尤其是助手类/陪伴类对话模型）并不是最优解。作者基于此引入belief update，模型通过用户每轮的回复，逐渐优化belief function，最终实现模型能够在对话中逐渐了解用户的特性/类型，从而给出更能让用户满意的回复。 ...

Knowledge Distillation

KL-Based Divergences 给定两个离散分布$P(\mathcal C)$和$Q(\mathcal C)$，它们的KL散度定义为： $$ \mathcal D_{KL}(P\Vert Q)=\sum_{c\in\mathcal C}P(c)\log\frac{P(c)}{Q(c)} $$ 由于KL散度的不对称性：$\mathcal D_{KL}(P\Vert Q)\neq \mathcal D_{KL}(Q\Vert P)$，定义前向KL散度（forward KL）为$\mathcal D_{KL}(P\Vert Q)$，定义反向KL散度（reverse KL）为$\mathcal D_{KL}(Q\Vert P)$。 ...

AI Coding & 网页设计

$\textcolor{yellow}{\text{[update 2025-10-03]}}$: 新增对codex/claude-code/gemini-cli使用体验写在前面用AI用久了，发现想打几行真情实感的文字好像变得比较困难，比如说这篇博客的开头，左思右想了半天，也不知道写些什么，想不如让AI帮写一下吧，给它一个prompt，好像什么都可以生成出来。现在我坐在LOTTA，喝着dirty，耳机里放的是方大同，手机摆在前面放的是香港公开赛梁王打黑塔，电脑屏幕是这个markdown文档，其实就是想简单写写这段时间以来，对AI Coding以及AI相关的体验、感想。先申明：笔者也并不是什么深度AI Coding用户，技术不强，只会简单调戏AI，反复循环而已。 ...

大模型post-training方法——强化学习篇

PPO PPO（Proximal Policy Optimization）算法出自Schulman et al.，在微调大模型中，该算法通过最大化以下目标函数来优化模型参数： ...

GRPO From Scratch

简介本篇博客基于Andriy Burkov的grpo开源代码，简单跑通GRPO的完整流程。使用的GPU资源为1张3090（24G）。原作者代码见：GRPO_From-Scratch以及GRPO_Qwen-0_5_Instruct。注：原作者使用8张80G A100完成实验。 ...

DeepSeek-V3技术报告解读

1. 摘要 DeepSeek-V3，是一个Mixture-of-Experts（MoE）结构的大语言模型，参数量671B，其中每个token激活的参数量为37B。DeepSeek-V3主要采用Multi-head Latent Attention（MLA）和DeepSeekMoE结构，此外为了expert负载均衡引入了auxiliary-loss-free策略，为了更强的模型性能采用了multi-token prediction（MTP）训练策略。DeepSeek-V3预训练预料一共14.8T个token，并采用SFT和RL进一步对齐增强模型性能。DeepSeek-V3完整的训练一共仅需要2.788M H800 GPU hours。项目链接：DeepSeek-V3 ...

Welcome to Rs' Log