大模型post-training方法——强化学习篇

PPO PPO(Proximal Policy Optimization)算法出自Schulman et al.,在微调大模型中,该算法通过最大化以下目标函数来优化模型参数: ...

 2025-03-19        11 min        Rs        

GRPO From Scratch

简介 本篇博客基于Andriy Burkov的grpo开源代码,简单跑通GRPO的完整流程。使用的GPU资源为1张3090(24G)。原作者代码见:GRPO_From-Scratch以及GRPO_Qwen-0_5_Instruct。注:原作者使用8张80G A100完成实验。 ...

 2025-03-05        13 min        Rs        

强化学习笔记

1. 基本概念,公式 策略$\pi$,状态$s\in\mathcal S$,动作$a\in\mathcal A$,奖励$r\in\mathcal R$ 转移函数$P$给出当采取行动$a$从状态$s$转移到$s^\prime$,同时获得奖励$r$的概率 ...

 2024-11-21        18 min        Rs