大模型post-training方法——强化学习篇
PPO PPO(Proximal Policy Optimization)算法出自Schulman et al.,在微调大模型中,该算法通过最大化以下目标函数来优化模型参数: ...
PPO PPO(Proximal Policy Optimization)算法出自Schulman et al.,在微调大模型中,该算法通过最大化以下目标函数来优化模型参数: ...
简介 本篇博客基于Andriy Burkov的grpo开源代码,简单跑通GRPO的完整流程。使用的GPU资源为1张3090(24G)。原作者代码见:GRPO_From-Scratch以及GRPO_Qwen-0_5_Instruct。注:原作者使用8张80G A100完成实验。 ...
1. 基本概念,公式 策略$\pi$,状态$s\in\mathcal S$,动作$a\in\mathcal A$,奖励$r\in\mathcal R$ 转移函数$P$给出当采取行动$a$从状态$s$转移到$s^\prime$,同时获得奖励$r$的概率 ...