大模型post-training方法

1. DPO Rafailov et al. (2023)基于RLHF中PPO的优化式推导出最优奖励函数表达式:$r(x, y)=\beta log\frac{\pi_\theta(y|x)}{\pi_{ref}(y|x)}+\beta logZ(x)$,将该奖励函数表达式带入BT-model得到DPO的损失函数表达式: ...

 2024-10-09        7 min        Rs