Conversational Rewards

最近一些关于训练对话模型强化学习中奖励函数设计的工作,有一些启发,记录一下。 CURIO: Curiosity-driven User-modeling Reward as an Intrinsic Objective TLDR: 在做对话模型时,使用常规RL训练,其奖励函数对所有训练数据做相同的计算,优化的方向都一致,导致对于所有用户,模型的回复模式,方式都一致。这实际上对于对话模型(尤其是助手类/陪伴类对话模型)并不是最优解。 作者基于此引入belief update,模型通过用户每轮的回复,逐渐优化belief function,最终实现模型能够在对话中逐渐了解用户的特性/类型,从而给出更能让用户满意的回复。 ...

 2025-12-13        3 min        Rs