From OneRec to RL

最近读到LLM做推荐比较火热的工作oncrec,感觉其整体思路挺有意思,这篇blog记录一下 OneRec 在25年2月份快手团队先推出了onerec [1],这个版本使用一个encoder-decoder模型架构,同时在decoder使用moe架构搭建了整个模型框架,然后在训练中分别使用Next Token Prediction损失冷启动模型,后使用一个RM构造偏序数据并基于DPO做进一步微调。 ...

 2025-12-30        7 min        Rs