DeepSeek-V3技术报告解读

1. 摘要 DeepSeek-V3,是一个Mixture-of-Experts(MoE)结构的大语言模型,参数量671B,其中每个token激活的参数量为37B。DeepSeek-V3主要采用Multi-head Latent Attention(MLA)和DeepSeekMoE结构,此外为了expert负载均衡引入了auxiliary-loss-free策略,为了更强的模型性能采用了multi-token prediction(MTP)训练策略。DeepSeek-V3预训练预料一共14.8T个token,并采用SFT和RL进一步对齐增强模型性能。DeepSeek-V3完整的训练一共仅需要2.788M H800 GPU hours。项目链接:DeepSeek-V3 ...

 2025-01-29        12 min        Rs        

DeepSeek-R1技术报告解读

1. 摘要 本次更新开源了DeepSeek-R1-Zero和DeepSeek-R1两个新旗舰reasoning模型,主要使用large-scale reinforcement learning且不需要SFT即完成训练,为开源社区给出了一个完全新颖且行之有效的reasoning LLM训练方案。其中DeepSeek-R1在reasoning任务上和OpenAI-o1-1217性能相当。除此之外,团队还开源了不同size的稠密模型(1.5B,7B,8B,14B,32B,70B),这些小模型是基于Qwen和Llama开源模型通过蒸馏DeepSeek-R1得到。 ...

 2025-01-27        9 min        Rs