Multi-Teacher On-Policy Distillation

最近小米开源了新模型Mimo-v2-flash的技术报告,其中提出的Multi-Teacher On-Policy Distillation感觉有点业务价值,能够将多个teacher model的能力蒸馏到一个模型上,同时减少模型之间的性能差异。 ...

 2025-12-19        5 min        Rs