从强基座起步的 JustRL-Nemotron-1.5B 表现更加出色,平均准确率达到 64.32%,略微超过使用课程学习的 QuestA(63.81%)。关键的差异在于,QuestA 需要完整的推理轨迹来构建 hint,还要分阶段调整提示难度;而 ...
清华大学的研究团队近期发布了JustRL,一项基于强化学习(RL)的创新成果,为1.5B参数规模的LLM(大型语言模型)带来了数学推理能力的重大突破。这项研究的核心在于,通过“最笨”的RL配方——单阶段训练、固定超参数,在不依赖复杂技术的情况下,实现了顶尖的性能表现,并大幅提升了算力效率。这项研究成果不仅刷新了人们对小模型潜力的认知,也为RL训练LLM提供了新的思路。
如果有人告诉你:不用分阶段做强化学习、不搞课程学习、不动态调参,只用最基础的 RL 配方就能达到小模型数学推理能力 SOTA,你信吗? 清华团队用两个 1.5B 模型给出了答案:不仅可行,还特别高效。 2025 年初,DeepSeek-R1 开源后,如何用 RL 训练 1.5B 级别的 ...
这项由蒙特利尔大学Mila实验室的Milad Aghajohari、Kamran Chitsaz、Amirhossein ...
这项由蒙特利尔大学Mila实验室的Milad Aghajohari、Kamran Chitsaz、Amirhossein Kazemnejad等研究人员与微软研究院、麦吉尔大学、ServiceNow研究部门合作完成的研究,发表于2025年的arXiv预印本平台(论文编号:arXiv:2510.06557v1)。有兴趣深入了解的读者可以通过该编号查询完整论文,也可以访问研究团队公开的代码仓库和模型权 ...