Sampling Model - 搜索 News

21 天

不靠RL、不用训练：哈佛「Power Sampling」让基座模型推理媲美GRPO

不靠强化学习、不做额外训练、不用校验器，也不需要复杂提示——哈佛团队提出的「Power Sampling」仅靠重新设计采样分布，就让基座模型的单发推理媲美 GRPO，还保持了多样性不坍缩。强化学习（RL）一直被认为是让语言模型“会思考”的关键手段，但它训练成本高、流程繁琐——从奖励函数到稳定优化，再到校验器微调，每一步都需要额外算力与精心设计。哈佛团队发现，推理能力并非只能依赖训练获得。只要重 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

不靠RL、不用训练：哈佛「Power Sampling」让基座模型推理媲美GRPO

今日热点