不靠强化学习、不做额外训练、不用校验器,也不需要复杂提示——哈佛团队提出的「Power Sampling」仅靠重新设计采样分布,就让基座模型的单发推理媲美 GRPO,还保持了多样性不坍缩。 强化学习(RL)一直被认为是让语言模型“会思考”的关键手段,但它训练成本高、流程繁琐——从奖励函数到稳定优化,再到校验器微调,每一步都需要额外算力与精心设计。 哈佛团队发现,推理能力并非只能依赖训练获得。只要重 ...
当前正在显示可能无法访问的结果。
隐藏无法访问的结果当前正在显示可能无法访问的结果。
隐藏无法访问的结果