不靠强化学习、不做额外训练、不用校验器,也不需要复杂提示——哈佛团队提出的「Power Sampling」仅靠重新设计采样分布,就让基座模型的单发推理媲美 GRPO,还保持了多样性不坍缩。 强化学习(RL)一直被认为是让语言模型“会思考”的关键手段,但它训练成本高、流程繁琐——从奖励函数到稳定优化,再到校验器微调,每一步都需要额外算力与精心设计。 哈佛团队发现,推理能力并非只能依赖训练获得。只要重 ...