年初的 DeepSeek-R1,带来了大模型强化学习(RL)的火爆。无论是数学推理、工具调用,还是多智能体协作,GRPO(Group Relative Policy Optimization)都成了最常见的 RL 算法。 再根据优势信号来更新模型参数,让模型越来越偏好高质量解法 这种「多路径并行 + 组内优势」 ...