Proximal Policy Optimization (PPO),这个名字在近几年的 强化学习 (Reinforcement Learning, RL) 领域中,几乎等同于“默认选项”和“黄金标准”。 无论是训练机械臂完成复杂操作,让 AI 智能体在游戏中横扫千军,还是为 ChatGPT 这样的 大型语言模型 (LLM) 进行 RLHF(基于人类 ...