向上滑动阅览北大经院工作坊第1188场Concentration and Markups in International Trade 国际经济学与实证产业组织工作坊 主讲人:Ayumu Ken Kikkawa(Assistant Professor at the University of British Columbia Sauder School of Business)主持老师:(北大国发 ...
在智能体强化学习的快速发展中,如何在探索与稳定之间取得平衡已成为多轮智能体训练的关键。主流的熵驱动式智能体强化学习(Agentic RL)虽鼓励模型在高不确定性处分支探索,但过度依赖熵信号常导致训练不稳、甚至策略熵坍塌问题。
说到人工智能的训练,很多人可能会觉得这是一个非常技术性的话题。但是,当我们看到ChatGPT能够回答各种问题、帮助我们解决数学题时,背后其实隐藏着一个非常有趣的学习过程。就在最近,由乔治亚理工学院的王子炎教授和伊利诺伊大学厂-比纳分校的王铮教授领导的研究团队,在2025年10月的arXiv平台上发表了一项突破性研究(论文编号:arXiv:2510.04072v2),这项研究彻底改变了人工智能特别是 ...
SimKO:相比之下,SimKO 展示出了有效的缓解概率集中效果。其 rank-1 的概率显著低于 GRPO,同时为 rank-2 与 rank-3 保留了更高的概率质量。这一结果有力地表明了 SimKO ...
为了验证这个假设,研究团队设计了一个巧妙的"分叉实验"。他们让AI在回答问题的不同阶段重新生成答案,就像让一个作家在写作的不同节点重新构思故事情节。实验结果令人印象深刻:在回答早期阶段进行重新思考的AI,其最终答案质量显著高于在后期阶段重新思考的AI。这个发现为"早期探索,后期利用"的策略提供了强有力的实证支持。
吴恩达提到,Ling-1T 在预训练阶段就强化了思维链(CoT) ,这种做法「正在模糊推理与非推理模型之间的界限」。这引出了一个业界都在关心的问题:Ling-1T 卓越的推理能力究竟从何而来? 事实上,Ling-1T ...
这项由香港科技大学(广州)的慕健、张奇鑫等研究人员以及来自南洋理工大学、爱丁堡大学、香港城市大学、香港中文大学(深圳)等多所知名院校的国际合作团队共同完成的研究,发表于2025年10月的预印本论文中。有兴趣深入了解的读者可以通过论文编号arXiv:2 ...
AI 导师吴恩达在其最新一期的 The Batch Newsletter 中,将目光投向了来自蚂蚁集团的最新开源模型 Ling-1T。 吴恩达 The Batch Newsletter 首页截图 他敏锐地指出:Ling-1T 作为一个非推理(non-reasoning)模型,其性能却直逼业界顶尖的闭源模型,这背后隐藏着一个关键的技术转向。 Ling-1T(最右列)与几款具有代表性的旗舰模型的比较, ...