一个戴着厚厚眼镜、代码commit记录比头发还多的老教授,正向我们讲着前大模型时代的历史。我的同伴约瑟夫·达弗朗什(一个刚入行的AI产品经理)居然在感慨那个早已被遗忘的Bert叔叔的时代,我感到有些惊奇。他对我说: ...
The rapid evolution of large language models is transforming industries, catalyzing advances in content generation, search, ...
本综述提出一种基于专家权重的动态路由负载均衡方案,针对混合专家(MoE)模型中的负载失衡问题,摒弃传统辅助损失函数方法,通过直接调整专家权重实现高效路由。该方法在自然语言理解(NLU)任务中显著降低负载标准差(如MNLI从12.25降至1.18),平均准确 ...