The rapid evolution of large language models is transforming industries, catalyzing advances in content generation, search, ...
本综述提出一种基于专家权重的动态路由负载均衡方案,针对混合专家(MoE)模型中的负载失衡问题,摒弃传统辅助损失函数方法,通过直接调整专家权重实现高效路由。该方法在自然语言理解(NLU)任务中显著降低负载标准差(如MNLI从12.25降至1.18),平均准确 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果