推测解码(Speculative Decoding, SD)通过使用一个较小的草稿模型(draft model)生成候选预测,再由更大的目标模型(target model)进行验证,从而显著加速大语言模型(LLM)的推理过程。SD 的加速效果在很大程度上取决于两者之间的对齐程度。
这项由上海AI实验室的徐方志、西安交通大学的严航以及香港大学、北京大学、新加坡国立大学等多所知名高校研究团队合作完成的研究,发表于2025年3月17日的arXiv预印本平台。有兴趣深入了解的读者可以通过论文编号arXiv:2503.13288v1访问完整论文。 当我们面对一 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果