你输入个几百字,它输出就得慢慢挤牙膏。 是模型本身算力不够吗? 不全是。 这里面其实藏着一个非常基础的效率问题,而解决这个问题的核心技术,就是今天要跟大家聊明白的 KV Cache。 1. 先铺垫一下:这些基础术语你得懂 聊KV Cache之前,得先把一些最基础的 ...