精读 预计 3 分钟
Do transformers need three projections? Systematic study of QKV variants
摘要
本文系统评估了三种投影共享方案(共享 KV、共享 QK、单投影)。实验表明,在 1.2B 参数的语言模型中,共享 KV 投影(Q-K=V)能减少 50% 的 KV cache,困惑度仅下降 3.1%。该方法与 GQA/MQA 互补,结合 MQA 时可实现高达 96.9% 的缓存缩减。研究指出,KV 共享有效是因为两者表征空间相似且注意力机制呈低秩特性,这为大模型在受限设备上的部署提供了量化依据。
荐读理由
在进行端侧模型推理优化或显存受限的工程实践时,可依据文中验证的 Q-K=V 投影共享架构在几乎不损失性能的前提下直接削减 50% 的 KV Cache 占用,配合 MQA 甚至能实现 96.9% 的显存节省。
这条对你有帮助吗?