← 返回日报
精读 预计 3 分钟

Do transformers need three projections? Systematic study of QKV variants

摘要

本文系统评估了三种投影共享方案(共享 KV、共享 QK、单投影)。实验表明,在 1.2B 参数的语言模型中,共享 KV 投影(Q-K=V)能减少 50% 的 KV cache,困惑度仅下降 3.1%。该方法与 GQA/MQA 互补,结合 MQA 时可实现高达 96.9% 的缓存缩减。研究指出,KV 共享有效是因为两者表征空间相似且注意力机制呈低秩特性,这为大模型在受限设备上的部署提供了量化依据。

荐读理由

在进行端侧模型推理优化或显存受限的工程实践时,可依据文中验证的 Q-K=V 投影共享架构在几乎不损失性能的前提下直接削减 50% 的 KV Cache 占用,配合 MQA 甚至能实现 96.9% 的显存节省。

Hacker News · 214 赞 · 46 评 讨论 → 阅读原文 →

这条对你有帮助吗?