精读预计 3 分钟

Do transformers need three projections? Systematic study of QKV variants

摘要

本文系统评估了三种投影共享方案（共享 KV、共享 QK、单投影）。实验表明，在 1.2B 参数的语言模型中，共享 KV 投影（Q - K = V）能减少 50% 的 KV cache，困惑度仅下降 3.1%。该方法与 GQA / MQA 互补，结合 MQA 时可实现高达 96.9% 的缓存缩减。研究指出，KV 共享有效是因为两者表征空间相似且注意力机制呈低秩特性，这为大模型在受限设备上的部署提供了量化依据。

荐读理由

在进行端侧模型推理优化或显存受限的工程实践时，可依据文中验证的 Q-K=V 投影共享架构在几乎不损失性能的前提下直接削减 50% 的 KV Cache 占用，配合 MQA 甚至能实现 96.9% 的显存节省。

Hacker News · 214 赞 · 46 评讨论 → 阅读原文 →

这条对你有帮助吗？