KV Cache 存储卸载：原理、收益与落地

把推理中占用显存的 KV Cache 按热度分层卸载到外置高速全闪，在不增加 GPU 的前提下扩展上下文长度与并发吞吐。

为什么需要 KV Cache 卸载

大模型推理时，注意力机制产生的 Key/Value 张量（KV Cache）随上下文长度与并发线性增长，迅速吃满昂贵的 GPU 显存，成为长上下文与高并发的瓶颈。

按访问热度把 KV Cache 分层：热数据驻留显存，温/冷数据卸载到 NVMe-oF over RoCE 的外置全闪，以接近本地盘的时延按需调回。行业研究显示，在线工作负载下最高可降本约 73.7%。

延伸阅读：官网 KV Cache 卸载指南。

最近更新：2026-06-22