KV Cache 存储卸载:原理、收益与落地

把推理中占用显存的 KV Cache 按热度分层卸载到外置高速全闪, 在不增加 GPU 的前提下扩展上下文长度与并发吞吐。

为什么需要 KV Cache 卸载

大模型推理时,注意力机制产生的 Key/Value 张量(KV Cache)随上下文长度与并发线性增长, 迅速吃满昂贵的 GPU 显存,成为长上下文与高并发的瓶颈。

机制

按访问热度把 KV Cache 分层:热数据驻留显存,温/冷数据卸载到 NVMe-oF over RoCE 的外置全闪, 以接近本地盘的时延按需调回。行业研究显示,在线工作负载下最高可降本约 73.7%

落地(以中科存储 WS5000 为例)

聚合带宽
300 GB/s
访问时延
约 20 μs
随机 IOPS
约 5000 万
国产 GPU 适配
约 90%+

延伸阅读:官网 KV Cache 卸载指南