Skip to content

Latest commit

 

History

History
31 lines (20 loc) · 1.5 KB

kv_reuse.md

File metadata and controls

31 lines (20 loc) · 1.5 KB

前缀cache重用

通过tensorrt-llm kv cache reuse 功能实现prompt前缀cache重复利用功能。通过共享和重复使用以相同prompt开头的请求的 kv cache page,可以大大降低首字延迟,即生成第一个输出token所花费的时间。对于多轮对话和相同系统提示等场景性能提升很大。

如何打开该功能?

在默认样例中都是默认打开该功能的,主要涉及到如下几点:

构建参数

trtllm-build构建时涉及到如下参数:

服务部署参数

inference_*.yml涉及到如下参数:

  • 需要打开enable_kv_cache_reuse: true参数。
  • kv_cache_host_memory_bytes参数配置后可以允许kv cachegpu卸载到host 内存,通过该参数可以配置用于主机内存用于缓存的大小。详细介绍见Offloading to host memor

其他

  • kv cache reuse遵循lru策略,当缓存不够时会清除最久未使用的缓存。
  • 多模态大模型通过将图片hash成虚拟token实现了对图片kv cache的重用。