前缀cache重用

通过tensorrt-llm kv cache reuse 功能实现prompt前缀cache重复利用功能。通过共享和重复使用以相同prompt开头的请求的 kv cache page，可以大大降低首字延迟，即生成第一个输出token所花费的时间。对于多轮对话和相同系统提示等场景性能提升很大。

如何打开该功能？

在默认样例中都是默认打开该功能的，主要涉及到如下几点：

构建参数

trtllm-build构建时涉及到如下参数：

需要打开--use_paged_context_fmha enable参数。
--tokens_per_block参数可以调整kv cache reuse block 的大小，详细介绍见Situations that can prevent kv cache reuse。

服务部署参数

inference_*.yml涉及到如下参数：

需要打开enable_kv_cache_reuse: true参数。
kv_cache_host_memory_bytes参数配置后可以允许kv cache从gpu卸载到host 内存，通过该参数可以配置用于主机内存用于缓存的大小。详细介绍见Offloading to host memor。

其他

kv cache reuse遵循lru策略，当缓存不够时会清除最久未使用的缓存。
多模态大模型通过将图片hash成虚拟token实现了对图片kv cache的重用。