From Prefix Cache to Fusion RAG Cache: Accelerating LLM Inference in Retrieval-Augmented

Jiahao Wang, Weiyu Xie, Mingxing Zhang, Boxin Zhang, Jianwei Dong, Yuening Zhu, Chen Lin, Jingqi Tang, Yaochen Han, Zhiyuan Ai, Xianglin Chen, Yongwei Wu, Congfeng Jiang

May 2026

Abstract

Type

Conference paper

Publication

The 2026 ACM Special Interest Group on Management of Data