[论文翻译]长文本大语言模型加速器:通过提示压缩在长上下文场景中优化大语言模型性能
Long LL M Lingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression
长文本大语言模型加速器:通过提示压缩在长上下文场景中优化大语言模型性能
Huiqiang Jiang, Qianhui Wu, Xufang Luo, Dongsheng Li, Chin-Yew Lin, Yuqing Yang, Lili Qiu Microsoft Corporation {hjiang,q...
在长上下文场景中,大语言模型(LLM)面临三大挑战:计算成本更高、性能下降以及位置偏差。研究表明,LLM性能取决于输入提示中关键信息的密度和位置。受此启发,我们提出LongLLMLingua进行提示压缩,以提升LLM对关键信息的感知能力,从而同时解决这三个问题。我们在多种长上下文场景中的广泛评估表明,LongLLMLingua不仅能提升性能,还可显著降低成本和延迟。例如在Natural Questions基准测试中,LongLLMLingua使用GPT-3.5-Turbo时以约4倍的token缩减量实现了高达\$21.4\%\$的性能提升,带来显著成本节约。在LooGLE基准测试中实现了\$94.0\%\$的成本降低。此外,当以\$2\mathbf{x}{-}6\mathbf{x}\$的压缩率处理约10k token的提示时,LongLLMLingua能将端到端延迟加速\$1.4\mathrm{X}{-}2.6\mathrm{X}\$。