• [论文翻译]Transformer的前馈层是键值记忆体

    前馈层占据Transformer模型三分之二的参数量,但其在网络中的作用仍未得到充分研究。我们发现基于Transformer的大语言模型中,前馈层扮演着键值记忆体的角色——每个键(key)与训练样本中的文本模式相关联,而每个值(value)则诱导输出词表上的概率分布。实验表明:这些学习到的模式具有人类可解释性,其中底层倾向于捕捉浅层模式,而高层则学习更具语义性的模式;值通过将概率质量集中在各模式后续可能出现的token上(尤其在高层级)来补充键的输入模式。最后我们证明,前馈层的输出是其记忆体的组合产物,这些产物会通过残差连接在模型各层中逐步精炼,最终形成输出分布。
  • [论文翻译]TRIFORCE: 采用分层推测解码实现长序列生成的无损加速

    TRIFORCE: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding TRIFORCE: 采用分层推测解码实现长序列生成的无损加速 Abstract 摘要 With large language models (LLMs) widely deployed in long content generation recently, there has emerged an increa... 随着大语言模型(LLM)在长文本生成领域的广泛应用,对高效长序列推理支持的需求日益增长。然而,为避免重复计算而存储的键值(KV)缓存已成为关键瓶颈,其大小随序列长度线性增长。由于LLM的自回归特性,每个生成的Token都需要加载整个KV缓存,导致计算核心利用率低下且延迟较高。虽然已有多种KV缓存压缩方法被提出以缓解此问题,但这些方法都会导致生成质量下降。我们提出了TRIFORCE——一个可扩展的长序列生成分层推测解码系统。该方法通过检索机制利用原始模型权重和动态稀疏KV缓存作为草稿模型,该草稿模型作为层次结构中的中间层,并由更小的模型进行进一步推测以降低起草延迟。TRIFORCE不仅为Llama2-7B-128K实现了显著的加速效果(在A100 GPU上最高可达\$2.31\dot{\times}\$),还展示了处理更长上下文的能力。在两块RTX 4090 GPU的卸载场景下,TRIFORCE达到0.108秒/Token的生成速度——仅为A100上自回归基线速度的一半,在我们的优化卸载系统上实现了\$\dot{7}.78\times\$的加速比。此外,在单块RTX 4090 GPU上,TRIFORCE比DeepSpeed-ZeroInference快\$4.86\times\$。TRIFORCE的鲁棒性体现在其在不同温度参数下持续保持的卓越性能。代码已开源:https://github.com/Infini-AI-Lab/TriForce。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理