• [论文翻译]突破Transformer模型限制:任务特定上下文归因承诺无需微调预训练大语言模型即可提升泛化能力

    在自然语言处理(NLP)分类任务中,对预训练大语言模型(LLM)进行特定数据集的微调是常用策略。然而,这种方法通常会导致模型泛化能力下降。本文提出一个既能保持泛化能力,又能通过任务特定上下文归因提升下游任务性能的框架。我们证明:使用任务特定概念算子对Transformer模型的文本表示进行线性变换,可将其投影到潜在概念空间(本文称为上下文归因)。该特定概念算子通过新型损失函数在监督学习阶段进行优化。实验表明,针对每个任务目标的文本表示上下文归因能提升判别函数能力,从而改善分类任务性能。在HateXplain、IMDB影评和社交媒体归因三个数据集上的实验结果显示,所提模型获得了更优的准确率和泛化能力。具体而言:
  • [论文翻译]PaLM 2技术报告

    我们推出PaLM 2,这是一款全新的先进大语言模型,相比前代PaLM具备更出色的多语言处理与推理能力,同时计算效率更高。PaLM 2是基于Transformer架构的模型,采用混合训练目标进行训练。通过对英语及多语言任务、推理任务的大量评估,我们证明PaLM 2在不同模型规模下均显著提升了下游任务的质量,同时相比PaLM实现了更快、更高效的推理。这种效率提升使得模型部署范围更广,响应速度更快,交互节奏更自然。PaLM 2展现出强大的推理能力,在BIG-Bench等推理任务上较PaLM实现大幅提升。该模型在负责任AI评估套件中表现稳定,支持无额外开销的毒性推理时控制且不影响其他能力。总体而言,PaLM 2在多样化任务与能力维度均实现了最先进的性能表现。
  • [论文翻译]Transformer的前馈层是键值记忆存储

    前馈层占据Transformer模型三分之二的参数量,但其在网络中的作用仍未得到充分研究。我们发现基于Transformer的大语言模型中,前馈层实际扮演着键值记忆体的角色——每个键(key)与训练样本中的文本模式相关联,而每个值(value)则对应输出词表的概率分布。实验表明:这些学习到的模式具有人类可解释性,其中底层倾向于捕捉表层模式,而高层则学习更具语义性的模式;值通过将概率质量集中在各模式后可能出现的token上(尤以高层显著)来补充键的输入模式;最终,前馈层输出是其记忆体的组合结果,该结果通过残差连接在模型各层中逐步精炼,形成最终输出分布。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理