• [论文翻译]XLNet: 语言理解的广义自回归预训练

    基于双向上下文建模能力,采用去噪自编码预训练的BERT相比基于自回归语言建模的预训练方法取得了更优性能。但BERT依赖掩码破坏输入的特性,忽略了被遮蔽位置间的依赖关系,并存在预训练与微调不一致的问题。针对这些优缺点,我们提出了XLNet——一种广义自回归预训练方法,其创新在于:(1) 通过最大化因式分解顺序所有排列的期望似然来学习双向上下文;(2) 凭借自回归架构克服了BERT的局限性。此外,XLNet将当前最先进的自回归模型Transformer-XL的核心思想融入预训练过程。实证研究表明,在可比实验设置下,XLNet在20项任务(包括问答、自然语言推理、情感分析和文档排序)上显著超越BERT,且优势幅度普遍较大。
  • [论文翻译]论领域自适应中注意力机制的演进

    为提升无监督域适应 (UDA) 性能,近期研究者提出了多种域条件注意力模块并取得显著进展。然而考虑到注意力配置 (即注意力模块的类型和位置) 会显著影响性能,自动优化注意力配置以适配任意UDA场景将更具普适性。本文首次提出EvoADA框架:一种无需人工干预即可为给定UDA任务进化注意力配置的新方法。具体而言,我们设计了一个包含多样化注意力配置的新型搜索空间。为评估注意力配置并使搜索过程面向UDA特性
  • [论文翻译]基于结构化关键点池化的统一关键点动作识别框架

    本文同时解决了传统基于骨架的动作识别存在的三个局限性:骨架检测与跟踪误差、目标动作多样性不足,以及人物级和帧级动作识别问题。研究将点云深度学习范式引入动作识别领域,提出了一种统一框架及名为结构化关键点池化(Structured Keypoint Pooling)的新型深度神经网络架构。该方法基于数据结构先验知识(如骨架固有的实例与帧归属关系),以级联方式稀疏聚合关键点特征,从而实现对输入误差的鲁棒性。其弱约束且无需跟踪的架构设计,能够将人体骨架与非人物体轮廓组成的时间序列关键点高效处理为输入3D点云,从而扩展目标动作的多样性。此外,我们受结构化关键点池化启发提出池化切换技巧(Pooling-Switching Trick),通过在训练与推理阶段切换池化核,仅利用视频级动作标签即可实现弱监督的人物级和帧级动作检测。该技巧使训练方案能自然引入混合多源点云的新型数据增强策略。实验全面验证了所提方法针对上述局限性的有效性,其性能优于当前最先进的基于骨架的动作识别与时空动作定位方法。
  • [论文翻译]理解知识蒸馏中投影器的作用

    本文重新审视了知识蒸馏作为函数匹配和度量学习问题的有效性。通过研究验证了三个关键设计决策:归一化处理、软最大值函数和投影层的重要作用。我们从理论上证明投影器隐式编码了历史样本信息,从而为学生模型提供了关系梯度。研究表明表征归一化与投影器的训练动态紧密耦合,这对学生模型性能具有重大影响。最后提出采用简单软最大值函数即可解决显著容量差距问题。在多个基准数据集(CIFAR100、ImageNet的图像分类任务,COCO2017的目标检测任务)上的实验表明,基于这些见解的方法能取得优于或媲美最先进知识蒸馏技术的性能,同时计算效率显著提升。特别是在训练数据高效的Transformer模型等更具挑战性的蒸馏目标上,我们使用DeiT-Ti在ImageNet上达到了77.2%的top-1准确率。代码和模型均已开源。
  • [论文翻译]PROMPTCAP: 基于提示引导的任务感知图像描述生成

    基于知识的视觉问答 (VQA) 需要借助图像之外的世界知识才能得出正确答案。像 GPT-3 这样的大语言模型因其强大的知识检索和推理能力而特别适合此类任务。为了让大语言模型理解图像,先前的研究使用图像描述模型将图像转换为文本。然而,当用单句描述概括图像时,往往未明确指定需要描述的视觉实体。通用图像描述通常会遗漏对大语言模型正确回答视觉问题至关重要的视觉细节。为解决这一挑战,我们提出了 PROMPTCAP (Prompt-guided image Captioning),这是一种专为更好地连接图像与黑盒大语言模型而设计的描述模型。与通用描述不同,PROMPTCAP 通过自然语言提示来控制生成描述中包含的视觉实体。提示中包含需要借助描述来回答的问题。为避免额外标注,PROMPTCAP 使用 GPT-3 合成的样本和现有数据集进行训练。我们在现有流程中验证了 PROMPTCAP 的有效性,该流程通过图像描述提示 GPT-3 执行 VQA。PROMPTCAP 大幅优于通用描述,在基于知识的 VQA 任务上达到最先进准确率 (OK-VQA 60.4%,A-OKVQA 59.6%)。WebQA 上的零样本结果表明 PROMPTCAP 能很好地泛化到未见领域。1
  • [论文翻译]HMANet: 用于图像超分辨率的混合多轴聚合网络

    基于Transformer的方法在超分辨率视觉任务上展现出卓越性能,超越了传统卷积神经网络。然而现有工作通常将自注意力计算限制在非重叠窗口以节省计算成本,这意味着基于Transformer的网络只能利用有限空间范围内的输入信息。为此,本文提出新型混合多轴聚合网络(HMA),通过堆叠残差混合Transformer模块(RHTB)和网格注意力模块(GAB)构建而成。一方面,RHTB结合通道注意力与自注意力机制增强非局部特征融合,生成更具吸引力的视觉效果;另一方面,GAB用于跨域信息交互,联合建模相似特征并获得更大感受野。针对训练阶段的超分辨率任务,我们设计了新型预训练方法以进一步提升模型表征能力,并通过大量实验验证所提模型的有效性。实验结果表明,HMA在基准数据集上优于最先进方法。代码与模型已开源:https://github.com/korouuuuu/HMA。
  • [论文翻译]HybridFlow: 灵活高效的 RLHF 框架

    基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF) 在大语言模型 (Large Language Model, LLM) 对齐中被广泛使用。传统的强化学习可以建模为数据流,其中每个节点表示神经网络 (Neural Network, NN) 的计算,每条边表示神经网络之间的数据依赖关系。RLHF 通过将每个节点扩展为分布式的大语言模型训练或生成程序,并将每条边扩展为多对多的组播,使得数据流复杂化。传统的强化学习框架使用单一控制器来执行数据流,同时指导节点内的计算和节点间的通信,这在 RLHF 中可能效率低下,因为分布式节点内计算的控制调度开销较大。现有的 RLHF 系统采用多控制器范式,由于嵌套了分布式计算和数据通信,可能不够灵活。我们提出了 HybridFlow,它以混合方式结合了单控制器和多控制器范式,从而能够灵活地表示并高效地执行 RLHF 数据流。我们精心设计了一组分层 API,将复杂的 RLHF 数据流中的计算和数据依赖关系解耦并封装,从而实现高效的运算编排以实施 RLHF 算法,并灵活地将计算映射到各种设备上。我们进一步设计了一个 3D-Hybrid 引擎,用于在训练和生成阶段之间高效地进行 Actor 模型重分片,实现零内存冗余并显著减少通信开销。我们的实验结果表明,与最先进的基线相比,使用 HybridFlow 运行各种 RLHF 算法时,吞吐量提升了
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理