• [论文翻译]图像作为外语:面向所有视觉与视觉-语言任务的BEIT预训练

    语言、视觉和多模态预训练的大融合正在兴起。本文提出了一种通用多模态基础模型BEIT-3,在视觉和视觉-语言任务上均实现了最先进的迁移性能。具体而言,我们从三个维度推进大融合:主干架构、预训练任务和模型扩展。我们引入了通用建模的多路Transformer (Multiway Transformers),其模块化架构同时支持深度融合和模态专用编码。基于共享主干网络,我们以统一方式对图像(Imglish)、文本(English)和图文对("平行句")进行掩码"语言"建模。实验结果表明,BEIT-3在目标检测(COCO)、语义分割(ADE20K)、图像分类(ImageNet)、视觉推理(NLVR2)、视觉问答(VQAv2)、图像描述(COCO)和跨模态检索(Flickr30K, COCO)等任务上均取得最先进性能。
  • [论文翻译]表征学习与身份对抗训练的面部行为理解

    面部动作单元 (AU) 检测因其能将复杂面部表情分解为独立的肌肉运动而受到广泛关注。本文重新审视了AU检测中的两个关键因素:多样化的大规模数据和主体身份正则化。受基础模型 (foundation model) 近期进展的启发,我们强调了数据的重要性,并推出了Face9M数据集——该数据集整合了来自多个公开来源的900万张面部图像,具有高度多样性。在Face9M上预训练掩码自编码器 (masked auto encoder) 在AU检测和面部表情任务中展现出强劲性能。更重要的是,我们发现身份对抗训练 (Identity Adversarial Training, IAT) 在AU任务中尚未得到充分探索。为此我们首先论证了:AU数据集中的主体身份会导致模型陷入捷径学习 (shortcut learning),从而产生次优的AU预测方案;其次证明了强IAT正则化对学习身份无关特征的必要性;最后系统阐释了IAT的设计空间,并通过实验验证IAT能有效规避基于身份的捷径学习,获得更优解。我们提出的面部掩码自编码器 (Facial Masked Auto encoder, FMAE) 和IAT方法兼具简洁性、通用性和高效性。
  • [论文翻译]Spark-TTS: 基于大语言模型的高效文本转语音模型,采用单流解耦语音Token

    大语言模型 (LLM) 的最新进展推动了零样本文本到语音 (TTS) 合成的显著进步。然而,现有的基础模型依赖于多阶段处理或复杂架构来预测多个码本,限制了效率和集成灵活性。为了克服这些挑战,我们引入了 SparkTTS,这是一个由 BiCodec 驱动的新系统,BiCodec 是一种单流语音编解码器,将语音分解为两种互补的 Token 类型:用于语言内容的低比特率语义 Token 和用于说话者属性的固定长度全局 Token。这种解耦表示,结合 Qwen2.5 大语言模型和思维链 (CoT) 生成方法,实现了粗粒度控制(例如性别、说话风格)和细粒度调整(例如精确的音高值、说话速率)。为了促进可控 TTS 的研究,我们引入了 VoxBox,这是一个精心策划的 100,000 小时数据集,带有全面的属性注释。大量实验表明,Spark-TTS 不仅实现了最先进的零样本语音克隆,还生成了高度可定制的声音,超越了基于参考的合成的限制。源代码、预训练模型和音频样本可在 https://github.com/SparkAudio/Spark-TTS 获取。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理