基础模型 - 文章

[论文翻译]面向长尾视觉识别的全局与局部混合一致性累积学习

Global and Local Mixture Consistency Cumulative Learning for Long-tailed Visual Recognitions 面向长尾视觉识别的全局与局部混合一致性累积学习 {dufei,yangpeng,jiaqi,fengtaonan,chen xiao ting}@mail.ynu.edu.cn yangyun@ynu.edu.cn {dufei,yangpeng,jiaqi,fengtaonan,chen xiao ting}@mail.y...

由 shadow发布于 2025-07-11 15:13:40 数据集基础模型模块集成阅读次数 886
[论文翻译]图像作为外语：面向所有视觉与视觉-语言任务的BEIT预训练

语言、视觉和多模态预训练的大融合正在兴起。本文提出了一种通用多模态基础模型BEIT-3，在视觉和视觉-语言任务上均实现了最先进的迁移性能。具体而言，我们从三个维度推进大融合：主干架构、预训练任务和模型扩展。我们引入了通用建模的多路Transformer (Multiway Transformers)，其模块化架构同时支持深度融合和模态专用编码。基于共享主干网络，我们以统一方式对图像(Imglish)、文本(English)和图文对("平行句")进行掩码"语言"建模。实验结果表明，BEIT-3在目标检测(COCO)、语义分割(ADE20K)、图像分类(ImageNet)、视觉推理(NLVR2)、视觉问答(VQAv2)、图像描述(COCO)和跨模态检索(Flickr30K, COCO)等任务上均取得最先进性能。

由 shadow发布于 2025-06-07 15:45:31 基础模型语言模型大模型阅读次数 870
[论文翻译]表征学习与身份对抗训练的面部行为理解

面部动作单元 (AU) 检测因其能将复杂面部表情分解为独立的肌肉运动而受到广泛关注。本文重新审视了AU检测中的两个关键因素：多样化的大规模数据和主体身份正则化。受基础模型 (foundation model) 近期进展的启发，我们强调了数据的重要性，并推出了Face9M数据集——该数据集整合了来自多个公开来源的900万张面部图像，具有高度多样性。在Face9M上预训练掩码自编码器 (masked auto encoder) 在AU检测和面部表情任务中展现出强劲性能。更重要的是，我们发现身份对抗训练 (Identity Adversarial Training, IAT) 在AU任务中尚未得到充分探索。为此我们首先论证了：AU数据集中的主体身份会导致模型陷入捷径学习 (shortcut learning)，从而产生次优的AU预测方案；其次证明了强IAT正则化对学习身份无关特征的必要性；最后系统阐释了IAT的设计空间，并通过实验验证IAT能有效规避基于身份的捷径学习，获得更优解。我们提出的面部掩码自编码器 (Facial Masked Auto encoder, FMAE) 和IAT方法兼具简洁性、通用性和高效性。

由 shadow发布于 2025-05-14 15:26:10 基础模型图像处理图像模型阅读次数 773
[论文翻译]Spark-TTS: 基于大语言模型的高效文本转语音模型，采用单流解耦语音Token

大语言模型 (LLM) 的最新进展推动了零样本文本到语音 (TTS) 合成的显著进步。然而，现有的基础模型依赖于多阶段处理或复杂架构来预测多个码本，限制了效率和集成灵活性。为了克服这些挑战，我们引入了 SparkTTS，这是一个由 BiCodec 驱动的新系统，BiCodec 是一种单流语音编解码器，将语音分解为两种互补的 Token 类型：用于语言内容的低比特率语义 Token 和用于说话者属性的固定长度全局 Token。这种解耦表示，结合 Qwen2.5 大语言模型和思维链 (CoT) 生成方法，实现了粗粒度控制（例如性别、说话风格）和细粒度调整（例如精确的音高值、说话速率）。为了促进可控 TTS 的研究，我们引入了 VoxBox，这是一个精心策划的 100,000 小时数据集，带有全面的属性注释。大量实验表明，Spark-TTS 不仅实现了最先进的零样本语音克隆，还生成了高度可定制的声音，超越了基于参考的合成的限制。源代码、预训练模型和音频样本可在 https://github.com/SparkAudio/Spark-TTS 获取。

由 shadow发布于 2025-03-13 11:23:22 大语言模型大模型基础模型阅读次数 1447

[论文翻译]面向长尾视觉识别的全局与局部混合一致性累积学习

[论文翻译]图像作为外语：面向所有视觉与视觉-语言任务的BEIT预训练

[论文翻译]表征学习与身份对抗训练的面部行为理解

[论文翻译]Spark-TTS: 基于大语言模型的高效文本转语音模型，采用单流解耦语音Token