• [论文翻译]小数据集上的文本到图像生成数据外推

    文本到图像生成需要大量训练数据来合成高质量图像。为扩充训练数据,先前方法依赖于裁剪、翻转和混合等数据插值技术,这些方法无法引入新信息且仅带来边际改进。本文提出一种基于线性外推的文本到图像生成数据增强新方法。具体而言,我们仅对文本特征进行线性外推,并通过搜索引擎从互联网检索新图像数据。为确保新文本-图像对的可靠性,我们设计两个离群值检测器来净化检索图像。
  • [论文翻译]Whisper-Flamingo:将视觉特征融入Whisper以实现视听语音识别与翻译

    视听语音识别 (AVSR) 利用唇部视频提升噪声环境下的识别性能。由于视频数据比音频更难获取,AVSR 模型的视频训练数据通常仅限于数千小时。相比之下,Whisper 等语音模型使用数十万小时数据进行训练,因此能学习到更优质的语音到文本解码器。这种巨大的训练数据差异促使我们改造 Whisper 以处理视频输入。受 Flamingo 向语言模型注入视觉特征的启发,我们提出 Whisper-Flamingo,通过门控交叉注意力将视觉特征整合到 Whisper 语音识别与翻译模型中。
  • [论文翻译]基于记忆网络的大规模简单问答

    训练大规模问答系统十分复杂,因为训练数据通常只覆盖了潜在问题范围的很小一部分。本文研究了多任务学习和迁移学习在简单问答任务中的影响——在这种设定中,只要能够根据问题检索到正确证据(这在大规模场景下可能很困难),所需的推理过程其实相当简单。
  • [论文翻译]SkeletonX: 基于跨样本特征聚合的高效骨骼动作识别

    摘要——尽管当前基于骨架的动作识别模型在大规模数据集上展现出优异性能,但其在新应用场景中的适应性仍面临挑战。这些挑战在面对新动作类别、多样化执行者及不同骨架布局时尤为突出,导致性能显著下降。此外,骨架数据采集的高成本与高难度使得大规模数据收集难以实现。本文研究一次性学习和有限规模学习设定,以实现最小数据量的高效适配。现有方法往往忽视标注样本间丰富的互信息,导致低数据场景下的性能欠佳。为提升标注数据利用率,我们识别出执行者间的差异性和动作内部的共性作为两个关键属性,并提出SkeletonX——一个能与现有基于GCN的骨架动作识别器无缝集成的轻量级训练流程,促进有限标注数据下的有效训练。首先,我们针对两个关键属性设计定制化的样本对构建策略以形成并聚合样本对;其次,开发简洁高效的特征聚合模块处理这些样本对。
  • [博客翻译]根据OSI的新定义,开源AI必须公开其训练数据

    开源倡议组织 (OSI) 已发布其关于“开放”人工智能的官方定义,这为与像Meta这样的科技巨头之间的冲突埋下了伏笔——这些巨头的模型并不符合新规则。OSI长期以来一直设定行业标准,定义什么是开源软件,但AI系统包含了一些不受传统许可涵盖的元素,如模型训练数据...
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理