• [论文翻译]CoCa: 对比式字幕生成器作为图文基础模型

    探索大规模预训练基础模型在计算机视觉领域具有重要意义,因为这些模型能够快速迁移至多种下游任务。本文提出对比式描述生成器(CoCa),采用极简设计联合预训练图像-文本编码器-解码器基础模型,通过对比损失和描述生成损失同时涵盖CLIP等对比方法与SimVLM等生成方法的模型能力。与所有解码器层均关注编码器输出的标准编码器-解码器Transformer不同,CoCa在前半部分解码器层省略交叉注意力以编码单模态文本表示,后半部分级联的解码器层则通过交叉注意力处理图像编码器的多模态图像-文本表示。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理