• [论文翻译]PP-YOLOE: YOLO的进化版本

    在本报告中,我们推出了PP-YOLOE,这是一款具有高性能和友好部署特性的工业级先进目标检测器。我们在前代PP-YOLOv2的基础上进行优化,采用无锚框(anchor-free)范式、配备CSPRepResStage的更强大主干网络与颈部结构、ET-head以及动态标签分配算法TAL。
  • [论文翻译]基于元路径和实体感知的图神经网络推荐系统

    摘要。在图神经网络(GNNs)中,消息传递迭代地聚合来自直接邻居的节点信息,却忽略了多跳节点连接的序列特性。这类序列化节点连接(如元路径)能为下游任务捕获关键洞察。具体而言,在推荐系统(RSs)中忽视这些洞察会导致协同信号提取不充分。本文采用协同子图(CSGs)和元路径构建元路径感知子图,显式捕获图结构中的序列语义。我们提出元路径与实体感知图神经网络(PEAGNN),通过多层GNN在子图上执行元路径感知的信息聚合,并利用注意力机制融合不同元路径的聚合信息。最终PEAGNN生成节点与子图表征,可用于训练MLP预测目标用户-物品对的评分。为利用CSGs的局部结构,我们提出作为对比正则项的实体感知机制。此外,PEAGNN可与GAT、GCN、GraphSage等主流网络层结合。实验表明,所提方法在多个推荐任务数据集上优于基线模型。进一步分析证明PEAGNN能从给定元路径中学习有意义的组合模式。
  • [论文翻译]IndexTTS: 一款工业级可控且高效的零样本文本转语音系统

    在此,我们介绍基于XTTS和Tortoise模型的IndexTTS系统,并融入了一些创新改进。具体而言,在中文应用场景中,我们采用了字符与拼音相结合的混合建模策略,从而实现对多音字及长尾字符发音的精确控制。此外,针对声学语音Token的码本利用,我们对向量量化(VQ)与有限标量量化(FSQ)进行了对比分析。为了进一步提升语音克隆的效果与稳定性,我们引入了基于Conformer的语音条件编码器,并将语音解码器替换为BigVGAN2。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理