• [论文翻译]MixNet:面向野外复杂场景文本的精准检测

    在自然场景中检测小型文本实例尤为困难,不规则位置和非理想光照的影响常导致检测错误。我们提出混合架构MixNet,结合CNN与Transformer的优势,能精准检测复杂自然场景中的任意方向、风格和光照条件的小型文本。该网络包含两个核心模块:(1) 作为主干网络的特征混洗网络(FSNet);(2) 利用场景文本一维流形约束的中心Transformer模块(CTBlock)。我们首先在FSNet中引入创新的特征混洗策略,促进多尺度特征交换,生成优于ResNet和HRNet的高分辨率特征。该主干网络在PAN、DB、FAST等现有文本检测方法基础上实现显著提升。随后设计互补的CTBlock模块,利用类似文本区域中轴线的中心线特征,证明其在密集小文本场景中优于基于轮廓的方法。大量实验表明,融合FSNet与CTBlock的MixNet在多个场景文本检测数据集上达到最先进水平。
  • [论文翻译]分形生成模型

    模块化是计算机科学的基石,它将复杂功能抽象为原子构建块。在本文中,我们通过将生成模型抽象为原子生成模块,引入了一种新的模块化层次。类似于数学中的分形,我们的方法通过递归调用原子生成模块,构建了一种新型的生成模型,形成了我们称为分形生成模型的自相似分形架构。作为一个运行示例,我们使用自回归模型作为原子生成模块实例化了我们的分形框架,并在具有挑战性的逐像素图像生成任务中进行了检验,展示了在似然估计和生成质量方面的强大表现。我们希望这项工作能够为生成模型开辟一个新的范式,并为未来的研究提供肥沃的土壤。代码可在 https://github.com/LTH14/fractalgen 获取。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个私有数据集生成平台
在这里您可以获得本平台自训练的
LLM模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,获取AI数据集快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理