[论文翻译]MixNet：面向野外复杂场景文本的精准检测

在自然场景中检测小型文本实例尤为困难，不规则位置和非理想光照的影响常导致检测错误。我们提出混合架构MixNet，结合CNN与Transformer的优势，能精准检测复杂自然场景中的任意方向、风格和光照条件的小型文本。该网络包含两个核心模块：(1) 作为主干网络的特征混洗网络(FSNet)；(2) 利用场景文本一维流形约束的中心Transformer模块(CTBlock)。我们首先在FSNet中引入创新的特征混洗策略，促进多尺度特征交换，生成优于ResNet和HRNet的高分辨率特征。该主干网络在PAN、DB、FAST等现有文本检测方法基础上实现显著提升。随后设计互补的CTBlock模块，利用类似文本区域中轴线的中心线特征，证明其在密集小文本场景中优于基于轮廓的方法。大量实验表明，融合FSNet与CTBlock的MixNet在多个场景文本检测数据集上达到最先进水平。

由 shadow发布于 2025-05-17 09:28:13 神经网络图像生成图像生成模型阅读次数 794

[论文翻译]分形生成模型

模块化是计算机科学的基石，它将复杂功能抽象为原子构建块。在本文中，我们通过将生成模型抽象为原子生成模块，引入了一种新的模块化层次。类似于数学中的分形，我们的方法通过递归调用原子生成模块，构建了一种新型的生成模型，形成了我们称为分形生成模型的自相似分形架构。作为一个运行示例，我们使用自回归模型作为原子生成模块实例化了我们的分形框架，并在具有挑战性的逐像素图像生成任务中进行了检验，展示了在似然估计和生成质量方面的强大表现。我们希望这项工作能够为生成模型开辟一个新的范式，并为未来的研究提供肥沃的土壤。代码可在 https://github.com/LTH14/fractalgen 获取。