JPmHC 动态同构通过正交超连接

完整版
近年来,深度学习领域取得了显著进展,以超连接(Hyper-Connections,简称HC)为例,通过引入更宽的残差流和多样化的连接模式,扩展了残差连接范式。虽然这些创新带来了显著的性能提升,但它们牺牲了残差连接的恒等映射属性,导致训练不稳定、可扩展性有限和内存开销增加。为了解决这些挑战,我们提出了JPmHC(Jacobian-spectrum Preserving manifold-constrained Hyper-Connections)框架,该框架用可训练的线性混合器替换了恒等跳过,并在n个并行流上操作,同时显式地控制梯度条件。通过在算子范数有界流形(例如,双随机、Stiefel、Grassmann)上约束混合器M,JPmHC防止了梯度病态并增强了稳定性。JPmHC引入了三个关键贡献:(i)对结构化跳过的自由概率分析,预测雅可比谱,为混合器选择提供可操作的设计规则;(ii)针对固定点投影的内存高效隐式微分,减少激活内存和同步开销;(iii)通过凯莱变换实现的Stiefel约束混合器,确保正交性而无需事后归一化。在ARC-AGI上的实证评估表明,与双随机基线相比,JPmHC实现了更快的收敛速度、更高的准确性和更低的计算成本。作为HC的灵活和可扩展扩展,JPmHC推进了谱感知、稳定和高效的深度学习,为拓扑架构设计和基础模型演化提供了见解。
评论
    公告

    AI千集是一个专注于科研服务的智能平台
    在这里您可以获得本平台自训练的
    科研智能体
    和小伙伴一起玩转AI,做自己的AI机器人
    来AI千集,赋能智慧快人一步
    扫一扫,快速获取解决方案与报价
    立即咨询

    积分排行