[论文翻译]任务、稳定性、架构与算力:训练更高效的学习型优化器及其自我训练应用
Tasks, stability, architecture, and compute: Training more effective learned optimizers, and using them to train themselves
任务、稳定性、架构与算力:训练更高效的学习型优化器及其自我训练应用
Luke Metz Google Research, Brain Team lmetz@google.com
Luke Metz Google Research, Brain Team lmetz...
正如通过学习函数替代手工设计的特征彻底改变了我们解决感知任务的方式一样,我们相信学习算法将重塑模型训练范式。本研究聚焦于无需用户指定超参数、能训练多种任务的通用学习型优化器。我们提出一种新型神经网络参数化的分层优化器,其可利用验证损失等附加特征实现自动正则化。现有学习型优化器大多仅在单一或少量任务上训练,而我们的优化器在数千个任务上训练,消耗了数量级更高的算力,从而获得更优秀的未知任务泛化能力。这些优化器不仅性能优异,还展现出与一阶优化器截然不同的行为特征:例如能生成具有隐式正则化的更新步骤,并随问题超参数(如批量大小)或架构(如神经网络宽度)变化而自适应调整。最后,这些学习型优化器还显示出对分布外任务(如从零开始自我训练)的潜在适用性。