• [论文翻译]DenseNet:密集连接的卷积网络

    最近的工作表明,如果它们在接近输入的层和接近输出的层之间包含较短的连接,则卷积网络可以的深度可以显著增加,准确度更高,并且更易于训练。在本文中,我们采纳这一观点,并提出了密集连接卷积网络(DenseNet),它以前馈的方式将每个层连接到其他层。而传统的卷积网络 L 层网络具有 L 层连接 (每个层和其后续层之间)---我们的网络有\$ \frac{L(L+1)}{2} \$直接连接。对于每层,所有前面图层的特征映射用作输入,并且其自己的特征映射用作所有后续层的输入。。DenseNet有几个引人注目的优势:它们缓解了消失的渐变问题,加强了特征传播,鼓励功能重用,并大大减少参数的数量。我们在四个竞争激烈的物体识别基准任务(CIFAR-10,CiFar-100,SVHN和Imagenet)上评估我们所提出的架构。DenseNet在大多数SOTA情况下获得显着改进,同时需要较少的计算来实现高性能。代码和预先训练的模型参见https://github.com/liuzhuang13/densenet。
  • [论文翻译]ResNet:图像识别中的深度残差学习

    更深的神经网络更难训练。我们提出了一种残差学习框架来减轻网络训练,这些网络比以前使用的网络更深。我们明确地将层变为学习关于层输入的残差函数,而不是学习未参考的函数。我们提供了全面的经验证据说明这些残差网络很容易优化,并可以显著增加深度来提高准确性。在ImageNet数据集上我们评估了深度高达152层的残差网络——比VGG[40]深8倍但仍具有较低的复杂度。这些残差网络的集合在ImageNet测试集上取得了`3.57%`的错误率。这个结果在ILSVRC 2015分类任务上赢得了第一名。我们也在CIFAR-10上分析了100层和1000层的残差网络。
  • Deep learning Review -深度学习总览

    深度学习是指建立多个处理层组成的计算机模型,以多层抽象的方式去学习数据的表达。这些方法使得一些前沿领域诸如语音识别,视觉物体识别,目标检测以及其他:包括药物发现和基因组学等,研究水平都有了极大地发展。深度学习使用反向传播(BP)算法,指出了机器在多层模型中应该如何用上一层参数来计算当前层参数,从而可以构建应对大型数据集中的需要的复杂结构。深度卷积网络给处理图像、视频、语音和音频的领域带来了突破,而递归网络对于连续的数据例如文本和语音有很好的性能。
  • [论文翻译]deconvnet ZFNet:卷积神经网络的可视化和理解

    近些年,大型卷积神经网络模型在 ImageNet数据集上表现出令人印象深刻的效果(如 2012年的Krizhevsky),但是很多人没有弄明白为什么这些卷积网络会取得如此好的效果,以及如何提高分类效果。在这篇文章中,我们对这两个问题均进行了讨论。我们介绍了一种创新性的可视化技术深入观察中间的特征层函数的作用以及分类器的行为。作为一项类似诊断性的技术,可视化操作可以使我们找到比 Krizhevsky(AlexNet模型)更好的模型架构。在ImageNet分类数据集上,我们还进行了一项抽丝剥茧的工作,以发现不同的层对结果的影响。我们看到,当Softmax分类器重新训练后,我们的模型在 ImageNet数据集上可以很好地泛化到其他数据集,瞬间就击败了现如今 Caltech-101以及 Caltech-256 上的最好的方法。
  • [论文翻译]Mask R-CNN

    我们提出概念上简单、灵活和通用的对象实例分割框架。我们的方法能够有效检测图像中的对象,同时生成每个实例的高质量分割掩膜。通过添加与现有的边界框识别分支平行的预测对象掩膜分支,这种被称作Mask R-CNN的方法拓展了Faster R-CNN的方法。Mask R-CNN易于训练,且仅稍微增加了Faster R-CNN的分支,运行帧率为5 fps。此外,Mask R-CNN还易于推广到其他任务中,例如,它能够使我们在同一个框架中预测人类的姿势。我们展示了COCO系列挑战的所有三个方向,包括实例分割、边界框对象检测以及人体关键点检测的最佳匹配结果。说实话,Mask R-CNN达成每项任务的效果确实胜过所有现有的单模型参赛作品,包括COCO 2016挑战获胜者的作品。我们希望,该简单有效的方法能够作为可靠的baseline,促进未来实例级识别研究的发展。相关代码即将公开。
  • [论文翻译]NIN:Network In Network

    我们提出了一种新型的深度网络结构,称为“Network In Network”(NIN),它可以增强模型在感受野(receptive field)内对局部区域(local patches)的辨别能力。传统的卷积层使用线性滤波器来扫描输入,后面接一个非线性激活函数。而我们则构建了一些结构稍复杂的微型神经网络来抽象receptive field内的数据。 我们用多层感知器实例化微型神经网络,这是一种有效的函数逼近器。特征图可以通过微型神经网络在输入上滑动得到,类似于CNN;接下来特征图被传入下一层。深度NIN可以通过堆叠上述结构实现。通过微型网络增强局部模型,我们就可以在分类层中利用所有特征图的全局平均池化层(GAP),这样更容易解释且比传统的全连接层更不容易过拟合。我们证明了NIN在CIFAR-10和CIFAR-100上得到了有史以来最佳的表现以及在SVHN和MNIST数据集上合理的表现。
  • [论文翻译]Wide Residual Networks 宽残差网络

    深度残差网络被证明能够扩展到数千层,并且仍然具有改进的性能。然而,每一个百分之一的提高精度的成本几乎是层数的两倍,所以训练非常深的残差网络有一个特征重用的问题,。针对这些问题,本文对ResNet块的结构进行了详细的实验研究,在此基础上提出了一种新的体系结构,了残差网络的深度,增加了残差网络的宽度。我们称这种网络结构为宽残差网络(WRNs),并指出这种网络结构效果远远优于常用的那些更深的网络(它们相对窄一些)。例如,我们证明,即使是一个简单的16层深宽残差网络,其精度和效率都优于所有以前的深度残差网络,包括千层深度网络。它在CIFAR、SVHN、COCO上取得了最优效果State-of-the-art,并对ImageNet结果进行了重大改进。
  • [论文翻译]STYLEGAN2: 分析和改善 StyleGAN 的图像质量 Analyzing and Improving the Image Quality of StyleGAN

    StyleGAN在数据驱动的无条件生成图像建模中达到了最先进的结果。我们将揭露和分析其出现一些特征伪影的原因,并提出模型架构和训练方法方面的改进以解决这些问题。特别需要注意的是,我们重新设计了生成器归一化方法,重新审视了渐进式增长架构,并对生成器施加了正则化,使得从潜在矢量到图像的映射中得到良好质量的图像。除了改善图像质量外,使用路径长度调节器还带来了额外的好处,即生成器变得非常容易反转。这使得可以可靠地检测图像是否由特定网络生成。我们进一步对生成器是如何充分应用输出分辨率,并如何确定网络容量问题进行了可视化,从而激励我们训练更大的模型,以进一步提高质量。总体而言,我们改进的模型在现有的分布式指标质量和感知的图像质量方面都刷新了无条件图像建模的最先进技术指标。
  • [论文翻译]STYLEGAN:生成对抗网络中一种基于样式的生成器结构

    我们借鉴风格迁移(style transfer)的想法,提出了一种用于生成对抗网络的新生成器体系结构。 新的架构可自动学习,无监督地分离高级属性(例如,在人脸上训练时的姿势和身份)以及在生成的图像中(例如雀斑,头发)随机变化,并且能够直观地、按特定尺度地控制合成。 新的生成器在传统的生成质量指标方面提高了最新技术水平值,显示出更好的插值特性,并且可以更好地解决变异的潜在因素。 为了量化插值质量和分解,我们提出了两种适用于任何生成器架构的新的自动化方法。最后,我们介绍了一个新的,高度多样化和高质量的人脸数据集。
  • [论文翻译]LeNet:基于梯度学习的文档识别

    用BP算法训练多层神经网络,是梯度学习技术的一个成功的案例。本文给出一个合适的网络架构,通过bp算法可以计算出一个复杂的决策面,来实现对于类似手写体字符这样高维模式的分类。本文回顾了各种不同的手写体识别方法,并基于标准任务比较这些算法。卷积神经网络,专门为处理变化较大的二维图形而设计,显示出超越所有其他技术的能力。
  • [论文翻译]MTCNN:基于多任务级联卷积网络的联合人脸检测与对齐

    由于各种姿势,照明条件和遮挡情况,在无约束环境下的人脸检测与人脸对齐仍十分具有挑战性。 最近的研究表明,深度学习方法可以在这两项任务上取得令人瞩目的表现。在本文中,我们提出了一个深度级联的多任务网络,利用检测和对齐之间的内在联系来提高他们的性能。
  • [论文翻译]ESRGAN: 增强型超分辨率生成对抗网络

    超分辨率生成对抗网络(SR GAN)[1]是一项开创性的工作,它能够在单图像超分辨率任务中生成逼真的纹理。然而,虚幻的细节通常伴随着令人不快的伪影。 为了进一步提高视觉质量,我们深入研究了SRGAN 网络架构,对抗性损失和感知损失这三个关键组成部分,并对其中每一项都进行了改进,产生了一个增强型SRGAN(ESRGAN)。 特别需要注意的是,我们在没有使用批量标准化的情况下引入RRDB Residual-in-Residual Dense Block作为基本网络构建单元。 此外,我们借用RaGAN [2]的思想来让判别器预测图像的相对真实性而不是图像的绝对真实性。 最后,我们使用激活前的特征来改善感知损失,这可以提供对亮度一致性和纹理恢复更强的监督力。 从这些改进中,所提出的ESRGAN实现了更好的视觉质量,具有比SRGAN更逼真和自然的纹理并且赢得了PIRM2018-SR Challenge1中的第一名[3]。
公告

AI千集是一个人工智能信息平台。
它是由一群AI算法工程师搭建的。
希望能帮助从业者快速跟踪学术动态
希望能帮助初学者提高算法应用能力
来千集,跟上先行者的脚步
扫一扫,加入我们
公众号

AI千集是连通AI学研和就业的桥梁
登陆小程序
获取千集AI课程和论文
挑战万道AI面试题

小程序