一图看完AI应用之深度学习十大经典算法（含论文代码）

gingo 2021-03-10 16:09:07 AI基础综述alphatree经典网络收藏

0 / 1254

作者 Gingo

从AI研究的角度来说，AI的学习和跟进是有偏向性的，更多的精英是擅长相关的一到两个领域，在这个领域做到更好。而从AI应用的角度来说，每一个工程都可能涉及很多个AI的方向，而他们需要了解掌握不同的方向才能更好的开发和设计。

因此我们从应用的角度提出一个 roadmap 叫做 AlphaTree，描述不同方向的经典算法模型发展，以及应用上热门的算法。带领新手入门

第一个版本涉及的是人，物与艺术，三个大的部分。主要包括了图像方向的十二个子方向，上百篇文章和代码。里面列的模型除了商业化的部分外，其他大部分具有相关的开源算法与模型，所有论文和代码都已开源

https://github.com/weslynn/AlphaTree-graphic-deep-neural-networkgithub.com

AI roadmap AI路书发展地图 -Alphatree

物

成千上万的物体是世界的组成，我们希望人工智能能够像我们一样理解这个世界。也就有了物体相关的算法发展。

深度学习在解决分类问题上非常厉害。让它声名大噪的也是对于图像分类问题的解决。也产生了很多很经典的模型。其他方向的模型发展很多都是源于这各部分，它是很多模型的基础工作。因此我们首先了解一下它们。

Object Classification 是所有发展的基础，很多其他方向的模型都是基于这个主线来改进的。

为什么算法都从图像领域发展而来？由于图像的数据最为丰富，卷积神经网络在图像上分类的稳定有效，1998年，LeNet，这个商用的手写数字识别网络就做出了有力的证明。而到了2012年，Alex Krizhevsky 设计了AlexNet 在当年的ImageNet图像分类竞赛中下第一，开始了深度学习的黄金时代。

学术界发表的paper一般可以分为两大类，一类是网络结构的改进，一类是训练过程的改进，如droppath，loss改进等。而网络结构设计发展主要有两条主线，一条是Inception系列（即上面说的复杂度），从GoogLeNet 到Inception V2 V3 V4，Inception ResNet。 Inception module模块在不断变化，一条是VGG系列（即深度），用简单的结构，尽可能的使得网络变得更深。从VGG 发展到ResNet ，再到DenseNet ，DPN等。

最终Google Brain用500块GPU训练出了比人类设计的网络结构更优的网络NASNet。

此外，应用方面更注重的是，如何将模型设计得更小，这中间就涉及到很多卷积核的变换。这条路线则包括 SqueezeNet，MobileNet V1 V2 Xception shuffleNet等。ResNet的变种ResNeXt 和SENet 都是从小模型的设计思路发展而来。

从模型的发展过程中，随着准确率的提高，网络结构也在不断的进行改进，现在主要是两个方向，一是深度，二是复杂度。此外还有卷积核的变换等等。

深度神经网络的发展要从经典的LeNet模型说起，那是1998年提出的一个模型，在手写数字识别上达到商用标准。之后神经网络的发展就由于硬件和数据的限制，调参的难度等各种因素进入沉寂期。

到了2012年，Alex Krizhevsky 设计了一个使用ReLu做激活函数的AlexNet 在当年的ImageNet图像分类竞赛中(ILSVRC 2012)，以top-5错误率15.3%拿下第一。他的top-5错误率比上一年的冠军下降了十个百分点，而且远远超过当年的第二名。而且网络针对多GPU训练进行了优化设计。从此开始了深度学习的黄金时代。

深度学习模型 准确率

大家发表的paper一般可以分为两大类，一类是网络结构的改进，一类是训练过程的改进，如droppath，loss改进等。

之后网络结构设计发展主要有两条主线，一条是Inception系列（即上面说的复杂度），从GoogLeNet 到Inception V2 V3 V4，Inception ResNet。 Inception module模块在不断变化，一条是VGG系列（即深度），用简单的结构，尽可能的使得网络变得更深。从VGG 发展到ResNet ，再到DenseNet ，DPN等。

最终Google Brain用500块GPU训练出了比人类设计的网络结构更优的网络NASNet,最近训出了mNasNet。

此外，应用方面更注重的是，如何将模型设计得更小，这中间就涉及到很多卷积核的变换。这条路线则包括 SqueezeNet，MobileNet V1 V2 Xception shuffleNet等。

ResNet的变种ResNeXt 和SENet 都是从小模型的设计思路发展而来。

输入:图片输出:类别标签

深度学习模型比较

ILSVRC2016 2016 年的 ILSVRC，来自中国的团队大放异彩：

CUImage（商汤和港中文），Trimps-Soushen（公安部三所），CUvideo（商汤和港中文），HikVision（海康威视），SenseCUSceneParsing（商汤和香港城市大学），NUIST（南京信息工程大学）包揽了各个项目的冠军。

CUImage（商汤科技和港中文）：目标检测第一； Trimps-Soushen（公安部三所）：目标定位第一； CUvideo（商汤和港中文）：视频中物体检测子项目第一； NUIST（南京信息工程大学）：视频中的物体探测两个子项目第一； HikVision（海康威视）：场景分类第一； SenseCUSceneParsing（商汤和港中文）：场景分析第一。

其中，Trimps-Soushen 以 2.99% 的 Top-5 分类误差率和 7.71% 的定位误差率赢得了 ImageNet 分类任务的胜利。该团队使用了分类模型的集成（即 Inception、Inception-ResNet、ResNet 和宽度残差网络模块的平均结果）和基于标注的定位模型 Faster R-CNN 来完成任务。训练数据集有 1000 个类别共计 120 万的图像数据，分割的测试集还包括训练未见过的 10 万张测试图像。

ILSVRC 2017 Momenta 提出的SENet 获得了最后一届 ImageNet 2017 竞赛 Image Classification 任务的冠军， 2.251% Top-5 错误率

LeNet 详解 detail Yann LeCun

LeNet 是最经典的CNN网络

[1] LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). "Gradient-based learning applied to document recognition"

AlexNet 详解 detail Alex Krizhevsky, Geoffrey Hinton

AlexNet 2012年，Alex Krizhevsky用AlexNet 在当年的ImageNet图像分类竞赛中(ILSVRC 2012)，以top-5错误率15.3%拿下第一。他的top-5错误率比上一年的冠军下降了十个百分点，而且远远超过当年的第二名。[2] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks." Advances in neural information processing systems. 2012. tensorflow

GoogLeNet 详解 detail Christian Szegedy / Google

GoogLeNet 采用InceptionModule和全局平均池化层，构建了一个22层的深度网络,使得很好地控制计算量和参数量的同时（ AlexNet 参数量的1/12），获得了非常好的分类性能. 它获得2014年ILSVRC挑战赛冠军，将Top5 的错误率降低到6.67%. GoogLeNet名字将L大写，是为了向开山鼻祖的LeNet网络致敬.[3] Szegedy, Christian, et al. "Going deeper with convolutions." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015.

Inception V3 详解 detail Christian Szegedy / Google

Inception V3，GoogLeNet的改进版本,采用InceptionModule和全局平均池化层，v3一个最重要的改进是分解（Factorization），将7x7分解成两个一维的卷积（1x7,7x1），3x3也是一样（1x3,3x1），ILSVRC 2012 Top-5错误率降到3.58% test error[4] Szegedy, Christian, et al. “Rethinking the inception architecture for computer vision.” arXiv preprint arXiv:1512.00567 (2015).

VGG 详解 detail Karen Simonyan , Andrew Zisserman / Visual Geometry Group（VGG）Oxford

VGG
VGG-Net是2014年ILSVRC classification第二名(第一名是GoogLeNet)，ILSVRC localization 第一名。VGG-Net的所有 convolutional layer 使用同样大小的 convolutional filter，大小为 3 x 3

单独看VGG19的模型：

[5] Simonyan, Karen, and Andrew Zisserman. "Very deep convolutional networks for large-scale image recognition." arXiv preprint arXiv:1409.1556 (2014).

ResNet and ResNeXt详解 detail 何凯明 He Kaiming

ResNet ResNet,深度残差网络，通过shortcut( skip connection )的设计，打破了深度神经网络深度的限制，使得网络深度可以多达到1001层。它构建的152层深的神经网络，在ILSVRC2015获得在ImageNet的classification、detection、localization以及COCO的detection和segmentation上均斩获了第一名的成绩，其中classificaiton 取得3.57%的top-5错误率，
[6] He, Kaiming, et al. "Deep residual learning for image recognition." arXiv preprint arXiv:1512.03385 (2015). pdf(ResNet,Very very deep networks, CVPR best paper)

![](http://aiqianji