Very Deep Convolutional Networks for Large
标签:
Very Deep Convolutional Networks for Large-Scale Image RecognitionKaren Simonyan∗ & Andrew Zisserman+
Visual Geometry Group, Department of Engineering Science, University of Oxford
{karen,az}@robots.ox.ac.uk
摘要
在这项事情中,我们研究了在大规模的图像识别环境下卷积网络的深度对识另外准确率的影响。我们的主要孝敬是使用非常小的(3×3)卷积滤波器架构对网络深度的不停增加并进行全面评估,这表白通过将深度增加到16-19层可以实现对现有技术配置的显著改造。这些发明是我们ImageNet Challenge 2014提交的根本,我们的团队在定位和分类过程中分袂获得了第一名和第二名。我们还证明了我们的研究可以很好的推广到其他数据集上,从而在其它数据集上取得了最好的功效。我们已果然了两本性能最好的ConvNet模型,以便促进对付计算机视觉中深度视觉暗示的进一步研究。
1 引言卷积网络(ConvNets)近来在大规模图像和视频识别方面取得了巨大告成(Krizhevsky等,2012;Zeiler&Fergus,2013;Sermanet等,2014;Simonyan&Zisserman,2014)因为大的果然图像数据集,例如ImageNet,以及高性能计算系统的呈现,例如GPU或大规模漫衍式集群(Dean等,2012),所以这成为了可能。出格是,在深度视觉识别架构的进步中,ImageNet大型视觉识别挑战(ILSVRC)(Russakovsky等,2014)阐扬了重要感化,它已经成为几代大规模图像分类系统的尝试平台,从高维度浅层特征编码(Perronnin等,2010)(ILSVRC-2011的获胜者)到深层ConvNets(Krizhevsky等,2012)(ILSVRC-2012的获奖者)。
跟着ConvNets在计算机视觉范围越来越商品化,为了到达更好的准确性,已经进行了许多测验考试来改造Krizhevsky等人(2012)最初的架构。例如,ILSVRC-2013(Zeiler&Fergus,2013;Sermanet等,2014)表示最佳的提交中使用了更小的感应熏染窗口尺寸和更小的第一卷积层步长。另一条改造法子在整个图像和多个尺度上对网络进行密集地训练和测试(Sermanet等,2014;Howard,2014)。在本文中,我们解决了ConvNet架构设计的另一个重要方面——深度。为此,我们修正了架构的其它参数,并不变的添加更多的卷积层来增加网路的深度,这是可行的,因为在所有层中都使用非常小的(3×3)卷积滤波器。
因此,我们提出更为精确的ConvNet架构,不只可以在ILSVRC分类和定位任务上取得的最优的准确性,而且还适用于其它的图像识别数据集,它们可以获得优异的性能,即使用相对简单流程的一部分(例如,通过线性SVM分类深度特征而不进行微调)。我们果然了两款表示最好的模型1,以便促进一步研究。
本文的其余部分组织如下。在第2节,我们描述了我们的ConvNet配置。图像分类训练和评估的细节在第3节,并在第4节中在ILSVRC分类任务上对配置进行了对照。第5节总结了论文。为了完整起见,我们还将在附录A中描述和评估我们的ILSVRC-2014方针定位系统,并在附录B中讨论了非常深的特征在其它数据集上的泛化。最后,附录C包罗了主要的论文修订列表。
2. ConvNet配置
为了衡量ConvNet深度在公平环境中所带来的改造,我们所有的ConvNet层配置都使用不异的法则,灵感来自Ciresan等(2011);Krizhevsky等人(2012年)。在本节中,我们首先描述我们的ConvNet配置的通用设计(第2.1节),然后详细说明评料中使用的具体配置(第2.2节)。最后,我们的设计选择将在2.3节进行讨论并与现有技术进行对照。
2.1 体系架构
在训练期间,我们的ConvNet的输入是固定巨细的224×224 RGB图像。我们独一的预措置惩罚惩罚是从每个像素中减去在训练集上计算的RGB均值。图像通过一堆卷积(conv.)层,我们使用感应熏染野很小的滤波器:3×3(这是捕获左/右,上/下,中心观点的最小尺寸)。在此中一种配置中,我们还使用了1×1卷积滤波器,可以看作输入通道的线性调动(后面长短线性)。卷积步长固定为1个像素;卷积层输入的空间填充要满足卷积之后保存空间辨别率,即3×3卷积层的填充为1个像素。空间池化由五个最大池化层进行,这些层在一些卷积层之后(不是所有的卷积层之后都是最大池化)。在2×2像素窗口长进行最大池化,步长为2。
一堆卷积层(在差别架构中具有差别深度)之后是三个全连接(FC)层:前两个每个都有4096个通道,第三个执行1000维ILSVRC分类,因此包罗1000个通道(一个通道对应一个类别)。最后一层是soft-max层。所有网络中全连接层的配置是不异的。
温馨提示: 本文由Jm博客推荐,转载请保留链接: https://www.jmwww.net/file/web/27379.html