Attention Generative Adversarial Networks
在这篇论文中,我们提出了自注意生成对抗网络(SAGAN),它是用于图像生成任务的允许注意力驱动的、长距离依赖的建模。传统的卷积GANs只根据低分辨率图上的空间局部点生成高分辨率细节。在SAGAN中,可以使用来自所有特征位置的线索生成细节。此外,判别器可以检查图像中较远部分的细节特征是否一致。此外,最近的研究表明,生成器条件会影响GAN的性能。利用这一观点,我们将光谱归一化应用到GAN生成器上,发现这改善了训练的动态。提出的SAGAN比以前的研究的效果更好,在ImageNet数据集的挑战中,将最好的Inception分数从36.8提高到52.52,将Fre?chet初始距离从27.62减少到18.65。对注意力层的可视化显示,生成器利用了与目标形状对应的邻域,而不是固定形状的局部区域。
1. Introduction
图像合成是计算机视觉中的一个重要问题。随着生成式对抗网络(GANs)的出现,这方面已经取得了显著的进展(Goodfellow et al., 2014),尽管仍存在许多开放问题(Odena, 2019)。基于深度卷积网络的GANs(Radford et al., 2016; Karras et al., 2018; Zhang et al.) 尤其成功。然而,通过仔细检查这些模型生成的样本,我们可以观察到卷积GANs (Odena et al., 2017; Miyato et al., 2018; Miyato & Koyama, 2018)在多类数据集上训练时,某些图像类的建模比其他类的建模困难得多(例如,ImageNet (Russakovsky et al., 2015))。例如,当先进的ImageNet GAN模型(Miyato & Koyama, 2018) 擅长合成图像类和一些结构性限制(如海洋、天空和景观类等更易通过纹理区分而不是通过几何结构),不能捕捉几何或在一些类持续发生的结构模式(例如,在绘制狗时往往带着真实的皮毛纹理,但没有明确定义分开的脚)。一种可能的解释是,以前的模型严重依赖于卷积来对不同图像区域之间的相关性进行建模。由于卷积操作符有一个局部接受域,长距离的依赖关系必须经过几个卷积层才能处理。因为各种各样的原因,这都将防止学习长距离依赖,缺点有:
一个小模型可能无法表示该长距离依赖
优化算法可能难以发现能够仔细协调多层,并能捕获这些依赖的参数值, 而且当这些参数化被应用于之前的不可见的输入时,可能是统计脆弱的且容易失败
增加卷积核的大小可以增加网络的表示能力,但是这样做也会损失使用局部卷积结构获得的计算和统计效率
从另一方面来说,自注意(Cheng et al., 2016; Parikh et al., 2016; Vaswani et al., 2017)在构建长期依赖关系的能力与计算和统计效率之间表现出更好的平衡。自注意模块计算一个位置的响应,作为所有位置特征的加权和,其中的权重 —— 或注意力向量 —— 只需要很小的计算成本就可以计算出来。
在这项工作中,我们提出了自注意生成对抗网络(SAGANs),它将一种自注意机制引入到卷积GANs中。
它的好处有:
自注意模块是卷积的补充,帮助建模跨图像区域的长距离、多层次的依赖关系。
有了自注意的配备,生成器可以绘制每个位置的精细细节都与图像远处部分的精细细节仔细协调的图像。
此外,该判别器还可以更准确地对全局图像结构执行复杂的几何约束。
除了自注意,我们还结合了用于GAN性能的网络调节的最新研究成果。(Odena et al., 2018)的研究表明,状态良好的生成器往往性能更好。我们建议使用之前仅应用于判别器的光谱归一化技术来加强GAN生成器的良好条件(Miyato et al., 2018)。
我们在ImageNet数据集上进行了大量的实验,以验证所提出的自注意机制和稳定技术的有效性。通过将最好的Inception分数从36.8提高到52.52,将Fre?chet初始距离从27.62减少到18.65说明SAGAN显著优于之前在图像合成的工作。对注意力层的可视化显示,生成器利用了与目标形状对应的邻域,而不是固定形状的局部区域。我们的代码可以在https://github.com/ brain-research/self-attention-gan找到。
2. Related Work
生成对抗网络. GANs在各种图像生成任务中取得了巨大成功,包括图像到图像的转换(Isola et al., 2017; Zhu et al., 2017; Taigman et al., 2017; Liu & Tuzel, 2016; Xue et al., 2018; Park et al., 2019),图像超分辨率(Ledig et al., 2017; Snderby et al., 2017) 和文本-图像合成(Reed et al., 2016b;a; Zhang et al., 2017; Hong et al., 2018)。尽管取得了这样的成功,但是GANs的训练是不稳定的,并且对超参数的选择非常敏感。一些工作试图通过设计新的网络架构来稳定GAN的训练动态和提高样本多样性(Radford et al., 2016; Zhang et al., 2017; Karras et al., 2018; 2019),修改学习目标和动态 (Arjovsky et al., 2017; Salimans et al., 2018; Metz et al., 2017; Che et al., 2017; Zhao et al., 2017; Jolicoeur-Martineau, 2019)添加正则化方法(Gulrajani et al., 2017; Miyato et al., 2018) 和引入启发式技巧(Salimans et al., 2016; Odena et al., 2017; Azadi et al., 2018)。最近,Miyato等人 (Miyato et al., 2018) 为了约束判别器函数的Lipschitz常数,提出了限制判别器中权重矩阵的谱范数。结合基于项目的判别器(Miyato和Koyama, 2018),该光谱标准化模型极大地改进了ImageNet上的类条件图像生成。
温馨提示: 本文由Jm博客推荐,转载请保留链接: https://www.jmwww.net/file/web/42471.html