当前位置：首页 > Web开发 > 正文

标签： On the steerability of generative adversarial networksI

2024-03-31 Web开发

标签：

On the "steerability" of generative adversarial networks Intro

本文提出对GAN的latent space进行操纵的一种要领，通过对latent space的编纂实现生成域外样本，操控生成样本的根基属性，如控制生成样本的位置、光照、二维旋转、三维旋转等等。

技术图片

文章的主要孝敬为：

证明并实现了通过在latent space中的“walk”能够实现类似人类世界中相机的运动、颜色调动等操纵，这些操纵是通过自监督的方法学习到的。

不只能实现对输出域的线性调动，还能实现对输出域的非线性调动。

量化了数据集可学习到调动的最洪流平。

GAN颠末训练能够学习到一种映射，使得\(G(z) \rightarrow x\),也就是将latent space的采样功效映射为一图像漫衍下的样本。因此很自然就想到了，能否学习一种调动，使得对latent space的调动，也能映射到图像漫衍？作者称之为“walk”，即在latent space中执行某种调动，生成的图像也会做出相应的调动，以此来调治生成的图片，甚至可以生成域外样本。

Objective

\[ \omega^* = \mathop{argmin}_\omega \mathbb{E}_{z,\alpha}[\ell(G(z + \alpha \omega),edit(G(z),\alpha))] \]

上式edit是对生成的图像的调动操纵，\(\alpha\)是外部调治参数，\(\omega\)是可学习参数，看起来相当的简单。这里是认为G已经训练好了，即已经颠末反抗训练可以生成图片了。公式假设的是操纵是线性操纵，，实际上如果长短线性操纵就拟合一个对z的非线性函数，神经网络里往往用非线性激活拟合非线性，拟合的应该是一个step的变革。所以递归调动n次就是nstep的调动。
\[ \ell = \mathbb{E}_{z,n}[||f^n(z)-edit(G(z),n\epsilon)||] \]
此中n暗示第n个step，\(\epsilon\)暗示步长，\(f^n(z)\)是n次递归函数。

技术图片

Quantifying Steerability

本文还提出调动前后量化比拟的指标，以量化调动的效果。

对付颜色调动，量化指标是随机抽取调动前后100 pixels像素值的变革，归一化到1.

对付zoom和shift的调动，量化指标是用一个方针检测网络输出物体中心位置，除以box的宽高归一化。

Reducing Transformation Limits

上面说了，是在G确定的情况下去学习latent space的调动，那么能否直接端到端训练呢？显然是可以的.
\[ G^*,\omega^* = \mathop{argmin}_{G,\omega}(\ell_{edit} + \ell_{GAN}) \]
直接端到端训练，GAN的loss凭据本来的，而编纂loss拿输入原图和编纂后的做loss即可。

尝试部分太长了，不感兴趣。

代码已开源：https://ali-design.github.io/gan_steerability/

[论文理解] On the "steerability" of generative adversarial networks

温馨提示: 本文由Jm博客推荐，转载请保留链接: https://www.jmwww.net/file/web/30832.html

上一篇：Lucene、Solr、ElasticSearch、hibernate
下一篇：metasploit魔鬼训练营靶机环境搭建（第二章）

标签： On the steerability of generative adversarial networksI

推荐文章

热门文章

标签

友情链接

关于本站

联系我们

特别鸣谢