WGAN

 

前置知识

  1. probability distribution. \mathbb{E}
  2. parametric density.
  3. low dimensional manifolds.
  4. model manifold.
  5. distribution’s support.
  6. random variable. \mathtt{X}
  7. Lipschitz continuity.
  8. feedforword neural network.
  9. compact space.
  10. Kantorovich-Rubinstein duality.
  11. Lipschitz functions.
  12. RMSProp

理论分析

解决什么问题?

GAN 的 discriminator 可以使用多种不同的目标函数,例如 Jensen-Shannonf-divergences ;另外,GAN 的 training 是不稳定的。这篇 paper 研究定义目标函数 (distance or divergence) 的不同方法,以及它们对 training 尤其是 convergence 的影响。

定义的 distance 表示为 $\theta\rightarrow\rho(\mathbb{P}\theta, \mathbb{P}_r)$ ,此映射是连续的,等价于从 $\theta$ 空间到 $\mathbb{P}\theta$ 空间的映射是连续的,连续就意味着:如果 $\theta$ 收敛了,则 $\mathbb{P}_\theta$ 也收敛了。如果映射是可微的,则可以使用 梯度下降法 求 $\theta$ 。

paper 提出了1种 distance 的定义方式 Earth Mover(EM) ,表示为 $W(\mathbb{P}r, \mathbb{P}\theta)=inf(\mathbb{E}_{(x,y)~\gamma}[   x-y   ])$ ,其中 $\gamma\in\Pi(\mathbb{P}r,\mathbb{P}\theta)$ 。

定理1:

  1. 如果 $g$ 对 $\theta$ 是连续的,那么 $W(\mathbb{P}r, \mathbb{P}\theta)$ 也是连续的。
  2. 如果 $g$ 满足 Lipschitz continuity ,那么 $W(\mathbb{P}r, \mathbb{P}\theta)$ 不仅处处连续,且几乎处处可微。
  3. JS散度KL散度 不满足以上 2 句陈述。

推论1:

如果 $g_\theta$ 是前馈神经网络,且 $p(z)$ 满足 $\mathbb{E}_{z~p(z)}[   z   ]<\infty$ ,例如 Gaussianuniform ,则:$g$ 对 $\theta$ 是连续的; $W(\mathbb{P}r, \mathbb{P}\theta)$ 不仅处处连续,且几乎处处可微。

定理2:

设 $\mathbb{P}$ 是 compact space 中的 1 个分布, $\mathbb{P_n}$ 是一系列分布。当 $n\rightarrow\infty$ 时:

  1. 如果 $KL(\mathbb{P}_n   \mathbb{P})\rightarrow0$ ,则 $\delta(\mathbb{P}_n,\mathbb{P})\rightarrow0$ 。
  2. $\delta(\mathbb{P}_n,\mathbb{P})\rightarrow0$ 等价于 $JS(\mathbb{P}_n,\mathbb{P})\rightarrow0$ 。
  3. 如果 $\delta(\mathbb{P}_n,\mathbb{P})\rightarrow0$ ,则 $W(\mathbb{P}_n,\mathbb{P})\rightarrow0$ 。
  4. $W(\mathbb{P}_n,\mathbb{P})\rightarrow0$ 等价于 $\mathbb{P}_n收敛于\mathbb{P}$ 。
根据 Kantorovich-Rubinstein duality ,$W(\mathbb{P}r,\mathbb{P}\theta)=sup\mathbb{E}{x~\mathbb{P}_r}[f(x)]-\mathbb{E}{x~\mathbb{P}_\theta}[f(x)]$ ,其中 $   f   L\leq1$ 。把 $f$ 参数化,问题转化为 $max(\mathbb{E}{x~\mathbb{P}r}[f\omega(x)]-\mathbb{E}{z~p(z)}[f\omega(g_\theta(z))])$ 。

定理3:

$max(\mathbb{E}{x~\mathbb{P}_r}[f\omega(x)]-\mathbb{E}{z~p(z)}[f\omega(g_\theta(z))])$ 有解,且 $\nabla_{\theta}W(\mathbb{P}r,\mathbb{P}{\theta})=-\mathbb{E}{z~p(z)}[\nabla{\theta}f(g_\theta(z))]$ 。

网络结构

Generator

结构同 GAN

损失函数使用 。

优化器使用 RMSProp

Discriminator

结构同 GAN

损失函数使用 。

优化器使用 RMSProp

代码实现