真·无监督！延世大学提出图像到图像无监督模型，实验结果超SOTA_

作者 | 蒋宝尚

编辑 | 丛末

图像翻译目的是用模型将源域图像转换到目标域图像，通常涉及标签图到场景图的转换、图像风格、人脸的属性变换、标签图到场景图的转换。

图像翻译任务自生成对抗网络提出就得到了快速发展，例如经典的pix2pix、CycleGAN、StarGAN。

上述模型虽然实现了从源域图像到目标域图像的转换，但也需要一定的标签参与或者需要建立源域和目标域各自的生成器。

而近日韩国延世大学的一篇名为《Rethinking the Truly Unsupervised Image-to-Image Translation》的论文号称实现了真正的“无监督”学习。

论文地址：https://arxiv.org/pdf/2006.06500.pdf

论文的导语部分提到，近期的图像到图像的一些模型都至少使用了图像级别（输入输出对（input-output pairs））或者集合级别（set-level）（域标签）监督中的一种。后者往往被称为“无监督”，而这种方法还有一个重要的假设：域标签是先验的。

在论文中作者提出了一种真正无监督的图像到图像转换方法(truly unsupervised image-to image translation method，TUNIT)，此方法既不需要“输入输出对”也不需要域标签。其通过信息理论方法学习分离图像域，并使用估计的域标签生成相应的图像。

另外，作者在不同数据集上对比了FUNIT和MSGAN这俩最先进的多域和跨域图像到图像的翻译模型。实验结果表明，作者提出的方法能成功地实现域的分离和跨域的图像翻译。在半监督环境下，作者也声称其方法的性能优于当前现有的集合级监督方法。

思想简介

图注：方法概述如上，上图说明了模型转换猫品种的过程：1.使用引导网络的估计域训练多任务鉴别器；2.引导网络为生成器提供参考图像（ reference image ）的样式代码。另外，估计域再次用于GAN训练。

具体而言，作者通过三个子问题来解决这一问题：1）区分图像（即域）的集合特征；2）对输入图像的个别内容和风格进行编码；3）学习估计域之间的映射函数。

另外，作者引入了一个引导网络（guiding network），从而提供用于识别器和生成器的伪域标签和编码风格特征。为了估计域标签，作者还采用了一种能够最大化图像的域分配与其增强版本之间相互信息（mutual information）的无监督方法。这有助于引导网络将相似的图像分组在一起，并同时均匀地分隔类别。另外，通过参与图像翻译过程，引导网络还可以利用来自生成器和鉴别器的梯度。

注：增强版本是对指对原图像随机裁剪、水平翻转之后生成的图像。

对于嵌入风格码，作者采用了对比损失，其使得模型能够更好地理解图像之间的差异性，从而更好地进行表示学习。另外，引导网络和对抗性网络之间的交互，也让模型成功地分离域和翻译图像。

主要方法

前面也提到，引导网络有两个作用，其一是将风格代码（style code）提供给生成器，其二是将伪域标签提供给鉴别器来指导翻译。另外，生成器还会根据鉴别器的反馈合成目标域的图像，同时尊重参考图像的风格（例如毛皮图案）保持源图像的内容（例如姿势）。

主要的方法有两个部分，第一是学习如何产生域标签以及编码风格特征。

在这一部分中作者使用无监督聚类方法自动产生给定图像的域标签，也就是前面所说的最大化图像的域分配与其增强版本之间相互信息。公式如下：