,生成性对抗网络 GAN 又被开发出一项不正经用途。给猫狗加表情:
给马斯克加胡子:
不管视频中的脑袋怎么左晃右晃,这些表情都能始终如一地贴合面部,且每一帧都表现得非常丝滑。
这就是朱俊彦等人的最新研究成果:
一种利用 GAN 监督学习实现的密集视觉对齐方法。这和SinGAN的功能相同,不过SinGAN涉及采样,而该方法只需要手动选择用于特征插值的patches.。
该方法的性能显著优于目前的自监督算法,在多个数据集上的性能都与 SOTA 算法相当,有的甚至还实现了两倍超越。
用 GAN 监督学习实现密集视觉对齐
视觉对齐是计算机视觉中光流,3D 匹配,医学成像,跟踪和增强现实等应用的一个关键要素。
直白地说,比如在人脸识别中,就是不管一张脸是倒着立着还是歪着,任何角度都可以精确识别出哪块是眼睛哪块是鼻子。
而开创性的无监督视觉对齐方法 Congealing,在 MNIST digits 这种简单的二值图像上表现得出奇好,在处理大多数具有显著外观和姿势变化的数据集上就差了点。
为了解决这个问题,该团队提出了这个叫做 GANgealing 的新视觉对齐方法。
它是一种 GAN 监督算法,同时也受到 Congealing 的启发。
Congealing 模型的框架如下:
首先,在未对齐的数据上训练生成器 G。
然后在生成器 G 的潜空间中通过学习模式 c,来创建一个合成数据集以进行后续对齐。
接着使用该数据集训练空间变换网络 T,最后在预测和目标图像中使用感知损失将未对齐的图像映射到相应的对齐图像。
该算法的关键是利用 GAN 的潜空间为 STN 自动生成成对的训练数据。
并且在这个 GAN 监督学习框架中,STN 和目标图像实现联合学习模式,STN 专门使用 GAN 图像进行训练,并在测试时推广到真实图像。
实际效果如何。
其中,每个数据集的第一行表示未对齐的图像和数据集的平均图像,第二行为转换后的对齐效果,第三行则显示图像之间的密集对应关系。
比如第一行为给小猫加蝙蝠侠眼镜,最后一行为给汽车车身贴上黑色图案。
而在定量实验中,GANgealing 在非常精确的阈值条件下优于现有的监督方法,在有的数据集上甚至表现出很大的优势。
再在具有挑战的 SPair—71K 数据集上将 GANgealing 与几种自监督 SOTA 方法进行性能评估。
比的则是 PCK—Transfer 值,它衡量的是关键点从源图像转换到目标图像的百分比。
结果发现,GANgealing 在 3 个类别上的表现都明显优于目前的方法,尤其是在自行车和猫图集上实现了对自监督方法 CNNgeo 和 A2Net 的两倍超越。
一作为 UC 伯克利三年级的博士生 Bill Peebles,研究方向为无监督学习,重点是图像和视频的深度生成模型。
目前在 CMU 担任助理教授的青年大牛朱俊彦也在其中。
论文地址:点击打开
代码:点击打开
项目主页:点击打开
。
|