输入的人脸图像可以生成多种风格的动画图像。 伊利诺伊大学厄巴纳-香槟分校的研究人员做到了。 他们提出的新的GAN迁移方法实现了“一对多”的生成效果。
在GAN传输领域,研究人员可以构建一个以人脸图像作为输入并输出动画人脸图像的映射。 出现了很多相关的研究方法,比如腾讯微视之前推出的迪士尼童话人脸特效等等。
在迁移过程中,图像的内容部分可能会保留,但风格部分必须改变,因为同一张脸可以在动画中以多种不同的方式表示。 这意味着:迁移过程是一个一对多的映射,可以表示为一个函数,该函数接受内容代码(即从面部图像中恢复)和样式代码(这是一个潜在变量)并生成动画面部。 但是,必须遵守一些重要的限制。
在最近的一项研究中,来自伊利诺伊大学厄巴纳-香槟分校的研究人员提出了一种新的 GAN 传输方法 GANs N' Roses(简称 GNR)。 这个多模式框架使用样式和内容来直接映射形式化。 简而言之,研究人员展示了一种以人脸图像的内容代码作为输入,输出具有多种随机选择的风格代码的动漫图像的方法。
从技术上讲,研究人员基于简单有效的内容和风格定义推导了对抗性损失卡通形象,这保证了映射的多样性,即可以从单个内容代码生成不同风格的动画图像。 在合理的假设下,这种映射不仅是多样化的,而且能够正确地表示以输入脸部为条件的动漫图像的概率。 相比之下,当前的多模态生成方法无法捕捉动漫中的风格。 大量定量实验表明,与SOTA方法相比,GNR方法可以生成风格更加多样的动画图像。
GNR的发电效应是什么? 我们可以先看一下戴珍珠耳环的少女的演示图:
目前,用户还可以尝试一下,通过上传自己的图片,一键生成自己的动漫图片。 机器之心尝试使用葡萄牙球星克里斯蒂亚诺·罗纳尔多的照片来生成效果,em…:
试用地址:
同时,GNR方法还可以实现视频到视频的传输,而无需对视频进行任何训练。
技术实现
给定两个域 ,目标是在域内生成一组不同的 x ,使得它们具有与 x 相似的语义内容。 该研究详细阐述了从域到域的转换的细节。 如图2所示,GANs N' Roses由编码器E和解码器F组成,可以双向使用。 编码器E将图像x分解为内容代码c(x)和风格代码s(x)。 解码器F接收内容编码和风格编码并从中生成适当的图像。
编码器和解码器一起构成生成器。 在运行时,该生成器通过将图像传递给编码器来保存生成的内容编码 c(x),获取一些其他相关样式编码 s_z,然后将这对编码传递给解码器。 本研究希望最终的动画内容由内容生成编码控制,风格由风格编码控制。
图 2 GAN 与玫瑰
但什么是内容,什么是风格? GANs N'Rose 的核心思想是将内容定义为事物所在的位置,将风格定义为事物的外观。 这可以通过使用数据增强的思想来实现。 在所有条件下选择一组相关的数据增强:样式不变,内容可变。 请注意ip形象,此定义以数据增强为条件 – 不同的数据增强集将导致不同的样式定义。
保证款式多样
为了保证用户能够得到不同风格的动画,目前有三种策略:第一,可以简单地从随机选择的风格代码s_z生成; 其次,解码器具有可以从解码器恢复 s_z 的属性; 第三,可以写成一个确定性惩罚函数,强制不同风格的代码进行不同的解码; 但这些策略都不能令人满意。
这项研究为风格和内容的定义提供了一种新方法。 也就是说,必须学习一个映射 F(c, s; θ),它使用内容编码 c 和风格编码 s 来生成动漫面孔。 表示从数据中随机选择的单个图像,T(·) 表示对该图像应用随机选择的增强的函数,P(C) 表示内容编码的分布,P(Y) 表示真实动漫的真实分布(等)在线卡通形象生成器,用于生成的动画图像。 这里必定有c(xi)∼P(C)。 由于风格被定义为在增强下不会改变的内容,因此增强的合理选择应该意味着 c(T(x_i)) ∼ P(C) ,即对图像应用随机增强将导致内容编码,这是一个例子之前的内容编码。 这个假设是合理的,如果严重违反,那么图像增强训练的分类器将无法工作。
损失函数为:
实验结果
在实验部分,研究采用batch size为7、λ_scon = 10、λ_cyc = 20、λ_adv = 1进行实验。 网络架构基于StyleGAN2[9],架构风格编码的维度为8。所有网络均使用Adam优化器[12]以0.002的学习率运行30万次批量迭代。 输入图像上使用的随机增强包括随机水平翻转、(−20,20)之间的旋转、缩放(0.9,1.1)、平移(0.1,0.1)、剪切(0.15)。 图像放大到286×286,随机裁剪为256×256。数据集主要使用selfie2anime数据集[10]和AFHQ的附加实验[1]。
定性比较
一般来说,当给定相同的源图像和不同的随机样式编码时,GNR 会生成不同的图像。 风格编码驱动头发、眼睛、鼻子、嘴巴、颜色等的外观,而内容驱动姿势、面部尺寸、面部部位的位置等。图4显示GNR在质量方面优于其他SOTA多模态框架和多样性。
GNR 生成不同颜色、发型、眼睛形状、面部结构等的图像,而其他框架只能生成不同颜色。
将多模态结果与 SOTA 迁移框架进行比较。
该研究还与图 5 中的 AniGAN [14] 进行了比较。请注意,尽管 AniGAN 是在更大、更多样化的数据集上进行训练的,但本研究能够生成更好、更多样化和更高质量的图像。 此外,AniGAN 的生成分辨率为 128 × 128,而本研究的生成分辨率为 256 × 256。
下图所示的消融实验表明,多样性鉴别器在保证多样性输出方面发挥着重要作用(图6)。 实验表明,多样性判别器显着促进GNR输出更加多样化和真实。 图像。
定量比较
表 1 提供了使用多样性 FID、FID 和 LPIPS 对 GNR 的定量评估。 在表1的所有实验中,发现GNR在所有指标上都显着优于其他SOTA框架。 DFID和LPIPS都注重图像的多样性,这些指标的得分定量地证实了本研究生成的图像的多样性优于其他框架。
视频到视频迁移
该研究对风格和内容的定义是,当脸部在框架内移动时,风格不应该改变,但内容会改变。 特别是,内容对特征的位置进行编码,而风格对特征的外观进行编码。 反过来,内容编码应该捕获所有帧到帧的运动来合成动画视频在线卡通形象生成器,而无需训练时间序列。
本研究将 GNR 逐帧应用于人脸视频,然后将生成的帧组装成视频。 图 3 第 2 行的结果表明,GNR 生成的图像根据源移动,同时随着时间的推移保持一致的外观。
- 本文固定链接: https://wen.nuanque.com/katong/21321.html
- 转载请注明: nuanquewen 于 吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计 发表
- 文章或作品为作者独立观点不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。本文之内容为用户主动投稿和用户分享产生,如发现内容涉嫌抄袭侵权,请联系在线客服举报,一经查实,本站将立刻删除。本站转载之内容为资源共享、学习交流之目的,请勿使用于商业用途。