首页 > 卡通形象 > 漫画生成器 人物-CariGANs:自动生成肖像漫画的图像风格转换
2023
07-03

漫画生成器 人物-CariGANs:自动生成肖像漫画的图像风格转换

人脸抽象漫画是一种相当常见的艺术形式,用于传达夸张和幽默。 本文提出了一种 CariGA Ns 的对抗性学习模型,可以将自然的人脸图像转换成这种幽默的漫画风格。 这个任务涉及到两个维度的风格变换:第一个是人脸形状的变换,一般被抽象为多个特征点。 形态转换是人脸特征点之间的转换; 其次是风格转换,将脸部风格纹理转换为漫画风格。 CariGAN 分别使用 CariGeoGAN 处理形态迁移和 CariStyGAN 处理风格迁移,如下图所示。

1

介绍

肖像漫画是一种比较常见的艺术形式,但漫画制作一直是一项需要专业绘画技巧的工作。 早在2000年,相关工作就出现了,尝试用技术手段实现肖像漫画设计的自动化。 但仍然需要专业设计师的介入。

随着深度学习的发展,特别是对抗性学习方法的出现,许多应用被应用于图像风格转换问题。 最著名的作品之一是 Isola 提出的 pix2pix。 Pix2pix是一种基于图像对的训练方法,它将风格从一张图片转移到另一张图片。 然而,基于图像对的训练方法在实际操作中存在一个很大的问题,那就是数据集的大小。 为了进行正确的训练,需要准备足够数量的配对训练数据,这是一项耗时的任务。 相反卡通人物,未配对的数据确实比比皆是。 另外,人像漫画还有两个关键的方面:一是造型要夸张,但不能随意夸张,也就是说要保证处理后的图像与原图的整体结构相似,某些部分可以被夸大; 另外,风格也要不同。

本文提出了一种CariGANs结构来实现不成对人脸风格的漫画,并设计了两个模块分别实现形状变化和风格转换。

2

CariGAN

假设X代表人脸集,Y代表处理后的人脸漫画集。我们的问题是学习一个映射

然而,直接学习这种映射存在很多问题,因此整个问题分为两个子问题:形态变换

以及外观改造

最后,将两个结果合并。 整体框架如下图所示。

CariGeoGAN 框架

检测人脸63个关节点漫画生成器 人物,将人脸以眼睛中心和嘴巴中心为中心。形态变化的目的是转换自然人脸的特征点

转换成

因为X和Y不是配对数据,所以映射

它受到约束。 解决不成对问题的常见方法是cycleGAN中引入的“逆变换”。 CariGeoGAN的框架结构如下:

人脸特征点并不直接作为生成器的输入,而是首先经过PCA处理。 原因是,如果直接使用特征点坐标进行处理,经过网络处理后就会失去特征点之间空间结构的约束,特征点直接决定人脸的形状,也就是说,特征点的微小误差就会导致面部形状的“扭曲”。 PCA过程实际上建立了一个嵌入空间,每个嵌入空间代表人脸形状的属性,例如方向、大小和姿势。 经过PCA处理后,特征点之间的空间约束将被保留。

这是一对生成模型:从 X->Y

并从 Y->X

,其中G为生成器,D为判别器。人脸图像经过特征点检测并经过PCA处理后,作为

输入得到变换后的特征点

经过PCA处理后,一方面发送给判别器

,另一方面到发电机

,重建X域的特征点。

Y->X 的映射也是如此。 Y域图像经过特征点检测和PCA处理后送入生成器

,得到X域的特征点,经过PCA处理后送入判别器

,另一方面到发电机

,重建Y域的特征点。 通过这样漫画生成器 人物,利用“逆变换”的方法来解决数据不成对的问题。

CariGeoGAN 损失函数

形态转换过程中使用了三种损失。

用于映射 Y->X,防止损失

定义也类似。 对抗损失的含义和形式与之前介绍的GAN模型非常相似,这里不再过多解释。 你可以参考一下文章。

在,

分别是X域和Y域的平均面。 这种损失惩罚了变换前后个体与平均值之间的差异相似。 类似地,对于变换Y->X,损失可以用同样的方式计算

文章贴心地给出了各种损失与最终结果的相对关系,如下图所示。 如果只有抗损失,从结果可以看出GAN出现了共模崩溃现象(每张图的变化都比较相似,下巴部分变大变圆)。 添加Cycle-consistency loss后,模式崩溃现象得到了缓解,但更严重的问题出现了,任意改变破坏了人脸的整体结构。 这也是面子问题的难点。 需要在保证脸部整体结构的情况下改变风格。 加上特征损失后,结果更加理想。

CariStyGAN 框架

CariStyGAN的任务是完成外观风格变换,将人脸图像X转换为

,在

画风很漫画,但形状仍然是正常人脸的形状。 CariStyGAN 仅涉及外观到纹理的转换。

回到最初的问题,我们想要将人脸X转换为漫画Y,而我们的数据只有X和Y两个域。因此,需要生成一个中间域

正好我们在Cari​​GeoGAN中引入了“逆变换”Y->X来解决不成对的数据训练问题,所以我们可以使用

将肖像漫画 Y 转换为

.现在的问题是如何构建映射

整体框架还引入了“逆变换”的思想,其中

框架如下。

从模型结构来看,生成器

(图中未标注)是自动编码器的结构。 论文没有强调生成器的概念,而是强调其结构由两个编码器和一个解码器组成。 文章的假设是图像是由稳定的内容加上可变的风格组成的。所以对于人脸图像

, 内容编码器

将其编码为内容c,样式编码器提取样式s。 对于内容c卡通人物,一方面,通过解码器

重建原来的样式s和内容c

,另一方面可以与

.生成新图像的风格

内容和风格也被提取出来,内容

结合原来的样式s也可以重构

CariStyGAN 损失设计

风格转换使用了4种损失的组合,也如上图所示。

对于映射也可以得到同样的结果

相应的损失

与映射类似

, 可以得到

。 最终的损失形式为:

交互风格控制

CariGAN 支持用户交互来控制形状和风格上的变形程度和风格。

3

参考

最后编辑:
作者:nuanquewen
吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计