漫画生成器人物-CariGANs：自动生成肖像漫画的图像风格转换 | 吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计

人脸抽象漫画是一种相当常见的艺术形式，用于传达夸张和幽默。本文提出了一种 CariGA Ns 的对抗性学习模型，可以将自然的人脸图像转换成这种幽默的漫画风格。这个任务涉及到两个维度的风格变换：第一个是人脸形状的变换，一般被抽象为多个特征点。形态转换是人脸特征点之间的转换；其次是风格转换，将脸部风格纹理转换为漫画风格。 CariGAN 分别使用 CariGeoGAN 处理形态迁移和 CariStyGAN 处理风格迁移，如下图所示。

介绍

肖像漫画是一种比较常见的艺术形式，但漫画制作一直是一项需要专业绘画技巧的工作。早在2000年，相关工作就出现了，尝试用技术手段实现肖像漫画设计的自动化。但仍然需要专业设计师的介入。

随着深度学习的发展，特别是对抗性学习方法的出现，许多应用被应用于图像风格转换问题。最著名的作品之一是 Isola 提出的 pix2pix。 Pix2pix是一种基于图像对的训练方法，它将风格从一张图片转移到另一张图片。然而，基于图像对的训练方法在实际操作中存在一个很大的问题，那就是数据集的大小。为了进行正确的训练，需要准备足够数量的配对训练数据，这是一项耗时的任务。相反卡通人物，未配对的数据确实比比皆是。另外，人像漫画还有两个关键的方面：一是造型要夸张，但不能随意夸张，也就是说要保证处理后的图像与原图的整体结构相似，某些部分可以被夸大；另外，风格也要不同。

本文提出了一种CariGANs结构来实现不成对人脸风格的漫画，并设计了两个模块分别实现形状变化和风格转换。

CariGAN

假设X代表人脸集，Y代表处理后的人脸漫画集。我们的问题是学习一个映射

然而，直接学习这种映射存在很多问题，因此整个问题分为两个子问题：形态变换

以及外观改造

。

最后，将两个结果合并。整体框架如下图所示。

CariGeoGAN 框架

检测人脸63个关节点漫画生成器人物，将人脸以眼睛中心和嘴巴中心为中心。形态变化的目的是转换自然人脸的特征点

转换成

因为X和Y不是配对数据，所以映射

它受到约束。解决不成对问题的常见方法是cycleGAN中引入的“逆变换”。 CariGeoGAN的框架结构如下：

人脸特征点并不直接作为生成器的输入，而是首先经过PCA处理。原因是，如果直接使用特征点坐标进行处理，经过网络处理后就会失去特征点之间空间结构的约束，特征点直接决定人脸的形状，也就是说，特征点的微小误差就会导致面部形状的“扭曲”。 PCA过程实际上建立了一个嵌入空间，每个嵌入空间代表人脸形状的属性，例如方向、大小和姿势。经过PCA处理后，特征点之间的空间约束将被保留。

这是一对生成模型：从 X->Y

并从 Y->X

，其中G为生成器，D为判别器。人脸图像经过特征点检测并经过PCA处理后，作为

输入得到变换后的特征点

。

经过PCA处理后，一方面发送给判别器

，另一方面到发电机

，重建X域的特征点。

Y->X 的映射也是如此。 Y域图像经过特征点检测和PCA处理后送入生成器

，得到X域的特征点，经过PCA处理后送入判别器

，另一方面到发电机

，重建Y域的特征点。通过这样漫画生成器人物，利用“逆变换”的方法来解决数据不成对的问题。

CariGeoGAN 损失函数

形态转换过程中使用了三种损失。

用于映射 Y->X，防止损失

定义也类似。对抗损失的含义和形式与之前介绍的GAN模型非常相似，这里不再过多解释。你可以参考一下文章。

在，

和

分别是X域和Y域的平均面。这种损失惩罚了变换前后个体与平均值之间的差异相似。类似地，对于变换Y->X，损失可以用同样的方式计算

。

文章贴心地给出了各种损失与最终结果的相对关系，如下图所示。如果只有抗损失，从结果可以看出GAN出现了共模崩溃现象（每张图的变化都比较相似，下巴部分变大变圆）。添加Cycle-consistency loss后，模式崩溃现象得到了缓解，但更严重的问题出现了，任意改变破坏了人脸的整体结构。这也是面子问题的难点。需要在保证脸部整体结构的情况下改变风格。加上特征损失后，结果更加理想。

CariStyGAN 框架

CariStyGAN的任务是完成外观风格变换，将人脸图像X转换为

，在

画风很漫画，但形状仍然是正常人脸的形状。 CariStyGAN 仅涉及外观到纹理的转换。

回到最初的问题，我们想要将人脸X转换为漫画Y，而我们的数据只有X和Y两个域。因此，需要生成一个中间域

正好我们在CariGeoGAN中引入了“逆变换”Y->X来解决不成对的数据训练问题，所以我们可以使用

将肖像漫画 Y 转换为

.现在的问题是如何构建映射

整体框架还引入了“逆变换”的思想，其中

框架如下。

从模型结构来看，生成器

（图中未标注）是自动编码器的结构。论文没有强调生成器的概念，而是强调其结构由两个编码器和一个解码器组成。文章的假设是图像是由稳定的内容加上可变的风格组成的。所以对于人脸图像

, 内容编码器

将其编码为内容c，样式编码器提取样式s。对于内容c卡通人物，一方面，通过解码器

重建原来的样式s和内容c

，另一方面可以与

.生成新图像的风格

。

内容和风格也被提取出来，内容

结合原来的样式s也可以重构

。

CariStyGAN 损失设计

风格转换使用了4种损失的组合，也如上图所示。

对于映射也可以得到同样的结果

相应的损失

。

与映射类似

，可以得到

。最终的损失形式为：

交互风格控制

CariGAN 支持用户交互来控制形状和风格上的变形程度和风格。

参考

本文固定链接: https://wen.nuanque.com/katong/933.html
转载请注明: nuanquewen 2023年07月03日于吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计发表
文章或作品为作者独立观点不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。本文之内容为用户主动投稿和用户分享产生，如发现内容涉嫌抄袭侵权，请联系在线客服举报，一经查实，本站将立刻删除。本站转载之内容为资源共享、学习交流之目的，请勿使用于商业用途。

最后编辑：2023-07-03

作者：nuanquewen

吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计

站内专栏站点

您可能还会对这些文章感兴趣！