首页 > 卡通形象 > 自己照片生成卡通照片-放假回来,安利给大家一个玩自拍的黑科技:一种基于GAN的卡通化自拍新方法
2023
07-04

自己照片生成卡通照片-放假回来,安利给大家一个玩自拍的黑科技:一种基于GAN的卡通化自拍新方法

来源:Arxiv 编译:TR

刚度假回来的你,手机里一定保存着漂亮的自拍照。 如果你能把这些自拍照变成带有卡通效果的漂亮照片,在朋友圈里绝对会是独一无二的。

这种画风比自拍更有艺术感。 但要实现高品质的卡通艺术P图,没有一定的美术基础是很难做出令人满意的效果的。

近日自己照片生成卡通照片,京东人工智能研究院的研究人员提出了一种基于GAN的自拍卡通化新方法。 在保证面部特征和面部表情细节的前提下,通过三种不同的损失函数将自拍图像转换为高质量图像。 的卡通形象。 与传统方法相比自己照片生成卡通照片,它大大提高了细节的抽象和保存以及局部纹理。

卡通化的自拍照在日常生活中一直有很大的需求。 人们可以在社交网络上以卡通自拍照作为自己的头像,这不仅彰显了自己的个性,也在一定程度上保护了自己的隐私。 此外吉祥物,在网络游戏和艺术海报、插画的设计中也非常重要。 然而,高质量的卡通自拍照需要画家大量的时间,如何高效地生成高质量的自拍照成为研究人员需要解决的问题。

针对这个问题,目前的方法主要分为两类。 传统的方法主要是基于草图提取的方法,并基于一定的颜色和形状后处理来生成卡通自拍照,这种方法广泛应用于很多相机应用程序中。 Google Play 商店中有大量类似的应用程序。

但这些方法往往需要人类工程师精心设计算法,针对不同的风格需要专门的算法设计和调整,在细节上与插画师还有很长的路要走。 这些方法一般通过人脸识别来分割面部特征,然后使用卡通渲染方法或特殊滤镜对图像进行处理以获得卡通图像。 虽然这些方法可以在手机上实现实时处理,但对于面部细节保留和图像抽象来说还不够完美。

近年来深度学习的发展给出了新的解决方案。 神经风格迁移(NST)可以将风格图像的风格迁移到内容图像。 但一般NST应用于卡通化时缺乏针对性的风格化能力。 另一种基于生成对抗网络的方法使用对抗方法来实现图像域迁移。 研究人员相继提出了pix2pix和Bicycle等方法将图像从一个域映射到另一个域。 然而,它最大的缺点是需要大量的配对数据进行训练,这对于许多图像传输任务来说是不现实的。

为了解决这个问题,研究人员开发了无监督域转移方法,例如 CycleGAN 和 UNIT,以使用不成对的数据训练模型。 对于图像卡通化,CartoonGAN和DAGAN等模型做出了许多有益的探索,但在捕获图像细节方面仍然存在许多问题,特别是对于生成自拍图像的高质量结果。 如何在保持艺术品风格化的同时,尽可能保留面部特征的细节卡通人物,是研究人员需要解决的问题。

对于自拍卡通化任务,目前主要面临三个挑战:缺乏人类自拍照和相应卡通图像的公共数据集; 如何保留卡通风格,包括内容的抽象和纹理特征的简化; 最后,在生成卡通图像时,如何保留最重要的面部轮廓特征,同时避免引入很多无用的细节?

自拍卡通化 GAN

为了解决这个问题,研究人员提出了 scGANs,这是一种基于 GAN 架构和循环注意力损失的卡通自拍图像架构,它充分利用注意力对抗网络来增强面部的特定区域,同时忽略低概率区域。层次纹理细节。 模型的架构如下图所示:

架构图展示了从自拍到卡通的训练过程,省略了从卡通到自拍的过程。

一个生成器首先将自拍照转换为手绘卡通图像,最后另一个生成器将生成的手绘卡通图像转换为自拍照。 使用相同的过程来训练卡通图像的模型。 考虑到卡通图像的纹理特征和数据集的规模,模型中采用Unet架构,可以更好地保证人脸和五官的边缘特征。 判别器采用基于图像切片的方法,不仅需要区分卡通形式的对抗损失,还需要在模型训练的另一个方面判断真实图像的对抗损失。

除了对抗性损失之外,研究人员还在该架构中添加了三种新的损失,即注意力循环损失、总变异损失和感知损失。

受到cycleGAN中循环连续损失的启发,研究人员提出了一种注意力循环损失来指导更好地生成人脸的主要细节的生成。 如眼影、瞳孔、鼻子、嘴巴等。 这些面部区域网络受到更多关注。 在这项工作中,研究人员使用人脸识别方法标记了四个区域,即完整的自拍照、眼睛、鼻子和嘴巴。 通过为每个区域设置相应的权重来构造损失。

此外,由于卡通图像的特征高度简化且颜色统一,因此需要对像素级损失进行指导。 研究人员观察到,艺术家的作品(左)仅在边缘处具有较大的梯度变化,而大多数区域的梯度变化较小。 生成的图像在全局范围内具有混乱的梯度场。

从上面的梯度图可以看出,要生成高质量的卡通自拍照,还需要在保持主边缘梯度的同时去除其他区域提案。 因此,研究人员提出将总变异作为损失,以最小化合成图像和手绘图像之间的梯度差异。 此方法可以去除脸颊上的阴影,更准确地描绘鼻子。

最后,为了保留输出图像中的空间结构和内容特征,研究人员使用VGG中的conv4_4层来计算生成图像与对应图像之间的感知损失。 最终的损失函数如下所示:

为了训练模型,研究人员通过谷歌图像搜索使用关键词搜索了3524张肖像照片,并从在线绘画商店下载了手绘、水彩、动漫等不同风格的总计4580张卡通图像。 训练后,下图是与目前几种基于深度学习的方法的对比:

最后一栏是本文提出的方法

可以看出,该方法总体优于当前的深度学习方法。 尽管NST保留了面部细节,但它无法有效地学习风格特征。 cartoonGAN生成的效果无法保留原始图像中的内容信息,尤其是眼睛特征损失严重。 UNIT和cycleGAN的结果稍好一些,但脸颊、嘴巴和鼻子上仍然有很多不满意的地方。 下表是本文方法的感知评价评分表,明显优于其他方法:

研究人员随后还对这三种损失进行了烧蚀分析。 下图中的be没有将变分损失tv相加,而cf则将总变分损失相加。 可以看到添加loss后眼线更加清晰,脸颊更加光滑无影。 这对于现实世界中的复杂照明和背景非常有用。

对于Attention Loop和Perceptual Loss的消融分析,可以看出,仅使用Loop Loss时效果并不好,但加入Attention Loop Loss后,人脸特征质量得到了提升,并且感知损失保留了更多低重要特征层次结构(眉毛和唇色)。

最后我们来看看各种漫画的自拍照,看看动漫头像:

或者水彩风格:

从今天开始工作,把自己换成漂亮的头像,努力做到最好! !

参考:

纸:

循环GAN:

卡通GAN:

-结束-

江门是一家专注于发现、加速和投资科技驱动型初创企业的新型风险投资机构。 旗下子公司包括江门创新服务、江门科技社区、江门创业投资基金。 江门成立于2015年底,创始团队由微软创投中国区原团队打造。 已为微软甄选并深度孵化126家创新科技初创企业。

江门创新服务专注于让创新技术落地现实应用场景,激活并实现全新的商业价值,服务行业领先企业和科技创新型初创企业。

江门科技社区专注于帮助技术创新型初创企业提供产、学、研、创领域核心技术专家的技术分享和学习内容,让创新成为可持续的核心竞争力。

江门创业投资基金专注于投资通过技术创新激活商业场景、实现商业价值的初创企业,重点关注机器智能、物联网、自然人机交互、企业计算等技术领域。 近三年来,江门创业投资基金已投资了数十家具有高成长潜力的科技型初创企业,包括量化科技、码隆科技、禾赛科技、宽拓科技、山数科技、地影嘎科技等公司。

如果您是科技领域的初创企业,不仅想获得投资,还想获得一系列持续且有价值的投后服务,请将项目发送或推荐到我的“门口”:

点击右上角,将文章放入朋友圈

盖特风险投资公司

让创新得到认可!

最后编辑:
作者:nuanquewen
吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计