首页 > 卡通形象 > 个人卡通形象图片-四大AI技术解决方案,教你拥有属于自己的头像形象
2023
07-03

个人卡通形象图片-四大AI技术解决方案,教你拥有属于自己的头像形象

火之分身到底是什么?

随着虚拟宇宙概念的流行,阿凡达这个词也开始越来越多地出现在人们的视野中。 2009年个人卡通形象图片,詹姆斯·卡梅隆执导的一部3D科幻大片《阿凡达》让很多人认识了英文单词Avatar。 然而很多人不知道,这个词并不是导演发明的,而是来自梵文,是印度教中的一个重要术语。 根据剑桥英语词典,Avatar目前主要包括三种含义。

avatar在剑桥词典的翻译 © Cambridge University Press

最初吉祥物,阿凡达起源于梵语avatarana,由ava(关、下)+tarati(交叉)组成,字面意思是“脚踏实地”,指神灵降临人间的化身,通常指主神。毗湿奴神(VISHNU)以人类或动物形态降临地球。 它于 1784 年进入英语词汇。

1985 年,Chip Morningstar 和 Joseph Romero 在为 Lucasfilm Games (LucasArts) 设计在线角色扮演游戏 Habitat 时,使用“avatar”一词来指代用户的在线头像。 随后在1992年,科幻作家尼尔·斯蒂芬森所著的《雪崩》一书描述了一个与现实世界平行的虚拟宇宙。 现实世界中的所有人在虚拟宇宙中都有一个阿凡达,这是这个词第一次出现在大众媒体上。

在互联网时代,阿凡达这个词开始被程序员在软件系统中广泛使用,用来表示用户或其性格的形象,也就是我们常说的“阿凡达”或“个人秀”。 头像可以是网络游戏或虚拟世界中的三维图像,也可以是在线论坛或社区中常用的二维图像。 它是一个可以代表用户本人的标记。

从QQ秀到阿凡达

如今,支持用户创建自己的头像已经成为各类软件应用的标配,而用户使用的头像也随着技术的发展从普通的2D图像发展到3D图像。 里程碑事件是在2017年,苹果在iPhone X上发布了一项新功能——Animoji,它利用面部识别传感器来检测用户面部表情的变化,同时用麦克风记录用户的声音,最终生成可爱的3D动画表情符号。 用户可以通过 iMessage 与朋友分享表情符号。 但第一代不支持用户自定义图片,只支持系统内置的动物卡通头像。 随后更新的Animoji II开始支持用户自由捏脸,生成风格化的脸部头像。 目前,自动捏脸功能在很多场景中都可以看到。 只需一张或几张照片即可自动生成符合用户脸部特征的CG模型,但它依赖于复杂的CG建模和渲染技术的支持。

Avatar 还可以跳过昂贵的 CG 建模和渲染过程,并通过机器学习算法对捕获的面部进行“风格化”。 即自动传输目标训练风格,并与拍摄者的原始面部特征相融合,创建出与用户面部特征相匹配的风格化面部头像。

人脸风格化 Avatar 的四种技术实现路线 什么是人脸风格化?

所谓人脸风格化,就是将真实的人脸头像转换为特定风格的头像,比如卡通风格、动画风格、油画风格,如下图所示:

基本上,人脸风格化的实现可以通过纹理映射、风格迁移、循环对抗网络和隐变量映射等几种技术路线来实现。

纹理贴图

纹理映射一般给定一张样本图片,通过算法将图片的纹理自动逐像素或逐块地粘贴到目标人脸上,形成合理、自然、可移动的人脸掩模[1]。

[1] 示例图像

风格转移

风格迁移给定一张或一组风格照片,基于学习方法,从风格图片中提取风格代码,从目标人脸图片中提出内容代码,通过两组自动生成对应的风格化图片代码 [2, 3]。 仅改变人脸图像的表面纹理,但无法合理保留或调整人脸的结构属性表情包设计,形成有意义的结构风格变化。

[3] 示例图像

循环对抗网络

采用循环对抗网络的方法,利用循环对抗网络及其重构约束进行训练,无需配对训练样本即可达到风格化效果。 样式传输通常与分别提取样式编码和内容编码结合使用。 人脸风格化还会根据目标风格属性(如基于人脸关键点)显示建模、变形人脸结构信息。 但由于循环对抗网络的中间结果缺乏约束(如A中的A->B->B),导致最终的生成效果不可控且不稳定(即A->B的合理性)不能保证)[4]。

[4] 示例图像

潜变量映射

隐变量映射一般将预先训练的具有一组风格图片的真实人脸生成模型微调到目标风格,从而获得相应的人脸风格化生成模型[5, 6]。 利用编码网络将输入的人脸图片映射为或基于多步优化得到该图片对应的隐变量,并以此变量作为人脸风格化生成模型的输入,得到人脸图片对应的风格化图片。 其中,基于优化的隐变量映射方法往往能获得较好的结果,但在实际操作中需要大量的计算。 映射后的隐藏变量虽然包含了人脸的全局信息,但很容易丢失原始输入人脸的细节特征,很容易导致生成的效果无法体现个人识别特征和详细表情。

[5] 中的示例图像(来自)

[6] 示例图像

阿里云视频云自研卡通智能画头像

2020年,阿里云视频云自主研发的卡通智能绘画《阿凡达》横空出世,引起了业界的关注。 2021年10月云栖大会上,阿里云视频云卡通智能绘图项目在阿里云开发者展台亮相。 近2000名参会者竞相体验,成为大会上的一大亮点。

阿里云卡通智能绘图采用潜变量映射技术方案,通过挖掘虚拟图像的显着特征(如眼睛大小、鼻子形状等),自动生成具有个人特征(即风格化后的效果)的虚拟图像。 )。

首先,利用我们自己的海量版权高清人脸数据集,训练一个可以无监督方式生成高清人脸图片的模型,即真实的人脸模拟器,在控制下生成大量不同的面部特征的隐藏变量。 高清人脸图片。 使用少量收集的目标风格图片(目标风格图片不需要与真实人脸一一对应)对模型进行微调,得到风格化的模拟器。 真实人脸模拟器和风格化模拟器共享隐变量,即一个隐变量可以映射到一对“伪”人脸图片及其对应的风格化图片。

通过对大量潜在变量进行采样,我们可以获得大量涵盖不同人脸属性(性别、年龄、表情、发型、戴眼镜等)的数据对,这些数据对可用于训练图像翻译网络。 根据人脸先天结构(如眼睛、鼻子等)以及真实人脸与风格化虚拟图像之间的结构差异(如卡通形象的眼睛往往又大又圆),添加局部区域相关性对网络模块的计算和人脸重建进行约束,使得训练后的网络生成的虚拟图像既生动可爱,又具有个人特色。

模型设计

根据人脸先天结构(如眼睛、鼻子等)以及真实人脸与风格化虚拟图像之间的结构差异(如卡通形象的眼睛往往又大又圆)个人卡通形象图片,添加局部区域相关性对网络模块的计算(即希望真人的眼睛和虚拟人物的眼睛有一定的对应关系)和人脸重建的约束,使得生成的虚拟人物既生动又可爱,并且具有个人特色。

显示结果:

阿凡达的未来

感谢人工智能技术的快速发展,我们现在已经有了制作虚拟人的技术,但我相信这只是一个开始。 在可预见的未来,阿凡达将作为元宇宙数字居民的数字化身越来越频繁地出现在虚拟世界中。 而阿凡达也将成为虚拟世界中极其重要的数字资产。

最后引用扎克伯格对数字人的描述,“虚拟世界的特点是存在感,即你可以真实地感受到另一个人或在另一个地方。 创作、虚拟人和数字物体将成为我们的自我表达。” 从本质上讲,这将带来全新的体验和经济机会。”

扎克伯格在 7 月份对分析师表示:“虚拟宇宙的定义品质是存在感,即你真的与另一个人在一起或在另一个地方的感觉。” “创造、化身和数字对象将成为我们表达自我的核心,这将带来全新的体验和经济机会。”

参考:

[1] Aneta Texler、Ondřej Texler、Michal Kučera、Menglei Chai 和 Daniel Sýkora。 FaceBlit:基于示例的即时风格转移到面部视频,ACM 计算机图形和交互技术会议录,4(1),2021 年。

[2] 莱昂·A·盖蒂斯、亚历山大·S·埃克和马蒂亚斯·贝思格。 艺术风格的神经算法。 《视觉杂志》2016 年 9 月,第 16 卷,第 326 页。

[3] 文森特·杜穆兰、乔纳森·施伦斯和曼朱纳斯·库德勒。 艺术风格的学术表征。 2017 年国际学习表征会议。

[4] 曹凯迪,廖静,陆远. CariGANs:不配对的照片到漫画的翻译。 在 ACM 图形交易(Siggraph Asia 2018)中。

[5] 贾斯汀·NM·平克尼和多伦·阿德勒。 分辨率相关的 GAN 插值

用于域之间的可控图像合成。 在 NeurIPS 2020 研讨会上。

[6] 宋国贤,罗林杰,刘静,马万春,赖春蓬,郑传霞,詹达仁。 AgileGAN:通过反演一致迁移学习风格化肖像。 在 ACM 图形交易 (Siggraph 2021) 中。

扫码进群,与作者讨论音视频技术

最后编辑:
作者:nuanquewen
吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计