首页 > 卡通形象 > ai漫画人物生成器抖音-抖音火爆的“变身漫画”滤镜背后到底运用了怎样的黑科技?
2023
07-04

ai漫画人物生成器抖音-抖音火爆的“变身漫画”滤镜背后到底运用了怎样的黑科技?

近日,抖音推出了一款动画特效滤镜“变漫画”,用户在直播时可以将自己的真实形象瞬间转变为二维“画风”。 对于二次元动漫迷来说,“打破次元墙变纸人”的自娱方式可谓是一种长久的娱乐。 在此之前,还出现了各种美颜修图、视频直播等应用。 类似的功能也相继被开发出来,但都无法让用户拥有“二维克隆”。 那么,这个可以“移动”的二维滤镜背后到底隐藏着什么黑科技呢?

著名电竞选手PDD秒变二次元帅哥,观众直呼:“破解”

神奇的风格转移

从计算机视觉制作的角度来看,将一张图片的视觉元素与另一张图片的视觉元素混合称为风格迁移。

将日本著名浮世绘作品《神奈川冲浪里》转印到马皮表面的效果|

照片的风格转换可以通过使用可视化编辑软件手动完成。 当然,像抖音这样在全球拥有数亿用户的短视频社交平台,需要人工智能算法的加持,尤其是“卷积神经网络”(Convolutional Neural Network,CNN)。

如今,“深度学习”之所以成为热门概念,可以追溯到2012年卷积神经网络的诞生。不要被这个高大上的名词吓到。 它的原理其实并不复杂。 可以用小学数学来解释:在AI眼中,任何图片都是一个像素矩阵(左),而卷积核(kernal)又是一个小矩阵(中),它们叠加在一起卡通人物,数值​​​​对应位置的相乘并求和,得到“特征图”(右)。

卷积核一般不大,有的5×5,有的3×3,就像工程师的地雷探测器一样,用来检测图片中存在的模式。 对信息进行逐级处理,最终得到分类识别结果。

如今的AI,要想识别视觉图像,首先要教会它“学习”特征提取|

提醒大家,不要以为人工智能就是科幻电影里的超级计算机,无所不知、无所不能。 事实上,它目前的“认知能力”非常弱,几乎相当于0到4岁的孩子。如上图所示,如果科学家想让人工智能识别一些基本的物体,比如人脸、汽车、动物、还有椅子,他们首先要“提取”这些物体的特征,也就是上图第二行那些面部特征、轮子、树干、椅背等,交给人工智能来“记忆”。 然而,可怜的人工智能只能将这些特征进一步简化为图中第三行的简单形状符号,并“死记硬背”。 人工智能领域的科学家必须像耐心的父母教育孩子一样不断调整和优化这些最基本的形状符号,将其变成机器可以理解的“卷积核参数”。

卷积核中的数量决定了它能检测到什么样的特征,要么是轮廓,要么是形状,要么是纹理,而“风格”就是各种特征的组合。 这些负责判断不同图形特征的卷积核分层排列,构成了卷积神经网络。

ImageNet成立后,每年将举办全球视觉识别挑战赛(ILSVRC),鼓励全球科研团队拿出自己的AI图像识别算法进行PK |

孩子认识物体的最好方法就是多接触周围的环境,或者看绘本、画册。 对于像AI这样的孩子来说,它读的图画书就是ImageNet:一个非常大的数据集表情包设计,有1000个类别和数千万张图片。 卷积神经网络就像一个笨手笨脚的孩子,整天在ImageNet中玩“看图片识别物体”的训练游戏。 随着时间的推移,它逐渐具备了相当的特征提取能力。

要让人工智能能够对大量实时图像进行批量风格迁移,就好像让这个笨手笨脚的孩子浏览大量物体的形状和颜色,然后训练他提取不同的特征,最后形成一个图像。 比如,想让孩子画一张“紫色大象”,家长就必须给孩子看两张照片ai漫画人物生成器抖音,一张是非洲草原上可以找到的大象,一张是紫色的色卡。

然后,小AI开始画画(计算)。 首先,他将两张照片发送到同一个神经网络并进行合成。 要求这幅新画的形象尽可能接近大象,颜色尽可能接近紫色。 然后,经过反复的内容和风格特征提取ai漫画人物生成器抖音,AI最终可能会达到满意的效果。

让AI自己学会画画

那么AI是否有可能像一些聪明的孩子一样,在没有科学家(父母)指导的情况下开始自学呢? 科学家们提出了一个想法:生成对抗网络,它由两个独立的人工智能网络组成,它们是生成网络(G)和判别网络(D)。 生成网络就像画画的傻孩子,判别网络就像严格的美术老师,负责给孩子们的作品打分。

对抗网络图像识别与识别流程图|

判别网络的任务很简单,就是区分真假。 什么是真的? 自然捕捉到的图片才是真实的,而人工合成的图片则被称为“假”。 生成网络G将生成一批假数据来训练判别网络。 一开始的假数据很粗糙,肯定不会通过。 因此,判别网络只需要非常初步的识别能力就可以识别。 “ 阶段。

D取得了进步,G必须迎头赶上,然后训练生成网络,目标是生成更真实的数据并愚弄当前的判别网络。 这些新数据用来训练判别网络,判别网络自己产生、自己消化等等。

在这个不断博弈的过程中,两个网络的能力都得到了提升。 就像武侠小说中的“梯云​​宗”一样,左脚踩右脚,右脚踩左脚,武功高强的好汉可以飞上屋顶,走上墙头。 训练完成后,判别网络可以作为“工具人”暂时休息一下,让生成网络(G)生成图像。

现在,AI这个会画画的孩子,可以在没有指导的情况下根据图像进行临摹,然后自己学习着色(风格迁移)。 但此时,严格的美术老师的判断网D即将再次出现。 这次不仅要辨别图像是否真实,还要看着色(风格转移)过程中是否存在其他偏差。

如图所示,在大多数现实对象中,并没有太多的对应关系,因此需要两代网络各司其职,互相检查和控制|

当然,现实生活中能够形成严格对应关系的物体并不多。 为了保证准确性,AI工程师会同时引入两组生成网络。 例如,我们想把一匹马的照片变成一匹斑马,但显然,现实中你可以找到两只除了颜色之外一模一样的鞋子,但不可能有两匹完全一样的马和斑马。形状和面部特征相似,因此需要两个生成网络来履行职责。 生成网络A完成从马到斑马的转换,另一个生成网络B负责从斑马到马的转换。 这样,在优化过程中,双方就可以互相制衡。 这就是近年来应用越来越多的深度学习算法CycleGAN。

有了CycleGAN算法,我们就像仙女棒一样,可以随意变老、变小、变美|

这套算法是目前市面上大部分美图软件滤镜背后的幕后功臣。 什么“LOMO风格”、“甜美日系风格”、“黑白粘笔”、“美白嫩肤”,都能让用户轻松一键完成,完成瞬间“蜕变”。

美图秀秀的各种滤镜,相信大家都已经很熟悉了|

Landmark Assisted CycleGAN生成的卡通形象,最左边是真人图像,最右边是最终输出结果|

不过,如果想把自己的视觉形象转变成类似抖音里的二维纸人,还有最后一个门槛,因为次元墙没那么容易打破,真实人脸和卡通人脸的结构差异太大的话很难捕捉到脸部的基本特征。 因此,专家们设计了一个优秀的助手Landmark Assisted CycleGAN来帮助AI,让这个傻孩子可以根据真实用户的脸“画”出相应的卡通形象。 简单来说,它的训练机制是,每当CycleGAN提供一张人脸图像时,它首先标记人脸的关键点,然后根据这些标记点生成初始卡通形象,并将这些标记输入到判别网络中。 然后,启动两个CycleGAN中的两个图像生成网络,使卡通形象和人脸图像不断被识别并反映在屏幕上,即你看到一个与你一模一样的栩栩如生的二维纸人。

更重要的是,这些二维图像还必须与视频中的真实图像一起“移动”,这涉及到巨大的计算量。 数千个用户同时使用过滤器,会形成大量的计算数据。 如果单纯依靠云计算来分析这些视频数据,然后找到一种方法来定制每个用户并绘制二维图像,那么很可能会出现卡顿,进而影响用户体验。 为了避免卡顿,这些训练好的人脸识别模型会随着软件的更新而被“输送”到每个用户的手机上,而每个抖音用户手机中的CPU和GPU计算能力也将被“调动”起来,执行真实的人脸识别模型。 -时间推断计算。 据抖音技术团队介绍,“变身漫画”滤镜采用字节跳动自主研发的推理引擎ByteNN,高效利用移动端的算力,使AI算法能够快速落地每个用户的移动设备。 这就像一家产能不足的工厂,将部分加工工序连同加工设备一起外包给厂外数千个家庭小作坊。

日本Botsnew VR公司推出了一款以龙珠为主题的VR眼镜。 利用AI图像识别和推理机制,你可以在游戏中将自己变身为龙珠风格的动漫角色,周围的NPC角色可以与你同步动作,比如发出著名的龟派气功波|

能够根据模板自行创建的AI图像生成技术,未来或许会为我们开辟许多不可思议的电子互动娱乐场景和模式。 想想看,戴上有此功能的VR/AR设备,挥舞一下,画廊里的莫奈名画就变成了摇曳生姿的现实AR风景,动动手指,屏幕上的电影或者二维动画人物就会出现打破穿越次元壁来到你身边——我和儿时偶像《龙珠》中的悟空并肩作战,在VR场景中一起发出龟气气功波,多么热血沸腾啊!

打破次元壁的梦幻世界,你期待吗?

最后编辑:
作者:nuanquewen
吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计