一个智慧与美貌并存的智人是如何“培养”出来的?
元宇宙浪潮下,数字人率先走红。 近两年,国内数字人项目呈现井喷之势。 IDC预计,到2026年,中国AI数字人市场规模将达到102.4亿元。 作为时下最热门的技术话题,我们判断开发者有必要对数字人技术有完整的认识和理解。
在此背景下,InfoQ特别策划了“数字人基础技术剖析”专题。 本专题首先对数字人进行概述,然后分别对数字人技术、应用实现等维度进行讲解。 我们将收集国内业界一流团队的最佳实践,供读者参考。
本文是本主题的技术和实践章节。 近日,腾讯云智能Sapien产品总经理陈雷接受InfoQ专访,详细介绍了腾讯云智能在Sapien上的技术探索和应用实践。
“数字人”和“数字人”市场正在升温
这两年,尤其是今年,数字人炸上了天空。 陈雷认为,这种热情主要基于两个因素。
一方面,得益于多种技术的发展,云计算、5G、音视频技术、人工智能技术、渲染技术等不断发展和突破,极大地提高和简化了虚拟现实的制作和应用。人类; 在虚拟人的落地和行业拓展方面,不再只是传统的“中间人”方式,仅输出到影视娱乐行业,而是加速在各个行业的落地。
另一方面,从行业角度来看,全球科技巨头纷纷加大对元宇宙的投入。 例如,Facebook更名为Meta并宣布All In Metaverse; Nvidia推出Metaverse基础模拟与协作平台Omniverse; EPIC的MetaHuman和其他加速的Metaverse基础设施进展……这些都是强烈的市场信号。 被广泛视为人机交互新切入点的数字人类,率先利用了这一股东趋势。 从技术开发和市场应用双轨运行的发展来看,虚拟数字人产业已进入快速发展轨道。
腾讯布局“数字智人”
嗅到这样的行业趋势后,2021年,腾讯云智能将聚焦对话式AI,升级研发,推进“数字智人”业务。 陈雷主要负责业务团队的产品和研发。
去年腾讯数字生态大会上,腾讯首次公布云智能战略架构,面向管理者、生产者、开发者、用户整体,提供决策、协作、创新、服务。 陈雷表示,Sapiens是腾讯云智能的重要组成部分。 树之人以服务人民为价值理念,实现智慧与颜值并重,为企业创造价值,为用户提供温馨服务。
与市场上流行的“数字虚拟人”、“AI数字人”、“数字人”等概念不同,腾讯云智能对数字人的命名更倾向于“智能人”。
“腾讯的理解是,数字虚拟人、AI数字人的概念更注重皮肤好看,但数字智人本身在服务企业时需要两个维度,不仅要有好看的皮肤,还要有趣。”腾讯的灵魂,腾讯将Sapiens定位于“交互智能入门级”相关应用,技术包括感知、驱动、决策等环节,应用链接整个腾讯丰富的内容和服务生态。这个生态,我们打磨了平台的能力,在具体场景应用时,我们还可以结合行业内的知识图谱,从智能维度升级维度,让客户打造具有独立IP、智能决策的AI数字人“制作生动的互动,实现数字人类,智人的进化。”陈雷解释道。
12月1日举行的腾讯数字生态大会上,发布了《2023年数字人产业发展趋势报告》,指出AI驱动的数字人。 通过人工智能建立人与大数据的连接,提高效率,满足人类情感交流的需求,提升用户体验,将成为人机交互的新切入点。
“目前采用文字或语音交互的场景,可以通过AI数字人的软着陆来替代,不改变原有的商业逻辑和商业模式,大众接受的成本较低。同时,数字人是企业的数字资产,是对员工工作的增强,具有生产力的属性,可以进一步释放生产力,同时降本增效,未来数字人将根据业务特点更加深度融合以及不同行业的应用场景,孵化数千名人才的数字化员工,提供智能化服务。”
如何打造“智”与“美”兼备的智人?多重技术支撑,AI技术是核心
去年11月,腾讯云智能发布了Sapiens产品矩阵,包括3D写实、3D半写实、3D卡通、2D真实、2D卡通五种风格的Sapiens产品。
这些风格多样的产品主要基于图像的真实感和应用场景的维度。 可以定制不同的角色,满足各种场景的服务需求。 可承担信息播音、文化导游、代理客服、多语种主播、手语主播等工作。 和其他角色。
这些强大的功能背后都有一系列技术的支撑。 3D逼真数字人提供交互服务时,需要强大的渲染技术,包括端到端渲染技术和云渲染技术。 在图像表达层面,需要强大的计算能力和渲染支持。 在应用维度,音视频、5G等更快的网络技术可以帮助智人加速应用的落地。
陈雷介绍,Sapiens是AI的综合应用,从图像生成到交互、决策、驾驶、服务等各个环节都将应用AI技术。
腾讯云智能数字人整合了腾讯内部多个团队的优势AI能力。 比如在数字人制作过程中,在人像建模方面,通过优图实验室的相关AI技术,只需几张照片就可以实现。 快速生成逼真的人脸; 在动作绑定环节,例如要将动作从A智人转移到B智人,可以使用IEG的NExT Studios团队的动作和表情迁移工具来快速绑定,相比之下传统需要使用动作捕捉设备来采集动作从无到有,大大提高了生产效率; 对话式AI由云小微语音AI技术支持; 多情感驾驶能力有AI Lab等支持。另外,如果终端的渲染性能对于多维终端来说不够,可以通过云渲染或者云游戏相关技术来实现。 即使在云端渲染,也能实现无感知实时交互,且延迟很低……
虚拟数字人的发展需要全球的技术支持。 腾讯的优势在于,单点的每个技术维度都有一支在各种应用场景中不断深耕和突破的团队。 因此,智人构建的各个维度都建立了强大的技术壁垒。 这也是腾讯作为智人的优势。 同时,这些技术均在腾讯云的技术框架下,通过云智能数字智人的整体对外输出,助力行业升级。
多模态交互
多模态交互是Sapiens背后的核心技术支撑,大家都在强调这项技术。
陈雷表示,与业内同类产品相比,腾讯云Smart Sapien在这项技术上具有多重差异化优势。
具体来说,腾讯云Smart Sapiens集成了ASR、TTS、NLP、计算机视觉、知识图谱等全栈AI底层能力。 相对而言,中小企业中,具备全栈能力的仍然少数。 而且,如何更好地整合这些全栈能力也更具挑战性。 将这些能力结合在一起,可以使智人具备很强的表达能力、识别能力、感知理解能力。
此外,腾讯云AI目前支持34种语言,包括各种方言,翻译超过11种语言。 在多个垂直行业,拥有46万个垂直行业不同场景的热门词库,可以让智人在多个业务场景下“听得清楚、听得懂、表达得出来”。
在实时交互方面,与业界相比,腾讯云智智图像生成首帧延迟小于600ms,业界同类产品首帧延迟大于1s、1.5s。
陈雷介绍,低时延效果的实现取决于整个链路的优化。 一般分为三步。 第一步是图像生成:生成每一帧的视频内容; 第二步是链路传输:通过音视频技术传输视频; 第三步,设备端播放。 其中,第一步,团队采用模型切割和蒸馏技术加速推理方法,快速提升生成智人的图像生成能力; 第二步应用的音视频传输链路技术一直是腾讯的强项。 公司音视频实验室为此提供了大量的技术能力。 所有核心链路的能力串联后,实现600毫秒以内的延迟效果; 第三步,在多设备终端播放上ai数字人市场前景在哪里,腾讯也有配套的编辑器。 解码播放器。
音视频技术
当涉及到一些现实的数字智人时,对计算能力的要求会比较高。 如果普通大众使用它,很可能它根本无法在手机上运行。
然而移动端是Sapiens非常重要的应用端口,一些客户希望自己的Sapiens能够与用户进行交互或者服务。 这个过程会涉及到云渲染能力和音视频传输能力。 用户手机中的网络环境和带宽场景不同。 如何保证实时流畅、低延迟的交互,需要音视频技术的应用。
小模特训练计划:小胜大
与业内一些数字人产品大多采用大型模型不同。 在训练方案上,腾讯云Smart Sapien更偏向小模型,采用5亿级小参数的多语言预训练模型“神农MShenNonG”。
陈雷介绍,腾讯云智能在一些场景下也构建了百亿、千亿的超大型模型。 数量受到控制。 以千亿级别的超大型模型为例,训练时间较长,从训练到实现需要较长的周期。 而且,如果客户偶尔有小规模的数据变更,则需要不断滚动模型。 总而言之,周期、成本等都给应用上线带来了巨大的挑战。
对于数十亿级别的小规模参数的多语言训练模型,也需要数据量控制。 对此,腾讯云Smart Sapiens团队综合运用了混合编码的数据增强,基于多尺度多语言信息融合,做出了语言对比、语义对比等策略尝试。
模型虽小,但智能化程度一点也不差。 对于智人来说,使用小模型构建训练程序有很多优点。 在数据层面,腾讯云智能研究团队实现了一种构建混合编码数据的方法,利用双语对齐词典和句子检索工具,构建大量的多语言混合训练数据。 此外,在模型层面,团队还做了一些特色工作,例如可插拔、基于多尺度多语言信息的融合技术、低频词汇建模等。 就资源匮乏的语言而言,小数据、小模型可以解决很多问题。 在训练层面,相比传统市场1个月以上的模型迭代周期,神农MShenNonG可以在十天左右快速实现模型迭代。
陈雷认为,未来智人的模型训练方案将会出现逐渐趋同的趋势。 如果企业数据量足够大,或者场景足够大,首选大模型解决方案。 但现实情况是,在实际应用场景中,往往没有那么多的数据和计算资源,迭代周期中的时间前沿也不允许拉得太长。 因此,未来将是大车型和小车型融合的趋势。
数字智人进入真正的数字智人图像制作平台
在过去的一年里,云智能Sapient团队发现,Sapient在行业应用时,应用场景和行业非常广泛,实现大规模量产变得越来越重要。 在行业场景越来越多的情况下,如何持续快速地实现行业落地,更大的挑战是如何快速生产智人并以低成本、高效率的服务场景交付给客户。
因此,在智人的生产维度上,团队重点打造智人形象的生产平台,通过自动化生产流水线,提高面向行业智人的供给效率,缩短生产周期。
关于Sapiens图像制作平台的具体操作流程。 以面对媒体的2D互动智人为例。 Sapiens传统的制作方式是找主播在工作室录制图像视频,线下对视频数据进行大量的手工处理。 整个施工过程需要1-2个月的时间。 有了管道,就可以利用AI技术来处理视频数据,比如自动进行AI人像分割、将人物与背景分离、自动拆框等,提高交互表现力。 拆解后还可以对图像进行美化和各种数据增强,比如美白、去痣、对眼等影视级交互技术。
一般来说,定制一个3D写实智人的流程包括角色设定、原画设计、建模、绑定、服装、发饰、渲染,再加上驾驶和多模态交互。
人工智能技术可以在上述各个环节降低成本、提高效率。 比如在建模过程中,与传统的CG建模相比,节省了大量的时间。 过去需要几个月的时间,但现在有了肖像生成技术,几周内就可以完成。 建模成本也大大降低。 对于现实的数字人来说,普通公司的建模成本还是很高的。 腾讯云智能数字人的建模成本大幅降低。 比如造型尺寸基本上不需要太多的成本,只需要一些头发和衣服,成本就可以减少一半以上。
但值得注意的是,数字智人建模技术仍存在挑战。 对于超写实数字人这一范畴,通用建模的能力和水平还不能特别完美。 目前的技术达不到超写实自动生成技术,主要采用传统方法。 例如,在头发的制作过程中,大部分依赖于传统CG公司的手工制作。 现在AI在生发技术方面也在探索,但还没有达到实际应用的阶段。 例如,基于与基础模板相同的服装,改变其上的纹理可以降低成本,但如果是柔性材料的全新服装,则还取决于外部供应。
但对于2D人类数字人来说,通过这个生产流水线,即使是不懂AI技术的员工也可以独立跑完这个流程,大大降低了生产门槛。 构建时间降低到了天级,并发维度的pipeline也没有卡点,比之前快了很多。
应用于金融、传媒等多个领域
据介绍,在应用环节,腾讯云智数智团队最初聚焦金融、媒体等典型场景的典型应用,然后进行单点切入。 今年,一方面团队在行业服务或者企业服务的维度上做了更多垂直或者场景化的改进。 另一方面,聚焦交互智能入口维度。 Sapiens定位于交互智能的入门级应用。 例如,经常看到Sapient被用于银行迎宾、金融知识讲解等场景。 其背后的逻辑主要是为了大幅提升服务的“体温”。
目前,腾讯云智能数字智人已在金融、政务、媒体、文旅、交通等多个行业广泛落地。
例如,在应用服务方面,在中证建投的应用中,腾讯云Smart Sapien是证券行业首个交互式Sapien; 手语方面,3D手语Sapien担任冰雪赛事手语解说翻译员; 在文化旅游领域ip形象,打造国博会虚拟形象代言人艾雯雯; 在汽车领域,升级互动数字智能人; 在与一汽大众的合作中,将虚拟人与虚拟空间相结合,以更新的形式完善体验式服务,大幅提升用户体验。
陈雷介绍,智人的行业适应一般分为两个阶段。 一是基于现有行业的数据积累,构建垂直领域的预训练模型; 第二,对于一些特殊的项目,Sapiens有能力提供第三方知识,或者有能力根据客户的小样本数据进行再训练,这两点的结合可以让整体Sapient企业服务变得更好。
例如,针对行业的深度企业服务,与对话式AI融合,从前端问答、产品推荐到售后客服,结合对话洞察的智能对话能力,最终可以跨越整个生命周期。 这就要求Sapiens服务兼具行业深度和场景深度,结合对话式AI模型的训练能力,为行业增值、提升效率。
例如,在金融场景,腾讯在金融机构实现了3000多名Sapiens客服,辅助传统人工客服工作,并利用Sapiens+对话式AI帮助解答用户问题。
腾讯云Smart Sapiens在不同行业实际应用时,对领域知识也有很高的要求,构建不同行业的行业知识图谱。 通过神农MShenNonG对话模型的快速迁移,进入一个行业,帮助客户进入行业后快速创建适合自己行业的模型。
申请难点
但整体来看,Sapiens在业界的落地还存在不少困难。 比如行业知识积累不够,或者内容不规范、不完整。 对此,腾讯云智能数字智人团队正在构建知识生产的工具,以提高知识生产的效率和效果。 此外,在拓展产业时,腾讯云AI AI团队正在走的方向之一就是利用NLP的能力以及快速训练模型的能力,让AI人掌握更好的领域技能。
另一个困难是计算能力。 虚拟人对计算能力有很强的要求。 随着算力的提升,Sapiens的整体性能将会线性上升。 表现力包括图像渲染的逼真度、表达的逼真度以及驾驶技术、感知技术、决策智能技术的呈现效果。 在Sapiens的一些内容制作环节,以及一些Sapiens与虚拟空间相结合的技术中,对计算能力的要求非常强烈。 例如,当腾讯数字智人与虚拟空间结合时,虚拟空间将有数十GB的渲染资源需要加载。 3D超写实Sapien的网格一般有20万到30万个网格,所有这些都需要强大的计算能力。
此外,腾讯云Smart Sapiens希望利用AI驱动的技术,将Sapiens放到企业服务场景中,为企业提供增效服务,而这些都对算力有一定的要求。 企业现实世界的数字智人为用户提供大规模服务时,有时需要大规模并发,因为客户或客户群体的整体规模也需要高弹性或云计算空间。
在这个层面上,腾讯云智能团队做了很多技术优化。 首先,在渲染维度,通过云游戏技术或者音视频链路降低成本。 还结合云混合渲染,与客服深度结合,结合云混合渲染模式降低服务成本。
商业模式
尽管虚拟人的发展仍处于早期阶段,但其商业模式的讨论已被业界提上日程,腾讯云智人也在商业模式上进行了一些探索。
目前,腾讯云智智主要服务B端企业用户,通过服务B端客户,连接服务到C端用户(B2C)。 通过Sapient,可以提高企业服务质量,企业也可以作为用户使用Sapient。 改善服务用户体验的运营。
据陈雷观察,从数字智人的发展趋势来看ai数字人市场前景在哪里,为企业提供的服务和周期分为以下几类。 一是帮助企业打造形象代言人。 其次,当公司中有形象代言人时,在一些营销场景中,比如广告的改造和运用,Sapiens会带来很强的吸睛效果。 此外,在与一汽大众的合作中,腾讯云智能探索了虚拟数字智能与虚拟空间的结合,通过新的方法帮助客户提高投资留存率。 有些企业利用数字人进行日常用户运营,比如直播,用人驱动或AI驱动的方式,为自己的客户运营进行直播。 这些工具可以拓展私域运营的手段。 此外,Sapient还可以围绕用户服务生命周期提供精细化的企业服务,例如客服场景、对话场景等,目前在各个维度都有一些好的实践。
数字智人与真理互联的下一个人机交互范式
陈雷表示,腾讯将Sapiens定位为交互智能的重要入口。 今年7月,腾讯云智能、腾讯研究院、创业黑马联合发布的“数字智人十大趋势”提到,无论是基于身份的数字智人,还是集语言理解、表达于一体的服务或者学习交互能力Digital Sapiens,从在线服务到场景体验,Digital Sapiens是一个比较典型的人机交互范式和切入点。
而且,从整体内外部趋势来看,智人将进入大规模应用期,加速向现实生产力转化。 无论是消费级还是企业服务赛道,都能创造巨大的商业价值。
完全互联的世界中的数字智人
数字虚拟人的话题性很大程度上与元宇宙密不可分。 元宇宙是近两年的热门概念。 一种理论认为,腾讯提出的全真互联网是元宇宙的另一种表达。
陈雷表示,腾讯希望利用物联网、人工智能、云计算等技术,充分感知、链接现实世界和虚拟世界,用融合数字智能的创新技术,满足各行业升级换代的需求。转型。
Sapiens是AI技术可视化的体现。 人工智能综合应用需要不断融合各种创新的人工智能,包括决策智能背后的大数据、云计算技术、音视频技术等。本质上,Sapiens是技术层面对真正互联网的探索。
陈雷列举了智人未来在全真互联网的一些应用场景。
例如,去银行办理业务,用户现在必须离线到实体银行的窗口,但如果是全真互联的形式,用户可以坐在家里,使用电脑或者AR通过自己的身份进入场景,进入银行。 展厅结束后可以获得营销服务,这些服务由公司智人提供,包括营销推荐、推荐后实时互动、银行卡开卡服务等。互动服务进行了升级,节省了时间用户可以线下到实体网点,提高效率。 在这样的交互式门户中,Sapiens 将发挥重要作用。
值得注意的是,在企业服务化场景下,如果企业智人本身在一些智能场景有足够的行业积累和知识图谱ip形象,在AI技术的加持下,智人能够适应和自动学习,不断提升服务能力,在全现实互联网中为用户实现更好的服务。
采访嘉宾介绍:
陈雷,腾讯云智能数字智人产品总经理。 先后参与浏览器、腾讯翻译机、腾讯同声传译、腾讯云智能数字智人等产品的研发。
- 本文固定链接: https://wen.nuanque.com/aigc/11863.html
- 转载请注明: nuanquewen 于 吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计 发表
- 文章或作品为作者独立观点不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。本文之内容为用户主动投稿和用户分享产生,如发现内容涉嫌抄袭侵权,请联系在线客服举报,一经查实,本站将立刻删除。本站转载之内容为资源共享、学习交流之目的,请勿使用于商业用途。