作者 | 鑫源
编辑| 莫英
写在前面:2021年,当元宇宙、虚拟数字人等概念火热时,高质量的训练数据资源正在成为雄心勃勃的AI企业解锁更强智能的关键燃料。 通过与国内唯一A股上市数据服务商海天瑞祥的对话吉祥物,我们尝试探讨这波新兴技术背后隐藏的基石作用以及如何用技术解决智能升级过程中的核心痛点。
2022年,如果不关注虚拟数字人,你就会落后!
近一年来,AI虚拟主播、虚拟学生、虚拟员工轮流上班,成为元宇宙和人工智能两大领域最热门的科技赛道之一。
▲万科首位数字化员工崔晓攀荣获万科总部最佳新人奖
一些虚拟数字人已经表现出高度的灵性。 他们不仅发音标准自然,肢体动作流畅,就连眨眼频率、嘴型与声音的配合等细节都栩栩如生。
这些风靡全国的特殊生命体,通过日益多样化的形象定制和舒适的交互体验,逐渐蜕变成智商和情感更接近真实人类的新社会角色。
而“多模态技术”则是打破单一感官壁垒、让AI虚拟图像越来越像人类的秘密武器。
1、跳出圈子,多模态缺“完美”虚拟人
数据是连接现实世界和虚拟世界的桥梁。
在现实世界中,数据自然以“多模态”的形式存在。 人类通过综合运用视觉、听觉、触觉、嗅觉等多种感官来接触和认识世界。
为探索通用人工智能(AGI)的实现路径,人工智能(AI)从单一模态走向多模态已成为大势所趋。
过去,Siri等语音助手只有声音,没有面孔。 搜索只能依靠文字输入,机器无法理解照片的深层含义。
如今,人工智能借助多模态技术,实现了图像、视频、音频、语义文本等多维资源的整合和互补。 不仅决策变得更加准确,而且在行为和智商上也更接近人类。
COVID-19 疫情也促进了多模式技术的实施。 在人们日益重视隐私和安全保护的趋势下,多模态生物识别正在取代基于指纹、人脸等单一生物特征的识别方式,具有更高的准确性和安全性。
隐藏着多种黑科技的AI虚拟主播,也是基于多模态技术的快速演进,成为从感知智能到认知智能阶段的重要探索。
他们精致的面容、流畅的表情、优美的姿势,离不开微表情追踪、语音识别、语音合成、自然语言理解、动作捕捉等丰富技术的支持。
▲虚拟数字人技术架构(来源:《2020虚拟数字人发展白皮书》)
其中ai虚拟数字人,AI手语主播要解决的技术难点尤为复杂。 为了满足听障人士的需求,需要具备将中文、英文等语音实时“翻译”成连贯手语的能力。
但手语有独特的语法系统。 如果有央视押韵狂人朱广权的一段话,“冷气很强,但强了就可以强,山上清风吹,强了就可以不羁。长裤保护”你的健康。” 这将极其考验AI手语主播的理解能力和翻译能力。
为了实时准确地演示手语,AI主播需要先将语音转换为文本,然后将听到人的文本词序转换为手语词序,最后根据手语数据集进行手语合成以视觉形式向观众传达相同的信息。 听力障碍。
在此过程中,获取满足需求的训练数据成为最具挑战性的问题之一。
这是因为,作为一种视觉语言,手语比语音语言模式复杂得多。 它不仅包含手形、手位等手动信息,还包含表情、口腔动作、姿势等非手动信息。
如果从2D视频中采集手语动作数据,难免会遇到动作受阻、面部特征区分不清、缺乏空间深度信息等问题。
▲央视冬奥会AI手语主播
综合起来,通过专业设备采集的3D多模态数据已成为为数不多的在特定垂直场景下优化AI虚拟数字人智能水平的解决方案之一。
如何获得高质量的多模态训练数据库? 人工智能基础数据服务商的商业价值日益凸显。
2、高质量算法的“杀手锏”:高质量数据背后的技术考验
数据、算法、算力被统称为“人工智能三要素”。 数据的质量往往决定了AI算法模型性能的上限。
随着AI应用越来越普及,位于基础设施层的AI数据服务产业蓬勃发展。 知名市场研究机构IDC的报告显示,到2025年,中国人工智能数据采购和标准化服务市场规模预计将增至123.4亿元。
▲2020-2025年中国人工智能基础数据服务市场规模预测(来源:IDC中国)
但如果你认为AI基础数据服务是纯粹的人类作坊,那你就低估了这个行业的技术含量。
尤其是多模态技术爆发以来,多模态数据需求的相应增长,逐渐暴露出“车间式”数据采购团队“人海”战术的弊端。 整个数据市场正在向前发展,以满足客户的长尾需求。 随着演进,对服务提供商的技术属性的要求越来越高。
如何制定与算法相匹配的数据规划? 如何同时从不同方式收集数据? 数据丢失如何处理? 如何保证不同模态数据的准确对齐? 这些都极其考验AI数据服务商的技术能力。
以被评为工信部新一代人工智能产业创新重点任务清单、国家专精特新“小巨人”企业、国家重点软件企业的海天睿诚为例。 该公司为中国人工智能基础数据提供标准采购服务。 排名市场前列、A股市场唯一上市的人工智能数据服务公司,其多模态训练数据解决方案近日荣获智西西2021年度人工智能生产力创新奖。
根据其IPO文件,人工智能数据服务的核心技术可分为三个层面:训练数据生产(包括设计、采集、处理和质检)、平台工具(综合数据处理平台)和基础研究(语音)。识别、语音识别等)合成、计算机视觉、训练数据集设计技术等)。
其中,在训练数据生产层ai虚拟数字人,多语言、多模态的训练数据设计技术、采集和标注技术是生产高质量训练数据的基础。
首先,在设计阶段,为了满足AI算法的需求,AI数据服务商需要深入了解客户算法和应用场景,设计与其优化匹配的多模态训练数据结构,并制定合理的原始数据结构。材料数据收集计划。
通过设计多设备采集方案,同时获取人声、视频图像、唇部精细动作等不同模态的信息,让客户更容易匹配自己的算法模型框架,实现视觉、视觉、视觉等多维度交互。整个过程是对AI数据服务商技术储备和工程能力的极大考验。
其次,在实际采集过程中,数据丢失现象屡见不鲜,而且丢失的原因也千差万别。 然而,经验丰富的AI数据服务商可以利用技术快速找到解决方案。
我们继续以AI手语合成主播为例。 配备传感器的手套将用于收集手语数据。 由于这些手套不是专门为手语设计的,因此在收集过程中不可避免地会发生数据丢失。 一项操作可能需要修复数百帧数据,既耗时又费力。
发现这一问题后,海天瑞声技术研发团队迅速启动了应对方案。 经过半个月的时间,开发出了与硬件采集设备相匹配的自动导出和修复工具,大大提高了数据处理效率。
要修复数据,您还必须应对“精细对齐”的挑战。
在虚拟数字人、智能座舱等场景中,越来越多的应用开始将语音识别与计算机视觉相结合,以提高理解人类意图的准确性。
像这样需要使用多个摄像头、传感器和其他设备来收集数据的应用带来了新的问题——如何同步注释和对齐不同设备记录的图像、声音和其他数据?
▲不同通道录制的语音数据错位示例
数据的大规模标注本质上是进一步优化AI模型性能的瓶颈。 多模态数据不仅标注了单模态数据数倍的工作量,而且解决了多个设备采集的数据难以同步的问题,这将进一步增加后续的数据处理。 困难。
对此,海天睿诚的解决方案是开发自主研发的多通道采集工具和数据同步技术。 多通道采集工具支持同时输入4个或更多语音数据并自动对齐和集成。 数据同步技术可实现原材料数据的多通道采集。 自动对齐,多个音频文件起点自动对齐误差小于1毫秒,大大提高了训练数据的生产效率和质量。
借助数据同步技术,嘴唇动作和声音的对齐可以精确到毫秒级。 这也是避免虚拟数字人说话时音视频不同步、口型不符等尴尬情况的重要因素之一。
3. 为了增强智能,多模态数据正在兴起
哪个AI应用不想实现更高的准确度和更自然贴心的交互能力? 在更强智能需求的驱动下,基于多模态数据的AI算法模型日益成为主流。
▲微软多模态预训练模型“女娲”可根据文本内容生成对应视频
例如公安、金融场景中的身份认证、电商场景中的智能客服交互、未来自动驾驶场景中的车内车外交互等。数据精度越高,安全风险就越大。会遭到抵制。 多模态生物特征识别不仅有利于保障信息安全,还可以应对戴口罩、手指老茧、整形手术等单一模态无法有效识别的特殊情况。
▲单一生物识别技术的特点
可见,如今的AI垂直应用场景碎片化,对多模态数据的需求更加复杂和长尾。
这些新业务场景的需求变化,进一步考验着AI数据服务商处理复杂的跨业务场景数据的综合能力。
因此,AI数据服务商必须具备与客户的算法团队并行沟通的技术储备,了解客户想要用数据解决什么问题,设计什么结构模型表情包设计,这样才能提供高效、高质量的数据服务。以最小的成本提供数据集解决方案,确保客户的算法达到最佳的实施效果。
在此趋势下,海天瑞盛等领先品牌数据服务商的资源优势将进一步放大。
从海天瑞盛的IPO文件中可以看出,该公司已积累了近千个拥有自主知识产权的训练数据产品,服务于微软、阿里巴巴、腾讯、百度、三星、字节跳动、亚马逊、科大讯飞、商汤科技、中科院拥有清华大学理学院及500多家国内外客户,并持有信息安全认证ISO/IEC 27701和管理体系认证ISO/IEC 27001。
▲2018-2020年海天瑞声前五名客户
近三年,海天瑞声前五名客户均表现出较高的复购率,可见其产品的高粘性。
无论是知名科技公司的背书,还是多年积累的多语种语言学家团队的资源以及与供应商、客户等上下游资源的稳定合作,对于品牌数据服务商来说更容易兼具技术壁垒和业务经验,成为有保障的多模态数据高效高质量交付的首选。
结论:多模态最终将主导智能产业的未来
为了使人工智能算法具有高质量,多模态数据必须跟上。
过去一年,应用场景的创新和机器学习算法的普及,持续带动训练数据需求爆发式增长。
在多模态大模型、虚拟数字人等热门技术方向的推动下,更多智能的AI应用不断探索,对高质量多模态训练数据资产的需求日益迫切。
目前多模态技术还处于起步阶段,多维信息的转换和融合尚未成熟,在实际场景中的泛化能力相对有限。 距离实现人类水平的多模态感知能力还有很长的路要走。 走。
这就需要开发多模态人工智能应用的企业或研究机构与人工智能基础数据服务商长期合作,探索更符合人类认知习惯的前沿多模态技术,帮助人工智能充分理解现实世界,最终更好地服务未来人类社会。
- 本文固定链接: https://wen.nuanque.com/aigc/15264.html
- 转载请注明: nuanquewen 于 吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计 发表
- 文章或作品为作者独立观点不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。本文之内容为用户主动投稿和用户分享产生,如发现内容涉嫌抄袭侵权,请联系在线客服举报,一经查实,本站将立刻删除。本站转载之内容为资源共享、学习交流之目的,请勿使用于商业用途。