龙空技术网

科技观察:虚拟数字人应用正多点开花

上观新闻 242

前言:

今天同学们对“虚拟ip实现原理”大约比较关心,看官们都想要了解一些“虚拟ip实现原理”的相关资讯。那么小编也在网络上网罗了一些对于“虚拟ip实现原理””的相关文章,希望同学们能喜欢,姐妹们快快来学习一下吧!

近年来,越来越多的城市打造数字人IP,大厂引入数字人员工,媒体上线数字人主播,娱乐晚会引入数字人明星,银行推出数字人客服,视频平台涌现数字人直播。数字人正呈现出多点开花的应用趋势。这种趋势背后的发展逻辑,一是数字化人设IP带来的需求驱动;二是搭建起了虚拟数字世界与线下现实世界的联系桥梁;三是算法、算力、网络、终端等的技术进步;四是数字经济、数字产业等的政策引导。

数字世界里这些虚拟数字人的外在形象越来越精美逼真,动作语言越来越流畅自然,接入AI大脑后逐渐有了思考能力,具备了形神兼具、持续在线等特点,进而引发数字复活、数字永生的思考。

4月8日,数字人齐聚青岛2023数字文化应用产品发布厅

数字人外在形象方面,主要包括超写实数字人、真人复刻数字人、卡通形象数字人等几种形式;在维度方面分三维和二维。在外观方面,超写实数字人、卡通形象数字人采用计算机绘制点、线、面等矢量几何图形构建的三维模型组合而成,三维立体的形象居多。这些数字人完全在计算机系统里自由绘制,可以呈现天马行空的艺术设计思想。真人复刻数字人,主要采用真人视频拍摄,进行数据训练后形成的,这类数字人以二维居多。由于是真人视频拍摄影像,因此观众不好区分是数字人还是真人。

数字人语音方面,主要包括真人原声配音、真人变声配音、AI机器语音、AI仿生语音等几种方式。真人配音方式,效果最自然流畅,重点在配音人员声音匹配数字人口型。变声配音就是通过技术系统把配音人员的声音实时处理后变成其他音色的配音。AI语音方式,通用性最好,便于转换不同的外语,便于不同人员操作。这种方式采用文本自动转语音的技术,转换后的语音与数字人的口型变化都由系统控制,大大提高制作效率。AI仿生语音则是采用真人声音进行数据训练,形成近似真人原声的机器模拟语音。

数字人动作方面,主要包括特定动作组合和动作捕捉驱动等方式。前一种方式是预制好几种摆手、扭头等固定动作,由操作人员在数字人制作系统中根据内容组合配置,因此动作相对简单固化;后一种方式采用动作捕捉系统由真人实时驱动数字人,因此躯体动作更加自然流畅。

结合上面数字人的实现原理,可以理解数字人相关产业链上,为什么会有腾讯、阿里、百度、商汤、讯飞等大厂推出数字人综合解决方案,为什么会有诸如Next Human、来画、元享智能云等数字人设计平台,为什么会有元娲等数字人应用平台,为什么会有青瞳视觉等动捕设备系统供应商,又为什么会有瑞云科技等云渲染服务商。

目前数字人的应用还处在较初级的阶段,更多停留在视频中。观感自然流畅且精美细腻的数字人驱动,需要更多的人力、时间、算力、费用。比如仅数字人形象的设计修改渲染时间大都是以月为单位,较快的人像拍摄和训练至少也以周为单位。仿生语音的训练也大都以月为单位。所需费用大都在十几万元到几十万元起步,设计越精细费用越高。由于数字人形象、数字化场景都需要持续更新,因此在资金、人力方面需要持续投入。如规避这些不利因素,应用呈现效果就会不同程度打折。这也是为什么数字人内容产品的发布频率不高,数字人宣传图片与实际视频产品有较大差距的重要原因。

未来的数字人,如果再智能些,能实现自动化的自然交流,再易用些减少繁杂的制作工序,或许应用会更普及。大模型驱动的新一代生成式人工智能技术,为数字人带来了智慧大脑和魔法技能,将为好看皮囊的数字人赋予更有趣的灵魂。未来装载AI大脑的数字人,如果能跳出视频,跃入生活,实现与用户的实时交互,将会在面向一老一小的情感陪伴、知识传递与面向普通大众的实时直播、在线交流等方面,带来更惊艳的体验,让数字人更有温度,更具亲和力。

(大众日报客户端记者 汤代禄 报道)

标签: #虚拟ip实现原理