数字栩生:能越过“恐怖谷”吗?

数字栩生:能越过“恐怖谷”吗?
2022年11月28日 18:11 飞娱财经

长久以来,人类对自身的起源充满了各种想象和好奇。中国有盘古开天辟地,女娲抟土造人;西方《圣经》中,有上帝七天创世,并在第六天创造了亚当与夏娃……

创世神话是人类关于起源思考的开始,而且这种对自身探索的渴望和向往,如同血液一样流淌在体内。

直到科技日渐发达的今天,人类自己也成为了“造物主”。我们不仅从根源上正确认识了人类起源,而且还在尝试用科技来创造出“人”。这个“人”就是数字人,它是通过各种技术结合形成,并生活在数字世界中的“人”。

数字人的概念起源于上世纪80年代,随着CG技术、3D、AI技术等的不断发展,如今数字人整体素质得到了极大提升。

伴随着元宇宙概念的兴起,数字人也被认为是其重要的入口。数字人的浪潮再次掀起,可以看到越来越多的公司参与进来,其中就包括数字栩生,这家成立于2021年的公司,虽然时间不长,但团队在数字人领域已经深耕多年。

今天来看,数字人的竞争早已进入了白热化。但数字人技术上难点在哪里,未来会如何改变我们的生活,以及数字人可能面临的问题等。我们试图从数字栩生找到对应的答案。

飞娱财经「公司观察」第20篇。✎ 主笔/ WX

❊ 文章架构师/ 花哥

♡ 出品/ 飞娱财经01  ​一家走在时代前的“弄潮儿”

虚拟数字人并无确定性定义,一般性来说,虚拟数字人指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,并具有多重人类特征包括外貌特征、人类表演能力、人类交互能力等的综合产物。

当下在元宇宙、web3.0等加持下,企业与资本纷纷布局虚拟数字人领域。

据雷报不完全统计,2022年开年以来,“虚拟人”领域共计发生22起相关投融资事件,投资总额超百亿元,而2021年全年为25起。另外天眼查显示,我国现有“虚拟数字人”相关企业约30万家,近5年新增注册企业增速复合增长率近60%。

在众多创业大军之中,数字栩生则是其中之一。数字栩生成立于2021年,致力于提供优质的数字人创建服务,并针对行业提供配套的数字人应用解决方案。

作为一家技术为先的公司,团队来自北理工、中科院自动化所、北京电影学院高精尖中心等科研机构。而在公司成立之前,团队已经在探索高逼真数字人的采集与AI驱动近5年时间。

如今数字栩生掌握光场重建核心技术,采用三维引擎支持的实时化渲染技术,可实现超逼真的外貌表现,并可无缝的与现有智能系统连接,为用户提供最优质的数字人创建服务,并针对行业提供配套的数字人应用解决方案。

行业内不仅有像BAT这样的巨头,也有实力不俗的创业团队涌入数字人赛道。在强者如林的市场中,成立一年多的数字栩生,不仅在今年10月完成数千万元天使轮融资,联想创投领投,而且在众多场景落地上实现突破。

引用联想创投集团总裁贺志强一句话:数字栩生团队除了在光学、图形计算等基础技术领域具备5年的丰厚技术积累外,还对商业化进行了前瞻性布局,以技术落地数字人场景为前提打磨产品,充分实现数字人经济体系中“人、货、场”多个要素的同步提升,这也使他们能更好赋能各行各业。02  技术公司用技术说话

制作一个虚拟数字人,说它不难,是因为这项技术早在20世纪八十年代就已经出现了。

说它难,是因为人们对数字人要求越来越高,不仅要在外貌上像人,比如脸、眉毛、眼等;还要在行为像人,比如对话交互、思考等。

数字栩生CTO翁冬冬称,在学术界和工业界,做数字人一般会使用微妙这个词,因为一个微小的差别,都能被感觉到。这个词也最准确地描述了做人的难度。

如今虚拟人的制作流程涵盖了诸多技术,制作方式仍在逐步进化中,某些步骤互相融合的趋,不同玩家之间技术路线也不尽相同。

比如在数字人建模制作上,静态扫描模型技术是目前的主流,具体细分为结构光扫描重建与相机阵列扫描重建等,其中相机阵列扫描应用最为广泛。

与静态扫描模型技术相对应则是动态光场重建技术。相比之下,光场重建技术不仅可以重建人物的几何模型,还可一次性获取动态的人物模型数据,并高品质重现不同视角下观看人体的光影效果,具有高视觉保真度。

动态光场重建技术是目前重点发展的方向,但光场重建技术对技术、算力有着更高的要求,技术门槛也就高。在明知山有虎,偏向虎山行。数字栩生采取了光场重建技术,选择了走最难的路。

在不断技术投入和研发之后,数字栩生自主研发了人脸光照数据采集系统LightBall,该系统搭建了156组可编程LED灯源,对用户多种表情进行采集,得到不同光照,不同视角,不同偏振状态的图像数据,构建个人完整的形象数据集。

升级的光场采集系统实现超写实效果,不但包含了几何的特征,也包含了皮肤高光、漫反射、粗糙度等纹理的细节。据了解目前该系统已迭代到第六代。

翁冬冬解释,通俗的说,传统方式更像画家在画画,而我们采用的方式是造一台照相机来快速拍照,同样也可以得到漂亮的画面。目前会更关注如何把流程更标准化、质量可控、时间可控。

目前数字栩生已经构建起三大核心技术:

一、超写实面部。采用三维引擎支撑的实时化渲染技术,可实现超逼真的外貌表现,并可无缝的与现有智能系统相连接,通过自研光场重建结合智能解耦解决了数字人逼真程度低的行业问题;

二、制作效率高,动态丰富表情。通过四维采集结合自动解算,利用自研的高逼真面部绑定和驱动插件进行实时驱动进行快速内容生产,相比传统手工制作方式,面部动态效果能够明显提高,同时也积累了大量的人物面部数据,为AIGC的数据积累打做好了数据准备。

三、智能交互。探索AIGC技术场景,构建数字智人的基础云平台Genesis OS,数字栩生提出了“数字小脑”概念,用来在AI大脑和数字人表现之间搭起一座桥梁。结合AI合成、实时动作捕捉等技术,可以更加智能、实时地与我们进行语言、表情、动作的互动交流,真正实现了数字人的个性化定制和千人千面。

数字栩生形成了完整自主知识产权的数字人解决方案技术体系,沉淀了丰富的技术实力。通过核心数字光场重建技术,实现业内质量高、周期短的工业化超写实数字人生产流水线,提供完整的数字人资产制作和数字人解决方案服务。03  AI驱动,数字人“千人千面”

在行业里有个共识,所有和「做」人相关的行业,一定会遇到恐怖谷理论。恐怖谷效应在 1970 年提出,指人们对机器人的正面情感随着其类人程度增加而增高,但当达到一个较高的临界点时,其残存的非类人特征会变得十分显眼,引起人们强烈的不适感。

数字人如何穿过恐怖谷理论?这就要求数字人不仅外貌、表情要像人,数字人的交互、动作也要像人,这就需要获得智能的驱动。

据数字栩生介绍,当前的智能系统大多为第三方的AI大脑驱动,主要输入输出以文本和语音为主,但是数字人本身其实包含了非常多个通道,包括他的眼神表情、口型肢体动作等信息,在传统的AI系统里面是没有的。

具体来说,就是借助第三方的平台实现对数字人功能的提升。但目前这些平台对数字人的支持还比较初期,其对单模态的处理比较良好,针对数字人的多模态呈现还比较不足。

基于此,数字栩生引入“AI小脑”理念,提出大小脑分离的思路。为现有AI大脑平台与数字人的驱动间搭建“桥梁”,全维度丰富数字人的信息灵敏度与范围,解决数字人感情表达难题。

数字栩生CEO宋震表示:我们非常看好AI和数字人的结合,以AI技术赋能数字人的各个环节,用数字小脑去驱动数字人,让数字人不再是千篇一律,而是千人千面,每个数字人都有自己的独立个性和特征。

目前,数字栩生形成脸部光场信息处理、自动表情绑定、面部微结构捕捉等关键技术,奠定“超写实+实时”数字人技术领域地位。

此外为了进一步完善产业生态,数字栩生还打造了快速服务生产管线,构建数字智人的基础云平台Genesis OS,成功完成数字人创作的标准化和自动化流程搭建,大大提升创作效率及减少对人工的依赖性。04  技术需要场景落地

虚拟数字人并不是新事物,在早期虚拟数字人主要被应用在娱乐领域,而到如今文娱领域仍然是应用最为广泛的。

除了初音未来、洛天依等早期虚拟数字人,如今更是涌现了诸如虚拟偶像女团A-SOUL、东方佳人花西子、时尚博主AYAY、美妆达人柳夜熙等。尤其是数字人“柳夜熙”,仅出道三天便收获百万粉丝。

近两年,随着理论与技术的革新,虚拟数字人层出且应用范围不断扩大。AI数字人希加加、数字航天员小诤、腾讯3D手语数智人“聆语”、气象服务虚拟人“冯小殊”等纷纷“上岗”就业。

任何一项技术终归要回到场景,才能创造价值,数字栩生也在不断加快技术落地的应用。

比如数字栩生基于实体雕像扫描数据,构建高精度三维数字模型,以真实立裁为基础构建高保真服饰,成功“复活”中国京剧艺术大师——梅兰芳,进行跨越时空的对话,领悟戏曲的魅力。

数字手语主持人“千言”是数字栩生的另一个典型案例,千言可以实现电视转播手语的自动生成,可以完成从汉语到手语、手语到汉语的双向翻译,实现听障聋人群的信息无障碍交流。

如今千言现在已经签了几百家电视台,做手语主播,还有一些教育场景,比如给聋哑人进行教学的时候使用。此外,还有政府的无障碍通道,如果聋哑人去办事,千言可以担任AI翻译。

任何时候,闭门造车都是不可取的。如今数字栩生也在充实自己的合作伙伴。前数字栩生已与微软、英伟达、虚幻引擎、腾讯、字节跳动、爱奇艺、芒果卫视等达成合作,创建专属的数字人IP。

数字栩生一边在拓展、夯实,服务更多客户的同时,也在探索数字人在不同领域的可能性。05  数字人不可掩盖的问题

据量子位智库发布的《虚拟数字人深度产业报告》预测,2030年,我国虚拟数字人整体市场规模将达到2700亿。

数字人赚足了市场和资本的注意力,成为崛起的新风口。不过同样也不能掩盖数字人存在的问题以及面临的挑战。

首先是技术上的问题。数字人达到完全真人的形态,外表和灵魂一个都不能少。目前来说技术还处于发展的早期阶段。当下数字人虽然在外表已经接近人,但真人的灵魂诸如情感、感知互动、表情管理等元素存在严重的缺失。数字人的内核,远还没有达到一个真人的状态,甚至说接近真人的状态。

诸如《头号玩家》、《银翼杀手2049》等电影,给数字人带来很多期待。但事实上,不论是META、希壤等平台,还是其他数字人,目前体验来说还不够完整,沉浸感有限,技术还需要进一步提升。 其次数字人同质化严重。从当下的数字人来看,一个赛道扎推大量的同类型数字人,很少有公司具备碾压性的技术优势,缺少差异化的体验,大部分数字人在运营、内容上“换汤不换药”。从整个市场来说,数字人的价值并没有完全发挥出来,玩法多集中在直播带货、流量偶像等形式上。

最后是在成本上,制作数字人的成本事实上非常高。数字人从最初的设计到3D建模,再到AI技术的投入,每个环节的要求都非常高且需要重金砸入,尤其是超写实数字人成本会更高。

以柳夜熙为例,背后公司创壹科技CEO梁子康透露:“2018、2019年,我们每一秒的视频价格比1克黄金还贵,现在每一秒价格相当于2到3克的黄金制作水准和制作成本,其核心是建立壁垒。”背后涉及到的创作团队人数超百人,数字人可谓是十足的吞金兽。

当然还有法律层面问题,比如在国内的知识产权中,数字人还没有专属的类别。它不是软件,因为只是数据集,那么只能按照作品版权进行处理,相关的版权上会有一些争议。

这些客观问题的存在,仍需要包括数字栩生在内的行业从业者给出解题的答案。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部