用iPhone前摄3D人像建模,Meta:我看行

用iPhone前摄3D人像建模,Meta:我看行
2022年08月02日 17:35 青亭网

一说起VR头像,比较常见的形式就是卡通风格的各类虚拟角色,尽管为用户提供各种自定义选项,但重复率高,而且难以代表真人独一无二的外观。

因此,也有一些根据真人照片、视频生成的3D头像,比如ReadyPlayerMe,特点是成本低、简单易用而且在主流AR/VR平台通用。尽管如此,这样的3D头像依然不够保真,模型的细节渲染并不理想。而近期META公布的高保真虚拟头像Codec Avatar的最新进展,让我们看到了在VR中重现真人动态形象的可能。

3D人像捕捉成本高?

实际上,通过3D动捕/容积捕捉技术,已经可以制作高分辨率、高保真的3D头像/虚拟化身。比如,Meta研发的Codec Avatar方案就通过由171个摄像头的动捕工作室MUGSY来捕捉人脸和全身3D数据,然后生成可在VR头显中运行的高保真3D形象,在VR中还可以通过额外的眼球和面部追踪摄像头来驱动动态表情变化。

不过,这种方案缺点是依赖线下工作室,成本高昂,不利于在线上广泛应用。我们知道,如果可以用手机摄像头来捕捉3D人脸数据,将大大降低高保真虚拟化身的成本和使用门槛,因此市面上已经有科研人员对此进行探索。

在2020年,德国一组科研人员也曾研发了一种利用单目摄像头捕捉,并自动生成3D形象的低成本移动方案(计算过程大约20分钟)。不过,目前市面上的各类方案效果并不理想,尤其是保真度、表情动作模拟等方面更是无法与Codec Avatar相媲美。

而在2021年,俄罗斯Skoltech也曾公布一款移动端3D头像捕捉方案,其整体保真度足够高,主要特点是支持动态光渲染,但头发、手指、布料纹理等细节难以模拟。

今年四月,在MIT举办的Virtual Beings&Being Virtual研讨会上,Meta展示了全新的Codec Avatars 2.0系统,特点是比1.0版模型更小、更高效,在Quest 2上可以50Hz刷新率同时渲染五个高保真Avatar。

解决了在VR头显上运行Codec Avatar的问题,那么接下来Meta的目标则是降低3D头像捕捉的门槛,让每个人用手机就能收集并生成逼真的虚拟人像,这些人像甚至还能渲染合成多种逼真的表情变化。

用手机制作3D头像

据了解,这是一种移动版Codec Avatar方案,在降低成本的同时,效果却足够好,表情和细节渲染足够自然。

这项方案兼容iPhone 12等配备RGBD相机的手机(也就是前置Face ID模组),可从多个角度来捕捉静止的3D面部表情,也可以捕捉一系列面部表情变化。利用3D面部数据和动态表情数据,便可生成高保真3D头像,特点是符合面部的几何结构和外观,并且可渲染高保真的全新视角和表情。而通过修改条件数据,甚至可以定制高保真面部特征,创建全新的人脸头像。

细节方面,该方案采用了通用先前模型,针对每一个用户的特征来解码面部容积数据(可看作是一种神经网络解码模型)。

利用经过训练的通用先前模型,科研人员可为每个独立的用户创建个性化、可定制的头像模型。模型中将包含用户静止表情数据中的几何结构和纹理。科研人员表示:该模型会在RGB相机捕捉的每一帧图像上,运行面部节点识别和人像分割算法,然后在输出的数据上匹配模板网格,与检测到的面部节点叠加,并分割面部轮廓,以及输入的深度地图。

值得注意的是,通用先前模型也是一种超网络,可看作是另一个神经网络生成权重的神经网络。Meta培训先前模型使用的数据来自于此前的Codec Avatar研究,包括用3D动捕工作室捕捉的多视角3D面部数据。据悉,这个Codec Avatar数据集包含大量高保真动态表情数据(包括255个人脸数据、覆盖多样化的年龄、性别和人种)。在此前公布的成果就可以发现,Codec Avatar的数据效果足够逼真自然。

接着,模型会拆解每一帧RGB图像的纹理,并将这些纹理数据整合、输出为完整的面部纹理。Meta还通过RayMarching技术进一步优化3D头像建模,这是一种快速的实时场景渲染方式,即通过射线触碰虚拟物体,来测量深度信息,以实现更准确的建模。

动态表情模拟

该方案不仅可渲染逼真的静态面部细节,也可以合成多种自然表情变化。比如结合了由语义定义的控制选项,可独立控制/分割头像的注视点信息,以直接支持眼球追踪。

而静止面部集合结构和纹理,可用于调节通用先前模型的参数,并将这些参数输入到表情编码器,来渲染定制的头像。为了提升虚拟头像对动态面部表情的模拟效果,还需要结合对人脸表情变化的RGB扫描数据(正面表情)。然后利用通用先前模型,可生成全新的表情和全新的任意视角。

经过验证,利用手机捕捉并合成的3D头像,质量足够接近动捕工作室捕捉的数据。而与市面上其他的3D头像生成系统相比,Meta的方案的合成效果细节更佳。

研究人员还称,用手机扫描的过程平均需要3分半钟,可捕捉65种面部表情。不过,渲染/合成3D头像则需要在配备4个高端GPU的计算机上完成,整个过程需要6小时。如果这个任务交给VR头显,那么可能将需要云计算或PC VR等方式来获取额外的算力。

当然,该方案目前还存在需要优化的问题,比如只能捕捉和合成面部表情,还无法处理眼镜或长发等细节。

宗旨,Meta在Codec Avatar上的科研进展让人兴奋,尽管如此VR虚拟化身/头像技术还有很长的路要走。目前,Meta Avatars还是采用基础的卡通艺术风格,随着时间推移,人们将不再满足于这种简易的头像。而在高保真远程3D通话、社交等场景,为了实现沉浸感、临场感体验,将需要更能代表每个人的形象系统。参考:Meta

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部