用iPhone前摄3D人像建模，Meta：我看行_

一说起VR头像，比较常见的形式就是卡通风格的各类虚拟角色，尽管为用户提供各种自定义选项，但重复率高，而且难以代表真人独一无二的外观。

因此，也有一些根据真人照片、视频生成的3D头像，比如ReadyPlayerMe，特点是成本低、简单易用而且在主流AR/VR平台通用。尽管如此，这样的3D头像依然不够保真，模型的细节渲染并不理想。而近期META公布的高保真虚拟头像Codec Avatar的最新进展，让我们看到了在VR中重现真人动态形象的可能。

3D人像捕捉成本高？

实际上，通过3D动捕/容积捕捉技术，已经可以制作高分辨率、高保真的3D头像/虚拟化身。比如，Meta研发的Codec Avatar方案就通过由171个摄像头的动捕工作室MUGSY来捕捉人脸和全身3D数据，然后生成可在VR头显中运行的高保真3D形象，在VR中还可以通过额外的眼球和面部追踪摄像头来驱动动态表情变化。

不过，这种方案缺点是依赖线下工作室，成本高昂，不利于在线上广泛应用。我们知道，如果可以用手机摄像头来捕捉3D人脸数据，将大大降低高保真虚拟化身的成本和使用门槛，因此市面上已经有科研人员对此进行探索。

在2020年，德国一组科研人员也曾研发了一种利用单目摄像头捕捉，并自动生成3D形象的低成本移动方案（计算过程大约20分钟）。不过，目前市面上的各类方案效果并不理想，尤其是保真度、表情动作模拟等方面更是无法与Codec Avatar相媲美。

而在2021年，俄罗斯Skoltech也曾公布一款移动端3D头像捕捉方案，其整体保真度足够高，主要特点是支持动态光渲染，但头发、手指、布料纹理等细节难以模拟。

今年四月，在MIT举办的Virtual Beings&Being Virtual研讨会上，Meta展示了全新的Codec Avatars 2.0系统，特点是比1.0版模型更小、更高效，在Quest 2上可以50Hz刷新率同时渲染五个高保真Avatar。

解决了在VR头显上运行Codec Avatar的问题，那么接下来Meta的目标则是降低3D头像捕捉的门槛，让每个人用手机就能收集并生成逼真的虚拟人像，这些人像甚至还能渲染合成多种逼真的表情变化。

用手机制作3D头像

据了解，这是一种移动版Codec Avatar方案，在降低成本的同时，效果却足够好，表情和细节渲染足够自然。

这项方案兼容iPhone 12等配备RGBD相机的手机（也就是前置Face ID模组），可从多个角度来捕捉静止的3D面部表情，也可以捕捉一系列面部表情变化。利用3D面部数据和动态表情数据，便可生成高保真3D头像，特点是符合面部的几何结构和外观，并且可渲染高保真的全新视角和表情。而通过修改条件数据，甚至可以定制高保真面部特征，创建全新的人脸头像。

细节方面，该方案采用了通用先前模型，针对每一个用户的特征来解码面部容积数据（可看作是一种神经网络解码模型）。

利用经过训练的通用先前模型，科研人员可为每个独立的用户创建个性化、可定制的头像模型。模型中将包含用户静止表情数据中的几何结构和纹理。科研人员表示：该模型会在RGB相机捕捉的每一帧图像上，运行面部节点识别和人像分割算法，然后在输出的数据上匹配模板网格，与检测到的面部节点叠加，并分割面部轮廓，以及输入的深度地图。

值得注意的是，通用先前模型也是一种超网络，可看作是另一个神经网络生成权重的神经网络。Meta培训先前模型使用的数据来自于此前的Codec Avatar研究，包括用3D动捕工作室捕捉的多视角3D面部数据。据悉，这个Codec Avatar数据集包含大量高保真动态表情数据（包括255个人脸数据、覆盖多样化的年龄、性别和人种）。在此前公布的成果就可以发现，Codec Avatar的数据效果足够逼真自然。

接着，模型会拆解每一帧RGB图像的纹理，并将这些纹理数据整合、输出为完整的面部纹理。Meta还通过RayMarching技术进一步优化3D头像建模，这是一种快速的实时场景渲染方式，即通过射线触碰虚拟物体，来测量深度信息，以实现更准确的建模。

动态表情模拟

该方案不仅可渲染逼真的静态面部细节，也可以合成多种自然表情变化。比如结合了由语义定义的控制选项，可独立控制/分割头像的注视点信息，以直接支持眼球追踪。

而静止面部集合结构和纹理，可用于调节通用先前模型的参数，并将这些参数输入到表情编码器，来渲染定制的头像。为了提升虚拟头像对动态面部表情的模拟效果，还需要结合对人脸表情变化的RGB扫描数据（正面表情）。然后利用通用先前模型，可生成全新的表情和全新的任意视角。

经过验证，利用手机捕捉并合成的3D头像，质量足够接近动捕工作室捕捉的数据。而与市面上其他的3D头像生成系统相比，Meta的方案的合成效果细节更佳。

研究人员还称，用手机扫描的过程平均需要3分半钟，可捕捉65种面部表情。不过，渲染/合成3D头像则需要在配备4个高端GPU的计算机上完成，整个过程需要6小时。如果这个任务交给VR头显，那么可能将需要云计算或PC VR等方式来获取额外的算力。

当然，该方案目前还存在需要优化的问题，比如只能捕捉和合成面部表情，还无法处理眼镜或长发等细节。

宗旨，Meta在Codec Avatar上的科研进展让人兴奋，尽管如此VR虚拟化身/头像技术还有很长的路要走。目前，Meta Avatars还是采用基础的卡通艺术风格，随着时间推移，人们将不再满足于这种简易的头像。而在高保真远程3D通话、社交等场景，为了实现沉浸感、临场感体验，将需要更能代表每个人的形象系统。参考：Meta