虚拟数字人行业深度研究：元宇宙的主角破圈而来_

（报告出品方/作者：天风证券，文浩）

1. 名词概览：计算机技术打造虚拟数字人

1.1. 定义：数字人、虚拟人、虚拟数字人被赋予特定人物身份

虚拟人、数字人、虚拟数字人的目标是通过计算机图形学技术（Computer Graphic，CG）创造出与人类形象接近的数字化形象，并赋予其特定的人物身份设定，在视觉上拉近和人的心理距离，为人类带来更加真实的情感互动。按照各定义特征的要求，数字人的范畴包含虚拟人，虚拟人的范畴包含虚拟数字人。

对于不要求必须具备交流互动能力时，数字人、虚拟人、虚拟数字人这三者概念可以认为是等同的。但在严格意义下它们又有细微的差别。虚拟人的身份是虚构的，现实世界中不存在的。数字人强调角色存在于数字世界。虚拟数字人强调虚拟身份和数字化制作特性。

1.2. 划分：人格象征和图形维度是虚拟数字人常见的分类依据

根据人格象征，虚拟数字人可分为虚拟 IP 和虚拟世界第二分身；根据人物图形维度，虚拟数字人可分为 2D 和 3D 两大类，从外形上可分为卡通、写实等风格，综合来看可分为二次元、3D 卡通、3D 超写实、真人形象四种类型。

1.3. 框架：五大模块构成虚拟数字人通用系统框架

人物形象根据人物图形资源的维度，可分为 2D 和 3D 两大类；语音和动画生成模块可分别基于文本生成对应的人物语音以及人物动画；音视频合成显示模块将语音和动画合成视频；交互模块根据语音语义识别用户的意图，并决定数字人后续的语音和动作。交互模块为扩展项，根据其有无，可将数字人分为交互型数字人和非交互型数字人。非交互型虚拟数字人系统依据目标文本生成对应的人物语音及动画，并合成音视频呈现给用户。

交互型数字人根据驱动方式的不同可分为智能驱动型和真人驱动型。

1）智能驱动型数字人可通过智能系统自动读取并解析识别外界输入信息，根据解析结果决策数字人后续的输出文本，然后驱动人物模型生成相应的语音与动作来使数字人跟用户互动。该人物模型是预先通过 AI 技术训练得到的，可通过文本驱动生成语音和对应动画，业内将此模型称为 TTSA（Text To Speech & Animation）人物模型。

2）真人驱动型数字人则是通过真人来驱动数字人，主要原理是真人根据视频监控系统传来的用户视频，与用户实时语音，同时通过动作捕捉采集系统将真人的表情、动作呈现在虚拟数字人形象上，从而与用户进行交互。（报告来源：未来智库）

2. 行业情况分析：虚拟数字人市场广阔，应用领域不断拓展

2.1. 行业沿革：虚拟数字人已处高速成长阶段

虚拟数字人从最早的手工绘制到现在的 CG（Computer Graphics，电脑绘图）、人工智能合成，虚拟数字人大致经历了萌芽、探索、初级和成长四个阶段

2.2. 产业链：随理论技术日益成熟，商业模式持续演进丰富产业链

当前虚拟数字人理论和技术日益成熟，应用范围不断扩大，产业正在逐步形成、不断丰富，相应的商业模式也在持续演进和多元化。

2.2.1. 基础层：厂商深耕软硬件行业，具有深厚技术壁垒

基础层为虚拟数字人提供基础软硬件支撑，硬件包括显示设备、光学器件、传感器、芯片等，基础软件包括建模软件、渲染引擎。显示设备是数字人的载体，既包括手机、电视、投影、LED 显示等 2D 显示设备，也包括裸眼立体、AR、VR 等 3D 显示设备。光学器件用于视觉传感器、用户显示器的制作。传感器用于数字人原始数据及用户数据的采集。芯片用于传感器数据预处理和数字人模型渲染、AI 计算。建模软件能够对虚拟数字人的人体、衣物进行三维建模。渲染引擎能够对灯光、毛发、衣物等进行渲染，主流引擎包括 Unity Technologies 公司的 Unity 3D、Epic Games 公司的 Unreal Engine 等。总体来看，处于基础层的厂商已经深耕行业多年，已经形成了较为深厚的技术壁垒。

2.2.2. 平台层：提供多元技术支持，赋予虚拟数字人真实及灵动感

平台层包括软硬件系统、生产技术服务平台、AI 能力平台，为虚拟数字人的制作及开发提供技术能力。建模系统和动作捕捉系统通过产业链上游的传感器、光学器件等硬件获取真人/实物的各类信息，利用软件算法实现对人物的建模、动作的重现；渲染平台用于模型的云端渲染。解决方案平台基于自身技术能力为广大客户提供数字人解决方案。AI 能力平台提供计算机视觉、智能语音、自然语言处理技术能力。平台层汇聚的企业较多，腾讯、百度、搜狗、魔珐科技、相芯科技均有提供相应数字人技术服务平台。

2.2.3. 应用层：带领虚拟数字人切入商业化赛道

应用层是指虚拟数字人技术结合实际应用场景领域，切入各类，形成行业应用解决方案，赋能行业领域。按照应用场景或行业的不同，已经出现了娱乐型数字人（如虚拟主播、虚拟偶像）、教育型数字人（如虚拟教师）、助手型数字人（如虚拟客服、虚拟导游、智能助手）、影视数字人（如替身演员或虚拟演员）等。不同外形、不同功能的虚拟数字人赋能影视、传媒、游戏、金融、文旅等领域，根据需求为用户提供定制化服务。

2.3. 政策：近期多项政策推动虚拟数字人新兴科技产业发展

2.4. 行业趋势：优质技术仍待普及，受众群体仍待拓展

虚拟数字人产业生产及运营成本高，优劣差异化显著，受众群体不断拓展，因而虚拟数字人价值凸显，应用领域不断拓展，未来有望加速商业化进程。

采集制作流程简单化、一体化，迭代式提升真实感。未来虚拟数字人制作技术将更加简单，更加一体化、自动化设备同步获取模型、身体、表情等所有数据，无需穿戴专业传感设备。

交互方式衍变，智能化程度不断加深。全双工技术将推进数字人交互方式的演变，使得数字人拥有一次唤醒、多次交互能力﹐具备实时智能响应、只能打断、智能纠错、多轮对话等功能。

实现多场景、多领域的融合、应用及落地。目前虚拟数字人发展环境整体情况还处于未成熟的起步阶段，随着虚拟数字人技术的精进和市场价值的释放，将更深入地融入影视、金融、文旅等各个领域。虚拟数字人目前仍处于孵化培育阶段，以企业服务为形式的 2B2C 服务为重点。未来驱动力包括代际变化、技术门槛降低、虚拟化趋势、VR 设备回暖等原因。在各行业逐渐意识到其技术可行性和商业价值后，虚拟数字人行业将有望快速进入高速发展期。（报告来源：未来智库）

3. 技术架构：建模、驱动、渲染三大关键技术构成底层架构

虚拟数字人基础技术架构包括“五横两纵”。“五横”是指用于数字人制作、交互的五大技术模块，即人物生成、人物表达、合成显示、识别感知、分析决策等模块。其中，人物生成，即人物建模方面 2D 数字人较为简单，3D 数字人需要额外使用三维建模技术。人物表达包括语音生成和动画生成。动画生成则包含驱动和渲染两大部分。“两纵”是指 2D、 3D 数字人，2D 数字人和 3D 数字人在技术架构方面基本一致。3D 数字人需要额外使用三维建模技术生成数字形象，信息维度增加，所需的计算量更大。

3.1. 建模：主流技术仍为静态扫描，动态光场成为未来重点发展方向

建模技术分为静态扫描建模和动态光场重建，目前主流技术仍为静态扫描，相比静态重建技术，具有高视觉保真度的动态光场三维重建技术不仅可以重建人物的几何模型，还可一次性获取动态的人物模型数据，并高品质重现不同视角下观看人体的光影效果，成为数字人建模重点发展方向。

静态扫描建模技术

静态扫描建模技术可分为结构光扫描重建和相机阵列扫描重建，结构光扫描重建扫描时间长，对于人体这类运动目标在友好度和适应性方面都差强人意，更多的应用于工业生产、检测领域。相机阵列扫描重建替代结构光扫描重建克服了以上问题成为人物建模主流方式。随着拍照式相机阵列扫描重建得到飞速发展，目前可实现毫秒级高速拍照扫描（高性能的相机阵列精度可达到亚毫米级），并成功应用于游戏、电影、传媒等行业。

国际上 IR、Ten24 等公司将静态重建技术完全商业化，服务于好莱坞大型影视数字人制作。凌云光近年来大力发展立体视觉并研发了高精度人体3D建模系统——Human 3D+，其中核心的三维几何和彩色数据采集部分均使用了以佳能专业镜头，配合佳能 SDK 软件开发包及凌云光专用 3D 建模软件能快速、清晰成像并高速储存，自动完成高精度人体全身或局部重建，再利用三维动画制作软件对重建结果进行处理，得到高真实度数字人物。

动态光场重建技术

动态光场重建是目前世界上最新的深度扫描技术，此技术可忽略材质，直接采集三维世界的光线，然后实时渲染出真实的动态表演者模型，为 3D 建模提供更加丰富的图像信息，它主要包含人体动态三维重建和光场成像两部分:

3.2. 驱动：智能合成，动作捕捉迁移成为主流动作生产方式

3.2.1. 智能合成：2D、3D 数字人均已实现嘴型动作的智能合成，其他部位仅支持录播

2D、3D 数字人嘴型动作智能合成的底层逻辑类似，均建立在输入文本到输出音频与输出视觉信息的关联映射。

其中 3D 视频驱动方式为以下三个步骤：

1）视频算法训练：对已采集到的文本到语音和嘴型视频的数据进行模型训练，得到一个输入任意文本均可驱动嘴型的模型。

2）语音自动识别：对语音进行标注，绑定数据与动作,使得虚拟数字人对特定词语或语境做出相应动作。

3）动捕设备采集：需真人穿戴动捕设备，动捕设备与真人肢体动作相绑定，可实时传递到虚拟数字人身上。

3.2.2. 动作捕捉：动作捕捉方案最高可实现毫米级误差

通过将捕捉采集的动作迁移至数字人是目前 3D 数字人动作生成的主要方式，核心技术是动作捕捉。动作捕捉是指通过数字手段记录现实人们的运动过程。同时，动作捕捉系统根据实现原理的不同，可以分成光学动作捕捉、惯性动作捕捉、Track 设备+IK 算法的动作捕捉、以人工智能为主的动作捕捉方案。现阶段，光学式和惯性式动作捕捉占据主导地位，基于计算机视觉的动作捕捉成为聚焦热点。

光学动作捕捉

光学动作捕捉是在演员身上粘贴能够反射红外光的 Marker（马克点），摄像机通过反光来捕捉这些马克点的位置变化，从而完成对演员的动作捕捉。目前，光学动作捕捉方案能通过高帧率的捕捉，实现毫米级误差精度，能对人物动作还原最为精细，但这类捕捉方案对于背景环境的要求较高，技术门槛也同样较高。

受到光线传播的限制，数据采集难免有丢失的情况发生，在相对较大的拍摄空间中，需要同时修正几十个摄像机的参数，稍微移动一下就需要对摄像机参数进行重新标定，想做到电影级别的精确捕捉，还是很耗时费力的。对于大范围的行走和奔跑等日常活动，需要精心控制的移动摄像机来记录足够的运动信息，这也很难实现的。在光学动作捕捉设备和方案上，国内外都涌现出一些较为优秀的公司代表，比如英国的 Vicon，美国的 OptiTrack 和魔神（MotionAnalysis），国内的 Nokov、uSens、青瞳视觉等。

惯性动作捕捉

主要是基于惯性测量单元（Inertial Measurement Unit，IMU）来完成对人体动作的捕捉，即把集成了加速度计、陀螺仪和磁力计的 IMU 绑在人体的特定骨骼节点上，通过算法对测量数值进行计算，从而完成动作捕捉。这种惯性动作捕捉方案价格相对低廉且精度较低，会随着使用时间的增加产生累积误差，发生位置漂移。这类捕捉方案需要大量复杂的硬件设备和严格的影棚环境，技术门槛也同样较高，并不适合大众消费者使用。

我们常见的动作捕捉服、手套等设备都是属于这类惯性动作捕捉范围内。在惯性动作捕捉技术的赛道里，代表性企业有荷兰的 Xsens，以及国内的诺亦腾（Noitom）、幻境、国承万通等。国内厂商诺亦腾、国外厂商 XSens 都拥有比较成熟的产品。其中，诺亦腾通过全身 17 节点惯性传感器、全身绑带、传感器充电盒以及 EVA 便携箱等组成部分打造了入门级无线动作捕捉系统 Perception Neuron 3。

计算机视觉的动作捕捉

视觉的动作捕捉主要是通过采集及计算深度信息来完成对动作的捕捉，是近些年才兴起的技术。这种视觉动捕方式因其简单、易用、低价，已成为目前使用的频率较高的动作捕捉方案。视觉动作捕捉主要有两种：

1）Track 设备+IK 算法的动作捕捉方案，主要通过 Track 设备以及 IK 算法相结合，模拟出一定的动作姿态。这种动作捕捉方案在一些消费级的产品上运用较多，也颇受硬核技术流玩家们的喜爱，他们可以搭建自己的动作捕捉设备方案。

2）以人工智能为核心的动作捕捉方案，借助设备上自带的摄像头，如 iPhone 里搭载的深感摄像头实现面部捕捉功能，并且通过深度学习，训练算法将 2D 图像转换成 3D 图像，从而让一些坐着的主播可以拥有一个活灵活现的虚拟形象。

由于这种动作捕捉方案对硬件要求较低，多数依靠软件层的算法，因此具有较为广泛的应用空间和利润空间。代表性产品有 Leap Motion、微软 Kinect 等。

3.3. 渲染：主打 Unreal 和 Unity 渲染引擎，真实性和实时性均大幅提升

当通过不同的设备记录下动作方案之后，还需通过渲染引擎，对毛发、衣物等细节尽量还原。从引擎性能上来说，游戏领域的渲染引擎达到最好的渲染效果。PBR（Physically Based Rendering，基于物理的渲染技术）渲染技术的进步以及重光照等新型渲染技术的出现使数字人皮肤纹理变得真实，突破了恐怖谷效应。

恐怖谷效应由日本机器人专家森政弘提出，认为人们对机器人的亲和度随着仿真程度增加而增高，但当达到一个较高的临界点时，亲和度会突然跌入谷底，产生排斥、恐惧和困惑等负面心理。数字人恐怖谷效应主要由数字人外表、表情动作上与真人的差异带来，其中外表真实感的关键就是皮肤材质的真实感，无论是塑料感还是蜡像感都会给人类带来不适。

PBR（Physically Based Rendering）

PBR 是基于真实物理世界的成像规律模拟的一类渲染技术的集合，它的关键在于微表面模型和能量守恒计算，通过更真实的反映模型表面反射光线和折射光线的强弱，使得渲染效果突破了塑料感。常见的几款 3D 引擎，如 Unreal Engine 4, CryEngine 3, Unity 3D 5，均有了各自的 PBR 实现。

重光照技术

重光照技术通过采集模拟多种光照条件的图像数据，测算数字人表面光照反射特性，并合成出数字人模型在新的光照下的渲染结果，使计算机中的虚拟数字人在任意虚拟环境下都可以呈现近乎真实的效果，它彻底改变了传统渲染方式通过模拟皮肤复杂的透射反射来计算渲染总会带来误差的局面。

该技术在 2000 年初由南加州大学实验室创建 LightStage 平台时提出，并开始了相关研究，目前已经经过 7 代的迭代发展，已被成功应用到《阿凡达》、《复仇者联盟》等众多经典影片的角色制作中。

渲染技术也可分为实时渲染技术和离线渲染技术，二者在渲染时长、计算资源计算量等方面存在差异，所对应应用场景亦有所不同。

近些年来，尤其是随着 NVIDIA GeForce RTX 显卡的发布与扩张，GPU 并行计算的加速性能逐渐走向了台前。对经常使用 MAYA、3DSMax、Blender Cycles、Resolve、 Premiere Pro 等 CG、视频创作软件的用户来说，GPU 加速已经成为了比 CPU 加速更为优秀的渲染解决方案。NVIDIA Studio 组件的核心就是 NVIDIA RTX GPU(Quadro、 GeForce 等)。RTX GPU 里不只有渲染的核心、光线追踪的核心，还有基于人工智能运算的加速引擎，可以确保 RTX GPU 有最高的性能。（报告来源：未来智库）

4. 应用场景：虚拟数字人落地场景丰富，偶像营销或为先发赛道

虚拟人及数字人应用领域多元，主力文娱及服务行业。在画面呈现方式日渐成熟的的基础下，叠加 5G、算力、AI 等技术能力的提升，其落地场景日渐丰富。如今不再限于传统文娱如影视、动画在人物建模、CG 等方面在虚拟形象塑造的应用，还在社交、游戏、办公等场景实现了真实人类虚拟化身的身份职能，并逐渐于直播电商、偶像造星、陪伴服务等 AI 虚拟数字人领域实现商业变现。

4.1. 游戏：玩家数字化身需求日益提升，头部游戏厂商具有数字人技术积累

中国游戏产业处存量博弈阶段，角色扮演类游戏在市场收入方面居于首位。2021 年中国游戏市场实际销售收入 2965.13 亿元，yoy+6.4%。2021 年中国游戏用户规模 6.66 亿， yoy+0.22%，用户数量渐趋饱和。2021 年中国移动游戏收入排名前 100 位产品中，角色扮演、卡牌、策略三类游戏占据半壁江山，表明了玩家的偏好，以及企业相对集中的市场供给；此外，角色扮演、多人在线战术竞技和射击三类游戏占总收入 50%以上，反映这三类游戏用户基数较大的客观现实。

角色扮演类（RPG）游戏重视角色机制设定，开放世界概念拉升数字人需求。据 GameRefinery，2021 年 RPG 成为美国 iOS 市场的第四大游戏类别，贡献 14%的市场收益，主要系年内两款大热 RPG：《原神》和《我的英雄学院：最强英雄》上线所致。二者均为开放世界设定的 ARPG，注重单人游戏体验和故事线。与其他游戏不同，几乎所有开放游戏都会有角色机制，游戏开发者希望玩家以游戏世界中的角色形象进行沉浸式探索，并尽可能提供具有不同外观、不同风格、不同阵营的数字人增添玩家的体验丰满度，同时还交给玩家体质、敏捷、智力、力量等多方面属性的的数字人内在设定选择。除玩家的初始角色外，《原神》2019 年已拥有 33 个可玩角色，而在 2.0 版本更新后，可玩角色数量将达到 36 个。制作团队预计每年为《原神》新增大约 17 个角色，这对开放世界 ARPG 来说并非一个小数目。

国内头部游戏厂商已具有数字人自动生成技术沉淀，游戏捏脸成熟简便。在对于游戏内虚拟角色的设定以外，厂商亦重视玩家自身虚拟化身的打造。以中国主流 MMORPG 类型游戏为例，腾讯《天涯明月刀》及网易《逆水寒》均在玩家捏脸以及角色画面呈现上有先进优势。

腾讯北极光工作室 2015 年发布端游《天涯明月刀》，当时市场游戏普遍只提供 30-60 个可调参数的基础上，天刀的开发团队通过生物学、医学和解剖学的深造和研究，根据人类脸部骨骼和肌肉的自然分布，设定出 48 根骨骼上总共超过 200 项的可调参数。在自研引擎的给力支撑下，天刀使用了大量的材质特效，提供了 3S 材质的皮肤质感，极真模拟真实肌肤纹理，以及可调节的皮肤粗糙度和衰老度等设置。天刀捏脸系统提供可视化操作。玩家点击脸部 mask 可直接进行操作，同时也提供滑动条和键盘+- 符号两种操作方式。旋转、位移、缩放，带来细腻而便捷的操作感受。

网易伏羲人工智能实验室的智能捏脸项目，于 2018 年底在端游《逆水寒》中上线。这也是全球首次在 MMORPG 游戏中实现基于单张照片的智能捏脸玩法。系统使用大量的随机参数来模拟捏脸，训练 AI 学习捏脸的过程。玩家上传照片以后，系统就会把照片拆解成 AI 理解的形式，比如五官的位置、大小，妆容颜色等特征，AI 就会根据这些信息，对这些特征做复原。

数字人建模技术及空间计算能够有效简化和加快游戏 CG 制作过程。技术沉淀使厂商在有限成本的情况下让游戏中更多的虚拟角色都具备丰富的肢体动作和精细的面部表情，给玩家带来更沉浸的游戏体验。例如网易伏羲实验室成功将虚拟数字人技术应用到《逆水寒》等多个游戏剧情动画场景制作中，在无手工参与下，快速生成动画，这使得大量的虚拟角色都能富有视觉的表达能力。

游戏引擎作为虚拟世界的卖水人，有望破圈助力多行业数字人打造。以 Unity，Unreal 两大游戏引擎为首，游戏引擎的强大性能使得数字人形象拟真度进一步提升。

Unity 的渲染技术 HDRP 是基于可编程渲染管线（SRP）构建的，具有完全统一基于物理的渲染以获得超高的画质表现， HDRP 的设计遵循三个原则：1）渲染基于真实物理。2）光照统一、连贯。3）功能独立于渲染路径。HDRP 的强大性能让数字人得以“逃离”恐怖谷，以更接近真人的状态呈现在大众面前。

SUA 的不同之处是全身都基于实时渲染实现。基于实时渲染，SUA 不仅可以创建与用户实时交互的 4K 内容，速度高效至每秒 30 帧，这才让 SUA 与观众互动成为可能。通常的电影动画渲染中，使用的都是离线渲染，这种技术需要内容创建者投入大量的计算和时间才能生成高质量的图形。以单帧的高质量画面为例，剪裁需要数小时、计算机渲染需要数十小时，制作 1 小时的视频至少需要数百小时甚至更长时间才能完成。

Unreal engine 于 21 年 2 月揭晓其虚拟数字人制作应用 MetaHuman Creator。 MetaHuman Creator 是一款云端流送应用，旨在不牺牲质量的前提下，使实时数字人类的创作时间从数周乃至数月缩短到一小时以内。工作原理是根据一个不断增长的、丰富的人类外表与动作库进行绘制，并且允许使用直观的工作流程雕刻和制作想要的结果，从而创作出可信的新角色。MetaHuman Creator 会以数据约束的合理方式在库中的实际示例之间进行混合。用户可以从丰富的数据库里选择一系列预设人脸作为创作起点，混合出想要的人脸。

获得人物后，用户可以使用表演捕捉工具让它动起来——可以使用虚幻引擎的 iOS 应用 Live Link Face，并提供对 ARKit、DI4D、Dynamixyz、Faceware、JALI、Digital Domain、Speech Graphics 和 Cubic Motion 解决方案的支持——也可手动制作关键帧动画。为一个 MetaHuman 创作的动画可以在其他任何 MetaHuman 上运行，因此用户可以将工作成果复用于各种项目。

4.2. 偶像造星：虚拟偶像逐步渗透主流文化，国内大厂纷纷入局虚拟艺人

虚拟偶像市场高速增长，带动衍生产业空间广阔。据艾媒咨询，2020 年中国虚拟偶像核心产业规模为 34.6 亿元，yoy+70.3%，预计 2021 年将达到 62.2 亿元；另一方面，随着商业价值被不断发掘，越来越多产业与虚拟偶像联系在一起，虚拟偶像带动产业规模 2020 年达 645.6 亿元，预计 2021 年达 1074.9 亿元。同时八成以上网民有追星行为，其中喜欢虚拟偶像的网民占 63.6%，根据粉丝需求策划的偶像，能最大程度满足粉丝的想象，有利于积累更庞大的粉丝群体。

用户对虚拟偶像付费意愿较强，周边产品丰富带动变现能力。据艾媒咨询，八成网民为虚拟偶像每月花费在 1000 元以内，且 37.6%的网民表示愿意花更多的钱支持虚拟偶像。随着虚拟偶像产业的延伸业态不断发展，手办、唱片等产品已经成为了虚拟偶像流量变现的重要渠道，粉丝愿意花费更多的金钱和精力去支持虚拟偶像。

虚拟偶像早期随二次元文化渗透，国产 VUP 直播崛起。早期具有代表性的虚拟偶像包括以初音未来、洛天依为代表的虚拟歌姬（VSinger），此外还有主要在 YouTube、B 站开展活动的虚拟主播（VTuber/VUP）。20 年前，B 站虚拟直播区基本都被日系 VTuber 占领，而随着中国 VUP 的崛起，据 CEO 陈睿，截至 21 年 6 月，B 站拥有 3.2 万位 VUP，每月有约 4000 多个虚拟主播开播。据 darkflame，20 年 B 站 VUP 总收入约 1.8 亿元，21 年至今（截至 11 月 21 日）已达 4.5 亿元，是去年全年的 2.5 倍。分季度看，21Q3VUP 直播收入近 1.5 亿元，月付费人数提升至约 30 万人。目前头部 VUP 每月的直播收入在 50-200 万元不等， 20 年全球收入最高 VTuber 收入约 1.5 亿日元（约 840 万元），已被 VUP 全面赶上。从专业机构来看，VirtualReal 和 A-SOUL 两个专业化程度较高的机构一直占据收入榜首位。

互联网大厂青睐虚拟艺人领域，破圈走向主流文化已是大势所趋。大厂布局分为两类：1）推出技术平台。2）搭建虚拟艺人的商业场景。

4.3. 品牌营销：虚拟代言大幅提升用户吸引效率，外部运营快速引导商业流量变现

虚拟代言人市场空间充足，商业价值释放领域多元。虚拟代言人可划分为两种类型：1）品牌自主打造符合自身特性的虚拟代言人。2）品牌与外部团队商业合作，外部团队基于技术引擎开发具有高拟真人类形态的虚拟形象，并独立运营。虚拟数字人商业价值集中于： 1）社交账号潜力无限。大部分虚拟数字人的注册时间集中于 2020-2021 年，虽然时间较短，但是部分账号涨粉迅速。同时在微博上，百万粉丝量级的虚拟数字人 KOL 较少，仍有流量洼地可供挖掘。2）活跃在社交平台累积用户粘性。虚拟数字人账号在社交平台上的活跃，通过抽奖、科普、安利等多种形式和用户进行高频互动，共创内容。3）多种方式释放商业价值。虚拟数字人可以通过数字化、科技化、大数据为一体的诸多功能属性，进行与真人一样的品牌营销模式。视频大片、直播连线、联名产品、封面杂志、产品上身等。为粉丝带去更具想象并贴近完美的营销场景，释放更多商业价值。

虚拟代言人深度洞察 Z 世代消费新需求、助力品牌破圈。品牌打造符合自身文化和品牌调性的虚拟形象代言人，成为与年轻人建立沟通的突破口。从屈臣氏推出首位虚拟偶像代言人屈晨曦 Wilson 拉进与年轻人距离，王者荣耀借势时下最流行电竞虚拟男团“无限王者团” 全面打开社交属性，到欧莱雅推出首位虚拟代言人“M 姐”迎合年轻人走进圈层，花西子推出首个品牌虚拟形象“花西子“引领国货新风尚，虚拟形象代言人正帮助品牌迅速吸引年轻人的注意力，助力品牌俘获更多的目标用户。

外部运营虚拟数字人更偏向流量引导，有效推进直播带货场景应用。虚拟数字人物柳夜熙于抖音上走红，标签“会捉妖的虚拟美妆达人”。该账号作品只有 5 条短视频，获得了 2087 万点赞，粉丝总数 835.4 万。截至 1 月 17 日，话题“#柳夜熙#”播放量达到 9.4 亿次。“柳夜熙”账号的公司名为创壹视频，是刚成立三年的影视特效公司，旗下已经有 “慧慧周” “非非宇 Fay”“宇航员小五”等知名账号，基本的账号内容遵循发挥剧情+特效实现粉丝增长。

4.4. 社交：数字人为次世代社交的必要环节，增强用户沉浸及交互体验

数字人为次世代社交重要象征，用户对个性化社交虚拟化身需求提升。次世代社交指的是一个与现实平行、实时在线的虚拟世界，用户可以凭借自己的虚拟化身，并基于自己的兴趣图谱或推荐，体验多样的沉浸式社交场景，在接近真实的共同体验中一起交流、娱乐，最终找到志同道合的伙伴、建立社交连接。

4.5. 影视：动作捕捉技术推动影视虚拟形象创作，打开艺术创作想象空间

数字人于影视行业成熟运用，计算机化虚拟动捕已成为电影主流特效。技术发展并非一蹴而就，而由大量技术突破和创作实践积累叠加而成。通过观察影史中虚拟形象的典型应用案例，我们将虚拟动捕技术概括为影史中的四个不同发展阶段：萌芽期（1990-1999）、起步期（2000-2006）、成熟期（2006-2015）、新时期（2016-至今）。

动捕技术为追求高品质影像的重要路径，助力动画数字形象从现实提取真实性。数字时代的背景下，计算机图形技术不断融入影像创作领域。影视动画通常通过 2D 绘制、定格摆拍或 3D 手调（关键帧动画）的方式实现。为取得更真实的虚拟影像效果，动捕技术应运而生，从雏形动画转描技术发展至今，形成以红外式和惯性式为主的多元解决方案。动捕技术不断强化，从动作捕捉到表演捕捉、从非实时到实时、从关键帧动画为主到捕捉数据为主，在经历一系列标志性影片的助推后，达到如今《阿丽塔：战斗天使》、《双子杀手》的高峰。

接纳及使用虚拟形象创作等新技术，放大科幻创作者想象力表现的空间。21 年 3 月，阔别 12 年的经典数字人电影《阿凡达》（2009）全球重映，以 28.47 亿美元（184 亿人民币）票房，从《复联 4》中夺回世界票房冠军，无宣发在中国大陆重映获得 17 亿票房。归结其原因，在于早期超前使用 3D、数字人动捕、CG 等技术改革，至今仍保留最先进科幻电影的世界观及格局。随数字技术发展，实时渲染、交互影像等新技术不断加入影视创作中。如何熟捻地使用数字技术为好故事服务，提升影视叙事和角色情感体验，是影视行业对待数字技术发展与艺术创作辩证关系的真正思路。

5. 大厂布局：海内外厂商多角度布局虚拟数字人赛道

5.1. 国内厂商：国内厂商在产业链基础层、平台层和应用层均衡发力

国内厂商在产业链基础层、平台层和应用层发展较为均衡，虚拟数字人从开发到落地的体系逐渐趋于完整。基础层相关厂商主要着力点在人工智能、动作捕捉、建模渲染以及虚拟数字人的技术服务。科大讯飞、捷成股份、新华网、标贝科技、追一科技和小冰等专注人工智能，云舶科技专研动作捕捉，环球墨非、亿真科技、虚谷未来科技、半人猫、叠镜数字、相芯科技以及 Tatame 等专注建模渲染，中科深智、魔珐科技和万像文化等负责虚拟数字人的技术服务。

产业链平台层建设为虚拟数字人运营，主要包括虚拟数字人的外观设计、包装、宣传、落地和培养，相关企业有上海禾念、乐华娱乐、动图宇宙、次世文化、创壹视频、虚拟影业、魔塔时空和世悦星承等。应用层主要投入在游戏、直播、动画、影视、音乐以及社交平台等，应用于娱乐和营销。腾讯音乐、芒果超媒、奥飞娱乐和哔哩哔哩等将虚拟主播和虚拟偶像等应用于娱乐内容。蓝色光标、浙文互联、引力传媒、星期六（遥望网络）、华扬联众和天下秀等已推出或筹备推出虚拟 IP 形象，着重广告营销，星期六（遥望网络）预计推出虚拟数字人与真人的互动直播。中国移动、阿里巴巴、腾讯、百度、网易等综合型厂商支持旗下相关公司或事业部向虚拟数字人赛道发力。

5.2. 海外厂商：海外厂商聚焦基础层的建设以及 AI 技术的开发

海外厂商主要聚焦于产业链基础层的建设，因起步较早，综合实力强于国内厂商。在技术领域方面，有一部分海外厂商如 Intel、Microsoft、Google 以及 Meta(Facebook)这类综合型厂商提供全栈式的技术服务。也有一部分海外厂商从不同的技术细分上发力，其中包括人工智能，渲染建模，动作捕捉以及 VRAR 的应用等。在 AI 虚拟形象生成技术厂商中，主要有 Soul-Machine、Oben 以及 Loom.ai 等厂商提供个性化的人机交互系统来强调拟人化的情绪带来的商业价值的提升。在渲染建模方面，主要海外厂商有 Epic Games、Unity 以及 NVIDIA 等。其开发的引擎 Unreal engine、Unity 以及 NVIDIA Omniverse 提供了 3D 实时模拟和协作的工具和平台。关于动态捕捉的海外厂商有关注光学动态捕捉技术的 VICON、 Motion Analysis、Opti Track，以及关注惯性动作捕捉技术的 Xsens 等。在 VRAR 方面，主要有 Wave 和 Stageverse 这样的海外厂商使用 VRAR 技术向用户提供虚拟服务的平台以及应用程序。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

精选报告来源：【未来智库】。