#ai探索计划# CyberHost是字节跳动推出的一款创新性音频驱动人像视频生成模型。作为一个端到端的音频驱动人体动画框架,其核心是单阶段音频驱动说话人半身生成框架,能仅通过音频直接生成说话人的半身动作。1、技术原理CyberHost采用了区域码本注意力(Region Codebook Attention)机制,将细粒度的局部特征与学习到的运动模式先验相结合,提升面部和手部动画的生成质量。还开发了一套人体先验引导(Human-Prior-Guided)训练策略,包括身体运动图(Body Movement Map)、手部清晰度得分(Hand Clarity Score)、姿势对齐参考特征(Pose-Aligned Reference Feature)和局部增强监督(Local Enhancement Supervision),以优化合成结果。2、功能优势CyberHost是首个能够在人体范围内进行零样本视频生成的端到端音频驱动人体扩散模型,可确保手部完整性、身份一致性和动作自然度。其通过Codebook Attention机制,解决了纯音频驱动下稳定的人物手部动作生成这一难题,所设计的Body Movement Map和Hand Clarity Score等策略,保证了动作的自然流畅。3、应用场景CyberHost的应用场景广泛,可用于线上会议,使虚拟参会者形象更生动;在虚拟主播领域,能提升主播的表现力和吸引力;还可应用于社交媒体内容创作,为用户提供更具创意和真实感的数字内容。#ai创造营#