日前阿里云方面宣布,旗下自研大模型通义万相迎来重磅升级,已迭代至2.1版本(以下简称为万相2.1)。
据了解,相较上一代,万相2.1的视频生成、图像生成两大能力均有显著提升。目前该模型已全面开放,用户可在通义万相官网直接免费使用,同时个人开发者和企业用户还可在阿里云百炼调用通义万相API,进一步创造更丰富的AI工具和应用。
具体而言,在视频生成能力方面,万相2.1在大幅度复杂运动、物理规律遵循、艺术表现等层面全面提升,并在视频生成领域领域权威评测榜单VBench中以总分84.7%的成绩登上榜首。目前万相 2.1已支持复杂运镜,可还原碰撞、反弹、切割、挤压等真实世界的物理规律。
据悉,为精准理解和模拟物理世界,通义万相团队采用自研高效的VAE和DiT架构,有效增强万相2.1时空上下文关系建模能力。在全新架构下,万相2.1在大幅度的肢体运动和肢体旋转场景的视频生成上表现更稳定。值得一提的是,万相2.1在文字视频生成上实现了突破,成为首个支持中文文字生成能力、且同时支持中英文文字特效生成的视频生成模型,可满足广告设计、短视频等领域的创作需求。
在视频VAE方面,通义万相团队则设计了一种创新的视频编解码方案,即通过将视频拆分成若干块(Chunk)并缓存中间特征的方式,代替直接对长视频端到端的编解码过程,实现显存的使用与原始视频长度无关,从而能够支持无限长1080P视频的高效编解码。
而在图像生成能力方面,万相2.1支持文生组图,可生成电影级分镜、四格漫画、情侣头像等。据了解,万相2.1采用IC-LoRA 图像生成训练方法,利用DiT架构增强了文本到图像的上下文能力。
【本文图片来自网络】
4000520066 欢迎批评指正
Copyright © 1996-2019 SINA Corporation
All Rights Reserved 新浪公司 版权所有
All Rights Reserved 新浪公司 版权所有