阿里云发布通义万相2.1，首创生成汉字视频_

日前阿里云方面宣布，旗下自研大模型通义万相迎来重磅升级，已迭代至2.1版本（以下简称为万相2.1）。

据了解，相较上一代，万相2.1的视频生成、图像生成两大能力均有显著提升。目前该模型已全面开放，用户可在通义万相官网直接免费使用，同时个人开发者和企业用户还可在阿里云百炼调用通义万相API，进一步创造更丰富的AI工具和应用。

具体而言，在视频生成能力方面，万相2.1在大幅度复杂运动、物理规律遵循、艺术表现等层面全面提升，并在视频生成领域领域权威评测榜单VBench中以总分84.7%的成绩登上榜首。目前万相 2.1已支持复杂运镜，可还原碰撞、反弹、切割、挤压等真实世界的物理规律。

据悉，为精准理解和模拟物理世界，通义万相团队采用自研高效的VAE和DiT架构，有效增强万相2.1时空上下文关系建模能力。在全新架构下，万相2.1在大幅度的肢体运动和肢体旋转场景的视频生成上表现更稳定。值得一提的是，万相2.1在文字视频生成上实现了突破，成为首个支持中文文字生成能力、且同时支持中英文文字特效生成的视频生成模型，可满足广告设计、短视频等领域的创作需求。

在视频VAE方面，通义万相团队则设计了一种创新的视频编解码方案，即通过将视频拆分成若干块（Chunk）并缓存中间特征的方式，代替直接对长视频端到端的编解码过程，实现显存的使用与原始视频长度无关，从而能够支持无限长1080P视频的高效编解码。

而在图像生成能力方面，万相2.1支持文生组图，可生成电影级分镜、四格漫画、情侣头像等。据了解，万相2.1采用IC-LoRA 图像生成训练方法，利用DiT架构增强了文本到图像的上下文能力。

【本文图片来自网络】