语言翻译新突破：Meta 'SeamlessM4T v2'实现真实感情与风格的保留_

作者：太平洋的水

Meta最近宣布的'SeamlessM4T v2'在AI驱动的语言翻译和通信方面标志着重大进步。这个升级版的SeamlessM4T模型整合了几个关键功能：

高质量翻译：SeamlessM4T v2旨在提供高质量的翻译，这对于语音到语音的翻译系统至关重要。它内置了一个表达性编码器，Prosody UnitY2，以正确的节奏、语速和停顿指导单元生成，增强了翻译语音的表现力。
全面的模型套件：SeamlessM4T v2作为Seamless Communication套件的一部分发布，该套件包括旨在改善全球通信的各种模型。这些模型包括Seamless M4T V2、Seamless Expressive、Seamless Streaming和一个统一模型Seamless。每个模型都针对语言翻译和通信的不同方面。
保持声音风格和韵律：SeamlessM4T v2及其相关模型的一个独特功能是在翻译过程中保持说话者的声音风格和韵律。这在实时流媒体中尤其具有挑战性，因为系统只能访问部分输入。将表达性编码器整合到基础模型中确保了单元生成按照预期的语速和节奏进行。用表达性单元到语音生成器替换HiFi-GAN单元声码器，并根据源语音进行调节，使得语调、情感表达和声音风格的无缝转移成为可能。
智能的情境决策：该套件中的SeamlessStreaming模型能够智能地决定何时有足够的语境来输出下一个目标文本或语音片段。这种决策是通过基于部分音频输入的学习型读/写策略来做出的。该模型自动适应不同的语言结构，使其在许多不同的语言对中都能表现出强大的性能。
加强训练和评估：升级后的多语言多任务基础模型SeamlessM4T v2采用了非自回归的文本到单元解码器。它接受了大量的语音数据（450万小时）的训练，并通过SeamlessAlign补充了更多低资源语言的数据。这种广泛的训练和评估使其在以前的模型上取得了显著的性能提升，已经过强度、偏见和臆想毒性的测试。

对于有兴趣体验这项技术的人来说，Meta提供了SeamlessExpressive模型的演示。这个演示允许用户听到他们的声音在不同语言下如何保持表达和语调元素。演示可以在SeamlessExpressive演示访问。