无文本 NLP：从原始音频生成富有表现力的语音_

GTP-3,当将书面文字作为输入时，他们几乎可以针对任何主题生成极其逼真的文本。此外，它们还提供了有用的预训练模型，可以针对各种困难的自然语言处理 (NLP) 应用程序进行微调，包括情感分析、翻译、信息检索、推理和摘要

然而，有一个重要的限制：这些应用程序主要限于具有适合训练 AI 模型的非常大的文本数据集的语言。

我们正在推出生成性口语模型 (GSLM)，这是第一个摆脱这种对文本依赖的高性能 NLP 模型。GSLM 利用最近在表征学习方面的突破，使其仅从原始音频信号直接工作，无需任何标签或文本。它为地球上可能使用的每种语言打开了无文本 NLP 应用程序新时代的大门——即使是那些没有重要文本数据集的语言。

GSLM 还支持 NLP 模型的开发，这些模型结合了口头语言的全方位表达能力。

以前，将 NLP 应用程序连接到语音输入意味着研究人员必须首先训练一个自动语音识别 (ASR) 系统，这是一个引入错误的资源密集型操作，在编码偶然语言交互方面做得很差，并且只能用于少数语言。通过无文本 NLP，我们希望让 ASR 过时，并以端到端的方式工作，从语音输入到语音输出。我们认为学龄前儿童仅从原始感官输入和音频交互中学习语言的能力是该研究可能实现的未来进步的一个令人兴奋的模板。

我们现在正在分享我们的基线 GSLM 模型，它包含三个组件：一个将语音转换为离散单元的编码器，该单元代表口语中经常出现的声音；一个自回归的、基于单元的语言模型，经过训练可以根据之前看到的内容预测下一个离散单元；以及将单位转换为语音的解码器。

无文本 NLP 的广泛优势

NLP 领域几乎总是使用书面文本来训练模型。这对于像英语这样的语言非常有效，因为这些语言拥有适合训练的大量文本数据集。但是世界上大多数语言都缺乏这些广泛的数据集，这意味着它们在很大程度上无法从 NLP 技术中受益。颠覆这种动态是一项激动人心的挑战，需要 Facebook 人工智能研究人员组成的多学科团队在信号处理、语音处理、NLP 和心理语言学方面具有专业知识。

我们的研究通过在无文本输入上训练语言模型开辟了新天地，出于多种原因，这非常重要。

首先，无文本 NLP 技术应该让 AI 更具包容性，并且能够模拟比今天更丰富的语言。这种方法开辟了为任何口语训练模型的可能性。

其次，通过获得口头语言的完整表现力，模型应该包含细微差别和语调；编码讽刺、愤怒和不确定性；并使用诸如笑声、打哈欠和嘴巴咔哒声等发声。由于口头语言的丰富表现力，无文本 NLP 实际上可能比使用文本训练模型更好，即使在像英语这样的文本丰富的语言中也是如此。

第三，研究人员应该能够训练音频优先体验模型，例如播客、广播节目和社交音频应用程序，而无需注释或训练 ASR。无文本 NLP 开启了一系列前所未有的应用程序的可能性，例如多语言视频游戏的在线表达翻译，或存档音频的内容搜索和摘要。

最后，这些模型可以帮助发育心理学家以及言语和语言临床医生预测婴儿学习说话和理解言语的能力如何受到不同语言的语言输入差异的影响。

除了帮助推进这些更广泛的研究目标之外，GSLM 还为当今从事 NLP 的人员提供了具体的好处。研究人员将能够通过简单的下一个声音单元预测任务预训练模型，并针对端到端任务对它们进行微调，而无需任何文本。

纯音频语音到语音翻译系统

. 进一步的工作将解决标准 NLP 任务的无文本版本，例如情感分析、文档检索、摘要等。

构建和评估基线模型

GSLM 首先构建我们的基线模型并在两个简单的端到端任务上对其进行评估。第一个是离散再合成，其中输入波被编码为一系列离散单元，我们称之为伪文本，然后用于在模型的“声音”中重新合成输入。第二个任务是语音生成，其中语言模型用于在通过编码器的输入提示上无条件或有条件地对新的伪文本进行采样。

我们模型的架构。编码器将语音波形转换为离散单元（S2u），解码器进行相反的映射（u2S），基于单元的语言模型对单元序列（伪文本）的分布进行建模。

我们使用标准的因果 Transformer 和Tacotron 2进行语言建模，一个标准的文本到语音系统，作为我们的解码器。

我们在 6,000 小时的 Libri-Light 和 Librispeech（大量有声读物）上训练了我们的编码器和基于单元的语言模型 (uLM)，并在 Librispeech 和 LJspeech 上训练了解码器。整个堆栈是在原始音频的自我监督下训练的，没有文本或标签，语言模型和文本到语音组件是在从原始音频派生的伪文本上训练的。

在比较这些不同的模型时，我们无法分析生成的伪文本，因为这些单元没有与字母或音素一一对应。好的模型通常使用 100 个或更多单位，并且它们通常编码比音素短的语音片段。所以我们使用预训练的 ASR 将生成的音频转换回文本。这使我们能够使用音素错误率 (PER) 来衡量重新合成音频的可懂度——原始输入的音素与 ASR 重新转录的音素的比较——以及有条件或无条件生成的语言质量和多样性使用曲线下面积 (AUC) 度量的音频。AUC 是通过在一系列“温度”范围内对句子进行采样获得的，我们将其定义为语言模型的创造性程度。温度越低，模型越刚性；温度越高，模型的可变性越大。

两个评估指标，AUC 和 PER

在执行这些测量时，我们发现了几件事。首先，量化器使用多少个离散单元很重要：数字越大，在声学级别上产生更好的结果，尽管以更高的比特率为代价。其次，在语言层面也有类似的趋势，但在某些情况下，使用过多的单位会变得有害。第三，不同的编码器产生了非常不同的结果，HuBERT 提供了最好的整体结果。第四，自动生成指标与人的相关性很好。最后，这些指标是通过计算速度更快的零样本指标来预测的零资源语音基准，作为快速迭代的良好代理。

三个编码器（wav2vec、CPC 和 HuBERT）的自动和人工指标（越低越好）以及用于比较的 LogMel，它们在三个字典大小（50、100 和 200）上使用 k 均值进行量化。x 轴是单元的结果比特率。

以下是我们的最佳模型（100 个单元上的 CPC 或 HuBERT）无条件生成的一些样本，这些样本在 Libri-Light 6k 上进行了训练。

编码和解码韵律

虽然我们的编码器发现的单位不是音素，但它们具有许多相同的属性：它们编码语音对比（例如区分“pa”和“ba”），同时忽略说话者和声道信息。此外，与音素一样，它们通常会忽略更多具有表现力的全局语音属性，例如语调和节奏。这被称为韵律。所以我们的第二步是通过改进编码器和解码器来捕捉韵律。

为此，我们训练一个变分自编码器，利用矢量量化来获取唯一的潜在表示。这个所谓的

VQ-VAE系统被输入音高 (F0) 信息以及一个简化的文本到语音系统，该系统输入上述离散的 - 非重复的 - 伪电话单元；来自 VQ-VAE 的量化音高；和学习的说话人嵌入。

在我们的无监督解缠编码器-解码器的架构中，伪文本单元在左上角编码，量化音高单元在中间，扬声器嵌入在底部。在右侧，解码器重建波形。

我们在 LJspeech（单扬声器）和 VCTK（多扬声器）上评估了这种架构，再次发现基于 HuBERT 的单元在客观指标和主观评估分数方面都提供了非常好的结果。

与原始音频（Ground Truth、GT）和三种类型的离散单元（CPC、HuBERT、VQ-VAE）相比，我们的系统在两个数据集（LJ：单个扬声器和 VCTK：多个扬声器）上训练时的性能。我们从三个维度评估重新合成的内容：使用自动技术的内容、F0 和扬声器，以及全球范围内的人工评估（平均意见得分，MOS）。

由于语音和韵律单元实现了高度的说话人独立性，我们的模型能够通过改变输出说话人嵌入来执行语音传输，同时保留语音单元和原始输入的韵律：

它还可以用作语音编解码器，仅传输语音嵌入以及单元和韵律的离散代码。我们的系统与当前的语音编解码器相比具有优势，同时使用的比特率要低得多。准确地说，这代表了 20 倍的压缩因子，一种具有类似压缩质量的标准编解码器，与使用矢量量化变分自动编码器的最新研究语音编解码器相比是 2 倍。然而，虽然我们的系统实现了高压缩率，但它专门用于语音，无法编码其他形式的音频，例如音乐。