NeurIPS2023丨大模型最新研究进展_

NeurIPS，全称神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems)，是一个关于机器学习和计算神经科学的国际会议。作为目前全球最负盛名的人工智能盛会之一，NeurIPS 在每年年末都是计算机科学领域瞩目的焦点。被 NeurIPS 接收的论文，代表着当今神经科学和人工智能研究的最高水平。

我们通过AMiner AI，对 NeurIPS2023 收录的会议论文进行了分类整理，今日分享的是大模型主题论文，共91篇，由于篇幅问题，更多论文可以点击阅读原文了解更多！欢迎下载收藏！

1.Toolformer: Language Models Can Teach Themselves to Use Tools

这篇论文介绍了一种名为“Toolformer”的模型，该模型能够通过简单的 API 调用自我训练，从而教会自己使用外部工具。该模型被训练来决定何时调用 API，如何传递参数，并如何将 API 结果融入未来单词预测中。通过这种方式，模型能够使用多种工具，包括计算器、问答系统、两个不同的搜索引擎、翻译系统和日历。Toolformer 在多个下游任务中取得了显著的提高，其性能有时比大型模型还要好，同时并没有牺牲其语言建模能力。

https://www.aminer.cn/pub/63e5b5d290e50fcafd421f1f/?f=wb

2.Tree of Thoughts: Deliberate Problem Solving with Large Language Models

这篇论文介绍了一种新的语言模型推理框架——“ToT”，通过对文本单元（“Thoughts”）进行探索，允许模型在推理过程中进行多路径决策，自我评估选择，以及必要时进行前瞻或回溯，从而增强模型的问题解决能力。作者通过实验验证了ToT在三个需要规划或搜索的任务中的效果，包括24格数学游戏、创意写作和小型填字游戏，结果显示ToT极大地提高了语言模型的解决问题的能力。提供了本文中使用的全部提示的代码仓库。

https://www.aminer.cn/pub/6466fafbd68f896efaeb751d/?f=wb

3.Language Is Not All You Need: Aligning Perception with Language Models

这篇论文探讨了将语言、多模态感知、动作和现实建模相结合,是实现人工通用智能的关键步骤。文章介绍了一种名为Kosmos-1的多模态大型语言模型(MLLM),可以感知多种模态,具有在上下文中学习(即少样本学习)和遵循指令(即零样本学习)的能力。Kosmos-1是在大规模多模态语料库上从头开始训练的,包括任意交织的文本和图像、图像字幕对和文本数据。文章评估了各种设置,包括零-shot、少-shot和多模态链式思维提示,在无需任何梯度更新或微调的情况下,应用于广泛的任务。实验结果表明,Kosmos-1在语言理解、生成和甚至无需OCR的NLP(直接输入文档图像)方面,以及在感知语言任务,包括多模态对话、图像字幕、视觉问答和视觉任务,如带有描述的图像识别(通过文本指令指定分类)方面都取得了出色的表现。文章还表明,MLLM可以从跨模态转移中受益,即从语言到多模态,以及从多模态到语言的知识转移。此外,文章还介绍了一个Raven智商测试数据集,用于诊断MLLM的非语言推理能力。

https://www.aminer.cn/pub/63fd715f90e50fcafd1476d4/?f=wb

4.Direct Preference Optimization: Your Language Model is Secretly a Reward Model

这篇论文介绍了一种名为“Direct Preference Optimization”的新算法，用于微调大型无监督语言模型以迎合人类偏好。相比于现有方法，该算法更加简单、稳定和高效，能够轻松实现和训练。

在现有方法中，为了获得对人类偏好的精确控制，需要收集人类标签，以指示模型生成文本的质量，然后使用强化学习从人类反馈中学习 (RLHF)。然而，这种方法是复杂和不稳定的，首先需要建立一个反映人类偏好的报酬模型，然后在强化学习中微调大型无监督语言模型，以最大化这个估计报酬，同时不要偏离原始模型太远。

在这篇论文中，作者展示了一种名为“Direct Preference Optimization”的新算法，它使用了一个映射函数，将报酬函数与最优策略联系起来。该算法在单一阶段中训练政策，实际上解决了分类问题，使用的是人类偏好数据。该算法非常稳定、高效和轻量级，不需要建立报酬模型、在微调时从语言模型中采样，也不需要进行大规模的超参数调整。

实验结果表明，Direct Preference Optimization 可以微调大型无监督语言模型以迎合人类偏好，比现有方法效果更好。特别是，使用 Direct Preference Optimization 在摘要和单轮对话中提高了响应质量，同时实现和训练更加简单和高效。

https://www.aminer.cn/pub/647572e0d68f896efa7b79a5/?f=wb

5.Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models

这篇论文介绍了一种名为 Chameleon 的插件式组合推理框架，用于增强大型语言模型 (LLM)。LLM 在自然语言处理任务中取得了显著进展，但它们面临着无法访问最新信息、利用外部工具或进行精确数学推理等固有局限性。Chameleon 合成程序来组合各种工具，包括 LLM 模型、现成视觉模型、网络搜索引擎、Python 函数和针对用户兴趣定制的规则模块。Chameleon 基于 LLM 作为自然语言规划器，推断适当的工具组合和执行顺序以生成最终响应。作者在 ScienceQA 和 TabMWP 任务上展示了 Chameleon 的适应性和有效性。值得注意的是，使用 GPT-4 的 Chameleon 在 ScienceQA 上达到 86.54% 的准确率，比最佳已发布 few-shot 模型提高了 11.37%；使用 GPT-4 作为底层 LLM，Chameleon 在 TabMWP 上达到 98.78% 的总体准确率，比最先进的模型高出 17.8%。进一步的研究表明，与 ChatGPT 等其他 LLM 相比，使用 GPT-4 作为规划器显示出更一致和合理的工具选择，并能够根据指示推断潜在约束。

https://www.aminer.cn/pub/6440ad89ed329dcc6b838a0f/?f=wb

6.Are Emergent Abilities of Large Language Models a Mirage?

这篇论文探讨了大型语言模型是否真的具有“浮现能力”（emergent abilities），即在规模变大时出现的能力，而这些能力在小规模模型中并不存在。论文提出了一种新的解释，认为所谓的“浮现能力”可能是研究者在分析模型输出时选择特定指标的结果，而不是模型在特定任务上随着规模扩大而发生的根本性行为变化。

为了验证这一解释，论文首先建立了一个简单的数学模型，然后从三个方面进行验证：首先，在InstructGPT/GPT-3家族的模型上，对指标选择的影响进行了预测，并进行了实验验证；其次，在BIG-Bench上对涌现能力的元分析中，对指标选择进行了预测，并进行了验证；最后，在卷积、自动编码器、变压器等不同深度网络架构的视觉任务中，展示了类似的指标决策如何导致看似涌现能力的出现。

论文的结论是，有强烈的证据支持“浮现能力”可能并不是随着AI模型规模扩大而产生的根本性属性。

https://www.aminer.cn/pub/6456385bd68f896efacf238f/?f=wb

7.Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation

这篇论文的摘要提出了一个问题:由 ChatGPT 生成的代码真的正确吗?为了回答这个问题,作者提出了一个代码生成评估框架 EvalPlus,用于严格评估大型语言模型生成的代码的功能正确性。该框架使用自动输入生成步骤,生成大量新的测试输入,使用基于 LLM 的和突变基于的输入生成器来进一步验证生成的代码。作者扩展了流行的 HUMANEVAL 基准,并构建了 HUMANEVAL+,生成了 81 倍的额外测试用例。作者在 14 个流行的 LLM 上进行了广泛的评估,证明了 HUMANEVAL+ 能够捕捉到 LLM 生成的以前未检测到的错误代码,平均降低 pass@k的通过率 15.1%。此外,作者在 HUMANEVAL 中甚至发现了一些错误的 ground-truth 实现。作者的工作不仅表明,以前流行的代码合成评估结果不能准确反映 LLM 在代码合成方面的真实性能,而且还开辟了通过自动测试输入生成改进编程基准的新方向。

https://www.aminer.cn/pub/64563889d68f896efacf5414/?f=wb

8.Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting

这篇论文探讨了大型语言模型（LLMs）在进行链式思维推理（CoT）时可能产生的不忠实解释问题。CoT 是一种逐步推理的过程，可以在许多任务中实现出色的性能。然而，论文发现 CoT 解释可能系统性地误解模型预测的真实原因。当在模型输入中添加偏向性特征时，例如重新排列多个选择题选项以使答案始终为“(A)”，模型系统地未在解释中提及这一点。当偏向于错误答案时，模型经常生成支持这些答案的 CoT 解释。在 OpenAI 的 GPT-3.5 和 Anthropic 的 Claude 1.0 上进行的 13 个任务测试中，准确性下降了多达 36％。在社交偏见任务中，模型解释在没有提及这些社会偏见的影响的情况下，为符合刻板印象的答案辩护。研究结果表明，CoT 解释可能是合理但具有误导性的，这可能导致我们过度信任 LLMs 而不保证其安全性。虽然 CoT 对于可解释性很有前途，但我们的结果突显了需要针对解释的忠实度进行评估和改进。

https://www.aminer.cn/pub/6459ac64d68f896efa658c20/?f=wb

9.RRHF: Rank Responses to Align Language Models with Human Feedback without tears

这篇论文提出了一种名为 RRHF 的新学习方法，可用于有效地将大型语言模型与人类反馈对齐，从而提高人类与这些模型之间的交互质量。相比于传统的 RLHF 方法，RRHF 使用排名损失来学习如何排序生成回复，从而更有效地对齐语言模型的输出概率与人类反馈。与传统的奖励模型训练方法相比，RRHF 在代码、模型数量和超参数方面更加简单，且能够在单个训练会话中完成整个对齐过程。在帮助和无害数据集上的评估表明，RRHF 的性能与 PPO 相当。

https://www.aminer.cn/pub/643621a290e50fcafd6664fb/?f=wb

10.LLM-Pruner: On the Structural Pruning of Large Language Models

这篇论文研究了大型语言模型（LLM）的结构剪枝问题。尽管LLM在语言理解和生成方面表现出了显著的能力，但其庞大的模型尺寸在部署、推理和训练阶段都带来了挑战。作者探索了在保持原LLM的多任务解决和语言生成能力的同时，对LLM进行任务无关的压缩。由于LLM的训练语料库规模巨大，数据传输和模型后训练变得繁重，因此作者将压缩方法限定在两个约束条件下：任务无关和最小化对原始训练数据的依赖。他们的方法名为LLM-Pruner，采用结构剪枝，根据梯度信息选择性地移除非关键耦合结构，最大程度地保留LLM的大部分功能。通过调整技术，LLM-Pruner可以在短短3小时内恢复剪枝模型的性能，只需要50K数据。作者在三个LLM上验证了LLM-Pruner，包括LLaMA、Vicuna和ChatGLM，证明压缩后的模型在零射击分类和生成方面仍具有满意的性能。

https://www.aminer.cn/pub/646aecaad68f896efa05a716/?f=wb

11.On the Planning Abilities of Large Language Models (A Critical Investigation with a Proposed Benchmark)

这篇论文旨在研究大型语言模型 (LLM) 的规划和规划能力。通过对国际规划比赛使用的领域进行基准套件的开发，评估了 LLM 在自主、启发式和人类参与模式下的规划能力。结果表明，LLM 自主生成可执行计划的能力有限，平均成功率仅为 3%。启发式和人类参与模式表现出略微更高的潜力。此外，论文还发布了基准套件和评估工具，以支持研究社区的进一步研究。

https://www.aminer.cn/pub/63ec4dc890e50fcafd66a422/?f=wb

12.Can Language Models Solve Graph Problems in Natural Language?

这篇论文探讨了大型语言模型（LLMs）是否可以解决自然语言中的图形问题。LLMs越来越多地被应用于具有隐含图形结构的多种任务，如机器人规划、多跳问答或知识探测、结构化常识推理等。然而，LLMs是否可以明确地处理文本描述的图形和结构，并将它们映射到实际的概念空间，并进行结构化操作，仍然是一个探索不足的问题。为此，作者提出了NLGraph（自然语言图）基准，这是一个旨在用自然语言设计的全面的图形问题解决基准。NLGraph包含了29,370个问题，涵盖了八个图形推理任务，从简单的连通性和最短路径等任务到复杂的最大流和模拟图神经网络等任务。作者在NLGraph基准上评估了LLMs（GPT-3/4）的各种提示方法，发现1）语言模型确实表现出初步的图形推理能力；2）先进提示和上下文学习的好处在更复杂的图形问题上的减少，而3）LLMs在面对图形和问题设置中的虚假相关性时也表现出惊人的脆弱性。然后，作者提出了构建图形提示和算法提示两种基于指令的方法，以增强LLMs在解决自然语言图形问题方面的能力。Build-a-Graph和Algorithmic提示在NLGraph上的多个任务和设置中提高了LLMs的性能，提高了3.07%到16.85%，但如何用语言模型解决我们设置中最复杂的图形推理任务仍然是一个未解决的研究问题。

https://www.aminer.cn/pub/64659ad1d68f896efa8751e2/?f=wb

13.Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models

这篇论文探讨了如何更高效、经济地在大型语言模型（LLM）中进行视觉语言（VL）学习的问题。现有的解决方案不仅需要优化过多的参数，还需要在进行VL指令调整之前进行大规模预训练，这使得现有方案的成本过高。因此，该论文提出了一种名为混合模态自适应（MMA）的新颖且经济有效的VL适应LLM的解决方案。MMA采用轻量级模块适配器来连接图像编码器和LLM之间的差距，实现图像和语言模型的联合优化。同时，MMA还配备了路由算法，帮助LLM在单模态和多模态指令之间自动切换，而无需牺牲其自然语言理解能力。实验结果表明，LaVIN模型的性能优于现有多模态LLM，且具有巨大的通用聊天机器人的潜力，而其实际成本非常低。

https://www.aminer.cn/pub/646edca5d68f896efaddaf45/?f=wb

14.Fine-Tuning Language Models with Just Forward Passes

这篇论文研究了在大规模语言模型（LMs）上进行微调时，使用零阶（ZO）方法优化梯度的效率问题。随着模型规模的增大，反向传播需要大量的内存，而传统的ZO方法理论上对于优化大型模型可能会非常慢。因此，作者提出了一种内存高效的零阶优化器（MeZO），将经典的ZO-SGD方法调整为原地操作，从而使微调具有与推理相同的内存占用。例如，在使用单个A100 80GB GPU的情况下，MeZO可以训练一个300亿参数的模型，而使用反向传播只能训练一个27亿参数的模型。作者在模型类型（掩码和自回归LM）、模型规模（最大660亿）和下游任务（分类、多选题和生成）方面进行了全面的实验。结果表明，MeZO在多个任务上与使用反向传播的微调性能相当，最多可减少12倍的内存占用；MeZO与全参数和参数高效调整技术（如LoRa和前缀调整）兼容；MeZO可以有效优化非梯度目标（如最大化准确率或F1值）。作者用理论洞察支持他们的实证发现，强调了充分预训练和任务提示如何使MeZO能够微调大型模型，尽管传统的ZO分析表明这是不可能的。

https://www.aminer.cn/pub/647572d8d68f896efa7b7303/?f=wb

15.MPI: Evaluating and Inducing Personality in Pre-trained Language Models

这篇论文探讨了预训练语言模型中个性特征的评估和诱导。个性是衡量人们在思考、感受和行为方面差异的一种哲学追求。为了构建与人类日常互动的社会机器，作者提出了三个问题：现有的预训练语言模型是否具有类似人类的个性特征？如果有的话，我们如何评估它们？此外，在有了这个评估框架之后，我们如何以完全可控的方式诱导特定的个性特征？

为了解决这些问题，作者提出了一个名为“机器人格清单”（MPI）的数据集，用于评估机器个性。MPI遵循标准化的人格测试，建立在五大人格因素（Big Five）理论和个性评估清单的基础上。通过使用MPI评估模型，我们提供了第一个证据，证明预训练语言模型具有个性特征。此外，作者设计了一种链式提示方法，以可控的方式诱导具有特定个性特征的语言模型，使其产生多样化行为。

作者希望采用个性作为各种下游任务的必要心理指导，构建更接近人类、更具情境对话代理。

https://www.aminer.cn/pub/62aa9fb55aee126c0fa5ca55/?f=wb

16.In-Context Impersonation Reveals Large Language Models' Strengths and Biases

这篇论文探讨了大型语言模型（LLMs）在生成文本时是否能够扮演不同的角色，即以语境中的不同人物身份进行模仿。在解决视觉和语言任务之前，我们要求LLMs采用与社交身份或领域专业知识相关联的不同人物身份。在多项任务中，我们发现LLMs假装成不同年龄的孩子可以恢复类似人类的发展阶段。在基于语言的推理任务中，我们发现假装成领域专家的LLMs的表现优于假装成非领域专家的LLMs。最后，我们测试了LLMs的模仿是否可以与视觉信息互补，对不同类别进行描述。我们发现模仿可以提高性能：被提示为鸟类专家的LLM描述鸟类比被提示为汽车专家的LLM更好。然而，模仿也可以揭示LLMs的偏见：被提示为男性的LLM描述汽车比被提示为女性的LLM更好。这些发现表明，LLMs能够扮演多种角色，并且这种语境中的模仿可以用来揭示其隐藏的实力和偏见。

https://www.aminer.cn/pub/646edc9cd68f896efaddac43/?f=wb

17.Counterfactual Memorization in Neural Language Models

这篇论文探讨了神经语言模型中的反事实记忆问题。现代神经语言模型在自然语言处理任务中被广泛使用，但它们可能会从训练数据中记忆敏感信息。随着模型在参数、训练数据和计算方面的不断扩展，理解语言模型中的记忆现象在学习理论上是重要的，在实际应用中也是至关重要的。在以前关于语言模型记忆的研究中，一个尚未解决的问题是如何过滤掉“常见”的记忆。实际上，大多数记忆标准与训练集中的出现次数有很强的相关性，捕捉到的是“常见”的记忆，如熟悉的短语、公共知识或模板文本。在本文中，我们从心理学的记忆分类法的原则性角度出发，提出了一种反事实记忆的概念，描述了在训练过程中如果排除特定文档，模型预测会发生怎样的变化。我们识别并研究了标准文本数据集中的反事实记忆的训练示例。我们进一步估计了每个训练示例对验证集和生成文本的影响，并表明这可以提供测试时记忆来源的直接证据。

https://www.aminer.cn/pub/61ca80355244ab9dcba69477/?f=wb

18.DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining

这篇论文介绍了一种名为 DoReMi 的方法，用于优化数据混合以提高语言模型预训练效果。预训练数据领域的混合比例（例如，维基百科、书籍、网络文本）极大地影响了语言模型的性能。DoReMi 首先使用组分布鲁棒优化（Group DRO）在领域上训练一个小型代理模型，以生成领域权重（混合比例），而无需了解下游任务。然后，使用这些领域权重重新采样数据集，并训练一个大型全尺寸模型。在实验中，作者在一个 280M 参数的代理模型上使用 DoReMi 找到训练一个 8B 参数模型（30 倍更大）的更有效的方法。在 The Pile 数据集上，即使在降低某个领域的权重时，DoReMi 也在所有领域上改善了困惑度。与使用 The Pile 默认领域权重训练的基础模型相比，DoReMi 将平均少量下游准确性提高了 6.5%，并且使用 2.6 倍更少的训练步骤达到了基础模型的准确性。在 GLaM 数据集上，DoReMi 甚至达到了使用针对下游任务调整的领域权重的效果，而 DoReMi 本身对下游任务一无所知。

https://www.aminer.cn/pub/64659ad1d68f896efa8753b2/?f=wb

19.ToolkenGPT: Augmenting Frozen Language Models with Massive Tools via Tool Embeddings

这篇论文介绍了一种名为ToolkenGPT的方法，该方法通过学习工具嵌入向量，将大量工具与大型语言模型（LLM）相结合。这种方法可以灵活地插入任意数量的工具有效地解决复杂问题，而传统的方法往往成本高并且限制在预定义的工具集上。ToolkenGPT通过将每个工具表示为一个工具嵌入向量，使LLM能够像生成普通词元一样调用工具，从而提高了工具的使用效率。此外，该方法还可以通过扩展工具嵌入向量的集合，灵活地插入任意数量的的工具。在数值推理、基于知识的问答和具身计划生成等不同的领域中，ToolkenGPT都能够有效地将LLM与工具相结合，并且大大优于各种最新的基线。ToolkenGPT展示了在复杂场景中使用大量相关工具的具有前景的能力。

https://www.aminer.cn/pub/646aecaad68f896efa05a6c5/?f=wb

20.Guiding Large Language Models via Directional Stimulus Prompting

这篇论文介绍了一种名为“定向刺激提示”的新框架，该框架使用可调整的语言模型（LM）为黑盒冻结的大型语言模型（LLM）在下游任务中提供指导。与之前的工作不同，之前的工作是通过手动或自动找到每个任务的优化提示，而我们将训练一个策略LM来生成离散标记作为每个输入的定向刺激，这是摘要中的关键词。然后将定向刺激与原始输入组合并输入LLM，以引导其生成朝着期望的目标。策略LM可以通过1）从注释数据中进行监督学习，以及2）从离线和在线奖励中进行强化学习来探索更好的与人类偏好对齐的定向刺激。该框架适用于各种LM和任务。为了验证其有效性，我们将该框架应用于摘要和对话响应生成任务。实验结果表明，在使用少量训练数据时，该框架可以显著提高LLM的性能：一个使用CNN/Daily Mail数据集中的2,000个样本训练的T5（780M）可以提高Codex（175B）在ROUGE-Avg评分上的性能9.0％；仅80个对话就可以将综合得分提高39.7％，在MultiWOZ数据集上达到与一些完全训练的模型相当或甚至更好的性能。我们已经将我们的代码公开发布。

https://www.aminer.cn/pub/63f6da1090e50fcafd25707b/?f=wb

21.Inference-Time Intervention: Eliciting Truthful Answers from a Language Model

这篇论文介绍了一种名为"推断时干预"（Inference-Time Intervention, ITI）的技术，旨在增强大型语言模型（LLMs）的诚实度。该技术通过在推断过程中调整模型激活，遵循一组方向在有限的注意力头上进行操作。这种干预显著提高了LLaMA模型在TruthfulQA基准测试上的表现。对于一种名为Alpaca的指令微调LLaMA模型，ITI将其诚实度从32.5%提高到了65.1%。文章中还发现诚实度与有用性之间存在一种权衡，并展示了如何通过调整干预强度来平衡这种权衡。ITI具有最小侵入性和计算成本低廉的特点。此外，该技术具有很高的数据效率：与需要大量注释的方法（如RLHF）相比，ITI仅使用几百个示例来定位诚实方向。研究结果表明，即使LLMs在表面上产生虚假信息，它们可能仍然具有对某事真实性的内部表示。

https://www.aminer.cn/pub/648000a9d68f896efaa123b7/?f=wb

22.3D-LLM: Injecting the 3D World into Large Language Models

这篇论文介绍了一种新的模型 3D-LLM，将 3D 世界注入到大型语言模型中，可以处理与 3D 物理世界相关的任务，如三维 captioning、密集 captioning、三维问题回答、任务分解、3D grounding、3D 辅助对话、导航等。该模型使用三种提示机制收集了超过 300k 的 3D-语言数据，并利用 3D 特征提取器和 2D VLM 作为骨干网络来训练模型。实验结果表明，该模型在 ScanQA 等数据集上的表现优于当前最先进的基线，例如 BLEU-1 得分比最先进得分高 9%。此外，在 3D captioning、任务组合和 3D 辅助对话等数据集上的实验也表明，该模型优于 2D VLM。定性示例也表明，该模型可以执行超越现有 LLM 和 VLM 范围的任务。

https://www.aminer.cn/pub/64bf49b63fda6d7f062827a7/?f=wb

23.Language Models Meet World Models: Embodied Experiences Enhance Language Models

这篇论文的摘要讨论了大型语言模型在处理物理环境中的简单推理和规划时存在的局限性，这是因为它们仅在书面文本上进行训练，缺乏必要的身体知识和技能。为了解决这个问题，论文提出了一种新方法，通过在世界模型中微调语言模型，以获取多样化的身体知识和技能，同时保留其通用的语言能力。具体而言，该方法在一个世界模型中部署一个身体代理，特别是在物理世界的模拟器（VirtualHome）中，并通过目标导向规划和随机探索来获取一系列身体经验。然后，这些经验被用来微调语言模型，以教授在物理世界中进行推理和行动的各种能力，例如规划和完成目标、对象永久性和跟踪等。此外，论文还引入了经典的弹性权重巩固（EWC）和低秩适配器（LoRA）以实现有效的权重更新和训练效率。实验结果表明，该方法将基于大型语言模型的 18 个下游任务的平均性能提高了 64.28%。特别是，经过该方法增强的小型语言模型（1.3B 和 6B）的表现甚至超过了更大型的语言模型（如 ChatGPT）。

https://www.aminer.cn/pub/6466fafbd68f896efaeb753b/?f=wb

24.Pengi: An Audio Language Model for Audio Tasks

这篇论文介绍了一种名为Pengi的音频语言模型,可以将所有音频任务转化为文本生成任务,从而解决当前模型在开放任务上缺乏生成必要语言的问题。Pengi采用转移学习技术,将音频和文本序列作为输入,生成自由形式的文本输出。通过将音频和文本分别编码为连续嵌入序列,并将其组合为前缀来引导预训练的冻结语言模型,Pengi实现了统一架构,使得开放和封闭任务无需额外微调或任务特定扩展。在22个下游任务的评估中,我们的方法在其中的几个任务中取得了最先进的性能。我们的结果表明,将语言模型与音频模型相结合是实现通用音频理解的重要一步。

https://www.aminer.cn/pub/646aecaad68f896efa05a7ff/?f=wb

25.Memory-Efficient Fine-Tuning of Compressed Large Language Models via sub-4-bit Integer Quantization

这篇论文介绍了一种名为Parameter-Efficient and Quantization-aware Adaptation（PEQA）的新方法，用于压缩大型语言模型并通过sub-4-bit整数量化进行高效微调。现有的参数高效微调（PEFT）方法可以缓解全量微调大型语言模型（LLM）的高昂成本，但是LLM的巨大规模阻碍了其常规部署。为了解决这个问题，作者提出了PEQA，一种新颖的量化感知PEFT技术，可以促进模型压缩并加速推理。PEQA通过双阶段过程运行：首先，每个全连接层的参数矩阵经过量化为一组低位整数矩阵和一个标量向量；随后，在下游任务的每个标量向量上进行微调。这种策略大大压缩了模型的尺寸，使得在部署时的推理延迟更低，总体所需的内存更少。同时，快速微调和高效任务切换成为可能。因此，PEQA继承了量化的好处，同时具有PEFT的优势。作者在自然语言理解到生成基准的全面实验中比较了PEQA与竞争性基线，使用高达650亿参数的大型语言模型，证明了PEQA的可扩展性、任务特定适应性和在极低位设置中遵循指令的能力。

https://www.aminer.cn/pub/646d8642d68f896efa0a2ed5/?f=wb

26.Leveraging Pre-trained Large Language Models to Construct and Utilize World Models for Model-based Task Planning

这篇论文探讨了一种利用预训练的大型语言模型（LLM）构建和利用世界模型进行基于模型的任务规划的新方法。目前，直接将 LLM 用作规划器的方法在实际应用中存在局限性，如计划正确性有限、对与模拟器或实际环境互动的反馈的依赖性强以及利用人类反馈的效率低等问题。在本文中，作者提出了一个新颖的替代方法，该方法在规划领域定义语言（PDDL）中构建一个明确的世界（领域）模型，并使用它与声音领域无关的规划器进行规划。为解决 LLM 可能无法最初生成一个完全功能的 PDDL 模型的问题，作者将 LLM 用作 PDDL 与正确反馈来源（如 PDDL 验证器和人）之间的接口。对于那些没有 PDDL 背景的用户，作者表明 LLM 可以将 PDDL 翻译成自然语言，并将正确反馈编码回底层领域模型。该框架不仅享有外部规划器提供的正确性保证，而且通过允许用户在开始时纠正领域模型，而不是像以前的工作一样检查并纠正每个生成的计划，从而减少了人类参与。在两个 IPC 领域和一个比常用的基准（如 ALFWorld）更复杂的家居领域，作者证明了 GPT-4 可以被利用来生成超过 40 个动作的高质量 PDDL 模型，然后成功解决了 48 个具有挑战性的规划任务。

https://www.aminer.cn/pub/646edc9cd68f896efaddac26/?f=wb

27.Language Models Can Improve Event Prediction by Few-Shot Abductive Reasoning

这篇论文研究了大型语言模型是否可以推理现实世界的事件，并帮助提高事件序列模型的预测准确性。论文设计了一个建模和预测框架，其中大型语言模型进行推理论证来协助事件序列模型：事件模型根据过去的情况提出未来事件的预测；在少数专家注释的示范指导下，语言模型学会为每个提议提出可能的成因；搜索模块找到与成因匹配的前事件；评分函数学会检查检索到的事件是否实际上可以导致提议。通过在两个具有挑战性的真实世界数据集（亚马逊评论和GDELT）上的大量实验，我们证明了我们的框架——得益于语言模型的推理能力——可以显著优于最先进的的事件序列模型。

https://www.aminer.cn/pub/64741a3ad68f896efaa62271/?f=wb

28.Augmenting Language Models with Long-Term Memory

这篇文章提出了一种名为“LongMem”的增强语言模型的方法，可以利用长期记忆来更好地记住过去的输入信息，而不受输入长度限制。传统的大型语言模型 (LLMs) 只能接受固定长度的输入，因为这会限制它们利用过去输入中的丰富长期上下文信息。为了解决这个问题，作者提出了一种分块的网络架构，其中原始 LLM 作为记忆编码器和一个自适应的残留子网络作为记忆读取者和读者。这种分离的记忆设计可以轻松地缓存和更新长期过去的上下文，避免了记忆 staleness 的问题。通过添加记忆增强的适应训练，LongMem 可以记住长期过去的上下文，并利用长期记忆来进行语言建模。此外，作者还提出了一个记忆读取器模块，它可以在记忆银行中处理无限长度的上下文，为各种下游任务提供便利。通常，LongMem 可以将长期内存扩展到 65k 个字符，并将许多示例存储在内存中以进行上下文学习。实验结果表明，LongMem 方法在挑战性的长期上下文建模基准测试 ChapterBreak 上表现出色，并且在与 LLM 进行比较的内存增强上下文学习中取得了显著改善。

https://www.aminer.cn/pub/6487ea09d68f896efa483359/?f=wb

29.ProPILE: Probing Privacy Leakage in Large Language Models

这篇论文介绍了ProPILE，一个新颖的探测工具，旨在帮助数据主体（即个人可识别信息（PII）的所有者）了解大型语言模型（LLM）中潜在的PII泄露风险。ProPILE允许数据主体根据自己的PII制定提示，以评估LLM服务中的隐私侵犯程度。作者在公开可用的Pile数据集上训练的OPT-1.3B模型上展示了ProPILE的应用。他们展示了假设的数据主体如何评估他们的PII被包含在Pile数据集中被揭示的可能性。ProPILE还可以被LLM服务提供商利用，通过为他们自己的模型定制更强大的提示，有效地评估他们自己的PII泄露水平。这个工具代表了数据主体在网络上的数据意识和控制方面迈出的开创性一步。

https://www.aminer.cn/pub/64a63bddd68f896efaec655d/?f=wb

30.Testing the General Deductive Reasoning Capacity of Large Language Models Using OOD Examples

这篇论文研究了大型语言模型在测试归纳演绎推理能力时，如何使用OOD示例。由于证明空间的规模庞大，任何具备一般演绎推理能力的模型都必须能够推广到更复杂的证明。最近的研究表明，大型语言模型（LLMs）在给定链式思维提示时，具有一些抽象演绎推理能力。然而，它们主要在利用modus ponens或特定大小的证明以及与上下文示例相同分布的证明上进行测试。为了衡量LLMs的一般演绎推理能力，本文在广泛的演绎规则上进行测试，并衡量它们在多个角度（深度、宽度、组合）从简单示范推广到更复杂证明的能力。为了便于系统探索，我们构建了一个新的合成可编程推理数据集，可以控制演绎规则和证明复杂度。本文对四种不同大小和训练目标的LLM进行的实验表明，它们能够推广到更长的组合证明，但需要显式示范来产生假设子证明，特别是在证明分情况和证明自相矛盾时。

https://www.aminer.cn/pub/646edca5d68f896efaddb065/?f=wb

31.Flocks of Stochastic Parrots: Differentially Private Prompt Learning for Large Language Models

这篇论文主要研究了大型语言模型（LLM）在处理提示时数据敏感性的问题，并提出了一种名为“Flocks of Stochastic Parrots”的差分私有化提示学习方法。作者首先证明了这种担忧是合理的，并通过实例化了一种简单的但非常有效的成员推断攻击来证明这一点。为了解决这个问题，作者提出了一种差分私有化提示学习的方法，首先通过下游数据上的梯度下降来获得软提示，然后通过一个嘈杂的投票来处理离散提示。投票会将投票者的知识隐私地转移到一个公共提示中。作者表明，使用这种私人算法提示的大型语言模型与非私人基准算法非常接近。例如，在 sst2 数据集上，使用 GPT3 作为基础模型，以（$\epsilon=0.147, \delta=10^{-6}$）差分隐私实现了 92.7% 的下游精度，而非私人基准为 95.2%。作者还通过实验证明，他们的提示方法可以很容易地与现有的商业 API 一起部署。

https://www.aminer.cn/pub/64702deed68f896efa51ff9d/?f=wb

32.Large Language Models as Commonsense Knowledge for Large-Scale Task Planning

这篇论文探讨了大型语言模型在解决大规模任务规划中的作用。自然语言是人类交流的自然界面，但对机器人来说，由于其抽象性和固有的模糊性，理解起来具有挑战性。大型语言模型（LLM）包含了常识知识，有助于解决语言歧义，并为抽象规范生成可能的解决方案。虽然LLM在少量样本规划策略方面已经显示出潜力，但其在规划复杂任务方面的潜力尚未得到充分利用。本文表明，LLM可以作为世界观的常识模型以及搜索算法（如蒙特卡洛树搜索（MCTS））中的启发式策略。MCTS从LLM中采样可能的 world states，以促进更合理的决策。LLM中的常识策略指导搜索到树的相关部分，大大降低了搜索复杂性。我们在日常任务规划实验中展示了我们方法的有效性，并强调了将其仅作为LLM策略的优点。

https://www.aminer.cn/pub/646d8642d68f896efa0a2d22/?f=wb

33.No Train No Gain: Revisiting Efficient Training Algorithms For Transformer-based Language Models

这篇论文重新审视了用于训练基于Transformer的语言模型的有效训练算法。近年来，基于Transformer的语言模型的训练计算量急剧上升，这促使研究高效训练算法以提高训练、验证和下游性能的速度。在这项工作中，我们重新审视了三类这样的算法：动态架构（层堆叠，层删除），批量选择（选择性反向传播，RHO损失）和高效优化器（Lion，Sophia）。当在固定计算预算下预训练BERT和T5时，我们发现与完全衰减的学习率的基线相比，它们的训练、验证和下游增益消失。我们定义了一个评估协议，该协议可以在任意机器上执行计算，通过将所有计算时间映射到我们称之为参考系统时间的参考机器。

https://www.aminer.cn/pub/64b0d4cc3fda6d7f06b434c6/?f=wb

34.Zero-shot Visual Relation Detection via Composite Visual Cues from Large Language Models

这篇论文提出了一种名为RECODE的新方法，用于通过大语言模型生成的组合视觉线索进行零镜头视觉关系检测。现有的零镜头视觉识别工具，如CLIP，虽然表现出了强大的泛化能力，但在利用普遍的分类提示进行零镜头视觉关系检测时存在一些弱点，例如难以区分不同细粒度的关系类型，以及忽略两个对象之间的空间信息。因此，RECODE方法通过将每个谓词类别分解为主体、对象和空间组件，然后利用大语言模型生成描述性提示（或视觉线索）来解决这些问题。RECODE方法在不同角度增强了相似关系类别的可区分性，显著提高了视觉关系检测的性能。为了动态融合不同的线索，我们进一步引入了一种链式思维方法，提示LLMs为不同的视觉线索生成合理的权重。在四个视觉关系检测基准上的大量实验证明了RECODE的有效性和可解释性。

https://www.aminer.cn/pub/646c3addd68f896efa5d15c3/?f=wb

35.StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models

这篇论文介绍了一种名为StyleTTS 2的文本到语音（TTS）模型，该模型通过风格扩散和大型语音语言模型（SLM）的对抗性训练来实现人类水平的TTS合成。StyleTTS 2与前一代模型的不同之处在于，它通过扩散模型将风格建模为一个潜在的随机变量，以生成最适合文本的风格，而无需参考语音，实现高效的潜在扩散，同时受益于扩散模型提供的多样化语音合成。此外，我们采用大型预训练SLM，如WavLM，作为判别器，并使用我们新颖的可微分持续时间建模进行端到端训练，从而提高语音自然度。StyleTTS 2在单声道LJSpeech数据集上超过了人类录音，并在多声道VCTK数据集上与人类录音相匹配，由母语为英语的评判员评判。此外，当在LibriTTS数据集上进行训练时，我们的模型在零散说话者适应性方面优于之前公开可用的模型。这项工作在单声道和多声道数据集上都实现了首个人类水平的TTS，展示了风格扩散和大型SLM对抗性训练的潜力。

https://www.aminer.cn/pub/64893b17d68f896efa982431/?f=wb

36.META-in-context learning in large language models

这篇论文探讨了在大规模语言模型中的元上下文学习。大规模语言模型在各种任务中表现出卓越性能，其中上下文学习——在给出一定数量的示范后改善任务的能力——被视为它们成功的主要因素之一。在本文中，作者展示了通过上下文学习本身，可以递归地提高大型语言模型的上下文学习能力，他们称之为元上下文学习。通过观察两个理想化的领域，一维回归任务和二臂老虎机任务，作者发现元上下文学习可以自适应地重塑大型语言模型对预期任务的先验。此外，元上下文学习还会修改这些模型的上下文学习策略。最后，作者将这种方法扩展到一组真实的回归问题基准上，观察到其性能与传统学习算法相当。总的来说，本文通过元上下文学习改善了对上下文学习的理解，并为仅通过元上下文学习而非传统微调来适应大规模语言模型应用环境奠定了基础。

https://www.aminer.cn/pub/646c3addd68f896efa5d17ca/?f=wb

37.Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model

这篇论文研究了在大规模预训练语言模型的微调过程中，由于模型的快速扩张，其内存使用量大大增加，导致内存使用成为瓶颈问题。现有研究通常关注减少网络中的可训练参数数量，但内存使用的瓶颈主要来自于存储特征图（也称为激活），因为它们对于梯度计算至关重要。值得注意的是，神经网络通常使用随机梯度下降进行训练。作者认为，在随机优化中，只要梯度估计器具有合理的方差且无偏，模型可以处理噪声梯度。基于这个动机，作者提出了一种新的无偏估计器，称为WTA-CRS，用于具有降低方差的矩阵生成，仅需要存储子采样激活以计算梯度。在调整变压器的背景下，作者提供了理论和实验证据，证明了所提出的估计器的方差比现有方法低。通过用我们的近似替换变压器中的线性操作，可以达到2.7倍的峰值内存减少，几乎不损失准确性，并允许最大6.4倍的批量大小。在相同的硬件下，WTA-CRS通过应用更大的模型和/或更大的批量大小来实现更好的下游任务性能。

https://www.aminer.cn/pub/646edca5d68f896efaddb05e/?f=wb

38.Grammar Prompting for Domain-Specific Language Generation with Large Language Models

这篇论文探讨了使用大型语言模型 (LLM) 进行特定领域语言生成的问题。虽然 LLM 可以从上下文中学习完成多种自然语言任务，但对于生成高度结构化的语言 (如语义分析和复杂的领域特定语言),从几个示例中学习很难泛化。因此，本文提出了一种名为“语法提示”的简单方法，以帮助 LLM 使用外部知识和领域特定约束，通过 Backus-Naur Form(BNF) 表示进行学习。语法提示方法通过为每个演示示例添加一个专门设计的 BNF 语法，以最小化生成特定输出示例所需的语法子集，并且该语法子集是完整 DSL 语法的一个子集。在推理时，LLM 首先根据测试输入预测一个 BNF 语法，然后根据语法规则生成输出。实验结果表明，语法提示方法可以帮助 LLM 在多个领域特定语言生成任务中取得优异的成绩，包括 SMCalFlow、Overnight 和 GeoQuery 等语义分析任务，以及 PDDL 规划和 SMILES 等化合物生成任务。

https://www.aminer.cn/pub/6476d21ad68f896efaf72f7a/?f=wb

39.Large Language Models of Code Fail at Completing Code with Potential Bugs

这篇论文研究了大型代码语言模型在完成可能存在漏洞的代码方面的失败问题。尽管大型代码语言模型（Code-LLMs）在代码补全方面取得了巨大进展，但现有的研究忽略了代码上下文中可能存在的漏洞，而这些漏洞在软件开发中是不可避免的。因此，作者引入并研究了“有漏洞的代码补全”问题，该问题受到实时代码建议场景的启发，其中代码上下文包含潜在的漏洞——可能在完成的程序中成为错误的模式。为了系统地研究这个问题，作者引入了两个数据集：一个包含通过语义更改操作产生的合成漏洞（buggy-HumanEval），另一个包含从用户提交的编码问题中得到的现实漏洞（buggy-FixEval）。作者发现，潜在漏洞的存在显著降低了高性能Code-LLMs的生成性能。例如，在buggy-HumanEval测试用例上，CodeGen-2B-mono的通过率在上下文中存在单个潜在漏洞时下降了50%以上。最后，作者研究了几种后处理方法以减轻潜在漏洞的不利影响，并发现即使在后处理后，性能仍存在很大的差距。

https://www.aminer.cn/pub/648000a9d68f896efaa1241a/?f=wb

40.Fairness-guided Few-shot Prompting for Large Language Models

这篇论文探讨了大语言模型在少量样本提示下的公平性引导。大语言模型在少量输入输出示例的引导下，可以展现出强大的上下文学习能力，然而，先前的研究表明，由于训练样本、样本顺序和提示格式等因素的变化，上下文学习可能会出现高不稳定性。因此，构建适当的提示对于提高上下文学习性能至关重要。本文从预测偏差的视角重新审视了这个问题，提出了一种新的搜索策略，通过贪婪搜索寻找改善上下文学习性能的近似最优提示。实验结果表明，我们的方法可以有效地提高模型的上下文学习性能，并且具有可解释性。

https://www.aminer.cn/pub/641d14e590e50fcafdf75df8/?f=wb

41.Knowledge-Augmented Reasoning Distillation for Small Language Models in Knowledge-Intensive Tasks

这篇论文探讨了在知识密集型任务中使用知识增强推理蒸馏来提高小语言模型的性能。大型语言模型（LLMs）在需要综合理解知识的知识密集型推理任务中表现出色，但在实际应用中，由于其计算需求高和数据隐私问题，部署LLMs具有挑战性。之前的研究通过使用标注数据或蒸馏LLMs来构建特定任务的较小语言模型（LMs），但这些方法不适用于知识密集型推理任务，因为小LMs在记忆所需知识方面能力有限。受到我们对记忆的理论分析的启发，我们提出了一种名为知识增强推理蒸馏（KARD）的新方法，该方法通过从外部知识库检索增强知识来 fine-tune 小 LMs 以生成合理性。此外，我们进一步提出了一种神经重排序器来获取与合理性生成相关的文档。我们经验性地证明，KARD显著提高了小 T5 和 Flan-T5 模型在具有挑战性的知识密集型推理数据集（即 MedQA-USMLE 和 StrategyQA）上的性能。值得注意的是，我们的方法使 250M 模型在 MedQA-USMLE 和 StrategyQA 基准测试中优于 fine-tuned 3B 模型，后者具有 12 倍更大的参数。

https://www.aminer.cn/pub/6476d20cd68f896efaf72796/?f=wb

42.Skill-it! A Data-Driven Skills Framework for Understanding and Training Language Models

这篇论文提出了一种名为Skill-it的数据驱动技能框架，用于理解并训练语言模型。研究了在固定标记符预算下，如何选择最佳数据以在各种任务中实现良好的下游模型性能。该框架基于一个简单假设：正如人类在有意识的顺序中获取相互依存的技能一样，语言模型在从训练数据中学习一组技能时也遵循自然的顺序。如果存在这样的顺序，可以利用它来更好地理解语言模型并实现数据高效的训练。该框架将技能和有序技能集的概念形式化为与相关数据相关的概念。首先，使用合成和真实数据证明有序技能集的存在，并表明在训练其先决技能时，可以更少的数据学会更高级的技能。其次，在连续预训练和微调制度下，引入了一种在线数据采样算法Skill-It，用于技能混合，其中前者的目标是在后者中高效学习多个技能和单个技能。在LEGO合成数据上的连续预训练中，Skill-It比随机采样高36.5个点准确度。在自然指令数据集上的微调设置中，Skill-It将目标技能的验证损失降低了13.6％，而训练与目标技能本身相关的数据。将技能框架应用于最近的RedPajama数据集，在连续预训练具有30亿参数的LM时，比在30亿标记符的数据源上均匀采样的基线方法在10亿标记符上取得了更高的准确度。

https://www.aminer.cn/pub/64c33db93fda6d7f06957693/?f=wb

头条号入驻

AMiner学术头条见证探索之途上的每一步重大突破。

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

NeurIPS2023丨大模型最新研究进展

头条号入驻

AI 智能体帮你筛选总结每日最新论文！英文论文阅读无压力！

实时追踪科研动态丨孙茂松等人8.22精选新论文，附ChatPaper综述

实时追踪科研动态丨Yoshua Bengio、Philip S. Yu等人8.21精选新论文

财经自媒体联盟更多自媒体作者

热文排行榜