实时追踪科研动态丨孙茂松等人8.22精选新论文，附ChatPaper综述_

2023年8月22日精选新论文列表：

1.TADA! Text to Animatable Digital Avatars阅读原文

TADA 是一种新颖的方法，可将文字描述转换成富有表现力的高质量三维头像，并可使用传统图形管道进行动画和渲染。它利用二维扩散模型和可动画化的参数化身体模型，解决了现有基于文本的角色生成方法的局限性。TADA 从 SMPL-X 导出可优化的高分辨率人体模型，并利用分层渲染和分数蒸馏采样技术创建高质量、细致和一致的 3D 头像。该方法通过在训练过程中渲染法线和 RGB 图像，确保几何体和纹理之间的正确对齐。此外，TADA 还引入了表情参数来对生成的角色进行变形，从而保持了与原始 SMPL-X 模型在语义上的一致性。综合评估结果表明，TADA 在质量和数量上都优于现有方法，能够创建大规模、可动画化的数字角色资产，并可通过自然语言轻松编辑。

https://www.aminer.cn/pub/64e433283fda6d7f06010823/

2.AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors in Agents阅读原文

这篇论文主要研究了如何通过大型语言模型（LLM）增强的自主智能体（agents）实现多智能体协作，并探索在这种协作中出现的新兴行为。作者提出了一个名为 AgentVerse 的多智能体框架，该框架可以模仿人类群体动态，协作地调整其组成，以实现整体效果大于部分的目标。实验结果表明，该框架可以有效地部署多智能体团队，其性能优于单个智能体。此外，作者还深入探讨了在协作任务执行过程中，团队内个体智能体之间社交行为的产生。针对这些行为，作者讨论了一些可能的策略，以利用积极的行为并减轻负面行为，从而提高多智能体团队的协作潜力。

https://www.aminer.cn/pub/64e432c73fda6d7f0600b8cd/

3.Giraffe: Adventures in Expanding Context Lengths in LLMs阅读原文

这篇论文主要研究了大型语言模型（LLM）在上下文长度扩展方面的问题。现有的 LLM 通常使用注意力机制，并依赖固定的上下文长度，这限制了它们在评估时可以处理的输入序列的长度。为了解决这个问题，作者对不同的上下文长度扩展方法进行了广泛的调查，并在基座 LLaMA 或 LLaMA 2 模型上进行了测试。他们还引入了一些自己的设计，特别是一种新的截断策略，用于修改位置编码的基础。作者使用三个新的评估任务（FreeFormQA、AlteredNumericQA 和 LongChat-Lines）以及困惑度进行了测试，并发现线性缩放是扩展上下文长度的最佳方法。他们还发现，通过在评估时使用更长的缩放，可以进一步提高性能。此外，他们还在截断的基础上发现了有前景的扩展能力。为了支持该领域的进一步研究，作者发布了三个新的具有 130 亿参数的长上下文模型，分别称为 Giraffe：4k、16k 和 32k 的上下文模型，这些模型都是从基座 LLaMA-13B 和 LLaMA2-13B 训练的。他们还发布了可以复制结果的代码。

https://www.aminer.cn/pub/64e432c73fda6d7f0600b8ef/

4.Synergistic Integration of Large Language Models and Cognitive Architectures for Robust AI: An Exploratory Analysis阅读原文

这篇论文探讨了在构建表现出智能行为的人工智能代理时，如何将两大语言模型（LLMs）和认知结构（CAs）这两个人工智能子领域的整合。在理论模型的指导下，并得到初步实证数据的支持，我们假设不同的协同方法可以相互弥补彼此的不足和局限性，从而促进更稳健和复杂的人工智能系统。此外，我们还讨论了每种方法所面临的权衡和挑战。

https://www.aminer.cn/pub/64e432bf3fda6d7f0600ae99/

5.MindMap: Knowledge Graph Prompting Sparks Graph of Thoughts in Large Language Models阅读原文

该论文介绍了一种名为 MindMap 的方法，通过使用知识图谱（KG）来激发大型语言模型的思维过程，以提高其综合能力。传统的大型语言模型（LLM）在吸收新知识、生成虚构内容和决策过程透明度方面存在局限性。MindMap 方法通过建立一个提示流程，使 LLM 能够理解 KG 输入并结合隐含知识和检索的外部知识进行推理。此外，该研究还探讨了如何获取 LLM 进行推理和生成答案的心智图。实验结果表明，使用 MindMap 提示可以带来显著的实证效果，例如，在三个问答数据集上的实验表明，使用 MindMap 提示的 GPT-3.5 的表现始终优于 GPT-4。该研究还表明，通过从 KG 中检索的结构化事实，MindMap 可以优于一系列提示与文档检索方法，从而从 KG 中获取更准确、简洁和全面的知识。

https://www.aminer.cn/pub/64e432bf3fda6d7f0600ae30/

6.Structured World Models from Human Videos阅读原文

这篇论文主要研究了如何在现实世界中直接学习复杂的通用行为。作者提出了一种方法，让机器人通过仅有的几个来自不同环境的现实世界交互轨迹来高效地学习操作技能。灵感来源于计算机视觉和自然语言处理领域大规模数据集中的学习成功案例，作者认为，为了高效地学习，机器人必须能够利用互联网规模的人类视频数据。人类以多种有趣的方式与世界互动，这可以让机器人不仅能够理解有用的动作和可供性，还可以了解这些动作如何影响世界以进行操作。该方法基于从人类视频中学习的可视可供性，构建了一个结构化的、以人为中心的动作空间，并在人类视频上训练了一个世界模型，然后在一小部分机器人交互数据上进行微调，无需任何任务监督。作者表明，这种基于可供性空间的世界模型方法可以使不同的机器人在复杂的环境中学习各种操作技能，仅需不到 30 分钟的交互。

https://www.aminer.cn/pub/64c78ba33fda6d7f06dbc804/

7.Instruction Tuning for Large Language Models: A Survey阅读原文

这篇论文综述了指令调整（Instruction Tuning，简称 IT）这一迅速发展的领域的研究工作。指令调整是一种关键技术，可以提高大型语言模型（Large Language Models，简称 LLMs）的能力和可控性。指令调整是指在监督下，将 LLM 进一步训练在包含\textsc{(instruction, output)}对的数据集上，从而弥合 LLM 的下一个单词预测目标与用户让 LLM 遵循人类指令的目标之间的差距。在本文中，我们对文献进行了系统性的回顾，包括 IT 的一般方法论，IT 数据的构建，IT 模型的训练，以及在不同模式、领域和应用中的应用，同时还分析了影响 IT 结果的方面（例如，指令输出的生成，指令数据集的大小等）。我们也回顾了 IT 的潜在陷阱以及对它的批评，同时指出了现有策略的当前不足，并提出了一些有益的研究方向。

https://www.aminer.cn/pub/64e432c73fda6d7f0600b894/

8.Large Language Models for Software Engineering: A Systematic Literature Review阅读原文

这篇论文通过系统性地回顾了大型语言模型（LLMs）在软件工程（SE）领域的应用，旨在深入了解 LLMs 在 SE 中的应用、效果以及可能的局限性。作者收集并分析了 2017 年至 2023 年间的 229 篇研究论文，以回答四个关键研究问题。第一个问题对在 SE 任务中使用过的不同 LLMs 进行了分类和比较分析。第二个问题详细介绍了数据收集、预处理和应用的方法，强调了高质量、精心策划的数据集对于成功实施 LLM 的重要性。第三个问题让我们能够检查 LLM 在哪些具体的 SE 任务上取得了显著的成功，并阐明它们对这一领域的实际贡献。最后一个问题调查了优化和评估 LLM 在 SE 中的性能所采用的策略，以及与提示优化相关的常见技术。通过对这些研究问题的回答，作者描绘了当前 LLM 在 SE 中的应用状况，指出了现有研究的趋势、空白和未来研究的有前景的领域。

https://www.aminer.cn/pub/64e432c73fda6d7f0600b7e7/

9.SCULPT: Shape-Conditioned Unpaired Learning of Pose-dependent Clothed and Textured Human Meshes阅读原文

这篇论文介绍了一种名为 SCULPT 的新型 3D 生成模型，用于学习穿衣和纹理的人类 3D 网格。该模型通过结合 3D 扫描数据和 2D 图像数据来学习人类身体的几何形状和外观分布，克服了用于训练的纹理 3D 网格数据集有限和难以获取的问题。该模型利用无监督的学习方法从 2D 图像数据中训练几何条件纹理生成器，并使用中学习的几何模型的中间激活来条件纹理生成器。为了减轻姿态和服装类型、姿态和服装外观之间的纠缠，模型将属性标签 (如服装类型和服装颜色) 作为条件来生成纹理和几何生成器。模型在 SCULPT 数据集上进行验证，并与现有的最先进的 3D 生成模型进行比较。该研究将公开代码库以供研究使用。

https://www.aminer.cn/pub/64e432c73fda6d7f0600b7f9/

10.Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models阅读原文

这篇论文提出了一种名为“思维算法”的新策略，旨在通过算法化的推理路径推动大型语言模型（LLM）的思考过程，从而提高其推理能力。这种方法通过利用 LLM 的内在循环动态，只需一次或几次查询就能扩展其对思想的探索，超越了传统的链式推理方法。研究表明，通过将算法应用于 LLM，其性能可能超越算法本身，这表明 LLM 具有将直觉融入优化搜索的能力。论文还探讨了这种方法的有效性和应用细节。

https://www.aminer.cn/pub/64e432bf3fda6d7f0600b0dd/

11.ExpeL: LLM Agents Are Experiential Learners阅读原文

这篇论文介绍了一种名为 ExpeL 的新型语言模型（LLM）代理方法，它能够通过积累经验进行学习。在决策任务中，LLMs 具有广泛的世界知识，但针对特定任务进行微调既耗时又可能降低模型的泛化能力。此外，目前最先进的语言模型如 GPT-4 和 Claude 主要通过 API 调用，其参数权重对公众不可用。因此，需要新的方法论，允许从代理经验中学习，而无需进行参数更新。该论文介绍了 ExpeL 代理的实验结果，结果表明，随着经验的积累，ExpeL 代理的学习效果得到了持续提高。此外，论文还进一步探讨了 ExpeL 代理的新兴能力和转移学习潜力。

https://www.aminer.cn/pub/64e432bf3fda6d7f0600afe2/

12.LMTuner: An user-friendly and highly-integrable Training Framework for fine-tuning Large Language Models阅读原文

这篇论文介绍了一种名为 LMTuner 的用户友好且高度集成的训练框架，用于微调大型语言模型。随着大型语言模型（LLMs）领域的蓬勃发展，针对特定行业和领域的高效增量训练需求持续增加。然而，目前主要使用的框架缺乏模块化设计，开始 LLM 的训练往往需要大量的编码工作。为了解决这个问题，作者提出了 LMTuner，一个高度可用、可集成且可扩展的系统，用于迅速训练 LLM 并最小化用户输入。LMTuner 包含三个主要模块：交互、训练和推理模块。作者认为，LMTuner 的可用性和集成性可以简化训练大型语言模型的复杂性。甚至一个初学者也可以在五分钟内开始训练大型语言模型。此外，它还集成了 DeepSpeed 框架，并支持诸如低秩适应（LoRA）、量化低秩适应（QLoRA）等高效的微调方法，使得使用单个服务器可以训练从 300M 到 1300 亿参数的语言模型。LMTuner 的主页（https://wengsyx.github.io/LMTuner/）和屏幕录像（https://youtu.be/nsXmWOmN3rE）现已公开发布。

https://www.aminer.cn/pub/64e432bf3fda6d7f0600b058/

如何使用ChatPaper？

使用ChatPaper的方法很简单，打开AMiner首页，从页面顶部导航栏或者右下角便可进入ChatPaper页面。