实时追踪科研动态丨Yoshua Bengio、Philip S. Yu等人8.21精选新论文_

2023年8月21日精选新论文列表：

1.Consciousness in Artificial Intelligence: Insights from the Science of Consciousness阅读原文

ChatPaper综述：文章讨论了目前和近期人工智能系统是否可能具有意识的问题。该研究报告提倡并示范了一种严谨且基于实证的方法来研究人工智能意识：根据我们最有支持的神经科学意识理论，对现有的人工智能系统进行详细评估。研究报告总结了一些著名的科学意识理论，包括反复处理理论、全局工作空间理论、高阶理论、预测处理理论和注意模式理论。从这些理论中，我们得出了意识的"指示特性"，并以计算术语阐明了这些特性，可以用来评估人工智能系统是否具备这些特性。我们利用这些指示特性评估了几个最近的人工智能系统，并讨论了未来系统如何实施这些特性。我们的分析表明当前的人工智能系统没有意识，但同时也显示出在构建有意识的人工智能系统方面没有明显的障碍。

https://www.aminer.cn/pub/64e2e14f3fda6d7f0646637a/

2.Graph of Thoughts: Solving Elaborate Problems with Large Language Models阅读原文

ChatPaper综述：文章介绍了一个框架，名为"Graph of Thoughts"（GoT），它在大型语言模型（LLM）的提示能力方面超越了"Chain-of-Thought"或"Tree of Thoughts"（ToT）等范例。GoT的关键思想和主要优势是能够将LLM生成的信息建模为任意图形，其中信息单元（"LLM thoughts"）作为顶点，而边则对应于这些顶点之间的依赖关系。这种方法使得可以将任意LLM的思想结合起来形成协同结果，提炼出整个思维网络的精华，或者使用反馈回路来增强思维。研究表明，GoT在不同任务上比现有技术具有优势，例如在排序方面比ToT提高了62%的质量，同时降低了超过31%的成本。研究人员确保GoT可以通过添加新的思维转换来扩展，因此可以用来开拓新的提示方案。这项工作使得LLM的推理更接近于人类思维或脑机制，二者都形成了复杂的网络。

https://www.aminer.cn/pub/64e2e15a3fda6d7f06466ace/

3.Decoding Emotions: A comprehensive Multilingual Study of Speech Models for Speech Emotion Recognition阅读原文

ChatPaper综述：文章指出了目前在多语言情感识别（SER）方面，对于基于Transformer的语音表示模型评估和内部表示的研究仍然有限。文章通过使用八种语音表示模型和六种不同语言建立一个全面的SER基准来填补这些研究空白。作者进行了探索性实验，以了解这些模型在SER中的内部运作情况。研究发现，相比于使用语音模型所有层级的特征，使用单个最优层级的特征可以平均降低32％的错误率。对于德语和波斯语，他们还取得了最新的成果。探索性实验结果表明，语音模型的中间层级最能捕捉到最重要的情感信息，以用于语音情感识别。

https://www.aminer.cn/pub/64e2e14f3fda6d7f0646637f/

4.V2A-Mapper: A Lightweight Solution for Vision-to-Audio Generation by Connecting Foundation Models阅读原文

ChatPaper综述：论文指出了当前在涉及音频模态的跨模态生成中，利用基础模型（Foundation Models）仍存在研究不足的问题。同时，从视觉输入自动生成与语义相关的声音是跨模态生成研究中的一个重要问题。现有方法倾向于使用较小的数据集从头开始设计和构建复杂的系统来解决这个视觉到音频（V2A）生成问题。本文通过利用基础模型CLIP、CLAP和AudioLDM提出了一个轻量级的解决方案。首先，研究了视觉CLIP和听觉CLAP模型的潜在空间之间的领域差异。然后，我们提出了一个简单而有效的映射机制（V2A-Mapper）来通过在CLIP和CLAP空间之间进行视觉输入的转换来弥合领域差距。在基于转换后的CLAP嵌入的条件下，采用预训练的音频生成模型AudioLDM来产生高保真度和与视觉对齐的声音。与之前的方法相比，我们的方法只需要对V2A-Mapper进行快速训练。我们进一步分析并在选择V2A-Mapper方面进行了广泛的实验，结果表明生成型Mapper在保真度和变异性（FD）方面更好，而回归型Mapper在相关性（CS）方面略优。在两个V2A数据集上进行的客观和主观评估都显示出我们提出的方法相比目前的最先进方法的优越性——参数数量减少了86%，但在FD和CS方面分别达到了53%和19%的改进。

https://www.aminer.cn/pub/64e2e14f3fda6d7f064665d3/

5.Graph-based Alignment and Uniformity for Recommendation阅读原文

ChatPaper综述：文章说明了在协同过滤推荐系统中，表示学习在超球面上的优势以及面临的稀疏性问题，并提出了一种新的方法——基于图的对齐和一致性(GraphAU)，该方法显式考虑了用户-物品二部图中的高阶连接性。GraphAU通过邻域聚合器将用户/物品嵌入与高阶邻居的密集向量表示进行对齐，消除了对高阶邻域的个别对齐计算的需要。为了解决对齐损失的差异，GraphAU包括一个层内对齐池化模块，以逐层整合对齐损失。实验证明，GraphAU显著减轻了稀疏性问题，并取得了最先进的性能。

https://www.aminer.cn/pub/64e2e14f3fda6d7f064665ca/

6.Semantic Consistency for Assuring Reliability of Large Language Models阅读原文

ChatPaper综述：文章提出了一个问题，即大型语言模型在接收到不同的输入提示时会产生不一致的输出。虽然现有的研究已经探讨了最先进的语言模型如何解决这个问题，但他们的评估仅限于对单词或多词答案的词汇一致性进行评估，忽视了生成文本序列的一致性。为了更全面地了解大型语言模型在开放式文本生成场景中的一致性，文章引入了一种通用的语义一致性度量，并制定了多个版本的度量方法来评估各种大型语言模型的性能。该提议展示出了更高的一致性，并与基于词汇一致性的传统度量方法更强的与人类评估的输出一致性的相关性。最后，文章提出了一种新的提示策略，称为\"询问选择\"（Ask-to-Choose，A2C），以增强语义一致性。在基于真实QA基准的答案变化的闭卷问题回答评估中，A2C将预训练和微调的大型语言模型的准确性指标提高了最多47%，将指导训练模型的语义一致性指标提高了最多7倍。

https://www.aminer.cn/pub/64e2e14f3fda6d7f06466530/

7.EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language Understanding阅读原文

ChatPaper综述：论文介绍了一个名为EgoSchema的非常长视频问答数据集和评估基准，旨在评估现代视觉和语言系统对长视频的理解能力。EgoSchema基于Ego4D数据集，包含超过5000个经人工筛选的多项选择题和答案对，涵盖了超过250小时的真实视频数据，并涵盖了很广泛的自然人类活动和行为。对于每个问题，EgoSchema要求在三分钟的视频片段中选择正确答案，有五个选项可供选择。虽然先前的一些研究提出了具有长片长度的视频数据集，但我们认为仅仅视频片段的长度并不能真正捕捉到正在考虑的视频任务的时间难度。为了解决这个问题，作者引入了“时间证书集”，这是一个捕捉到广泛的视频理解任务和数据集所需的内在时间理解长度的通用概念。基于这个度量标准，作者发现EgoSchema的内在时间长度比第二接近的数据集长5.7倍，并且比任何其他视频理解数据集长10到100倍。此外，作者评估了几个当前最先进的视频和语言模型，在EgoSchema的多项选择问答任务上，这些模型的准确率都严重不足。即使具有数十亿参数的模型，在EgoSchema上的QA准确率也低于33%（随机准确率为20%），而人类的准确率约为76%。作者认为，EgoSchema的长期内在时间结构和复杂性将成为未来开发有效长期视频理解系统的有价值的评估工具。

https://www.aminer.cn/pub/64e2e14f3fda6d7f06466524/

8.A Mathematical Characterization of Minimally Sufficient Robot Brains阅读原文

ChatPaper综述：论文讨论了通过内部系统（机器人算法或软件）与外部系统（机器人身体和环境）之间的交互获取的信息在行动和观察历史方面的编码和处理的下限。两者都被建模为过渡系统。我们想要知道最弱的内部系统是足够实现被动（过滤）和主动（规划）任务的。我们引入了内部系统的信息过渡系统的概念，它是一个在信息状态空间上的过渡系统，反映了机器人或其他观察者基于有限的感测、记忆、计算和驱动的视角。信息过渡系统被视为过滤器，而策略或计划被视为标记这个信息过渡系统状态的函数。不论内部系统是通过学习算法、规划算法还是人类洞察力获得的，我们想要知道对于给定的机器人硬件和任务，可行性的限制。我们在一般设置下证明了，最小的信息过渡系统存在于合理的等价假设下，并在一些一般条件下是唯一的。然后，我们应用这个理论来产生有关一些问题的新见解，包括最优的传感器融合/过滤、解决基本规划任务以及找到用于建模给定输入-输出关系的最小表示。

https://www.aminer.cn/pub/64e2e14f3fda6d7f064664ca/

9.CMB: A Comprehensive Medical Benchmark in Chinese阅读原文

ChatPaper综述：由于不同地区的医学环境具有本地特色，例如在中国传统中医的普遍性和重要性，仅仅翻译基于英文的医学评估可能会导致与本地环境不一致的问题。为了解决这个问题，作者提出了一个本地化的医学评估基准，即中文综合医学基准（CMB），完全根植于中国语言和文化框架中。该基准评估了几种知名的大型语言模型，包括ChatGPT、GPT-4、专门适用于中文的LLMs以及专门用于医学领域的LLMs。需要注意的是，这个基准不是为了竞争排名，而是作为自我评估模型进展的工具。作者希望这个基准能够促进医学LLMs在中国的广泛应用和提升。

https://www.aminer.cn/pub/64e2e14f3fda6d7f064663f9/

10.CodeCoT and Beyond: Learning to Program and Test like a Developer阅读原文

ChatPaper综述：论文讨论了在自然语言处理中，基于transformer的大型语言模型（如OpenAI的GPT-x模型）的能力虽然令人印象深刻，但在处理与其训练数据不同的任务时常常遇到挑战，导致性能受损。为了解决这个问题，出现了一种称为few-shot learning的有价值的技术，允许语言模型在具有最少任务特定数据的情况下进行自适应。其中一种创新策略被称为Chain-of-Thought Prompting（CoT），用于指导语言模型在多步推理过程中揭示认知过程。本文提出了Code Chain-of-Thought（CodeCoT），它包括两个组成部分：Vanilla CodeCoT和Self-exam CodeCoT。后者结合了自我检查，使模型能够迭代地生成代码、制定测试用例并改进其输出。具体而言，该过程包括模型根据其要实现的代码生成测试示例。如果模型在测试示例上失败，则根据错误的代码和相关的错误类型重新生成代码。通过全面的实验证明，这两种技术显著提高了各种语言模型变体的代码生成准确性。评估结果显示，CodeCoT提高了代码生成的效果，其中在HumanEval数据集的gpt-3.5-turbo-0613模型上使用Self-exam CodeCoT方法实现了79.27％的前1次通过率，创下了前所未有的记录。

https://www.aminer.cn/pub/64e2e14f3fda6d7f064663c7/

11.PEvoLM: Protein Sequence Evolutionary Information Language Model阅读原文

ChatPaper综述：随着蛋白质序列数据库的指数增长，现有的多序列比对方法需要耗费大量时间和资源进行数据库搜索以检索进化信息。这些搜索引擎得到的位置特定评分矩阵（PSSMs）是生物信息学和计算生物学领域许多机器学习模型的重要输入。蛋白质序列是由称为氨基酸（AAs）的连续标记或字符组成的。该研究利用自然语言的类比，将自然语言处理（NLP）领域的最新进展应用于生物信息学。这项研究提出了一种嵌入语言模型（ELMo），将蛋白质序列转换为数值向量表示。在原始ELMo的基础上，该研究结合了PSSM的概念和迁移学习的概念，引入了一种新的双向语言模型（bi-LM），其自由参数比原来的模型少四倍，并且在正向和反向传递中使用单一路径。该模型不仅在预测下一个氨基酸时进行训练，还同时通过总结PSSM中从相似但不同的序列中得出的下一个氨基酸的概率分布进行训练，实现了多任务学习，从而学习到了蛋白质序列的进化信息。该网络架构和预先训练的模型在GitHub上以自由的MIT许可证形式开源提供。

https://www.aminer.cn/pub/64e2e14f3fda6d7f064662f0/

12.Diversifying AI: Towards Creative Chess with AlphaZero阅读原文

ChatPaper综述：文章探讨了人工智能（AI）系统在计算任务中超越人类智能的现象，但也指出了AI系统与人类一样存在错误、盲点、幻觉，并难以推广到新的情境。作者进一步研究了当AI系统推动其计算理性的极限时，它是否能从创造性的决策机制中获益。尤其是作者在象棋这个AI领域的\"Drosophila\"进行了实验。作者扩展了AlphaZero（AZ），通过一种称为AZ_db的隐藏条件的架构，将其表现为一个代理联盟。作者使用行为多样性技术训练AZ_db生成更广泛的想法，并使用次可加规划选择最有前途的想法。实验结果表明，AZ_db以多种方式下棋，通过团队解决更多难题，并且胜过更同质的团队。值得注意的是，AZ_db解决了两倍于AZ的困难问题，包括具有挑战性的Penrose位置。当从不同的开局开始下棋时，我们注意到AZ_db中的选手专门研究不同的开局，使用次可加规划为每个开局选择一个选手会使Elo评分提高50分。研究结果表明，在AI代理团队中存在多样性奖励，就像在人类团队中一样，并且多样性是解决计算困难问题的宝贵资产。

https://www.aminer.cn/pub/64e2e14f3fda6d7f06466555/

13.WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct阅读原文

ChatPaper综述：论文说明了目前存在的开源大型语言模型在数学推理方面的能力有限，现有的模型虽然在自然语言处理任务中表现出色，但并没有经过针对数学相关优化的预训练。该论文介绍了一种名为WizardMath的方法，通过将提出的强化学习从进化指导反馈（RLEIF）方法应用于数学领域，增强了Llama-2的数学推理能力。通过对两个数学推理基准测试（GSM8k和MATH）进行广泛的实验，研究者展示了他们模型的非凡能力。WizardMath在所有其他开源LMLs上取得了明显的优势，甚至在GSM8k上超过了ChatGPT-3.5、Claude Instant-1、PaLM-2和Minerva，同时在MATH上超过了Text-davinci-002、PaLM-1和GPT-3。

https://www.aminer.cn/pub/64e2e15a3fda6d7f06466a64/

14.ChatHaruhi: Reviving Anime Character in Reality via Large Language Model阅读原文

ChatPaper综述：基于大型语言模型构建的角色扮演聊天机器人具有吸引力，但需要更好的技术来模仿特定的虚构角色。研究提出了一种算法，通过改进的提示和从剧本中提取的角色记忆来控制语言模型。他们构建了一个包含32个中文/英文电视/动漫角色的数据集，包括超过54,000个模拟对话。自动和人工评估显示，他们的方法在角色扮演能力方面优于基准模型。

https://www.aminer.cn/pub/64e2e15a3fda6d7f06466a72/

15.Guide3D: Create 3D Avatars from Text and Image Guidance阅读原文

ChatPaper综述：论文指出了目前文本到图像生成的技术取得了显著的进展，能够产生出令人印象深刻的视觉结果，但是文本到3D生成的质量还没有达到可比较的水平。现有的方法主要依赖于文本引导的评分蒸馏采样（SDS），在将生成的图片的2D属性转化为3D内容方面遇到困难。为此，作者旨在开发一种有效的3D生成模型，通过同时利用文本和图像信息来合成高分辨率的纹理网格。为此，作者介绍了Guide3D，这是一种基于扩散模型的零样本文本和图像引导的3D头像生成模型。该模型包括(1)使用扩散模型生成与文本一致的稀疏视角图像，并且(2)通过像素对齐的图像特征与多分辨率可微分行走立体网格共同优化。作者还提出了一种相似性感知的特征融合策略，以有效地整合不同视角的特征。此外，作者引入了两个新的训练目标作为计算SDS的替代方法，显著提高了优化过程。作者对该框架的性能和组件进行了全面评估，在生成拓扑和结构正确几何和高分辨率纹理方面优于当前最先进的方法。Guide3D能够实现将2D生成的图像直接转化为3D空间。

https://www.aminer.cn/pub/64e2e15a3fda6d7f06466ae0/

16.Linearity of Relation Decoding in Transformer Language Models阅读原文

ChatPaper综述：论文研究了Transformer语言模型（LMs）中关系的线性解码问题。它指出，在某些关系的子集中，通过对主题表示进行单个线性变换可以很好地近似计算这些关系。线性关系表示可以通过从单个提示构建对LM的一阶近似来获得，并且对于各种事实、常识和语言关系都存在。然而，该论文还指出，虽然LM预测准确地捕捉了关系知识，但这些知识并不是线性编码在它们的表示中。因此，该论文的结果揭示了Transformer LMs中一个简单、可解释但异质化的知识表示策略。

https://www.aminer.cn/pub/64e2e14f3fda6d7f06466522/

17.An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning阅读原文

ChatPaper综述：研究主要探讨了大型语言模型（LLMs）在连续微调过程中是否存在灾难性遗忘（CF）。灾难性遗忘指的是当模型学习新信息时，忘记了先前学到的信息的现象。通过从领域知识、推理和阅读理解的角度对LLMs的知识进行实证评估，实验结果表明灾难性遗忘普遍存在于1b到7b规模的LLMs中，并且随着规模的增加，遗忘的严重程度也加剧。与编码器-解码器模型mT0相比，解码器模型BLOOMZ遭受的遗忘较少，保留了更多的知识。研究还观察到LLMs在连续微调过程中可以减轻语言偏见（如性别偏见）。此外，研究发现在进一步的微调过程中，与LLAMA相比，ALPACA可以保持更多的知识和容量，这暗示了通用指令微调有助于减轻LLMs的遗忘现象。

https://www.aminer.cn/pub/64e2e14f3fda6d7f064663a2/

如何使用ChatPaper？

使用ChatPaper的方法很简单，打开AMiner首页，从页面顶部导航栏或者右下角便可进入ChatPaper页面。