实时追踪科研动态丨8.7 arXiv精选新论文,附ChatPaper综述

实时追踪科研动态丨8.7 arXiv精选新论文,附ChatPaper综述
2023年08月07日 18:12 AMiner学术头条

作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。然而,传统的检索和阅读方式已经无法满足科研人的需求。

ChatPaper,一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率,获取最新领域研究动态,让科研工作更加游刃有余。

结合前沿动态订阅功能,精选arXiv当日热门新论文,形成论文综述,让大家更加快速了解前沿动态。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达ChatPaper页面:https://www.aminer.cn/chat/g/explain

2023年8月7日精选新论文列表:

1. MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

https://www.aminer.cn/pub/64d074c23fda6d7f06ce9799

ChatPaper综述:具体而言,问题包括:1. 如何系统地构建和评估复杂的多模态任务;2. 如何设计能够适用于不同问题和答案类型的评估指标;3. 如何提供超出简单性能排名的模型洞察力。为了应对这些问题,研究人员提出了MM-Vet评估基准。该基准基于对问题的洞察力,认为解决复杂任务的能力通常是由通用模型整合不同核心视觉语言(VL)能力实现的。MM-Vet定义了6个核心VL能力,并检查了从能力组合中得出的16种有趣的集成方式。对于评估指标,研究人员提出了基于LMM的评估器,用于开放式输出。该评估器可以在不同的问题类型和答案风格之间进行评估,从而得出统一的评分指标。研究人员在MM-Vet上评估了代表性的LMM,在不同的LMM系统范例和模型的能力方面提供了洞察。

2. Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen Convolutional CLIP

https://www.aminer.cn/pub/64d074c23fda6d7f06ce9796

ChatPaper综述:论文介绍了一个称为FC-CLIP的单阶段框架,用于解决开放性词汇分割的问题。传统的方法通常采用两阶段的流程,首先通过一个掩码生成器生成掩码,然后将输入与预测的掩码一起输入到CLIP模型中进行处理。这个过程涉及多次从图像中提取特征,可能效率低下。相比之下,FC-CLIP将所有步骤集成到一个单阶段框架中,使用一个共享的Frozen Convolutional CLIP骨干网络,极大地简化了流程,并在准确性和成本之间取得了更好的平衡。FC-CLIP的训练和测试时间比之前的方法分别快7.5倍和6.6倍,并且使用的参数量减少了5.9倍。在各种开放性词汇语义分割数据集上,FC-CLIP也取得了新的最优性能。

3. Getting the Ball Rolling: Learning a Dexterous Policy for a Biomimetic Tendon-Driven Hand with Rolling Contact Joints

https://www.aminer.cn/pub/64d074c23fda6d7f06ce9773

ChatPaper综述:说明了在实现生物仿真的具有灵巧性的机器人手方面所面临的问题。虽然最近强化学习 (RL) 框架在四足动物的行走和灵巧操纵任务方面取得了显著的表现,但为了将RL训练的策略应用到真实世界中,我们需要训练框架能够输出适用于物理执行器和传感器的策略,并且需要一种硬件平台能够用可获得材料制造,并且足够强大以运行交互策略。这项工作介绍了生物仿真的张力驱动 Faive Hand 及其系统架构,该手使用张力驱动的滚动接触关节实现了可三维打印、具有高自由度的坚固手设计。我们对手的每个元素建模,并将其整合到GPU模拟环境中,通过RL训练一种策略,并实现了一个灵巧的手内球旋转技能在物理机器人手上的零样本转移。

4. Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization

https://www.aminer.cn/pub/64d074bf3fda6d7f06ce92a0

ChatPaper综述:论文指出现有的大型语言模型(LLMs)在成为自主语言代理的过程中存在一个问题,即它们没有使用特定环境奖励进行优化。通过口头反馈,一些代理可以进行迭代的改进,但它们的推理和规划方式并不符合基于梯度的奖励学习。该论文引入了一个有原则的框架,通过学习回顾性模型,通过策略梯度自动调整语言代理的提示,从环境反馈中学习。具体而言,我们提出的代理架构从多个环境和任务的奖励中学习,用于微调预训练的语言模型,通过总结之前失败尝试的根本原因和提出行动计划来改进语言代理提示。在各种任务上的实验结果表明,语言代理会随着时间的推移而改进,我们的方法明显优于未正确利用环境梯度的基线方法。这表明使用策略梯度优化来改进语言代理,我们相信这是首次研究,看起来很有前景,并且可以应用于优化代理架构中的其他模型,以提高代理性能。

5. A Survey on Temporal Knowledge Graph Completion: Taxonomy, Progress, and Prospects

https://www.aminer.cn/pub/64d074c23fda6d7f06ce9777

ChatPaper综述:文章说明了Temporak Knowledge Graphs(TKGs)存在的不完整性问题以及导致这种不完整性的主要原因。作者提到了新知识的不断出现、从非结构化数据中提取结构化信息的算法的薄弱性以及源数据集中信息的缺乏等原因。为了解决这个问题,作者提出了Temporal Knowledge Graph Completion(TKGC)任务,旨在基于现有信息预测缺失的项目。文章进一步介绍了TKGC方法和细节,并将其主要分为背景、插值和外推三个部分。文章还讨论了TKGC面临的挑战,并提出了未来研究的方向。

6. A Controllable Co-Creative Agent for Game System Design

https://www.aminer.cn/pub/64d074bf3fda6d7f06ce9351

ChatPaper综述:说明了目前游戏生成的协同创作系统通常只限于特定类型、规则或游戏,限制了设计者的创造力。该研究旨在通过对游戏进行抽象建模,专注于设计游戏系统和机制,并创建一个可控的、协同创作的代理来共同合作设计这些游戏。研究提出了一种使用状态机组件和资源流的游戏模型,一组可控的度量标准,一个模拟使用这些度量标准进行游戏过程的设计评估器,以及一个进化设计平衡器和生成器。研究发现,这个系统既能够表达各种不同类型的游戏,又能够在未来的协同创作应用中由人类进行控制。

7. Why Do We Need Neuro-symbolic AI to Model Pragmatic Analogies?

https://www.aminer.cn/pub/64d074bf3fda6d7f06ce91b6

ChatPaper综述:文章说明了在处理越来越复杂的模糊类比时,仅依赖统计模型和大规模语言模型(LLMs)的能力是不够的。文章指出,随着类比的复杂性增加,需要获取更广泛、多样化的知识,这种知识往往无法通过LLMs所依赖的词汇共现统计数据来获取。为了解决这个问题,文章讨论了采用神经符号人工智能技术的必要性,该技术将统计人工智能和符号人工智能相结合,通过知识驱动的方式来解释和引导模糊类比的处理过程。文章对使用神经符号AI技术的好处进行了讨论,并指出这种知识驱动的方法可以在保持LLMs高效性的同时,提供对模糊类比的解释能力,以供教学应用。

8. VQGraph: Graph Vector-Quantization for Bridging GNNs and MLPs

https://www.aminer.cn/pub/64d074bf3fda6d7f06ce927c

ChatPaper综述:论文指出了在实际中受到时间限制的应用中,图神经网络(GNNs)的信息传递存在可扩展性问题。为了解决这个问题,最近的方法采用知识蒸馏(KD)的方式通过模仿GNN的输出来学习计算效率高的多层感知器(MLP)。然而,现有的GNN表示空间可能不足以表示底层图的多样本地结构,这限制了从GNN到MLP的知识转移。为了解决这个问题,作者提出了一种新的框架VQGraph,通过采用变量量化变分自编码器(VQ-VAE)的编码器作为结构感知图分词器,将各种不同的局部结构节点明确地表示为许多离散的标记,并构成一个有意义的编码表。借助学习到的编码表,作者提出了一种基于软标记分配的新的基于标记的蒸馏目标,以充分传递从GNN到MLP的结构知识。大量实验证明了VQGraph的强大性能,它在七个图数据集的转导和归纳设置中均实现了新的最优性能。文章还表明,相比GNN,VQGraph的推断速度提高了828倍,在准确度方面,相比GNN和单独的MLP,分别提高了3.90%和28.05%。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部