亲爱的研究同学们,欢迎阅读今日的AI论文导读。今天我为你带来了新鲜出炉的本日AI学术论文导读,涵盖了强化学习与人类反馈训练系统、大型语言模型解释新颖文学隐喻的能力、复杂交互的建模框架、医学影像的多模态任务处理、AI系统与个体互动时出现的伦理问题、社交媒体上恶意行为者使用AI的威胁、基于众包的可验证计算方法、基础模型对国际安全的潜在风险、组级图异常检测以及深度神经网络性能的视觉检查等多个领域。希望这些内容能够为你的研究提供启示和帮助。如果你觉得这些内容有价值,欢迎点赞、转发,让更多的研究人员了解AI日新月异的进展和变化。
1. 【DeepSpeed-Chat. Easy, Fast and Affordable RLHF Training of ChatGPT-like Models at All Scales】
DeepSpeed-Chat是一个新颖的系统,旨在使强化学习与人类反馈(RLHF)训练对AI社区更加易于访问。DeepSpeed-Chat具有三个关键功能:易于使用的ChatGPT模型的训练和推理体验、DeepSpeed-RLHF管道以及用于训练和推理的强大DeepSpeed-RLHF系统。该系统提供了无与伦比的效率和可扩展性,能够以记录时间和成本的一小部分训练具有数千亿参数的模型。DeepSpeed-Chat的发布为更广泛地访问高级RLHF训练铺平了道路,即使对于资源有限的数据科学家,也能够促进AI领域的创新和进一步发展。
论文链接:http.//arxiv.org/pdf/2308.01320v1
2. 【Large Language Model Displays Emergent Ability to Interpret Novel Literary Metaphors】
本研究评估了GPT-4在解释塞尔维亚诗歌中的新颖文学隐喻方面的自然语言能力。研究发现,即使在没有先前接触这些隐喻的情况下,GPT-4能够产生详细而深刻的解释。与大学生相比,人类评委将GPT-4生成的隐喻解释评为更优。此外,GPT-4在解释反转隐喻时表现出了对Grice合作原则的敏感性。这些结果表明,大型语言模型如GPT-4已经具备解释复杂新颖隐喻的能力。在零样本测试中,GPT-4的表现接近人类水平,远远超过了其他模型。然而,GPT-4的能力仅限于解释隐喻,而不能创造新的隐喻。此外,GPT-4的解释能力尚未得到文学评论家的认可,其生成的诗歌作品尚未经过严格评估。综上所述,本研究揭示了GPT-4在解释塞尔维亚诗歌中的新颖文学隐喻方面的能力,并提供了相关的评分指南和参考文献。
论文链接:http.//arxiv.org/pdf/2308.01497v1
3. 【Flows. Building Blocks of Reasoning and Collaborating AI】
本论文介绍了一种用于建模复杂交互的概念框架——Flows。Flows框架通过标准化的基于消息的接口进行通信,可以分为原子Flows和复合Flows两种类型,并可以递归组合成任意嵌套的交互。研究人员开发了aiFlows库,其中包含一系列Flows,可以轻松使用、扩展和组合成新的、更复杂的Flows。实验结果表明,Flows框架在竞技编程任务上展示了潜力,通过结构化推理和协作提高了泛化能力。Flows框架和aiFlows库的开源为AI系统的开发和研究提供了新的可能性。然而,Flows框架存在一些局限性,包括对人类反馈的依赖性、对大量训练数据的需求以及对模型的解释性的挑战。为了进一步推动Flows框架的研究和应用,本文提出了一种新的竞争性编程比赛形式——CC-Flows-competition。该竞赛将利用公开可用的Codeforces问题的全面数据集和实验中使用的开源推理和测试基础设施,通过排名和排行榜的形式评估和展示Flows的表现。
论文链接:http.//arxiv.org/pdf/2308.01285v1
4. 【ELIXR. Towards a general purpose X-ray artificial intelligence system through alignment of large language models and radiology vision encoders】
本论文介绍了一种名为ELIXR的轻量级视觉-语言适配器模型,用于医学影像的多模态任务。ELIXR在零样本分类、数据高效分类、语义搜索、视觉问答和报告质量保证等任务上取得了最先进的性能。与完全监督的对比学习方法相比,ELIXR的零样本分类性能相当,但使用的训练数据量少了两个数量级。ELIXR的数据高效分类性能优于对比学习方法,并且使用的训练数据量也少了两个数量级。此外,ELIXR在语义搜索、视觉问答和报告质量保证任务中表现出色。ELIXR的模块化架构易于适应其他任务,并且训练过程高效,可以使用较少的训练数据训练高精度的模型。然而,ELIXR也存在一些局限性,如对提示工程的依赖性、对大型语言模型的脆弱性以及缺乏可靠的基准数据集等。未来的工作可以探索ELIXR在不同的语言模型和医学专业模型上的性能,以及将这些方法扩展到其他医学影像模态和临床应用中。该研究对医学影像识别领域的发展具有重要意义,可以为医生提供辅助诊断的工具。
论文链接:http.//arxiv.org/pdf/2308.01317v1
5. 【Beneficent Intelligence. A Capability Approach to Modeling Benefit, Assistance, and Associated Moral Failures through AI Systems】
本文提出了一个基于能力方法的框架,用于形式化AI系统与个体互动时出现的伦理问题。该框架包括两个必要条件和两个充分条件,以确保AI系统能够给利益相关者带来有意义的利益。作者将AI系统的意义利益与不正当的家长式行为、强迫、欺骗、剥削和统治等失败模式进行了对比。该框架有助于评估AI系统的伦理问题,并在AI系统的设计和开发中引入伦理价值观。框架的核心是关于助力和道德错误的概念,助力是指AI系统通过扩展或改善个体的真实自由或帮助其追求生活计划来提供帮助,而道德错误则违背了个体的真实自由和生活计划。文章还讨论了助力和道德错误的一些具体例子和应用领域。未来的研究可以进一步探讨助力和道德错误与公正和公平的关系。本文是一篇学术文章,题目为《哲学经济学》,涵盖了多个主题,包括贫困、黑暗模式、人机交互、强制、女性平等、公正、人类发展、人工智能伦理、健康公正、算法伦理等。文章引用了多位学者的研究成果和观点,并提到了一些重要的突破和进展,如黑暗模式的演变、人机交互的视角、决策算法的合法性等。文章也指出了一些限制和局限性,如对于人类发展的实施、算法决策的优化、伦理准则的权力和责任等。文章还提到了一些相关的组织和资源,如Partnership on AI、OpenAI、Cambridge University Press、Harvard University Press、IEEE等。
论文链接:http.//arxiv.org/pdf/2308.00868v1
6. 【Controlling bad-actor-AI activity at scale across online battlefields】
本论文研究了如何在社交媒体上应对恶意行为者使用人工智能/GPT生成有害内容的威胁,并通过利用社交媒体多元宇宙的内在动态来解决这一问题。研究结合了对当前恶意行为者和主流社交媒体战场的详细描述以及对其行为的数学描述,展示了恶意行为者使用人工智能的活动在何时、何地以及以何种方式占主导地位。通过动态红后分析,预测到2024年初,恶意行为者使用人工智能的活动将每天升级,恰好在美国和其他全球选举之前。研究提供了一个政策矩阵,以量化遏制与清除等政策选项的结果和权衡。研究还提供了风险度量的明确插入式公式。
研究发现,即使在最新的GPT工具(例如ChatGPT)出现之前,预测到到2026年,90%的在线内容将由人工智能生成。2024年将有60多个国家进行60多次选举,包括美国和印度,这使得恶意行为者滥用人工智能的风险更加紧迫。实际的暴力袭击越来越多地与有害的在线内容相关联。欧盟目前通过其“数字服务法”和“人工智能法”领导监管方面的努力。然而,识别高效的恶意行为者-人工智能政策需要对在线战场的详细了解,而不是基于假设。
研究还指出,在GPT之前,关于2020年美国选举的研究表明,即使没有GPT,人们对在线集体行为的复杂性了解甚少。在线行为不仅仅是人们的信息流,而更可能是由更复杂的集体互动产生的。然而,AI-社交媒体讨论中似乎缺少基于证据的研究,缺乏严格的数学分析,无法预测AI/GPT出现时可能发生的情况,以及可能发生的地点、时间和应对措施。本研究提出了对这些问题的答案。
全球数十亿的在线人口创造了一个动态网络,将内置的社交媒体社区相互连接起来。研究的方法是通过13个平台对这个动态网络进行映射,这些社区包含了大约10亿个个体,并提供了一个巨大、现成且快速移动的战场,人工智能可以在其中蓬勃发展。研究发现,较小的平台在这个过程中起到了关键作用,因为它们数量众多,链接活动频繁,并不是“边缘”。由于GPT驱动的恶意行为者社区的多平台融合-分裂动力学,它们可以不断传播有害内容,并增加它们已经相当大的与主流社区的连接。研究还预测到,恶意行为者-人工智能活动将在2024年初几乎每天发生,这正好是美国和其他全球选举之前的时间。
研究使用严格的数学方法展示了如何通过利用恶意行为者-人工智能系统的社区集群动态来控制恶意行为者-人工智能活动,并预测其结果。研究结果显示,只要A比B强大,较不雄心勃勃的遏制政策就会成功。当A集群发现B集群时,A集群通常比B集群更强大,因此可以平均地使其链接失效,即B集群分裂为无链接的B社区。完全清除恶意行为者-人工智能(B)的更雄心勃勃的政策需要更强大的A集群找到B集群并将其删除。这种政策的时间取决于A和B的初始强度,当A的强度增加时,B集群的平均强度减弱,对A的注意力也减弱。这导致所需时间增加。这些结果和预测是明确、定量、可测试和可推广的,为加强恶意行为者-人工智能政策讨论提供了具体的起点。
论文链接:http.//arxiv.org/pdf/2308.00879v1
7. 【Evaluate and Guard the Wisdom of Crowds. Zero Knowledge Proofs for Crowdsourcing Truth Inference】
本论文提出了一种基于众包的可验证计算方法,用于解决外包计算中的信任问题。该方法结合了零知识证明和真实推理算法,可以高效准确地解决各种复杂的外包任务。同时,该方法还提出了一种证明浮点数精确计算的新方法,与现有的论证系统兼容且效率高。通过实现和评估,该方法相比最近的工作,提高了2-4倍的效率,并具有广泛的适用性。该方法适用于数据标注、区块链预言机等多个应用场景。该方法可以保证聚合和推理过程的准确性和隐私性,同时保护敏感信息不被泄露。此外,该方法可以根据贡献度公平评估和奖励数据提供者,防止恶意聚合者的损失。该方法可以与现有的零知识证明系统无缝集成,具有可扩展性和灵活性。本论文突破了基于众包的可验证计算方法,解决了外包计算中的信任问题,并在实验中展示了该方法的高效性和准确性。然而,该方法需要使用特定的计算电路和零知识证明系统,可能需要一定的技术和计算资源。在处理大规模数据时可能会面临一定的计算和存储压力。此外,该方法的安全性和隐私保护性需要进一步研究和验证。
论文链接:http.//arxiv.org/pdf/2308.00985v1
8. 【Confidence-Building Measures for Artificial Intelligence. Workshop Proceedings】
本论文讨论了基础模型对国际安全的潜在风险,并提出了一些应对措施。作者提到了几种适用于基础模型的信任建设措施,如危机热线、事件共享、模型透明度和系统卡、内容来源和水印、协作红队演练和桌面推演、数据集和评估共享等。文章强调了在人工智能(AI)背景下建立信任的重要性,并提出了技术措施和政策措施来建立信任,如共享数据集、评估和验证机制、水印技术和模型卡片、制定国际准则、合作和协商、红队演习和桌面演习等。建立信任的挑战包括信息不对称、协调机制和激励机制。建立信任可以减少误解和误判,降低冲突和战争的风险。建立信任需要政府、技术公司和民间社会的合作和努力。建立信任是一个长期的过程,需要持续的努力和改进。
论文链接:http.//arxiv.org/pdf/2308.00862v2
9. 【Graph Anomaly Detection at Group Level. A Topology Pattern Enhanced Unsupervised Approach】
本文介绍了一种新的无监督框架,用于解决组级图异常检测(Gr-GAD)任务。该框架包括Multi-Hop Graph AutoEncoder(MH-GAE)和Topology Pattern-based Graph Contrastive Learning(TPGCL)两个组件。MH-GAE能够捕捉长程不一致性,而TPGCL则通过对比学习来生成拓扑模式信息。实验结果表明,该框架在真实世界和合成数据集上的性能优于现有的N-GAD和Sub-GAD方法。该框架能够有效地检测组级异常,并提供了更准确的分类结果。该框架的局限性是对大规模数据集的计算要求较高,且对参数的选择敏感。未来的研究可以进一步改进框架的计算效率和稳定性,以适应更大规模的数据集。
论文链接:http.//arxiv.org/pdf/2308.01063v1
10. 【Using ScrutinAI for Visual Inspection of DNN Performance in a Medical Use Case】
本论文介绍了一种名为ScrutinAI的可视化分析工具,用于在医疗应用中对深度神经网络(DNN)性能进行视觉检查。研究人员使用ScrutinAI分析了标签噪声对模型性能的影响,并发现了标签噪声对模型性能的负面影响。研究人员还发现,在医学图像分析中,由于不同观察者之间的一致性差异,模型对于特定类别的区分能力较差。研究人员使用ScrutinAI工具进行了一系列分析,揭示了模型性能与观察者之间的关系,并提出了一些发现,包括模型性能与观察者一致性的相关性、模型对于不同观察者一致性的案例的检测能力等。研究人员还提出了一些未来的研究方向,包括使用单个观察者的注释训练模型以提高性能。综上所述,本论文通过使用ScrutinAI工具对DNN性能进行可视化分析,揭示了标签噪声对模型性能的负面影响,并提出了一些解决方案和未来的研究方向。
论文链接:http.//arxiv.org/pdf/2308.01220v1
感谢您的关注,AI论文导读将继续为您带来AI精选论文的导读。请大家积极参与互动,点赞、评论、转发,让更多研究员快速了解AI的前沿变化。明天的导读,我们不见不散!
![](http://n.sinaimg.cn/finance/pc/cj/kandian/img/article_pic05.png)
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有