华人主导，首届国际分布式AI大会开幕，最佳论文奖已出炉_

作者：一鸣、杜伟

首届华人学者主导的国际分布式 AI 大会近日在北京召开。本届大会主要关注强化学习，特别是多智能体问题的研究以及在工业领域的应用。本次大会的最佳论文是关于多智能体合作的研究，作者来自天津大学和华盛顿州大学。大会还邀请到了包括在内的姚期智、Victor Lesser、刘铁岩、Noam Brown、田渊栋等专家进行主题演讲。

近年来，随着人工智能研究的逐步深入，针对多智能体系统的研究逐渐成为强化学习的一个重要研究方向。在这一领域，研究者重点关注的问题是：决策不再由中心，而是自治的分布式多智能体决定。

因此，分布式人工智能（Distributed Artificial Intelligence）研究应运而生。而随着我国分布式人工智能的研究群体日益壮大，在工业界的应用越来越频繁，国内学术界迫切希望举办一个新的会议，成为国内分布式人工智能的高水平交流平台。2019 年 10 月 13 日至 15 日，第一届国际分布式 AI 大会在北京召开。这是首届华人带头的国际分布式 AI 学术会议。在本届大会上，参会嘉宾和学者们重点讨论了多智能体强化学习，以及这些研究在工业界的应用。此外，大会还邀请到了 AAAI、IJCAI、ACL、NeuralPS 大会部分接收论文作者，介绍和强化学习结合的工作。

大会情况

此次会议由多位华人学者以及国际知名学者共同发起，其中，南洋理工大学安波（大会共同主席）、清华大学唐平中（程序委员会共同主席）、南京大学高阳（研讨会主席）、MSRA 秦涛（工业论坛主席）、南京大学俞扬（赞助主席）、天津大学郝建业（宣传主席）都在组织者之列，会议共同主席之一 Michael Wooldridge 是牛津大学计算机系主任、IJCAI 理事会前主席。图灵奖得主姚期智院士任大会名誉主席。

本届大会共有多场演讲和报告，包括姚期智、Victor Lesser、刘铁岩的主旨演讲，以及 Noam Brown、田渊栋的专题演讲等。此外还有多篇论文的作者发表口头演讲。作为首届由华人发起和主导的分布式 AI 会议，参会人数众多，讨论非常热烈。据统计，本次共有 13 篇接收论文（长论文 11 篇、短论文 13 篇）。

大会荣誉主席、图灵奖得主、清华大学教授姚期智院士做主题演讲。

本次大会共分为三天，首日是多场 Tutorial 活动，后两日则是主题演讲和论文口头报告时间。此外，大会在周一晚上宣布了最佳论文和荣誉提名论文。本文将介绍获奖论文的核心内容。

获奖情况

本届 DAI 大会宣布了最佳论文奖与最佳论文荣誉提名奖项。

最佳论文

本届 DAI 大会最佳论文由 Weixun Wang、Jianye Hao、Yixi Wang、Matthew E. Taylor 几位作者共同摘得。其中 Weixun Wang、Jianye Hao、Yixi Wang 来自天津大学，Matthew E. Taylor 来自华盛顿州大学。

论文一作 Weixun Wang 对机器之心表示，这篇论文是一个多智能体交互的问题。考虑到真实世界更多的是一个多智能体问题，采用传统的「感知」方法是不够的，需要多智能体研究来更好地模拟真实情况。

标题：Achieving Cooperation Through Deep Multiagent Reinforcement Learning in Sequential Prisoner』s Dilemmas

作者：Weixun Wang, Jianye Hao, Yixi Wang, Matthew E. Taylor

论文地址：http://www.adai.ai/dai/paper/29.pdf

迭代囚徒困境已经指导了社会困境问题方面的研究多年。然而，这一问题只分成了两种原子行为：合作和对抗。在真实世界的囚徒困境中，这些选择可能会有所延伸，而且不同的策略可能会带来一连串连锁反应，从而影响合作的程度。在本文中，研究者提出了一种名为序列囚徒困境（SPD）的问题，以便更好地捕捉前述特征。

在研究中，研究者提出了一个深度多智能体强化学习方法，可以探索在 SPD 问题中相互合作的演变过程。研究者的方法分为两步：第一步是线下过程，通过不同的合作级别整合策略，然后训练一个合作等级检测网络。第二步是在线过程，一个智能体基于检测到的对方的合作等级，逐渐调整并选择自身的策略。研究者认为，他们提出的方法可以在两个有代表性的二维 SPD 问题中展示：「苹果-梨」问题和「水果收集」问题。实验结果说明，研究提出的方法可以让智能体避免被具有掠夺性的对手剥削，同时和有合作意向的对手达成合作。