AI研习丨专题:多智能体强化学习研究与实践

AI研习丨专题:多智能体强化学习研究与实践
2021年04月28日 19:19 中国人工智能学会CAAI

摘 要

本文浅析多智能体强化学习的主要科学问题和技术基础,并介绍该领域的前沿科研工作和最新工业技术落地,最后对多智能体强化学习的未来发展做出展望。

关 键 字

多智能体强化学习;博弈论;多智能体系统;群体智能

0 引言

随着机器学习技术在近 10 年内的蓬勃发展,越来越多的应用场景加入了机器学习,例如刷脸支付、手掌静脉识别、机器翻译和个性化商品推荐等。人们也对机器学习这个本来比较陌生的研究领域越来越熟悉并接纳,开始赋予机器学习技术更重要的任务场景,即决策任务。同时,机器也不再只是面对固定的数据集做训练,而开始相互之间做出交互协作,进而完成更加复杂的群体智能任务。图 1 示出了机器学习在这两个维度的范式扩展。

图1机器学习范式发展

预测和决策是 AI 的两大主要任务类型。预测主要是关注对输入数据的分析,如模式识别、信息提取、回归和分类等,给出相关的信号,之后这些预测的信号被如何使用则并非预测器需要关注的范畴。例如做道路车辆识别的模块仅关注当前感知区域是否有车辆,至于这个识别会带来什么影响,这是由后续的业务逻辑来完成,机器学习模块并不关注。对于决策任务,机器学习模块将根据当前状态数据直接作出决策,给出的具体行动将直接影响当前环境的改变,从而进一步影响未来的情况。例如在无人驾驶场景下,机器学习模块识别到前方的车突然减速,做出立即给出刹车的决策,于是迅速减速,和前车的距离得以保持。另一个耳熟能详的例子就是 AlphaGo 围 棋 AI,通过深度神经网络直接将当前棋盘的情况做出解析,预测黑白方的胜率,并作出落子的决策,进而使棋盘的情况马上发生改变。决策和预测的本质不同在于机器是否会直接改变环境,以至于做决策的机器学习必须对未来作出规划,使智能体未来一段时间内的整体收益最大化。

在另一个维度,随着 5G 和物联网时代加速到来,智能元器件开始普及到城市的各个角落。这些智能元器件能感知并处理周围环境的相关信息,并给出相应的决策动作,例如智能交通灯通过感知路网的车流数据给出实时的红绿灯信号调配,优化早晚高峰的交通情况;无人驾驶车通过感知周围的车辆的信号,作出局部最优行车的轨迹规划。这里,智能元器件之间通过信息交互给出具体的决策,完成相应的复杂协作任务,进而实现群体智能的涌现。在多智能体系统中的每个智能体视角下,当前决策环境中还包含其他智能体,它们也在不断学习和更新自己的决策方式,所以该决策环境是非稳态的 (non-stationary)。这打破了传统强化学习的基本假设,即环境虽然可以是动态随机的但必须是稳态的。如图 2 所示,单智能体学习和多智能体学习的本质区别在于,多个智能体之间产生学习目标,从而使得在每个智能体的视角下,环境不再是稳态的。

图2单智能体学习和多智能体学习的学习目标

为了解决多智能体系统中每个智能体的最优决策问题,克服单智能体强化学习在多智能体系统中面临的非稳态环境问题,多智能体强化学习技术在近 3 年开始获得越来越多的关注。

1 研究背景

多智能体强化学习是一个新兴的研究领域,研究的是多个具有自主决策能力的智能体在环境中进行连续决策的优化问题。传统上,多智能体决策问题主要属于博弈论的研究范畴,但博弈论侧重单回合决策的分析。随着深度强化学习技术的逐渐成熟,单智能体连续决策问题的解决获得了突破。近年来,研究者将深度强化学习技术用于多智能体连续决策问题中,并结合博弈论的研究基础,确立了多智能体强化学习这一新的研究领域。

1.1 博弈论

博弈论研究的是多个理性智能体同时决策的问题。最基本的博弈论模型是如图 3 所示的矩阵博弈,两个玩家分别具有“合作”和“背叛”两个候选动作,四种联合动作对应着四种收益组合,每种收益组合由行玩家和列玩家的收益组成。在矩阵博弈中,研究者重点关注的解概念是“纳什均衡”,它描述的是一种联合动作,在该联合动作下任一玩家无法通过单独改变动作而获得自身收益的提升。例如,图 3 中的“背叛 - 背叛”联合动作就是一个纳什均衡,任一玩家改成“合作”将导致自身收益从 -2 降为 -3。矩阵博弈是一种“单状态、多玩家”的模型,它为多智能体强化学习提供了多玩家同时决策的理论基础。

图3“囚徒困境”矩阵博弈

1.2 强化学习

强化学习研究的是一类连续决策问题,数学上一般用马尔科夫决策过程描述。如图 4 所示,从状态 1 开始,玩家做一系列决策产生动作 1、动作 2、动作 3……下一时刻状态由上一时刻状态和动作共同决定。在每个状态下,玩家都将获得基于这个状态的收益,玩家的目标是使整个动态过程的累积收益最大。针对这一问题,基于值迭代的 Q 学习和策略迭代的策略梯度等方法被广泛研究,近年来与深度学习相结合,在 Atari 游戏、围棋等任务中取得显著的效果。强化学习研究的是“多状态,单玩家”问题,它为多智能体强化学习提供了有力的机器学习算法工具。

图4强化学习问题的动态过程

1.3 多智能体强化学习

多智能体强化学习研究的是“多状态,多玩家”问题,数学上一般用马尔科夫博弈描述。一个马尔科夫博弈是一个六元组

图5多智能体强化学习问题的动态过程

2 前沿问题

多智能体强化学习作为新的研究领域,产生了一些全新的学术研究问题,本文着重介绍多智能体间的合作与协同、通讯机制和对手手建模三个问题,图 6 是这三个问题的示意图。

图6多智能体强化学习中的合作与协同、通讯机制和对手建模

2.1 多智能体合作与协同

在多智能体环境中,智能体间的合作与协同有助于提升各自收益。智能体间的合作指的是多个智能体通过合理选择联合动作,使得每个智能体的收益都获得提高。智能体间的协同指的是,当有多个较好的联合动作可供选择时,多个智能体协调一致选择其中的一个,从而避免由于不协调而无法选中其中的任何一个。合作与协同的共同点是智能体都需要联合起来,选择特定的联合动作。针对这一问题,研究者提出了各种各样的解决方案,这里简单介绍其中的两种。OpenAI 公司和伯克利大学研究团队提出的 MADDPG 模型,首先引入了“集中式训练,分布式执行”的思想,既符合马尔科夫博弈模型中智能体需分布式执行的要求,又在训练中建模了智能体联合动作的收益,使智能体学会合作和协同。另一种“多层次学习”的思路由伦敦大学学院和上海交通大学的研究团队提出,它在训练时规定了智能体的行动次序,从而使联合动作收敛到 Stackelberg 均衡,在合作类场景中取得比纳什均衡更高的收益。

2.2 多智能体通讯机制

在人类社会中,通讯扮演着重要的角色。将通讯机制引入多智能体环境中,有助于提高智能体互相之间的认知,提升智能体策略的表现。在一些完全合作的场景中,智能体之间的通讯尤其重要。针对这一问题,CommNet、BicNet、ATOC 等多智能体通讯模型相继被研究者提出。其中,伦敦大学学院研究团队提出的 BicNet 模型用双向 RNN网络将智能体策略模型连接起来,以网络参数的梯度作为通讯内容,在星际争霸场景中取得了显著的效果;北京大学研究团队提出的 ATOC 模型则考虑了智能体之间的社会结构,通过引入注意力机制,使得相关性较高的智能体形成相互通讯的小团体。

2.3 多智能体对手建模

除了通讯之外,智能体还可以通过观察对手智能体的行为对其建模,从而使自身的行为更好地针对预判的对手行为。无论是合作还是竞争类场景中,对手建模都可以起到优化自身行为的作用。伦敦大学学院研究团队提出的 PR2 模型考虑了自身动作对对手策略的影响,同时对手也对自身做了同样的考虑,并研究了该模型自我博弈的收敛性。在此基础之上,智能体之间还可以进行更深层次的递归推理,即无穷地考虑对手的策略依赖于自身的策略,自身的策略依赖于对手的策略,循环往复。此外,纽约大学研究团队提出的SOM 模型将自身的策略模型用于预测对手的行为,适用于智能体相互对称的环境。

3  工业应用

3.1 在线广告

在线广告是以互联网为投放媒介的广告形式,是互联网企业能持续为用户提供免费服务的经济来源。由于在线广告的展示可以做到千人前面,通过机器学习等方法评估每次广告展示能为广告主带来的收益,广告主借助自动化的投放算法将预算精准地用到对广告商品感兴趣的用户身上,进而获得远高于其他广告形式的投入产出比(ROI)。凭借这个优势,在线广告从上世纪 90 年代诞生至今已经成为全球最大的广告模式。

在线广告的展示过程往往伴随一个拍卖过程。当用户要访问一个互联网页面时(例如搜索结果页、媒体文章页、游戏或 APP 登录页等),广告平台会触发一个本次广告展示机会的拍卖。该广告拍卖环境为一个多智能体博弈场景,每个广告主作为一个智能体,通过每次拍卖的竞价决策来优化自己的收益。站在单个广告主的视角,通过强化学习的方式确实可以在广告活动投放期内更好地控制广告预算的花销节奏,达到更好的投放收益,但整个市场可能因为个别或部分广告主竞价策略的改变而相应的改变。因此,广告平台需要考虑整个市场环境的优化,通过有效设置竞拍轮询、拍卖保留价和排序等机制,让广告市场向长期健康的均衡方向发展。在这方面,阿里巴巴广告团队将淘宝平台的广告拍卖建模成了多智能体出价决策问题,并针对海量广告主竞价任务提出了分布式协同多智能体竞价模型。平台实验结果显示,多智能体协同竞价能权衡广告主竞价之间的竞争和合作,能成功优化阿里巴巴广告生态系统长期的收益和广告主的 ROI。

3.2 交通灯控制

智能交通灯控制是智慧城市中的典型场景,通过感知路网中的车流情况,对交通灯做出实时调配,进而优化城市片区不同时段的交通效率。单个交通灯的调度优化可由传统强化学习解决,但单路口的车流效率优化可能会对周围路口带来新的拥堵,因此城市片区级别的智能交通灯调度可建模为一个多智能体强化学习问题。美国宾州州立大学的研究团队近年给出了一个研究中,将每个交通灯作为一个决策智能体,通过固定的路网连接,可以接收到周边路口交通灯智能体的局部信息。对其进行深度学习处理后,可以提取对当前决策有价值的信息,进而以去中心化的方式完成整个城市片区交通效率的优化。而要支持智慧城市的决策落地,首先需要在一个大规模高精度城市交通模拟器中验证新算法的有效性。CityFlow 是上海交通大学研究团队近期发布的开源交通模拟器(见图 7),目前已经支持了多个科研机构和智慧城市项目的交通灯调度研发工作。

(a)上海徐家汇交通模拟(b)路口交通灯调度模拟

 强化学习平台 CityFlow

图 7 面向城市片区交通灯调度优化的多智能体

3.3 网约车派单

网约车平台每天都会派送千万级别的车次给用户完成他们的出行需求。简单来说,每个城市的网约车系统每隔几秒钟会完成一次空车和订单的匹配,这是一个二部图匹配任务,图的两部分结点分别为空车和订单,而图的边则为派遣该空车去完成该订单所对应的效用。传统的方法为使用 KM 等匹配算法来快速求解最佳匹配,而如果考虑当前匹配决策对未来的影响,则需要引入强化学习技术。滴滴公司近年在多智能体强化学习领域做出了一系列研究,发现基于车辆作为智能体,或者基于城市片区作为智能体都可以比较高效地解决高效车辆分单的任务(见图 8),并且能在城市级别优化每天的平台收益、司机收入和用户订单相应率,优化网约车平台生态的长期利益。

图8多智能体强化学习落地网约车平台派单任务

4 结束语

多智能体强化学习的研究在近年来获得很大关注,其落地应用的例子也越来越多。尽管如此,要发展成为像人脸识别或是文本分类这样成熟的AI 技术和产业,多智能体强化学习仍然有很多科学问题和工业挑战需要克服。首先,由于博弈均衡难以达到,多智能体强化学习的算法评估至今还没有一个统一标准;来自欧美的科研团队近期尝试用元策略空间和进化博弈理论来尝试评估多智能体强化学习算法,但其庞大的计算量无法使其普及。其 次,多智能体强化学习的训练成本太高,往往需要大企业的算力支持才能完成一些任务的训练。此外,多智能体协同探索中的奖励信号过于稀疏,使得多智能体强化学习训练的数据效率很低,需要采用极大量的训练数据。最后,目前社区仍然缺乏统一认可的多智能体训练评测平台,这使得多智能体强化学习的实验重复性和横向对比得不到很好的保证。笔者认为,以上科学问题和工业挑战将会在未来 5年内基本得到解决,届时多智能体强化学习技术将会更大限度地普及到人们生活的方方面面,成为像是今天的人脸识别一样成熟的产业技术。

(参考文献略)

选自《中国人工智能学会通讯》

2020年第10卷第7期  AI研究前沿与群体智能计算专题

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部