人工智能如何强化学习,奖励机制行得通吗?

人工智能如何强化学习,奖励机制行得通吗?
2022年03月03日 11:49 科幻网官方

科幻网3月3日讯(朱曦薇) 2021年6月,人工智能实验室DeepMind的科学家提出一个有争议的主张,建议使用“强化学习”这一方法来达到通用人工智能(AGI)。他们把自己的论文标题定为“奖励就够了”。

该团队认为,通用人工智能可以通过一种被称为回报函数的激励机制形成。在强化学习中,软件代理通过反复试验来学习。当它采取合适的行动时,将获得奖励。随着时间的推移,代理会计算出如何执行任务以优化其奖励。这项技术可以应用于多个领域,从控制自动驾驶汽车到提高能源效率,但最著名的就是在游戏世界。

2016年3月,这项技术迎来一个里程碑式的时刻。DeepMind系统“AlphaGo”击败职业棋手李世石,成为第一个在围棋比赛中击败世界冠军的计算机程序。据报道,超过2亿人观看这场胜利。在比赛中,人工智能采取了非常规的动作,让对手李世石感到困惑。

DeepMind首席执行官表示,AlphaGo的最终版本不使用任何规则。相反,它通过与不同版本的自身进行数千次对弈,来从头开始学习游戏,通过一个被称为强化学习的反复试验逐步学习。这意味着它可以自由地为自己学习,不受正统思想的约束。

奖励是动物常见的学习动力。例如,一只松鼠在寻找坚果的过程中发展出智力。与此同时,一个孩子可能会因为整理房间而得到一块巧克力,或者因为不良行为而被打屁股。

在人工智能系统中,奖励和惩罚是通过数学计算出来的。例如,一个自动驾驶系统在模型撞到墙的时候可以得到-1分,安全地超过另一辆车则得到+1分。然后,该算法通过反复试验来学习,使奖励最大化,最终以最理想的方式完成任务。

值得一提的是,强化学习代理努力在复杂环境中实现奖励最大化,并评估其行动的长期影响。对此,“奖励就足够了”的支持者认为,算法的适应性可以为通用人工智能铺平道路。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部