人类在 Dota2 国际大赛上打败 OpenAI,但 AI 赢回来也只是时间问题

人类在 Dota2 国际大赛上打败 OpenAI,但 AI 赢回来也只是时间问题

在理解游戏目标和制定战略这件事上,人类玩家是主动的,而人工智能是被动的。

OpenAI 曾在 2017 年战胜 Dota2 世界顶级玩家 Dendi,本月初战胜了由职业选手和解说员组成的半职业战队,这一系列出彩的表现提升了人们对人工智能再次夺冠的期望。8 月 22 日在温哥华举行的 TI8 上,OpenAI 联合创始人兼 CTO 格雷格·布罗克曼(Greg Brockman)带着全新的 OpenAI Five 如期而至,却接连两场输给巴西站队和中国战队,据悉,巴西战队目前世界排名第 14 位,这至少说明一直想挑战人类「最强」的人工智能,目前还不能在 Dota2 电竞场上打败人类。

机器的短板

正如专注于游戏领域 AI 研究的迈克·库克在 Twitter 上所说,「机器人在即时即地的反应上做得很好,但宏观层面决策的表现却很糟糕。」Open AI 计划在当地时间周三、周四、周五连比三场,由于比赛采取三局两胜制,OpenAI 在输给中国战队之后,就结束 TI8 之旅。

两场比赛分别持续了 51 分钟和 45 分钟,从数据来看,OpenAI Five 在比赛开始的前 20-35 分钟内确实有很大的胜算。以 AI 的计算能力来看,OpenAI Five 不乏出彩的表现,比如「围剿」孤立的英雄,近距离进行技能释放,血量计算等。在与巴西战队 paiN 的较量中,AI 也拿到比对手更多的「人头」。毕竟,人工智能就是一台机器,可以获取游戏后端给予的精确的数字反馈,比如英雄状态和英雄间距离等信息。但是在战略上,人工智能远不及人类,执着于击打 Roshan、莫名其妙的在家、塔下插眼、在没有对手的时候放大收野。

这种精准的计算和不稳定的战略恰好反映了 AI 是如何学会打 Dota 的,OpenAI 使用强化学习训练 AI 从头自学,在一遍遍尝试中坚持下来有效的动作。因此也导致了 OpenAI Five 在面对训练中没有遇到的情况时束手无策,从事 OpenAI Dota 项目的软件工程师苏珊·张表示,「如果 AI 在比赛中遇见了之前从未有过的情况,很难立即调整。同时,在训练过程中,机器人在判断采取何种行动时,最多会提前 14 分钟。没有任何一种机制让机器人部署超过 14 分钟的长期战略。」所以,AI 的这一缺陷,在两场比赛中展露无遗。

在比赛开始前,格雷格·布罗克曼曾对 The Verge 表示,公司曾进行一场内部员工投票,认为 OpenAI Five 获胜的可能性不到 50%,这是普遍的共识。但是他补充说,真正重要的是 AI 的进步速度。AI 在接近某战队水平时,就与他们打比赛,一、两周之后,AI 就能超过他们,这样的事情已经「验证」很多次了。

不可否认的是 AI 强大的学习能力,即便完败巴西、中国战队,OpenAI 的 AI 选手也远远超越早期的电子竞技机器人。

「OpenAI Five」

在体育和游戏中,人工智能与人类的对抗有着悠久的历史。IBM 开发的深蓝计算机在 1996 年成为了第一个与世界象棋冠军较量并赢得比赛的电脑系统。战胜越来越具有挑战性的人类冠军则慢慢成为衡量人工智能进步的标准。

2016 年 3 月,AlphaGo 与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以 4:1 的总比分胜出;之后,AlphaGo 以网络围棋手「Master」的身份为与中日韩数十位围棋高手进行对决,以 60 胜零负收场。此后,DeepMind 团队公布全新强化学习算法——AlphaZero,仅仅通过自我对弈的方式就达到超越人类的水平。

去年,谷歌旗下的 DeepMind 和马斯克创建的非盈利研究实验室 OpenAI 合作研究一种根据人类反馈进行强化学习的新方法,并发表论文《Deep reinforcement learning from human preferences》(根据人类偏好进行的深度强化学习)。要建立一个安全的 AI 系统,其中很重要的一步是不再让人类给 AI 系统写目标函数,因为这都可能导致 AI 行为偏离轨道或引发危险。新算法只需要人类逐步告诉 AI,两种 AI 推荐的动作中哪一种更好,AI 由此推测人类的需求进行学习,比如新算法用来自人类评价员的 900 次二选一反馈学会了后空翻。OpenAI 和 DeepMind 希望通过新算法来提高人工智能的安全性。

DeepMind 凭借 AlphaGo 不负众望,同样专注在强化学习领域的 OpenAI 则是放眼于 Dota2 上,因为在数学计算上,电竞游戏比象棋或者围棋更复杂。这件看似「不正经」的事情,对于人工智能来说却是巨大的挑战,游戏中需要 AI 团队协同作战、布局长期战略、制定复杂决策。如果赋予 AI 的这些技能可以通过游戏磨练「精进」,便可以加以运用到现实生活中。这也恰巧符合 OpenAI 的建立初衷——吸取所有的人类优点,建立安全的通用机器人。

OpenAI 曾在 2017 年 1v1 战胜 Dota2 世界顶级玩家 Dendi,并于今年 6 月 25 日宣布能在 5V5 对战上打败顶级业余玩家。OpenAI 开发了一套名为「OpenAI Five」的算法,把 AI 放进虚拟环境中,从自我对抗中学习,程序员设置奖励机制,让 AI 一遍一遍地训练自己,据悉 OpenAI Five 每天的训练量相当于玩 180 年的游戏。而从此前 OpenAI Five 战胜半职业战队的战绩来看,这套训练方法似乎取得了一定成效。

可是在面对顶级玩家时,OpenAI Five 则没那么幸运,虽然格雷格表示,「周三晚上的比赛,证实了 OpenAI Five 已经很接近人类的电竞能力。」但是 OpenAI 的技术人员菲利普·沃尔斯基也承认了面对职业选手,OpenAI 会稍显「底气不足」。他还说到,在准备整个项目时,团队经历了很多不眠之夜。就算回家休息的时候,也在担心是否上传了正确的参数。但是 OpenAI 的 Dota 之旅还远没有结束,「我们想要机器人在越来越少的限制下玩游戏。」

AI 在这几场比赛中所缺失的也正凸显了目前机器学习的局限性,在看似「不起眼」的策略、规划制定上,人工智能貌似还差得很远。格雷格曾在 8 月初 OpenAI Five 战胜半职业战队之后发推祝贺,「已经准备好迎战 TI8」,但是现在看来 OpenAI 在 Dota2 上要走的路还有很长。

*本文作者沈知涵,由新芽NewSeed合作伙伴微信公众号:极客公园授权发布,转载请联系原出处。如内容、图片有任何版权问题,请联系新芽NewSeed处理。