Deepmind 挑战《星际争霸2》，人工智能 10:1 战胜人类玩家

北京时间 25 日凌晨 2 点，Google 旗下的人工智能公司 DeepMind 在伦敦举办线上直播，公布了 10 局《星际争霸 2 》比赛录像，由其研发的游戏类人工智能 AlphaStar 向两名《星际争霸 2 》职业游戏玩家挑战，录像结果显示两名职业玩家都以 0-5 输给 AlphaStar。

《星际争霸 2》是暴雪娱乐在 2010 年 7 月发布的一款即时战略游戏（RTS）。RTS 游戏顾名思义，游戏的过程是即时进行而不是采用回合制。这意味着玩家需要在短时间内控制多个不同的单位，实时下达指令。

即时战略游戏（RTS）大多和战争题材相关，以《星际争霸 2》为例，玩家们在一块迷雾笼罩的地图上对抗，依靠探索地图获取更多信息，同时进行采集、建造、发展、战斗等过程。

在 RTS 游戏中，比赛过程随获取的信息在不断发生变化。既考验选手对游戏内的瞬间操作，也考验战术的执行，随机性很强。大约 300 个游戏指令可以分叉成接近 1 亿个可能的后续操作，而这些都要求人工智能瞬间分析做出反应。

所以相比起规则明确，有思考时间的国际象棋、围棋等传统游戏，人工智能能否在电竞类游戏中击败人类一直是关注的焦点。

从公布的录像来看，AlphaStar 先是在两周前挑战德国职业星际 2 选手 TLO，他在 2018 WCS Circuit 排名 44 位，是一名虫族玩家。

AlphaStar 在规则上有一些优势，首先比赛双方都使用的是神族，这不是 TLO 最擅长的种族。同时 AlphaStar 直接读取地图上所有的可见内容，类似于可以俯览整张地图。即使有迷雾减少信息，这也比需要切屏来操作不同区域的人类有很大的优势。

比赛中，AlphaStar 的策略比较保守，会建造大量工人，快速建立资源优势（超过人类职业选手的 16 个或 18 个的上限），虽然 AlphaStar 5:0 取得胜利，但 TLO 赛后坦言自己觉得很有机会赢下一场比赛，他需要更多对战的机会来找到 AlphaStar 的弱点。

两周的调整后，AlphaStar 又向 2018 年 WSC 奥斯汀站亚军、世界顶级神族选手之一 MaNa 发起挑战，AlphaStar 明显在战术选择和单位操作上进步很多，例如学习和尝试封路战术。人工智能带来的微操优势也被利用，其中一局比赛中，AlphaStar 将 30 多个追猎（游戏内单位）分成 2-3 组，从 3 个方向包夹 MaNa 的进攻部队。

暴雪和 DeepMind 专门在 25 日凌晨在直播平台回放了这 10 场比赛中的精选比赛。但在回放结束之后，DeepMind 宣布 AlphaStar 已经升级为更高级的版本，并在现场向 MaNa 发出了一场表演赛的挑战。

新版 AlphaStar 做了更多的限制，取消了直接读取地图可见信息的功能，它必须和人类选手一样切屏去获取信息。

左到右为比赛中神经网络从画面到分析再到判断的可视化思考过程，图片来源：YouTube

比赛中，MaNa 采取了一边骚扰，一边积攒混合部队的战术，AlphaStar 反而陷入了应对骚扰的循环任务中，没有察觉到在主要战力上的差距增大。在战力形成之后，MaNa 一波压制击溃了 AlphaStar，取得对人工智能的首胜。

现场解说称，AlphaStar 失败在面对骚扰这种重复性行为时判断失误，浪费了大量资源。

DeepMind 在过去曾开发人工智能 AlphaGo 挑战人类，并成功 4:1 击败世界冠军李世石（九段），3:0 击败世界排名第一的中国职业选手柯洁（九段）。随后，DeepMind 宣布开发竞技游戏领域的人工智能，并在《雷神之锤 3 》、《 Dota 2》这类控制单一单位的游戏里取得对人类玩家的胜利。

而在更复杂的 RTS 游戏领域，DeepMind 很早就尝试去挑战，2016 年就和暴雪签订了开源工具 PySC2 开发协议，将在游戏平台中引入机器学习方法，进行人工智能研究。

比赛回放过程中，主持人问到 DeepMind 科学家，平时如何训练 AlphaStar ？

DeepMind 科学家 Oriol Vinyals、David Silver 解释称，首先是模仿学习，团队从许多选手那里获得了很多比赛回放资料，并试图让 AI 通过观察一个人所处的环境，尽可能地模仿某个特定的动作，从而理解星际争霸的基本知识。《连线》的文章称，AlphaStar 分析了大约 50 万份匿名的游戏数据，初步让 AlphaStar 掌握了模仿人类策略的能力。

随后，DeepMind 基于不同玩家比赛数据制作出多个 AlphaStar 的代理（agent）和分叉，让它们按“Alpha League”联赛模式采用不同的战术策略，逐一相互对抗。每场比赛都会产生新的信息来迭代人工智能。

最后，DeepMind 就是在 “Alpha League”联赛中选择 5 个不易被击败的 agent 来和人类选手比赛。

选择暴雪的《星际争霸2》作为研究项目，正是 DeepMind 团队看中这款游戏既具有高水平的竞技难度，同时游戏人群广泛，超过 240 万的游戏玩家可以提供大量的游戏比赛数据。

基于游戏的人工智能研究并非只是为了娱乐，在现实世界中，基于大量数据进行复杂的预测是人工智能最基本的挑战。其中涉及到的变量远比星际争霸要复杂得多，面对许多难以预测的突发情况，人工智能必须要既作出正确的对策，还要根据实际情况细微的调整对策。

在直播的最后，另一场值得期待的“大战”也发出了预告。

芬兰电竞战队 ENCE 也发布通告，称 WCS 星际争霸 2 全球总冠军芬兰选手 Serral 将在与星际 2 人工智能上演一场人机大战，时间定于 2 月 15 日。

题图来源：DeepMind 官网

我们做了一个壁纸应用，给你的手机加点好奇心。去 App 商店搜好奇怪下载吧。