Alexa首席科学家：图灵测试对AI没啥意义了

近日，亚马逊副总裁兼 Alexa 首席科学家 Rohit Prasad 在《快公司》上发表了文章（原文链接在最后），做出了一项大胆的表态：图灵测试已经失去了意义，是时候建立一个新的 AI 衡量标准了。

“机器能否思考？”这是加密学和人工智能先驱阿兰·图灵在70年前论文 Computing Machinery and Intelligence 的核心问题。他在论文中提出了一个思想实验，叫做“模仿游戏”(imitation game)，用于检测计算机是否能表现出与人等价或无法区分的智能。

测试的内容，简单来说是这样的：如果一个测试者对无法确认身份的两个对象（一人、一机器）提出相同的一系列问题，得到的答案让他无法区分究竟谁是机器，谁是人，那么则认定机器通过图灵测试。当然在实际中测试规则更加复杂，比如需要引入更多的测试者等等。

这个思想实验被后人归纳为图灵测试，也成为了衡量人工智能的“智能性”的最常用标准。“机器能否思考”这个问题，也横跨了一整个世纪，指导了后世的计算机和人工智能技术革新。

但为什么在今天，有人要站出来说图灵测试已经失去意义？

首先，Prasad 指出，图灵在他的论文中就曾经预测，到2000年，一个普通人能够在图灵测试中正确区分出人和机器的可能性将降到70%甚至更低。然而现在2021年都快要来了，虽然我们经常看到“某 AI 通过了图灵测试，分数取得新高”之类的报道，图灵当年的预测并没有应验。

（所以也可以说，AI 研究者们让图灵老爷子失望了……）

AI 研究者们也有话要说：你们能不能别光看图灵测试了？那完全没有意义啊！

图灵测试无法体现AI进步

Prasad 表示，自己相信图灵当年提出的这个目标对于像他这样的 AI 科学家来说，并不是很有意义。AI 派上更大用场的地方是植入到手机、汽车和家里，人们更关心的是 AI 能够带来哪些更新的交互体验和技术进步，而不是通过测试的分数有多高。

从根本上，强行追求机器和人类无差别的概念，已经过时了。

机器和人有着天生的差别。人能够随机应变，举一反三，都是机器普遍缺乏的能力。但机器也有它的长处，也就是快速计算和信息查询的能力远强于人类，而 Prasad 指出正是这些能力构成了现代 AI 的核心。

计算机不如人类的地方，它用自己的长处去弥补，也能够取得不错的结果。我们已经看到，在诸如视觉、自然语言处理等领域，最强的算法已经取得远超人类的结果。

很多 AI 科学家都发现，其实让 AI 在图灵测试里取得更好成绩，要做的很简单，只是让计算机给出的答案尽量像人的答案就行了。比如在回答时插入停顿，优化语法等等。

正如刚才提到的，计算机的长处就是快速计算和信息查询。这些毫无难度的问题，计算机不到一秒钟就已计算出或者查到答案。只是回答的如果慢一点，甚至故意答错，也许就通过测试了……Prasad 认为，图灵测试所追求的，并非对 AI 长处的最佳利用。AI 明明可以被用来做更多的事情去帮助人类，为何还要限制自己，去强行追求和人无差别呢？

以及，图灵测试在这么多年里都是基于文本的，而机器学习各领域的技术进步已经让 AI 在视觉、听觉、多传感器融合、决策规划等诸多方面取得了长足发展。一个最经典的例子就是以 AlphaGo 为代表的，足以在各种高难度博弈项目上击败最顶级人类选手的AI。这些重大进展，很难在一成不变的图灵测试当中得到体现。

新的衡量标准应该如何设计？

有了前面这些铺垫，Prasad 进一步指出，新的衡量标准应该体现机器在效率上的优势，比如计算、搜索、代人完成任务等等，综合评价 AI 对人类智能带来的帮助，而不是执迷于抹平 AI 和人的区别。

比如亚马逊举办的 Alexa 大奖赛，该奖项考察的是参选者（社交机器人）在一些社会层面热门话题上和人类进行连贯、有价值对话的能力。一个社交机器人的对话连贯性、自然程度越高，让人类评委接下来更愿意继续对话，得到的分数就越高。在所有的评判标准中，如果 AI 能够表现出同理心和幽默，那么可能会得到加分；但不论如何，AI 都不需要假装成人类。

另一个例子是机器学习算法平台 Kaggle 的“抽象和推理挑战”，它考察的是参赛算法解决前所未有的推理任务的能力，也体现了 AI 在知识储备、学习、决策推理等方面的长处。

当然，每年都会召开的众多 AI 领域学术会议，特别是这些会议的奖项，也可以帮助人们评价一篇论文的优劣。

Prasad 指出，以 Alexa 为例，作为一个虚拟助手，它正在超越对话式的基础，朝着环境 AI (ambient AI) 的方向前进。当需要时，AI 可以回答人类的请求，当不需要时，AI 可以消失在背景当中，但仍在主动地工作着，完成一些人类可能意识到或者意识不到的重要任务，比如基于多传感器融合的安防监控等等。

在众多科幻电影的烘托下，人们向往着更加强大的“通用人工智能”。不过随着 AI 技术进步和更多被应用到现实生活中，人们一边对 AI 改善自己生活有了更多的期待，另一边又对 AI 的使用甚至滥用所造成的道德困境提高了警惕。

正因为此，新的 AI 衡量标准，也应该在道德、公平层面有所顾及。毕竟，如果固化地遵从图灵测试的标准的话，那么 DeepFake 可能是全世界最优秀的 AI 了。

Prasad 最后强调，他并不想诋毁图灵的初衷。但人们需要明白的是，被称为图灵测试的“模仿游戏”，从始至终都是一个思想实验，而非作为实用性人工智能的终极测试。在今天，图灵测试已经成为老古董，被过度使用的弊端已经显现，是时候把它放在一边了。