近日,亚马逊副总裁兼 Alexa 首席科学家 Rohit Prasad 在《快公司》上发表了文章(原文链接在最后),做出了一项大胆的表态:图灵测试已经失去了意义,是时候建立一个新的 AI 衡量标准了。
“机器能否思考?”这是加密学和人工智能先驱阿兰·图灵在70年前论文 Computing Machinery and Intelligence 的核心问题。他在论文中提出了一个思想实验,叫做“模仿游戏”(imitation game),用于检测计算机是否能表现出与人等价或无法区分的智能。
测试的内容,简单来说是这样的:如果一个测试者对无法确认身份的两个对象(一人、一机器)提出相同的一系列问题,得到的答案让他无法区分究竟谁是机器,谁是人,那么则认定机器通过图灵测试。当然在实际中测试规则更加复杂,比如需要引入更多的测试者等等。
这个思想实验被后人归纳为图灵测试,也成为了衡量人工智能的“智能性”的最常用标准。“机器能否思考”这个问题,也横跨了一整个世纪,指导了后世的计算机和人工智能技术革新。
但为什么在今天,有人要站出来说图灵测试已经失去意义?
首先,Prasad 指出,图灵在他的论文中就曾经预测,到2000年,一个普通人能够在图灵测试中正确区分出人和机器的可能性将降到70%甚至更低。然而现在2021年都快要来了,虽然我们经常看到“某 AI 通过了图灵测试,分数取得新高”之类的报道,图灵当年的预测并没有应验。
(所以也可以说,AI 研究者们让图灵老爷子失望了……)
AI 研究者们也有话要说:你们能不能别光看图灵测试了?那完全没有意义啊!
图灵测试无法体现AI进步
Prasad 表示,自己相信图灵当年提出的这个目标对于像他这样的 AI 科学家来说,并不是很有意义。AI 派上更大用场的地方是植入到手机、汽车和家里,人们更关心的是 AI 能够带来哪些更新的交互体验和技术进步,而不是通过测试的分数有多高。
从根本上,强行追求机器和人类无差别的概念,已经过时了。
机器和人有着天生的差别。人能够随机应变,举一反三,都是机器普遍缺乏的能力。但机器也有它的长处,也就是快速计算和信息查询的能力远强于人类,而 Prasad 指出正是这些能力构成了现代 AI 的核心。
计算机不如人类的地方,它用自己的长处去弥补,也能够取得不错的结果。我们已经看到,在诸如视觉、自然语言处理等领域,最强的算法已经取得远超人类的结果。
很多 AI 科学家都发现,其实让 AI 在图灵测试里取得更好成绩,要做的很简单,只是让计算机给出的答案尽量像人的答案就行了。比如在回答时插入停顿,优化语法等等。
正如刚才提到的,计算机的长处就是快速计算和信息查询。这些毫无难度的问题,计算机不到一秒钟就已计算出或者查到答案。只是回答的如果慢一点,甚至故意答错,也许就通过测试了……Prasad 认为,图灵测试所追求的,并非对 AI 长处的最佳利用。AI 明明可以被用来做更多的事情去帮助人类,为何还要限制自己,去强行追求和人无差别呢?
以及,图灵测试在这么多年里都是基于文本的,而机器学习各领域的技术进步已经让 AI 在视觉、听觉、多传感器融合、决策规划等诸多方面取得了长足发展。一个最经典的例子就是以 AlphaGo 为代表的,足以在各种高难度博弈项目上击败最顶级人类选手的AI。这些重大进展,很难在一成不变的图灵测试当中得到体现。
新的衡量标准应该如何设计?
有了前面这些铺垫,Prasad 进一步指出,新的衡量标准应该体现机器在效率上的优势,比如计算、搜索、代人完成任务等等,综合评价 AI 对人类智能带来的帮助,而不是执迷于抹平 AI 和人的区别。
比如亚马逊举办的 Alexa 大奖赛,该奖项考察的是参选者(社交机器人)在一些社会层面热门话题上和人类进行连贯、有价值对话的能力。一个社交机器人的对话连贯性、自然程度越高,让人类评委接下来更愿意继续对话,得到的分数就越高。在所有的评判标准中,如果 AI 能够表现出同理心和幽默,那么可能会得到加分;但不论如何,AI 都不需要假装成人类。
另一个例子是机器学习算法平台 Kaggle 的“抽象和推理挑战”,它考察的是参赛算法解决前所未有的推理任务的能力,也体现了 AI 在知识储备、学习、决策推理等方面的长处。
当然,每年都会召开的众多 AI 领域学术会议,特别是这些会议的奖项,也可以帮助人们评价一篇论文的优劣。
Prasad 指出,以 Alexa 为例,作为一个虚拟助手,它正在超越对话式的基础,朝着环境 AI (ambient AI) 的方向前进。当需要时,AI 可以回答人类的请求,当不需要时,AI 可以消失在背景当中,但仍在主动地工作着,完成一些人类可能意识到或者意识不到的重要任务,比如基于多传感器融合的安防监控等等。
在众多科幻电影的烘托下,人们向往着更加强大的“通用人工智能”。不过随着 AI 技术进步和更多被应用到现实生活中,人们一边对 AI 改善自己生活有了更多的期待,另一边又对 AI 的使用甚至滥用所造成的道德困境提高了警惕。
正因为此,新的 AI 衡量标准,也应该在道德、公平层面有所顾及。毕竟,如果固化地遵从图灵测试的标准的话,那么 DeepFake 可能是全世界最优秀的 AI 了。
Prasad 最后强调,他并不想诋毁图灵的初衷。但人们需要明白的是,被称为图灵测试的“模仿游戏”,从始至终都是一个思想实验,而非作为实用性人工智能的终极测试。在今天,图灵测试已经成为老古董,被过度使用的弊端已经显现,是时候把它放在一边了。