IBM的“辩论机器人”,已经基本能把你喷晕了

在DeepMind AlphaGo在围棋上彻底碾压人类之后,IBM的人工智能Project Debater已经准备好和人类展开一场辩论。

最早在1997年,深蓝(Deep Blue)计算机在国际象棋比赛当中战胜了当时的国际象棋大师加里.卡斯帕罗夫(Gary Kasparov);2011年的时候在《危险边缘》(Jeopardy!)的游戏中,IBM的第二个人工智能Watson又打败了当时在这个游戏中的两位人类冠军。

IBM Project Debater看起来是IBM在AI技术上的延续,尽管一些人们对IBM展现AI技术的方式上颇有微词。但几十年以来,人工智能遵循在游戏对垒中的发展,尤其是在棋类游戏中。研究人员通常是会在既定的游戏规则中,让人工智能与人类对垒,很少会在一个很开放的领域去研讨人工智能如何打败人的问题。而就是在那之后, IBM研究团队就提出要有这样的人工智能,提出这样的课题,并且与人类进行辩论。

IBM Project Debater由IBM研究院以色列海法实验室于2011年开始展开研究,研究人员讨论如何设计一个能够与人类辩论的人工智能系统。

它在2018年6月那场公开的Project Debater与人类的辩论比赛中公开亮相。人类和Project Debater各拿下一局。

 

IBM Proejct Debater是一个像人一样高的黑色长方形物体,拥有简单的类似于语音助手一样的UI交互设计,在当天的议题当中,Project Debater对垒人类2016年以色列全国辩论冠军Noa Ovadia和以色列辩论专家Dan Zafrir,他们各拥有4分钟陈述论点,4分钟反驳论点,2分钟做最后总结,探讨是否资助太空探索和是否增加远程医疗的使用。

IBM Project Debater在比赛前并不知道比赛的议题,它在了解到辩论议题之后,分析辩论的问题,然后扫描数据库中的文档内容,从大数据中获取信息,组成句子,最后形成自己的观点用以反驳。

在这其中,Project Debater需要“听懂”输入人类辩论的陈词,“理解”其中的句子,主要技术建立在NLP和TTS之上,最后以一个类似人工智能语音助手的声调“表达”出来。IBM Project Debater发言人提到,他们的辩论,没有任何内容是被提前安排。

IBM Project Debater和人类辩论,图引用自NYT

在IBM Project Debater的核心技术内容中,拥有三个主要功能。第一是数据驱动的演讲稿撰写与表达功能。在辩论过程中首先要做一个本方观点开场白,就像观点陈述的文章,这个要有自动写成的功能,清晰地阐述,具有说服力。

第二是听力理解功能。这不同于我们熟知的阅读理解的功能,当对方辩手开始讲的时候,Project Debater要能听长达4分钟的内容,对方人类辩手在讲的过程中语速可能是快的,情感可能是充满激情的,同时还会有一些道德性、伦理性的问题,Project Debater要在听力理解中做到能够理解对方所表达的主旨。

Project Debater首席研究员Noam Slonim对包括PingWest品玩(公众号:wepingwest)在内的几家媒体介绍道,“这和我们已经熟悉的个人助手一类的智能是完全不同的,因为像个人助手类只需要听懂一句话就可以,比如开灯、关灯,而在Project Debater要在很长的语句中去听懂对的主旨。”

第三是模拟人类困境的功能。“我们总结了人类专家辩手的一些共同性,对他进行模拟、建模,并且把这个注入到系统中去,就形成了一个知识图谱给到Project Debater来用。所以一旦开始去进行辩论的时候,Project Debater就可以在已经形成的图谱中去做自己的向导和索引,找到可以支撑他的证据。”

从人类的角度来说,辩论专家的表达似乎会更好,或者说更贴合人类自然表达的方式。但Project Debater利于引用全球事件和大量事实形成论点,更多的时候它模仿人类的辩论技巧和方式,甚至是语气对人类辩论进行反驳。

我们知道辩论是一个非胜即败的内容,它是一个开放式的挑战,IBM Project Debater与之前AI所解决的挑战不太相同。

此前的AI挑战会有一些具体的衡量工具,比如在AlphaGo对垒人类的围棋比赛中有具体判断输赢的方法,传统的技术可以直接帮助制定相应的衡量工具,并且判断输赢。在辩论中没有这样的输赢问题。辩论就像在实际中做商业决策,没有清晰的以分数高低衡量输赢的简单标准。

这也是IBM Project Debater立项的初衷,它被用来在大数据中检索信息,提供分析意见,辅助人类做出决策。这个决策基于数据,它没有完全的对错,只有更适合和不适合,人类在这样的辅助数据面前能得到更好的答案。

IBM Project Debater全球经理Ranit Aharonov提到, 辩论是Project Debater展示技术的一种方式,但是我们可以从商业的角度来看,看我们具体如何去使用Project Debater,具体可以使用到什么的案例中去。

Project Debater在辩论过程中可以看出一个事情的好与坏、利与弊、支持与反对不同的观点,这就可以帮助我们做决策。

“再比如说律师在准备庭审过程中需要去翻阅非常多的卷宗,去了解对方的观点,为自己的辩护方做更多的辩护,就可以通过我们的Project Debater为他去提供基于证据更好的信息和决策。”

董事会的高管需要做出基于海量事实的决策,需要了解一件事情的正反面。Ranit Aharonov还提到,Project Debater有潜力在全球范围内协助人类制定日常复杂决策,包括在金融顾问领域、公共事务决策领域、学生助手领域以及律师和企业决策领域等。

IBM AI Tech副总裁Aya Soffer

辩论的起源不是冲突和对抗,也从来不是局限在观赏的层面。而是建立更有效的讨论,提出建设性的观点,理解不同人们思考问题的方式,了解一件事物中的利与弊,以此做出权衡。

IBM AI Tech副总裁Aya Soffer认为,在真实的世界中,我们并不是需要回答很多琐碎的问题,而是要回答真正重要的问题做出真正重要的决策。信息是海量的,但是找到那些能助力我们做出正确决策的信息是难的。

目前IBM Project Debater还在研究阶段,还没有商业化,IBM目前还没有具体的计划。

以下根据多家媒体现场问答内容整理:

中国电子报: 人类一直希望找一些场景打造和训练AI以使AI更接近人的智慧,甚至超越人的智慧或者帮助人类。像我们之前说的从象棋到围棋,现在到辩论,就是从有条件到无条件、从有规则到无规则。您认为在辩论之后更大的场景或更大的挑战是什么?什么比辩论更难,你们如何去定义更大的场景?

Aya Soffer:关于AI的下一步,就是智慧上越来越接近人类。我觉得Project Debater是一个很好的例子,它展示了我们是如何教授机器,只要有充足的时间、充分的数据和算法就可以充分前进。

讲到未来的方向,Project Debater下一步就是要让人工智能更像人。一个小孩子去上学,学科学,学历史,你给他看了两三张大象的图片,人就学会了从不同的角度看大象。下一次再看到大象的图片,即使不是这个角度也知道是大象,也就是人可以去理解概念,并且在概念的基础上学以致用到新的领域,这种开放域的应用能力是强的。但是机器不会,即使目前AI再发达,AI和计算机所学的还是从一个具体的例子中去学,学不会概念,尚不能把概念进行学以致用的应用。现在AI做的工作还是再学习的工作,而我们希望AI下一步的发展是从比较窄的例子上学习,而后扩展到比较宽泛的领域、跨不同领域的应用,以及能够从概念上学习。不是再学习的能力,而是具体自己去推理的能力。

品玩:这个项目展现了结构良好的演讲内容,甚至会适时展现幽默感。请问从技术的角度看,机器的幽默感怎么产生的?这是自发的,还是IBM有意去展现出来的?

Ranit Aharonov:我们也知道要让人能够持续聚精会神地去辩论,任何一方都应该有点幽默。我们也知道在人类中开玩笑有两种,第一类是原创的笑话,第二是复制的笑话。我们在系统中首先有海量笑话、开玩笑、幽默的输入,算法可以告诉Project Debater什么时候适合它去开哪一个玩笑。

所以从技术上来讲,它不是一个自发的行为,它更倾向于第二种,而是之前有海量的幽默和笑话在系统里面。但是它又具有一定的自发性,从这个意义上来讲是我们故意去做的,有意为之。它有一定的自发性,因为算法可以告诉Project Debater在什么时候合适去开什么样的玩笑。

知识分子:我所理解的Project Debater辩论的过程是自发的、实时完成的过程。在这个过程中既要了解对方辩手的观点,同时也要准备好自己如何驳斥对方观点,自发、实时完成的进程是怎么样做到的?

Noam Slonim:这次辩论是完全即兴,Project Debater之前没有见到,也不知道辩论的题目是什么。一旦开始辩论,是很难预期到对方会怎样说的,这是主要的挑战。如何应对呢?主要是在两个层面去应对完全即兴、无法预期的情况。

一方面是刚才讲到第一个层面上通过知识图谱来模拟人类困境,形成辩驳的能力。我们是在系统中去模拟了,并且对不同论证中的共同点来建模。举个例子,比如说涉及到是否要禁止器官的贩运、器官贸易,是否要禁止酒精的贸易。类似于这种类型的辩题,我们可以自然而然期待如果禁止了器官交易、酒精交易,有一种风险是会有黑市的蓬勃发展。理论上来讲,Project Debater的系统可以理解与这种类型相关的一些辩论,但凡是针对这种类型的观点进行辩论,后续就会出现与黑市相关的问题,于是可以在模拟好中的图谱等待着与黑市相关话题的出现。

如果这样讲,大家就会觉得这并不难,语料库足够大就够了,一旦出现要禁止什么东西,你就等着,或者Project Debater就自己去搜索,去找与出现黑市相关的论证就可以了。但是并不总是这样,比如美国最近讨论比较多的是否要禁止在公共场合母乳喂养的选择。这也同样是一个要禁止什么东西的选择,但是我们知道这个东西跟黑市一点都没有关系,所以我们依然是在这个方面不断地去建模、扩大语料库,包括人类丰富的语言中各种细微和微妙的地方。这样Project Debater在已经建模的知识图谱中,才能够更加精准地为自己导航,找到与支持自己论点相关的观点。