想象这样一个场景:
在遥远陌生的城市里,眼里全是陌生的面孔,耳边充斥着听不懂的语言。但是,当你走进一间街边的咖啡店……
推开门,就听见一个温暖的声音说:“您好女士,欢迎光临,请到这边点餐。”你顺着声音走过去,屏幕上早已为你准备好中文菜单,在你犹豫是沿袭老样子还是尝试特色产品时,它早一步知道了你的心意:“还是要半塘的大杯热焦糖玛奇朵,或者,您可以试试这里的手冲咖啡。”
与此同时,屏幕上的这两个选项排在最上面,旁边还有你常点的冰美式(少冰)、摩卡(不要奶油)几个选项,接下来才是店里的常规菜单,都标注了当地价格和即时汇率换算成的人民币。
“我还是要一杯手冲吧!”你说着,点餐机的屏幕上可供选择的几种豆子为你标注了苦味和酸度的等级,“嗯~~~我想~~~”选择恐惧症的时刻也不再尴尬,“要不试试曼特宁?”它对你说,屏幕上还显示出你曾经在淘宝上买过曼特定挂耳咖啡包的记录。
“好!就它了!”你选择了下单,手机支付,直到屏幕上出现二维码。
这一切熟悉又陌生。
“这个场景很可能在不久的将来实现。”
因为现在,阿里的人工智能点餐机已经 PK 掉了专业的咖啡师。5 月 23 日武汉云栖大会上,阿里达摩研究院科学家鄢志杰在现场用堪比华少的语速狂点了 30 多杯咖啡。“五个巧克力、两个香草拿铁,巧克力加奶油。””算了巧克力不要了。” “再加一个大的冷的拿铁,去冰半糖加脱脂奶,打包。”
现场的人类咖啡师在听了鄢志杰第二次复述后完成了订单,用时 2 分 37 秒,而机器只用了 49 秒。
“今天我们将机器对人类口语的理解能力带到了新的高度”,鄢志杰说,这种交互方式完全打破了”语音唤醒+语音指令”传统命令式交互方式。传统的语音交互需要唤醒再去输入,我们称之为上一代的人机交互。“现在我们想做一个人机交流的方式,你走过去,就知道你来了,于是你可以直接开始说。”阿里智能语音产品经理张敏仪告诉 PingWest 品玩(微信号:wepingwet)。
咖啡店是一个很普遍的场景,在点单过程中,你要补充、修改,或者没说完,你完全可以接着说,它都可以识别出来。这就是人类最真实交流的场景。你可以说“我要一杯美式,我要带走。”这是一种流式的语言情况,一句话分两句话来说。第二种情况是,我要一杯美式和一杯拿铁,两句话当一句话说。没有明显的句子边界,这为现阶段的声音识别技术带来了很大的挑战。
除此之外,挑战还在于,相对于书面语来说,口语点餐中的句子没有开始没有结束,你会持续不停的说。难免会有犹豫和停顿、重复、修正,尤其是选择恐惧症犯了。这就触发了多伦多意图的语义结构,为了完成一个特定的任务有多个操作,有多个意图组合起来,比如,你会先有一个购买的需求:我要一杯美式;修改的需求:美式再加两杯;删除的需求:美式不要了。
另外,机器还要结合上下文去理解你的意图,比如美式加糖这个需求,你可以说,我要一杯加糖的美式,也有可能之前点过美式之后,再追加一个属性加糖。因此,之前说了什么,怎么去表达之前说的状态,成为了另一大挑战。
“今天我们将机器对人类口语的理解能力带到了新的高度”,鄢志杰说,这种交互方式完全打破了”语音唤醒+语音指令”传统命令式交互方式,我们首创的流式多意图口语理解引擎,极大地提升了对人类随意、自然的口语表达的理解力,能够做到免唤醒的自然的人机交流式的语音交互。
上述点单环节包含了修改、删除、加单等多轮对话,在整个交流过程中,顾客不需要说”Hi,点单机“之类呆板的唤醒词,可直接下单,更符合人与人的自然对话。
据鄢志杰介绍,这些模块并非简单级联,而是深度融合而形成了多模态语音交互方案,包括是公共场所强噪声环境下的信号处理和语音识别、视频识别与面部识别、场景感知等多模态融合的感知智能,同时更融合了流式对话、多轮多意图口语理解、业务知识图谱自适应等认知智能。
据了解,阿里云这项解决方案除了可以做收银员之外,还能在地铁卖票。目前,上海地铁已经部署了这一技术。乘客直接说出目的地,售票机便可选择合适的站点和路线。这对于初到上海的乘客尤其帮助巨大,面对十几条线路三百多个站点谁都会懵。测试数据显示,普通买票耗时往往超过 30 秒,而语音购票全程只需要 10 秒左右。
无论是咖啡点餐还是地铁售票,我们都是让 AI 在真实的产业场景下发挥价值。这比那些在实验室里炫技的 AI 更有意义,更具生命力。
现阶段,他们人工智能点单机已经与某咖啡品牌达成合作,很快就要落地了。并且,他们正在做平台化的输出,从咖啡店扩展到快餐店,多样知识的结构数据,将算法和业务耦合,只需要让机器学习业务知识,这个过程将会很快。
很可能,未来,当你走进一间咖啡店,你的专属 AI 小哥哥早已记住了你的所有喜好,正等着为你“亲手”端上一杯咖啡。