去年10月份,“马云爸爸”做了一件非常惊人的事——成立阿里巴巴达摩院。
阿里之下的达摩院,来源于武侠小说,作为武学最高研究机构,达摩院代表了修为的最高境界。同样,科研也代表了精进、执着和专注的精神。
达摩院成立的前一天,有一张图火了——就是一张马云和多位科学家的合影在科技圈儿刷了屏。包括马云C位在内,一共有14名成员,普通人可能不太熟悉其中大部分的人,但他们大多数是技术领域的顶级大牛,他们将为阿里的“达摩院”出谋划策,出于一些业务上的考量,他们更像是顾问。
作为一个“活得至少要比阿里巴巴长”的技术机构,马云宣布三年内,要在技术研发上投入超过1000亿,初期招揽100名顶级科学家和研究人员,研究自然语言处理、人机自然交互、量子计算、机器学习、基础算法、芯片技术、传感器技术、嵌入式系统等等前沿科学领域。总之,你能想到的那些前沿技术领域,全部包括在达摩院的范畴之内。
马云对达摩院发展提出的三个要求,“活得要比阿里巴巴长”、“服务全世界至少20亿人口”、“必须面向未来、用科技解决未来的问题”。
过去一年,达摩院并没有出来公开讲过太多话。今年4月,阿里达摩院宣布了自主研发AI芯片——Ali-NPU,按照阿里说法,该芯片的性能将是目前同类产品的40倍。今年5月,达摩院量子实验室宣布,研制出世界最强的量子电路模拟器“太章”,并在全球率先成功模拟了81比特40层的作为基准的谷歌随机量子电路,挑战“量子霸权”。除此之外,基本都是在算法和测评比赛上获得一些奖项。
成立9个月以来,阿里的技术核心达摩院仍然非常神秘,这个机构有多少业务部门单元,有多少人,他们在做什么事儿,如何运用到阿里巴巴的体系当中去?
7月6日,阿里巴巴在杭州举办了一次“媒体小课堂”——这也是既达摩院成立了快一年后,第一次做媒体沟通。这不同于一些传统的发布会和沟通会,这更类似于一个媒体公开课的形式,主要由几名具体技术业务部门的发言人阐述一些技术背景、应用场景以及达摩院对于未来技术的判断。
阿里巴巴方面并没有直接透露达摩院体系之下的人员数量,但多数成员来自于此前的iDST。在媒体小课堂上, 四位主讲人分别是来自达摩院机器智能实验室(视觉组)负责图像识别的资深算法专家谢宣松、量子实验室的量子科学家徐华、机器智能技术实验室负责机器翻译的研究员葛妮瑜以及机器智能技术实验室负责语音识别的高级算法专家雷鸣。旗下有几个实验室我们并不得知,而据阿里巴巴提供的最新的消息,阿里巴巴体系下已经有拥有25000名技术研发工程师。
据阿里介绍,在阿里巴巴,达摩院并不是一个纯研究部门,它和业务和商业紧密相连,既有学术思维,也有产品思维和商业逻辑。达摩院机器智能实验室高级算法专家雷鸣在加入达摩院之前在微软任职语音科学家,他认为“在微软更像是纯学术研究,而在阿里巴巴会让自己有一些商业的考量。”
达摩院机器智能技术实验室智能语音交互的首席科学家鄢志杰曾经也提到——他在阿里的实验室有三类人。一是算法研究,二是做算法落地,三是推动产品化的工程技术人员。这三类人结合到一个组织下,能让算法的研究成果迅速被产品化。
千货千面,机器自动生成促销图
今天的人工智能代表有很多——打败世界冠军的AlphaGo,基于用户兴趣的商品推荐,支付宝的刷脸支付、交通网络上的车牌识别,菜鸟网络的智能调度等等。有很多是基于视觉智能的。
达摩院的视觉智能是围绕几个方面的——围绕“人”,比如基于人的医疗视觉;围绕“物”,识别工业上的一些设计的技术问题、流水线上的包裹,甚至高铁都可以称作“物”;还有围绕“空间”,像城市大脑,是研究城市空间怎么运作的,包括技术在交通、安全上的识别。
而最新的技术是在“设计”领域,比如视觉生成。
视觉生成可以这样理解——以往很多视觉的AI技术,都是集中在人脸识别、支付,或者对于视觉中内容的理解等等,基本上可以认为是识别、检测、分割的技术内容更多,而生成、决策的内容更少。
而类比人的智能生成的过程——从小学初中大学硕士博士,逐渐认识和理解这个世界,而最后工作提出研究、产生的价值则是个人决策的概念。对于视觉智能来说,同样基础在于理解,目的在于生成。
目前分成三块内容。一个是对图像的生成;一个是对视频的编辑和生成;还有对图形的生成。
对于阿里来说,最典型的应用是淘宝正在使用鲁班系统。谢宣松提到,“我们在‘双11’,或者在手淘、天猫,上面有大量banner图片。其中很大部分是由系统自动生成。比如说光‘双11’会产生数亿张图,累计起来更多。目前通过鲁班服务各种电商场景,后面通过阿里云服务各种需求。”
淘宝中很多图片是机器自动生成的,并非是认为PS的。而在智能生成的领域,还支持广告短视频自动生成。
除去在“设计”领域的运用之外,阿里巴巴还推出了城市大脑,针对城市交通路网的识别,还有行业大脑对于特定领域的垂直应用。针对“物”,主要应用在流水线物体的检测领域,“ 比如铁路有螺母松动,或者某个电池片,太阳晶硅这种发生了裂纹,还有芯片溢胶不正常等等,这些诊断内容从视觉上能看得到,而不用人再去反复检查。”
针对“人”,更多的是应用在医疗领域,针对X光的膝关节检测甚至是肺结核检测,但挑战在于,医疗行业的数据大部分都是异构的,达摩院视觉智能的目的是建立数字化人体基准影像库。
极限计算和量子霸权
阿里巴巴一位内部人士提到,达摩院的研究分为短、中、长的研究时长,人工智能既有短期也有中期,也有长期的研究方向。量子计算就算是中长期的研究方向。
对于量子计算来说,达摩院的量子计算实验室曝光不多。前者视觉智能偏向于应用层面,视觉智能如何在阿里巴巴落地等等,而量子计算则只能从概念和状态说起……
量子最早来源于拉丁的Quantus,它的是一个概念,而非物质。本身并不是任何物质,而是表示在1900年德国一个物理学家普朗克黑体辐射,提出了量子概念。一个物理量如果存在最小的不可分割的基本单位,则这个物理量是量子化的,并且把最小单位称为量子,这是量子的基本概念。它是一个概念,而不是一个物质。
什么是量子计算?在知乎上引述@Summer Clover所提到的院士的答案…..比较通俗易懂。
量子比特可以制备两个逻辑态0和1的相干叠加态,换句话讲,它可以同时存储0和1。一个N个物理比特的存储器,若它是经典存储器,则它只能存储2^N个可能数据当中的某一个;若它是量子存储器,则它可同时存储2^N个数据。而且随着N的增加,其存储信息的能力将呈指数级上升。由于数据操作可以同时对存储器的数据进行,而量子计算在实施一次运算的过程中,则是同时对2^N个输入数进行测算,其效果就相当于经典计算机采用2^N个不同处理器进行并行操作。
量子计算机的方式,可以解决经典计算机发展瓶颈的问题。量子算法在算法上加速,可以做量子系统模拟,量子机器学习。“一般一个领域有一两个应用就可以干了,这三个都有很强的应用,这可以说是量子计算发展核心的驱动力,驱动大家在这个领域投入,去做这方面。”
量子计算在加速上有很大应用,量子计算机对于模拟原子、分子等遵循量子力学基本原理的系统,加速性能明显。“关于药物研发、材料性质研发,都需要这方面的模拟。经典计算机没有比较好的做,这是量子计算逻辑非常重要的应用。”
量子霸权,则是对于某个特定的问题量子计算机可以解决,但是经典计算机无法解决。2016年Google团队在理论上提出,49个物理量子比特可以在随机量子电路的输出采样,这个特殊问题上实现量子霸权。2017年10月,IBM在超算上实现了56量子比特的模拟。
Google今年3月提出72个量子比特的芯片方案。阿里巴巴则公布了81个量子比特的模拟,宣布打破了Google宣称的量子霸权垄断。不过量子霸权,从提出霸权到打破,“更多是象征意义大于实际意义,因为本身解决不是通路计算问题,主要是特性问题解决,认为是技术发展过程当中一个个里程碑。”
量子计算在阿里巴巴内部有什么落地?
此前,阿里巴巴成立了量子计算实验室,主要是想通过颠覆性的量子计算能力,为客户提供基于量子计算的解决方案。据称,目前已经有“小有规模”的团队,是一个跨学科的国际化团队,希望是解决量子计算方面全栈问题。阿里巴巴目前没有透露进一步的详细信息。
阿里巴巴目前的介绍也比较偏向于底层,物理实现层。而在其上面还有一些系统软件层,有算法层,应用层,每个层上都有很多问题。
徐华提到,量子计算的普及还不太好预言,但有几个领域会比较受关注:
-
一,量子体系的模拟。通过经典计算机进行量子系统模拟,结合量子计算机本身,一起对量子体系模拟。阿里巴巴目前已经有一些项目在测试了,现在不方便透露。
-
二,阿里巴巴集团在人工智能优化领域有很多布局,业务层面有很多应用。量子计算对于人工智能有很强的加速作用,近期我们可能会开始一些项目的调研和启动。
徐华认为,“当前业界仍是这样的状态——量子计算非常困难,被定义为极限计算。利用的是各种极端条件下,极限的物理条件来实现。”
针对非标准汉语语法结构的斗争
对于机器翻译来说,阿里巴巴拥有众多类似于跨境贸易的场景。
在淘宝上,常见的场景是一面则是天猫上一件婴儿衣服,配有中文、图像,另外一面则是大洋彼岸阿里巴巴国际网站上同样的产品,用英文展现的。阿里巴巴产品数量的特性决定了,在阿里巴巴,众多商品页面、上亿个产品,不可能使用人工翻译。
机器翻译有60年的历史,它的可用性在最近30年才达到如今的程度,而在这30年的前25年都是在做统计机器翻译。
统计机器翻译,即通过大量双语语料建立一个统计模型。比如你看到“中国”这个字,英文翻译就是China,对于机器来说,“中国”这个词因为语料库的原因它大体是“China”,但“中国”这个词不仅是China,也可以是Chinese,甚至直接分解拆译成“中-国”也是有可能的。一个中文词有很多英语翻译,统计机器翻译出发点就是用大量双语语料自动学习翻译的辞典。
它的优点,尤其是源语言和目标语言比较相像的翻译过程中,比如英语、西班牙语、法语,效果就非常好。
而最近五年比较火的是神经网络机器翻译。直接说在效果上,它是看整个一个句子,不是看一个字,效果会比较好。所以在语句通顺度上会更好,英文它结合了一定上下文的意思来翻译。而唯一的问题是,神经网络机器翻译是一个黑盒子,如果这句话翻译错了,并不能实行人工干预,只能通过继续喂养一定的数据。
在神经网络机器翻译领域,Google算是元老了——不管是新闻、对话、幽默、电视剧,都是一个模型翻。微软,也差不多类似;而Facebook也用这种方法来翻译社交网络。Amazon不太一样,使用通用机器翻译模型。
谈到机器翻译在阿里巴巴的应用,则是不同场景下,建立不同模型。在传统统计机器翻译和神经网络机器翻译下,阿里巴巴开发了一套RBMT规则式机器翻译,采用三种方式翻译,原因在于淘宝需要对抗非标准汉语语法结构。
在一张非常传统的淘宝商品页面,常见的标题可能是“碎花裙子女士明星最爱当季流行杨幂同款”,而用户评论则是正常通顺的语言。
在这样的翻译需求里,数字、日期、地址,专有名词是比较固定的词语,会使用规则翻译。而描述性的、用户评论,则会采取神经翻译的系统。而对于国外用户搜索来说,他们不会去搜索这么冗长的标题,则还需要机器对于标题的内容进行理解总结,对商家冗长的标题进行优化,进行改写。另外阿里巴巴目前已经在结合淘宝图片内容对翻译结果进行合成,标题中的“镜”至少可以翻译成“mirror”、“lens”或“glasses”,但通常情况下,一张产品图就能解释一切。
阿里巴巴不止一次提到,全球化是阿里集团未来20年三大核心战略之一。而让天下没有难做的生意,就演变成要让大家在语言沟通上零障碍。
阿里巴巴提供的数据显示。以阿里巴巴国际站为例,七成买家以英语沟通,剩下30%为西班牙语、俄语、土耳其语等小语种,大约96%的卖家对小语种无能为力。
目前,阿里巴巴已经在做21种语言,48个语言方向,每一天要调动阿里巴巴机器翻译服务7.5亿次,每年翻译120万亿个词,不光印欧语系,还包括要翻译很多小语种语言。葛妮瑜表示,每一个方向都是很精细的做,从来不用搭桥的方式做。
阿里巴巴目前有众多使用到机器翻译的场景,每个场景的需求都需要被细致打磨——天猫出海,速卖通,支付宝,优酷视频字幕,以后电视剧机器都会自动翻译。目前菜鸟物流通关、阿里云国际社区、飞猪旅行翻译助手、钉钉社交口语翻译已经上线。
语音识别,IoT时代的基础技术
相较于前三个技术领域,最后介绍的语音技术可能离我们更近一些。
目前,Google已经推出了基于语音识别的智能音箱,偏智能语言识别和对话,微软小冰也上线了几年,也是通用语音识别,Amazon Echo也采用了语音识别技术,国内百度也有通用语音识别+输入法语音。
语音技术归纳起来可以从人听到到说话的过程理解。ASR语音识别,是识别听到的字和词;NLP自然语言是理解听到的话的含义;TTS则是语音技术合成,生成一段语音并传达。整个过程是从听到、听懂到生成。
语音技术的好坏的通用度量指标是识别错误率。在中国是字的识别错误率,英文则是词的识别错误率。据雷鸣介绍,现在一般识别错误率,比如做得比较好的是在一些比较好的领域,可以做到2-3%的错误率,做得比较差的是7-8%的错误率。
今天影响语音识别准确率的几个方面。一个方面,语音识别本身模块组成是分声学模型、语言模型、解码器三个部分。声学模型是给定语言学单元,计算输入语音匹配的可能性。“影响声学模型,很典型的就是辞典,今天不断有新词,新的发音进来,比如二次元文化。如果辞典不是新的,不能覆盖所有的目标识别领域,就不能识别。”
如今的识别环境同样考验硬件——麦克风的有效识别。如果不考虑麦克风还有环境因素,噪音、场地等这些噪音,语音识别的“鸡尾酒效应”则是指,在一个嘈杂环境下,如何识别语音主体的问题。
除此外,还有特殊领域的专有名词,中英混读以及年龄儿童音等。“在一些会议识别系统中,如果不提前知道会议要说什么,会识别的非常乱套。”
据介绍,阿里巴巴在语音识别模型方面最特别的是——Google和百度、讯飞基本上是基于LSTM模型技术,阿里巴巴主要基于DFSMN(深度前馈序列记忆网络)技术。据此前媒体公布的消息,对比目前业界使用最为广泛的LSTM模型,训练速度更快、识别准确率更高。采用全新DFSMN模型的智能音响或智能家居设备,相比前代技术深度学习训练速度提到了3倍,语音识别速度提高了2倍。阿里提供的信息显示,该模型的语音识别准确率为96.04%。
商业模式方面,Google、百度、讯飞更多直接面向终端用户。阿里巴巴面更多的是面向合作伙伴。
据了解,阿里巴巴机器智能语音技术团队主要攻克语音识别方向,包括语音识别,语音合成,人机对话。智能语音交互团队主要做语音识别、语言理解、语音合成、人机交互、知识图谱、声纹识别等。
阿里巴巴已经有了一些应用。阿里巴巴园区7号楼的COSTA已经有一个语音点餐机,可以直接说出“两杯热巧克力”。
阿里巴巴还和上汽做了互联网汽车应用,具备全语音操控,包括基础语音能力,车载的地图/导航技能,也可以在云端不断升级和优化。
在上海地铁,已经拥有支持语音识别的售票机,你只需要对它说“买两张去陆家嘴的票”。
在法庭上,利用语音识别技术就可以做书记员基础的工作,最后让书记员做一些整理。雷鸣介绍,目前基本覆盖了300家法院。智能庭审覆盖的法庭数超过6千家,首家互联网法院,杭州互联网法院已经部署了这个系统。
IoT时代,雷鸣则提出,多模态语音交互和下一代对话引擎,在未来IoT时代非常重要的技术点。
写在最后
可以看出,此前阿里在各种大会上提出的AI应用,基本上已经在实践达摩院的研究能力。
此前,我们也曾详细介绍过阿里云ET农业大脑的“智能养猪”,阿里巴巴工程师就亲赴猪场就为每只猪建立了数字档案,也是建立在达摩院的技术体系之内。我们也可以得知,每个垂直领域的具体案例下会有很多详细的问题考究。
达摩院体系内的研究人员大多数是各个技术领域的科学家,在一些科学家口中,“阿里达摩院不同于其他公司的研究机构”,他们跳出学术研究的小圈子,希望技术可以被更多的人的应用。达摩院最主要的工作就是技术创新,探讨和业务、商业的合作的可能性。
实际上,在达摩院宣布成立当天,马云发表演讲称,研究不应该是Research for fun(为快乐研究),也不应该Research for profit(为利润研究),而是Research for solving the problem with profit and fun(为解决问题研究并带来利润和快乐)。
注:部分内容根据发言人口述整理