在美剧《国土安全》里常出现这样的桥段:警员在自己家里理出一面墙,把手上案件里的所有关联人物和事件都贴在墙上,然后就是一个填肉的过程……照片、箭头和关键词组成一幅复杂的事件全貌。
——找到那个罪犯。
这几乎是所有悬疑电影的经典场景。整个案件唯一的破绽就藏在这张关系网络里,推理者的视线在这面墙上流转,观众的肾上腺素也被极速调动起来。
我们会觉得这是合理的,设想中人类最敏锐的大脑可以穿破墙上的迷雾——如果墙上只有5个家庭,10个嫌疑人,和关于他们的100件事的话。
但如果把这面墙无限扩大,比如1亿个嫌疑人,100亿件事呢?
看起来这已远超人脑的负载极限,但我们可能已经见过这样的事了——或许你我的手机里就正在经历这些——比如各式各样的知识图谱,以及在它底层,一个抽象出来叫做图计算的技术概念。
图计算缘起
“Things, not strings.”(是相互连接的事件,而不只是一个个字符串)
Google在2012年5月提出了这句话,以及知识图谱的概念。
知识图谱,由知识(Knowledge)和图谱(Graph)两个词构成,前者是信息的内容要素,后者是信息最终的表现形态。这种信息间全新的连接方式,其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关属性—值对,实体之间通过关系相互联结,构成网状的知识结构。
知识图谱能够成立的核心是计算机的知识推理机制,图计算为其提供了重要的底层技术支持。
图计算中的“图”即Graph,这是一种基于图论而非数论的计算逻辑。
图论的基本要素是“节点”和“边”,“节点”可以理解为人或者网络账号这些相对静态的实体,而“边”则代表着不同实体之间的关系或者行为。
比如A在抖音上关注了B,这个动作就成为A和B之间这条“边”上可包含的信息。“边”在记录内容的时候可以表示方向(可以理解为在A与B之间标注出了箭头),这被称为有向图,而如果“边”没有标注方向则称为无向图。这种信息数据甚至可以是多模态的,比如在脑科学领域涉及光或电信号的时候。
相比于链表或者线性表的二维结构,“图”相当于在结构上做了一次升维,这也让其对于“关系”有更优越的描述能力,也更接近人类对于事物联系的原生表达。
简单来讲,我们从来不是以Excel的样子来理解外部世界的,图的相互连接更接近正常人的思考方式。从遥远的阿兰•图灵时代开始,人类就在思考如何让机器像人类一样思考,图计算是目前为止最有潜力的路径。
一开始只是试图找到从鹿特丹到格罗宁根的最短路径,荷兰计算机科学家Dijkstra为了解决这个问题在1956年发明了寻求图最短路径的Dijkstra算法,这是最早与图计算连接起来的概念之一。到Google创始人Larry Page在20世纪末发明了开创性的PageRank算法(网页排名),以及随着社交网络时代降临而繁荣起来的如Girvan-Newman算法等社区发现算法。
这其中也能看出来,图计算的定义本身也在经历一个从狭义到广义的延展过程。
狭义的图计算更多指在确定不变的图上做的计算,比如基于地图信息的路网图——在变化频率和幅度很低的鹿特丹到格罗宁根之间寻找一条最短路径——这是图计算可以解决的典型问题。
广义的图计算指一切基于图数据进行的分析计算,其中的数据概念进而扩充到海量规模并且富于动态变化,比如社交媒体的关系网络(脸书的核心框架Social Graph),不断发生新事件的历史知识图谱,或者将道路拥堵变化也考虑在内的路径规划。
于是图数据库的概念被引入进来。
图数据库是用来处理图这种数据结构的工具,传统的使用二维表格存储数据的数据库被称为关系性数据库——或者可以被理解成无数以横竖轴结构展开的表数据的集合,图数据库则是另一种非关系性数据库,它把所有表格打散了,然后织成一张网。
图数据库与关系型数据库最大的不同是免索引邻接。即图数据模型中的每个节点都会维护与它相邻的节点关系,这就意味着查询时间与图的整体规模无关,只与每个节点的邻点数量有关,这使得图数据库在处理数据之间关系方面比关系性数据库更加灵活之外,也具备处理大量复杂关系时比后者更优越的性能。
图计算与图数据库的发展是互联网时代的一条暗线,在其中一些关键技术背后,可以看到谷歌、Meta、推特甚至高盛的身影——如果你还记得2007年开始爆发的那场金融危机的话——莱曼兄弟公司破产,高盛却因为提前预见到了次级抵押贷款市场的熊市而活了下来,背后是图数据库系统——SecDB对危险的察觉能力。
不遑说,今天许多伟大公司都是基于图计算领域的尖端技术而诞生或持续繁荣的。
而在经历了几十年的发展之后,图计算现在站到了更广泛的应用场景入口。
咨询公司Gartner在《2021 年十大数据和分析技术趋势》的报告中预测,2025年全球将有80%的数据和分析创新会与图技术有关。
在这届世界人工智能大会(WAIC)上,与图计算或图数据有关的论坛数量也多达五场,是本次大会上被最高频的概念之一。如蚂蚁集团、亚马逊云等瞩目的图数据库框架,也在本届WAIC上首次开源。
图计算作为一种技术在国内开始成熟的标志是,小范围的数据已无法探索技术上限,它比以往任何时候都需要更大的试验场,比如6亿用户的抖音,或者12亿用户的支付宝。越来越多大型科技公司出现在关于图计算的讨论中。开源是产业化的隐喻,产业化的加速使图计算开始获得更丰富的能力纵深,甚至早已不局限在知识图谱的领域。
抖音与支付宝,两条路径
2018年8月,字节跳动内部开始自研图数据库ByteGraph的开发。
ByteGraph项目的发起是为了抖音核心的社交关系问题。个性化推荐系统逐渐成为互联网各大社交媒体和电商网站的基础能力。与此并行的,知识图谱的场景也正在丰富,大量研究工作逐渐指向两者的交汇处,图计算与知识图谱可以用来完善基于内容的推荐系统,从而提升推荐效果。
这是图计算在字节跳动内的起点,并由此开始进入业务的底层开发场景。从抖音开始,ByteGraph逐渐演变为支持有向属性图数据模型、支持写入原子性、部分Gremlin图查询语言的通用图数据库系统,随后逐渐渗入今日头条、TikTok、西瓜、等几乎字节跳动全部产品线。
“(现在)字节跳动整个业务开发团队,已经都在用图建模的方式来表达和处理业务逻辑”,ByteGraph团队负责人张帅表示。
开发团队围聚在一起探索业务时,往往会拽过来一块白板,把初步的开发逻辑和任何灵感写在一起。这某种程度上即是一种知识图谱,并且天然与人类大脑思维接近。但此前这样一张思维导图需要被重新整理——可以理解为把图文并茂的图降维成一张Excel——再进入开发步骤。
但现在基于图计算和图数据库,这张白板上的草图可以直接被代码化了。
在电商、到店业务甚至音乐等更复杂的场景嵌进信息流与社交属性后,“图”作为一种关系逻辑的重要性在字节跳动内完全显示出来了。张帅透露ByteGraph已经在火山引擎上开始构建,这意味着字节跳动的图数据库开源已经开始提上日程。
在图数据库的进展方面,蚂蚁集团走在字节跳动前面。在本届WAIC上,蚂蚁集团宣布开源图数据库TuGraph的单机版本。
蚂蚁集团的图数据库研发从2015年开始,隔年第一次发布自研分布式图数据库并用于支付宝。2021年,蚂蚁集团联合清华大学自主研发的 “大规模图计算系统 GeaGraph” 完成了产品 3.0 版本的迭代。迭代后的版本查询效率提升 10 倍,兼容性更强,并且正式升级为TuGraph。
相比抖音,支付宝背后有一张更庞大的用户关系网络,而其围绕支付展开的科技金融业务,也让两者在进入图计算领域的侧重上分出差异。
蚂蚁集团看中的是图计算中增强“薄”数据的表征,从而增强支付安全性的能力。
比如在支付宝的场景中,判断一个用户的消费偏好,或者这个人还款的信用,当用户数据信息很丰富的时候,人工智能算法往往会得到很好的结果。但如果用户背后没有太丰富的信息——比如他只是偶尔的用支付宝转过几笔钱——如何得知这个人的特点呢?
图数据比起以关系数据网为代表的表数据最鲜明的优越性在于,很多时候人、地点和事件的关联性并不完全能以表的形式呈现,却能用“节点”和“边”这种更松散的形式记录下来,这些隐形的关联信息单独来看并不能解释某个关联用户的行为,但这张网聚集起来却能形成一些社区发现。也因此,当这张关系网络中纳入的用户越多,这种四两拨千斤的能力也愈强。
“图是一种最为灵活的连接方式,让实体之间可以不受限制地连接”,蚂蚁技术研究院院长陈文光表示,这同时也赋予了算法更多的“可解释性”。
人跟随着算法生活的蜜月正在过去,算法对人的过度入侵开始被提到高位审视。在这个过程中,算法已经不可逆的搭建起一套社会需要依附其上的运转方式,于是当代码替人做了决定——比如你的转账额度,或者为什么一直收到某一类的广告——这个决定是如何做出的,需要可以被清晰追溯。
陈文光以社区发现举了个例子:
“比如在某个社区里已知有一些“坏人’,然后我们发现某个人和这些邻居的链接比较紧密,那这个人是”坏人”的概率也会更大。”
这是最基本的思路。一个人的节点特征是由他邻居的节点特征通过某种运算,结合和他过去的特征合在一起型成的。(邻居的表征和关联关系)能够影响我们对一个人的判断,形成他(一个节点)新的特征,这与之前纯粹将数据放进神经网络,通过统计学得到一个完全没法解释的分类答案不一样。”
相比于表数据来说,图计算带有一个更清晰的逐层推导结构,这个结构本身就意味着一定的可解释性。
这种把薄数据“变厚”的能力以及推理过程的可解释性,已经开始和蚂蚁集团开源的可信隐私计算框架“隐语”一起,在支付宝反诈风控的系统中形成合力。目前支付宝可在0.01秒内完成对一笔交易的风险判定,并且在2021年的全年统计中资损率低于亿分之0.98——即平台上1亿人民币的资金流转中,出于欺诈行为的不到1元。
开始跨入现实之门
在这位从学界跨入产界的蚂蚁智库首席看来,图计算是一个处在数据和人工智能发展交汇处的概念。技术沉淀多时,亟需的是场景。
陈文光是以费马科技创始人的身份加入蚂蚁集团的,再那之前的十几年一直在清华大学计算机系担任教授,这番从学界投身产界,最终进入大公司的姿态本身也像是图计算作为一个前沿领域发展的某种映射。
费马科技在2016年5月创立,站在台前的是包括洪春涛和朱晓伟在内的几位清华计算机系博士,陈文光则落于幕后担任首席科学家。公司的业务方向是立足于高性能的分布式图计算以进行大规模关系网络分析,为银行等客户提供反欺诈能力和社交分析能力,以及整体的金融大数据解决方案。
2016年之前,陈文光在清华大学主导的图计算研究已经有了成果,团队自研的图计算系统比当时开源软件中常用的图计算框架GraphX要快100倍左右,而所需的内存只是后者的10%。把自己培养的博士生聚拢起来,继续优化自研的图计算系统,并为它找到使用场景,这是费马科技成立的初衷。
费马的畅想卡在规模化这最后一步。
“图计算要想真正成长起来,第一步要解决:做出来;第二步:有人用;第三步:大规模使用。而当时困扰我的问题,怎么实现从有人用到大规模使用。”
几年时间里费马科技确实拿到了一些标杆客户,比如京东金融和国家电网,但整体的商业化路径并不清晰,这也不是技术出身的团队所擅长的事。
在本届WAIC的一场论坛上,洪春涛与陈文光同席出现在最后的圆桌环节。洪春涛曾是费马科技的CEO,现在他的身份是蚂蚁集团图数据库负责人。2020年,洪春涛曾经表示图计算未来的市场规模会达到千亿,并且“已到爆发前夜”,但2021年初的多项工商变更则表明,费马科技决定在这黎明前的最后一夜拥抱蚂蚁集团。
“到 2020 年的时候,我们发现了自身的局限性。费马团队总体上技术上是很强,但是管理和市场销售,特别是后者我们相对比较弱的”,陈文光在今年6月的一次采访中对极客公园表示。
2020年,蚂蚁集团宣布了陈文光的加入。两年之后,后者开始担任蚂蚁技术研究院院长。
蚂蚁集团对于图计算的布局很早,从2015年开始就自主研发分布式图数据库、流式图计算等图相关技术,2016 年发布自研分布式图数据库。而手握支付宝,意味着蚂蚁天然有了全球领先的图计算的场景需求,这是纯粹从技术出发的图计算团队都不具备的。
从陈文光的表述中,费马科技并入蚂蚁集团并不是商业场上那种千篇一律的无奈收购,而是一个技术找到场景的积极故事。蚂蚁集团,或者字节跳动这些掌握大量数据的科技公司正拥有这片土壤。只有在最大限度的接触到真实数据之后,图计算的成长才会开始加速,直到最终从象牙塔中走出,找到现实世界中的位置。
除了蚂蚁和字节跳动,国内的互联网巨头几乎无一例外的都已经开始图计算和图数据库的相关布局。
华为云的图引擎服务GES(Graph Engine Service)是国内首个商用的、拥有自主知识产权的国产分布式原生图引擎。早在2019年华为云推出一站式AI开发平台ModelArts,联合了GES图引擎打造的“图神经网络”,自此图深度学习开始落地。
2020年6月1日,腾讯云正式发布分布式图数据库产品腾讯云数图TGDB(Tencent Graph Database),能够实现万亿级关联关系数据实时查询,高效治理异构数据,支持实时图计算。
而早在2018年,百度已宣布开源大规模图数据库HugeGraph,这也是国内第一家开源的图数据库。今年5月百度将HugeGraph捐赠给了世界上最大的开源软件基金会Apache,成为后者的孵化项目之一。孵化成功的HugeGraph有望成为全球首个Apache软件基金会的图数据库顶级项目。
这一切迹象都在表明,图计算正在被积极的潮水推动着。人类苦寻“幻视”一样理想的人工智能,或许我们已经找到额头上的那颗宝石了。
参考资料:
《图论及相关历史》
《人人都在谈的图数据库到底是个啥?》
《图计算,下一个科技前沿?》