9月3日,2022世界人工智能大会(WAIC)可信隐私计算高峰论坛上,蚂蚁集团发布可信隐私计算“隐语开放平台”(下简称隐语开放平台)。随着隐语开放平台面向全球用户开放,用户可无需调用和开发代码,直接使用产品功能,低成本地探索隐私计算应用场景。
在大数据和人工智能引领下的大规模数据流转中,数据安全与用户隐私是数字化的基石。数据安全问题仍然十分严峻,特别是信息的恶意获取、篡改、伪造和乱用,大规模的数据泄漏时有发生,数据安全在全世界范围内被广泛关注。
标志性的事件之一是2016年的“剑桥案”,Facebook被罚了50亿美金。
原因回溯到2016年,Facebook被指在未经用户许可的情况下,泄露出数百万Facebook用户数据,这些数据被受雇于特朗普的英国剑桥分析公司利用,以支持后者时年的总统竞选。
这件事Facebook方面也显得冤枉。扎克伯格在丑闻爆发后表示,2014年之后Facebook就不再允许第三方获取数据,并且在美国大选前一年已经要求英国剑桥分析公司删除用户数据,对方也提交了删除证明。
问题在于数据是否真的被删除,这点很难确认。由于数据的流转是以明文形式发生,某种程度上当Facebook第一次将这些隐私信息分享出去,平台也就永久失去了数据的所有权。但另一方面,数据正在成为这个社会有机运行的血液,其高频流动和共享的局面不可颠覆。
于是如何将数据的持有权和使用权区分开就变得非常重要。能够在数据流转间建造“黑箱”的隐私计算技术被认为是这道题的答案。
蚂蚁集团副总裁、首席技术安全官韦韬在今年的世界人工智能大会(WAIC)上提到了“剑桥案”的例子。从2016年开始,蚂蚁集团着手针对隐私计算框架的研究,这一计算框架以“隐语”的面目在今年7月宣布开源。
“隐语”支持包括多方安全计算 MPC、可信执行环境 TEE、联邦学习 FL、全同态加密 FHE、差分隐私 DP 等目前几乎所有主流的隐私计算技术,是蚂蚁集团历时6年自研的可信隐私计算技术框架,并已在蚂蚁内部业务及外部金融、医疗行业的智能风控、数字化运营等业务领域中落地应用。
在此基础上,蚂蚁集团此次发布的隐语开放平台,进一步集成了蚂蚁集团在隐私计算领域的能力,同时也更降低了这个复杂技术的使用门槛。
隐语开放平台将会支持当前所有的隐私计算主流技术。经过蚂蚁集团内部场景实战检验后,已达到高安全性、高易用性以及高可用性,实现小时级别部署耗时,支持十亿级别的密态样本数据求交集处理、千万级别数据模型训练,为业务的数据流通全生命周期提供保护。
隐语开放平台的成熟性已在蚂蚁内部得到验证,并对外在医疗场景、保险理赔、风控领域得到验证。比如在数据类型最复杂的医疗健康领域,隐语与外部医疗大数据管理平台携手,为浙江建德某医院搭建了数据融合平台,提升医疗数据安全高效发挥价值。
在易用性上,如果将隐语计算框架的开源与此次隐语开放平台做个比较,隐语计算框架的开源等同于一套代码框架的开源,旨在服务于开发者的二次开发;而隐语开放平台则可以让不会写代码的用户也能上手使用。
在隐语开放平台上,用户可选择直接使用产品功能的“白屏”模式,也可自主选择调用代码,灵活组装功能的“黑屏”模式。隐语框架与隐语开放平台,前者可理解为灵活组合的代码“素材包”,后者则提供了打包好的“拎包入住”式服务。
随着隐私计算技术开始成为一种信息流通的基础设施,其产品化的进程也在加速。中国信息通信研究院云计算与大数据研究所副所长魏凯在此次世界人工智能大会上表示,一个可信赖的隐私计算产品平台需要满足“安全可证”、“隐私保护”、“流程可控”、“高效稳定”、“开放普适”这五个特性。“实现真正产品级的部署,开放普适是非常重要的特征”,魏凯表示。
韦韬表示,目前数据要素流转正在经历从计算密态化环节到大数据密态化的跨越过程。大数据生态非常复杂,对于大数据的密态化探索无论从安全性、性能还是普适性上都需要各行各业共同协作。
计算框架的开源以及开放平台的上线,让隐私计算能够听到前线的炮火声。
此前隐语框架负责人、蚂蚁集团隐私智能计算部总经理王磊曾表示,蚂蚁开始做隐语纯粹是技术驱动的前瞻性布局,是一个公司内部孵化的实验品。隐语的诞生更多是因为团队在技术上的敏感性,而此时隐语开放平台的发布,眼光更多则在产业。
随着使用门槛降低,未来隐私计算将得到与更多场景结合的机会,这将加速可信隐私计算生态体系的建设,也会推动隐私计算成为一种更基础性的技术。