刷新多个世界纪录,阿里云飞天大数据平台凭什么成为世界第一?

WechatIMG72_meitu_1

【猎云网武汉】7月26日报道(文/张帆)

昨日,阿里云继飞天云操作系统后又一款世界级产品——阿里云飞天大数据平台在上海亮相,始伊出现就引爆关注。

1564066036507650_副本.png

根据公开资料显示,这款中国唯一自主研发的大数据计算引擎集群规模一举超过微软、亚马逊等公司,实现全球第一。单一引擎可将10万台服务器合为一体,单日数据处理量突破600PB,相当于6亿部高清电影。

此外,过去数年飞天大数据平台还在单集群服务器数量、数据排序速度、基准测试等领域先后刷新多项世界纪录,被称为世界第一。

回过头看,取得如此耀眼的成绩,既归功于阿里云团队10年间对大数据技术的沉淀,更离不开10年前他们抓住了技术革命中的新机遇。

视野前瞻:10年前开始迎接挑战

2008年,中国网购用户突破千亿大关,增长率达到185%,作为头部企业淘宝年交易额逼近千亿,涨幅亦高达131%。迎接喜讯的阿里巴巴同时也感受到“脑力”不够用,比其它公司更早地遇到互联网规模化带来的挑战——传统软件无法承载。

当时的阿里巴巴和全球大多数公司一样运用基于Oracle的数据库,整体计算规模已经超过数百TB,对算力的要求濒临Oracle集群的极限,系统很快就无法支持业务正常增长了,把数据转移到规模更大的处理平台成为他们2008年的当务之急。

除了Oracle,Greenplum、Hadoop都进入过阿里的思考方案,但这些框架平台只能解燃眉之急,无法长远适应阿里巴巴当时高速成长的发展策略,如果使用第三方框架未来必将还会面临更大的困境。

同年8月,曾在微软亚洲研究院任职的王坚博士带着解决大规模算力瓶颈的任务加入阿里。他根据自己的经验迅速做出判断:无论是Oracle还是Greenplum、Hadoop,都不是大规模数据计算的最优解,阿里必须自研一套大数据处理平台才能以绝后患。

由此,第二年阿里云在阿里内部经过无数次商讨后正式成立,这场关于大数据的技术长征正式拉开帷幕。

后来任职阿里巴巴集团首席技术官的王坚解释,“从战略上来说,阿里云想做的事情实际上可以解读为Amazon+Google并有所超越。将单一集群做到数千乃至更高,技术上是国家和企业竞争力的标志。阿里巴巴必须攻克这道难关。”

技术领先:解决世界级算力难题

从2009年启动项目,阿里云沉默了4年,4年间饱受争议。

自研云计算胜算几何?还要投入多少才能看见成果?成果是否稳定?对于“飞天”计划不计人力、资金的研发投入,公司内部和外界的质疑连绵不绝。

不鸣则已,一鸣惊人。

2013年8月15日,他们才第一次向外界展示成果。阿里云历史性地突破了同一个集群内5000台服务器同时计算的局限,为未来的大规模服务奠定基础,也使得阿里成为全世界第一家能对外提供5K云计算服务的科技公司。

时至今日,在杭州云栖小镇上仍竖立着一尊飞天的纪念碑,雕刻着参与解决5K相关技术研发工作人员的大名。

6年后的今天,阿里云飞天大数据平台多集群规模已超过10万台,在全球范围内能其与并肩的企业也不过寥寥几家。

凭借这套技术,阿里不仅解决了自己的算术难题,也进入各行各业,为大量有大数据处理需求的企业提供优质服务。为了应对不同的客户,他们要面临海量的数据。除了数据量的激增,不同行业数据类型丰富多样,如结构化数据、非结构化数据等,都给大数据计算平台带来新的挑战。

这些挑战也倒逼着团队交出更好的成绩:

2015、2016年,阿里云刷新世界计算奥运会之称的SortBenchmark六项世界纪录。

2017年,他们完成全球首次基于公共云的100TB BigBench大数据基准测试。

记录被不断刷新,并且得到了权威机构的认可:在Forrester发布的《The Forrester WaveTM: CloudData Warehouse, Q4 2018》中,阿里云MaxCompute、DataWorks、ADB等三款产品成功入选,并在产品功能(Current Offering)方面力压微软。

在单日数据处理量上也从2015年100PB,2016年180PB,到2017年320PB,再到2018年的单日处理超过600PB,不断攀升。

另外,在核心产品和技术的优化与创新上,他们也没有停歇。

2019年1月, 阿里首款大规模分布式科学计算引擎Mars开源,突破科学计算领域的规模瓶颈,极大提升了科学计算的计算规模和效率。

2017年10月,进行了全球首次基于公共云的bigbench大数据基准测试,数据规模被拓展到100TB,并成为首个突破7000分的引擎,性能达到 7830QPM。

2018年9月,性能较2017年10月提升一倍多,达到18176.71QPM。另外,在超小型10TB规模的指标上,与其他开源竞品进行了比对分析,性能超过开源竞品3倍。

稳定落地:业务应用世界领先

攻克算术瓶颈王坚团队用了4年,将其继续延展不断商业化阿里云用了10年,到现在阿里云飞天大数据平台已和水电煤一样成为不少公司必不可少的基础设备。

在阿里内部,飞天大数据平台作为主力计算平台支撑着这个商业“巨无霸”几乎所有的计算。每天有超过14000名阿里巴巴内部的开发者在这一平台上进行开发,超过600万个作业在该平台上运行,几乎支撑起整个阿里经济体。

在去年的双11狂欢节中,飞天大数据平台单日数据处理超过600PB,同时平稳支撑电商混布单元在线流量洪峰12万笔/s交易,稳定承载45%导购流量,顺利完成1200台DB业务混部的目标,为双11交易峰值提供了有力保障和平滑支撑。

在交通领域,城市大脑在杭州实时指挥1300个红绿灯路口、200多名交警。从2016年到2018年,杭州从全国最拥堵城市排行榜上下跌52名。

在工业领域,阿里云的大数据处理技术帮助制造企业寻找上千个参数的最优搭配,提升制造的良品率。协鑫光伏、天合光能等行业龙头企业,都在尝试这一全新的生产模式。

在政务领域,浙江最多跑一次通过大数据处理平台打通政务数据,将与老百姓办事最密切相关的100个事项70多亿条数据,按照统一标准汇入统一的数据仓,实现共通共享共用。老百姓办事不仅能最多跑一次,甚至有可能一次都不跑。

而在海外,其也已进入新加坡、欧洲等市场,将这一技术服务提供给更多用户。

结语

作为以解决阿里巴巴客户发展问题为初心研发的产品,飞天大数据平台用了10年时间开花结果,不仅攻克了公司内部的瓶颈,也解决了广大中小企业普遍性的问题、带来了开创新的成果。这种从需求出发倒逼技术进步,并进而对外服务的研发道路,让外界对阿里云飞天大数据平台的下一个10年亦充满期待。