阿里收购德国开源数据公司 押注双十一背后的实时流处理框架Flink
本报记者张涵北京报道
导读
“与阿里的合作可以让我们上升一个新的维度,我们将有机会开拓新的领域,将公司成为更有价值的实时数据处理系统。”DataArtisan合伙人KostasTzoumas在新闻稿中表示。
在微软宣布GitHub免费开放私有代码库的同一天,阿里巴巴确认收购德国初创企业DataArtisan。后者创建的ApacheFlink是全球顶级的开源流处理框架,它不但是双十一大规模数据实时处理的秘密武器,更是荷兰国际集团、Netflix和Uber在内的国际巨头不可或缺的工具。
DataArtisans由开源流处理框架ApacheFlink的创建者KostasTzoumas等人于2014年创建。作为大数据流处理方面为数不多的前沿技术,Flink为企业部署大规模的数据处理解决方案,以便他们能够即时响应数据,并做出更好更快的业务决策。
远在此项投资公布的三年多前,阿里巴巴已经成为ApacheFlink框架的用户。目前,阿里基于Flink开发的内部平台Blink已经广泛服务于阿里集团内外、包括广告、搜索等大量核心实时业务,并多次为双十一的极端运算要求赋能。
当地时间1月8日,德国媒体率先爆料后,阿里和DataArtisan纷纷发布新闻稿确认了双方合作的消息。
“我们相信这一战略合作将进一步加强Flink社区的发展,加速数据处理技术并为全球开发人员提供协作和建设性的开放环境。”阿里巴巴集团副总裁周靖人在新闻稿中表示。
从微软收购Github到IBM巨资334亿美元收购开源软件巨头红帽,收购具有独特技术和资源的开源企业,无疑是巨头们在2018年最重要的并购趋势之一。而本次阿里的收购,代表了全球第三大云厂商对这一前沿领域的技术布局。
根据德国媒体报道,该项收购金额在9000万欧元,但双方官方均未确认金额。该公司曾在2016年获得英特尔旗下投资基金及Btov、TengelmannVentures共650万欧元的A轮融资,以及一轮未公开的B轮融资。
根据MarketInsightsReports的数据,预计到2025年全球流媒体分析市场规模将达到477.5亿美元,从2017年到2025年将增长34.98%。
火爆流框架
城市车流快速移动、工厂流水线不等人、医院在排号、叫的外卖在快跑,打车、点餐、网购等等,人们无法忍受长时间等待,等待意味着订单流失。所以,毫秒级、亚秒级大数据分析就凸显极大价值。
随着大数据、人工智能的兴起及5G技术发展,即时性成为了各个领域的刚需。上述场景还可以延展至高速公路监测、ADAS高级辅助驾驶、广告推荐、电商搜索推荐、股票交易市场、金融实时智能反欺诈等产业端。
据悉,DataArtisans所掌握的大数据流处理技术Flink可以在很大程度上解决越来越迫切的数据迅速处理问题。Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。
根据其官网显示,2014年Flink作为主攻流计算的大数据引擎开始在开源大数据行业内崭露头角。经过4年的快速发展,ApacheFlink社区已经培养出了42名Committer和19名PMCMember。
以核心用户Netflix为例,大型视频内容服务的处理需求之大几乎是不可想象的。每天有超过1.09亿的消费者,通过在线用户服务享受1.25亿小时的电视和电影内容。这对公司的数据提取管道和流处理引擎提出了很高的要求,这些引擎必须处理涉及12PB数据和3万亿日常事件。
Netflix流处理管理员SteveWu表示,FlinkforNetflix的关键元素是它能够定位有状态标注的应用程序,包括支持事件的时间戳,例如回滚和重放视频等。
经过几年的发展,中国的互联网巨头也开始了流计算的广泛应用,腾讯、华为、滴滴、美团、字节跳动等公司也将Flink作为首选的流处理引擎。
阿里Blink野心
尽管鲜有人听说,但Flink技术距离我们并不遥远。每年双十一阿里总部大屏幕的实时成交数字,就是通过巨大的网络流量,汇总各地方的报表、数据库,在毫秒级别时间进行计算,并汇总为单一视图的方式。
根据阿里巴巴Flink平台开发负责人之一、高级技术专家王绍翾曾在接受InfoQ采访中表示,2015年起,阿里巴巴就开始调研新一代流计算引擎。“我们当时的目标就是要设计一款低延迟、exactlyonce(一次就准确)、流(运算)和批(处理)统一的,能够支撑足够大体量的复杂计算的引擎。”
最终,Flink以高吞吐、低延迟的计算引擎、同时支持批处理和流运算等特性获得了阿里巴巴的青睐。
阿里巴巴计算平台事业部资深技术专家莫问曾在2018云栖大会的演讲中表示,阿里一直在寻找一种方式来开发一套统一的大数据引擎。“解决通用大数据计算需求,批流融合的计算引擎,才是大数据技术的发展方向,并且最终我们选择了Flink。”
基于Flink,阿里巴巴搭建的平台于2016年正式上线,并从阿里巴巴的搜索和推荐这两大场景开始实现。
“彼时的Flink不管是规模还是稳定性尚未经历实践,成熟度有待商榷。”阿里巴巴实时计算团队在一篇文章中写道。团队决定在阿里内部建立一个Flink分支Blink,并对Flink进行大量的修改和完善,让其适应阿里巴巴这种超大规模的业务场景。
在这个过程当中,该团队不仅对Flink在性能和稳定性上做出了很多改进和优化,同时在核心架构和功能上也进行了大量创新和改进。
关于Flink在阿里巴巴的大规模应用,莫问披露,Flink最初上线阿里巴巴只有数百台服务器,目前规模已达上万台,此等规模在全球范围内也是屈指可数的;基于Flink,阿里内部积累起来的状态数据已经是PB级别规模;如今每天在阿里Flink的计算平台上,处理的数据已经超过万亿条;在峰值期间可以承担每秒超过4.72亿次的访问,最典型的应用场景是阿里巴巴双11大屏。
2018年4月,以Blink为基础的阿里云实时计算正式商业化,使用用户已经超过2000家。在已有的用户中,实时计算主要应用于实时互联网数据分析、实时数据大屏、实时金融风控、电商实时推荐等诸多领域。
阿里集团内淘宝、天猫、天弘基金、菜鸟、工业大脑等诸多业务均大量应用了实时计算技术,在集团外,也有包括众安保险、全民TV、新华智云、贵州茅台等诸多公司的应用案例。
巨头+开源
从微软到IBM,再到此时的阿里,对以大数据、人工智能、云计算为核心的企业服务领域,开源的价值极其显著。与此同时,开源项目也需要足够多资金、项目和运营不断发展出更多的应能用领域。
华为云高级技术专家时金魁近日撰文认为,开源项目后面的商业公司若不在,项目本身必然走向灭亡,纯粹靠分散的发烧友的力量无法支撑一个成功的开源项目。
同样是在流计算领域,Flink尽管有一定技术优势,但仍然是竞争者众。根据Newstack.com网站显示,流数据处理开源框架很多,如Google的Beam,Intel的Gearpump,IBM的Edgent,这三家巨头都提前对流计算做出了布局。同时,Storm、LinkedIn的Samza也凭借独特的优势各领风骚。
业界认为,阿里对DataArtisans的收购无疑可以进一步整合Flink的整个生态资源,作出更有利于Flink发展的规划。“与阿里的合作可以让我们上升一个新的维度,我们将有机会开拓新的领域,使公司具有为更有价值的实时数据处理系统。”DataArtisan合伙人KostasTzoumas在新闻稿中表示。
根据阿里最新发布的消息,在本月之内,阿里也将把内部软件Blink开源给整个社区,这一凝结两年多阿里开发人员心血、助力阿里各项核心业务的软件即将被更多的企业和开发者使用。此外,阿里巴巴还将致力于推动Flink在生态上得到更多语言的支持,不仅仅是Java、Scala语言,甚至是机器学习下用的Python、Go语言。
业内人士分析,在云端、AI混战中,全球厂商都在寻找关键技术来提升自己的竞争优势。此次收购后,Flink必将转化为阿里云的核心竞争力之一。但在流分析服务方面,亚马逊和微软早已经实现托管的高速实时流分析服务,阿里云还需进一步完善。
新闻推荐
日前,在2018年“金鼎奖”最佳金融机构评选中,广发银行私人银行凭着出色的专业能力及服务优势,获得“年度卓越私人银行”权威...