UU快3—UU快3直播
登录/注册

云栖十年,阿里和阿里云的四次技术抉择

iwangshang / 张超 / 2019-10-07

摘要:十年中阿里云越战越勇已经成为中国企业数字化转型的关键力量。

 

UU快3—UU快3直播记者  张超

掐指算来,云栖大会已经完整走过了10年。

不知道有多少人会记得10年前的2009年,阿里巴巴举办的名叫“中国地方网站发展论坛”的大会,那时国内云计算产业也刚起步。全国各地的200家地方网站共聚一堂,用更多实际的行动同无数的社区网站对接,解决中小站点的技术问题,这是云栖大会能追溯到的最早的前身。

第一届2009中国地方网站发展论坛

驻云科技CEO蒋烁淼是阿里云最早的客户和伙伴,他在十年中见证了云栖大会四易其名,从“中国地方网站发展论坛”到“站长大会”,再到“阿里云开发者大会”,最终化茧成蝶,成了如今的“云栖大会”。

让他印象最深的是2010年,马云第一次上“云栖大会”演讲,台下只有几百位听众,都是来自全国各地的个人站长。

那一年的海外海酒店,很多站长追着马云问“移动互联网的下一个机会在哪里?”

马云笑答:“我很同意,云计算会创造更大的机遇,创业更加方便,更加安全,成本更加低。可不要以为这是机会,所有人都一样(看得见机会),你的架构和网站给社会创造了什么价值,有我和没我有什么区别,想清楚这个,机会才大。”

2010年举办的大会名为站长大会

但是那个时候,几乎没人看好云计算的未来,一些反对者的逻辑简单粗暴,云计算没前途,就连美国人都搞不起来。到了2010年3月的中国IT领袖峰会,李彦宏不客气地说云计算只是新瓶装旧酒,马化腾则认为云计算是好东西,但是太遥远。

然而,马云坚定看好云计算。事实证明,他是对的。

这10年来,互联网江湖风云变幻,越来越多的企业开始投身到数字化的浪潮中,而阿里已经逐渐成长为中国企业数字化转型的关键力量。

但很多人不知道的是,阿里在这10年中,有过困难、也有过泪水,好在阿里有那么一帮人,在影响阿里生存和前途的四次关键技术抉择中,选择坚持,选择相信,才成就了如今的阿里巴巴。

阿里要发展 必须要“去IOE”

时间回到2008年,当时阿里旗下的三大业务阿里巴巴B2B网站、淘宝、支付宝都在用Oracle(甲骨文)数据库。

而Oracle数据库跟IBM生产的小型机、 EMC生产的存储硬件配合使用,效果很明显,早几年使用时,甚至速度快到根本不用做任何优化,而这三家设备合起来就是“IOE设备”。

阿里和国内互联网企业一样,“IOE设备”离不开身,有一段时间,甚至一排一排地买IBM小型机。

当年,淘宝和支付宝使用的绝大部分都是IOE设备。

但是经历了06-07年的爆发式增长后发现,“IOE设备”弊端凸显。

比如贵。一台IBM小型机就要500万,两台小型机就要配一个300万的 EMC 存储,一排一排地买小型机,就不知道花了多少个500万,Oracle商业数据库软件费用大概要几千万元人民币,还得外加一大笔维护费。IBM的铁架子(服务器)躺着拿走了阿里巴巴不少利润。

又比如设备制约,扩展有限。当年每天早上八点到九点半之间,淘宝和支付宝的服务器处理器使用率都会飙升到 98%,离爆棚就差两个百分点。

当年阿里的数据库已经成为全亚洲最大的数据库用户。以当时的技术能力,如此大的数据库已经几乎不具备扩展可能。

时任阿里巴巴研发院业务发展专家孙黎明说,“我们把全中国最知名的顶尖的DBA(数据库管理员)请到公司,一个晚上一张报表都做不出来,没有任何一家公司包括IBM、微软,能够为我们提供一整套的技术服务。”

面对阿里巴巴面对的窘迫,马云出面邀请到了时任微软亚洲研究院常务副院长王坚加盟,担任阿里巴巴首席架构师。

王坚

王坚早前曾是浙江大学的心理学系教授,博士生导师。这样一位首席架构师,既不是程序员、也不会写代码,到任后提出的第一件大事却足以让阿里的程序员们震惊,“去IOE”。

“去IOE”说得容易,但做起来却非常难。但历经各种挑战之后,阿里这帮工程师确实拿出了一套新的技术架构。

大致的替代方案是这样的:以廉价的PC服务器替代小型机,以基于开源MySQL数据库的自研AliSQL数据库替代Oracle数据库,以阿里云代替高端存储设备,形成一个崭新的计算系统,代替原来的IOE传统IT架构。

大事不断迭起的2009年

研究新计算系统的重任落到了2009年成立的阿里云身上。

完成这个重任,有两条路可以选,一条基于开源协议和软件构建一套计算系统(云梯1,以Hadoop 为基础),另一条就是纯自主研发通用大规模分布式计算系统(云梯2,飞天),阿里做了两手准备,两条路同时上。

2009年春节后上班的第一天,在北京上地的汇众大厦203那间连暖气都没有的办公室里,一帮工程师一边口呼白气,一边敲出了“飞天”的第一行代码。

飞天的第一行代码

然而,计算系统搞出来了,在哪里试用又是一个大问题。

现在大家都会提到当时淘宝的技术团队愿意创新,去尝试“去IOE”这件事,但这是没有办法的办法。

当淘宝宣布要放弃Oracle,转投自研数据库架构的时候,淘宝八十多个 Oracle 工程师把时任淘宝技术保障数据库管理员的负责人后羿堵在了办公室里,群情激愤。

但是去IOE的大势是不可能扭转的。

2009年秋天,轰轰烈烈的 IT 架构升级项目在淘宝网正式启动。一群 Oracle 工程师,就这样含着泪,一点一点亲手拆毁自己安身立命的系统……

就这样,云梯1、云梯2,两套系统一边搭建,一边在淘宝内部实验,一边承担部分计算任务以缓解现有系统不足的压力。

同样在2009年,王坚还去了一趟美国硅谷。

在斯坦福大学的一场演讲中,他第一次分享了“飞天”的基本想法。但是很多人认为在中国做“飞天”这样的事一点都不靠谱,甚至王坚都觉得这些人是对的,因为“飞天”的难度确实太高了。

不过让王坚高兴的是,有不少对“飞天”持怀疑态度的人陆续加盟阿里云,从事“飞天”技术的研发,他说,“因为做云计算,多多少少需要点浪漫主义的精神,否则做不好”。

这一年还发生了一件大事,阿里云“坑了”未来的阿里云总裁胡晓明(孙权,后来接替王坚出任阿里云总裁)。

胡晓明和阿里金融的第一个产品“牧羊犬”

当年6月,金融大咖胡晓明在阿里进行内部创业,担任阿里金融的总裁。这次内部创业前,他答应了马云提出的两个条件:

第一,要做100万人民币以下的贷款生意,帮助借不到钱的创业者;第二但要和刚成立的阿里云绑在一起,用阿里云的技术架构支撑阿里金融的服务。

“牧羊犬”是阿里金融的第一个产品,简单来说就是给淘宝商家贷款的项目。时任阿里金融研发工程师王国涛回忆:“当时阿里云一边搭建飞天平台,我们就一边在飞天上面开发牧羊犬应用。这就像是开发商一边在造房子,我们一边在室内装修铺地板。”

而当时阿里云好不好用?是真不好用,各种 Bug 形式翻新,永不重复。

马上要2010年的春节都要到了,胡晓明率先带着核心骨干跑到王坚办公室门口“讨说法”。

胡晓明是出名的“只要认定的事情就一定要办成”,大有在王坚办公室打地铺静坐的架势。

王坚无奈,派出所有的技术工程师,驻扎在阿里金融的现场加班开发,只为了“让兄弟团队能过个好年”。

当年春节之后,阿里云发布了一次大版本升级,之后的阿里云,妙不可言。

巨大的计算力让阿里金融实现了“秒级”放贷。正是因为阿里云“高效低价”的加持,单账户每年的 IT 成本可以控制在1元以内。

阿里金融,成为了后来的网商银行。他们就这样无意间成为了中国第一个上云的银行。

突破5K 飞天成了

不过事情总不是一帆风顺的,阿里云开始面对一个世界级的难题,无论云梯1还是云梯2都没法独自调度 5000 台服务器,简称5K。

云栖小镇的5K雕塑刻着飞天团队所有在职和离职工程师的名字

时间到了2012年,以开源软件为基础的“云梯1”计划实现了4000台集群调度,而阿里云团队更看好的纯自研“云梯2”还在1500台集群数量徘徊。

从2010年开始到2012年,几年时间,阿里云死磕5K,毫无进展,那几年阿里云整个部门都在集团拿最低分,而关于王坚的议论更多,很多阿里的同学都叫王坚“骗子”,关闭阿里云的流言到处飞。

2012年阿里云的年会上,王坚一边哭一边说,“这两年我挨的骂甚至比我一辈子挨的骂还多。但是,我不后悔。……”

关键时刻,马云站出来了。他公开对阿里的高管们说,“我每年给阿里云投 10 个亿,投个10年,做不出来再说。”

这一次,流言平息,大家的关注点回落到云梯1和云梯2上。因为更加火烧眉毛的事情出现了。

2013年3月28日,一封来自集团技术保障部架构师云铮的邮件直达高层:按照数据增量与未来业务增长的情况,云梯1和云梯2两套系统的存储和计算能力将在今年6月21日到达瓶颈。

如果继续分别对云梯1、云梯2投入、重复建设,开发和维护成本很高,浪费巨大,上个月的时间,必须舍弃一个,全力做好另一个。

当时,大部分人都认为经过全世界验证的 Hadoop 为基础的“云梯1”更有希望,但是王坚坚定选择了打造“飞天”,于是阿里云大举投入“云梯2”。

2013年第三届阿里云开发者大会改在了现在的云栖小镇

2013年10月,阿里独立研发的飞天5K计划完成,单集群服务器规模达到5000台,100TB排序能在30分钟完成,远超今年雅虎公司同年7月创造的世界纪录—71分钟。阿里云成为世界上第一个对外提供5K云计算服务能力的公司。

阿里云终于在集团内证明了自己,阿里内部关于做不做云计算,王坚到底靠不靠普的争论突然就烟消云散了。

城市大脑效果显著

现在的飞天,已经深入到各个领域,工业、农业、政务、动画、交通……逐渐成为一种公共服务。

比如杭州在用的“城市大脑”。

“城市大脑”是2016年3月由王坚首次提出来的。

2016年10月,阿里云开发者大会改名“云栖大会”后的第二年,这一年的云栖大会上,杭州市发布了全球第一个城市大脑计划。

会上王坚曾感慨,世界上最遥远的距离不是从南极到北极,而是从红绿灯到交通摄像头,它们同在一根杆上,但从来没有通过数据被连接过,摄像头看到的东西永远不会变成红绿灯的行动。

杭州城市大脑

2017年7月,杭州城市大脑V1.0版本系统正式上线运行,一年后,效果显著。

通过一年的努力,杭州城市大脑成功接管128个路口,试点区域通行时间减少15.3%,高架道路出行时间节省4.6分钟,摄像头和信号灯终于“发生关系”了。

在主城区,城市大脑对交通事件进行智能报警,日均事件报警数达5000次,准确率达92%,大大提高了执法指向性。

在萧山区,城市大脑让交通信号灯听到救护车的呼唤,创新实现了120救护车等特种车辆的优先调度,120救护车到达现场的时间缩短一半。

数据还显示,城市大脑上线一年,视频监控自动发现事件19200起,对城市的事故和违章进行自动检测和报警,包括摩托车闯禁、交通事故等,支撑了交通事件的快速处理;新发现了6个交通乱点,通过严格管理、优化交通组织后得到了改善;进行了信号灯优化配时调整,信号灯报警并调整配时方案8000余次……

现在,城市大脑可以通过已经存在的摄像头数据,看到每一个路口过了多少辆车,车的类型、走向,还可以获得行人的信息,比如行人有多少,过红绿灯要多长时间,等待了多长时间。新的通过视觉收集到的信息可以放在交通优化模型里,识别并提前预测出交通堵点,并能够得到更准确的红绿灯优化配置方案……

中台与阿里云全面结合

阿里的中台概念,最早可以追溯到2008年。

当年5月10日,阿里发布了淘宝商城,也就是现在的天猫。现在的你能想象当时淘宝商城和淘宝网是相互独立的两套系统吗?淘宝商城有自己独立的会员、商品、交易、店铺、优惠积分等系统,唯一和淘宝共享的是会员数据,淘宝商城运行了半年,由于数据和系统的独立,没办法方便快速借力淘宝的大流量,这也不符合互联网快速变化业务的特性,所以业务方决定彻底打通淘宝和淘宝商城的数据和系统。

谁也没想到,这次以业务目的为出发点的整合,却给整个阿里的架构带来了巨大的正面的进化,这就是中台的雏形。

2008年10月,淘宝网和淘宝商城的数据打通项目开始启动,代号“五彩石”,这个项目由时任淘宝技术总架构师张建锋直接负责,常驻杭州华星世纪大楼1楼的项目室。研发人员有60多人,项目结束后统计参与人员共计200多人。在这个项目之前,一般超过10人参与的项目就已经算是公司级的大项目了,可见当时这个项目的决心。

五彩石项目是分三期来实施的,都带有明确的业务目标,第一期完成商品体系的整合,第二期完成交易体系的整合,第三期以打通淘宝网的店铺和淘宝商城的店铺为主。另外一条项目主线是架构重构,通过不断抽取共享服务,形成服务化架构的电商平台。

五彩石项目并没有以淘宝网或者淘宝商城的架构为基础进行演进式改进,而是进行了彻底的重构,是一次全新的架构升级。

这其中就有了后来中台的影子:比如抽离出每个业务的共性功能,如交易、支付、会员等等,打包成“砖块”,房子千奇百怪,但砖头都是一样的,做一个新业务就变得非常容易;又比如让数据沉淀到统一的池子,为之后喂养数据智能奠定基础。

另外,为了解决随之带来的技术扩展性问题,五彩石项目还引进了分布式中间件技术,本质上是让多台廉价PC服务器组成一台超级服务器。

2009年,淘宝商城成立第二年,第一届“双11”活动诞生,淘宝商城的成交额是平时的10倍,效果惊人,证明了五彩石项目获得了成功……

十年时间,五彩石项目化身中台,阿里云则在2018年升级为阿里云智能,将中台能力与云全面结合。

现在阿里云也正在发挥中台优势,为商家赋能。

波司登信息总监桂益龙回忆,“2016年,波司登借助阿里云的互联网中间件技术,依托企业级互联网架构建设波司登‘零售云’平台,基于中台架构思想,结合波司登的业务特性,建立起波司登‘零售业务共享服务层’,包括全局共享的用户中心、交易中心、库存中心、订单中心,然后基于共享中台构建上层业务模块,这些业务模块能够灵活适应不同业务项目、不同业务流程。”

波司登通过“零售云”平台,可以实时监控全国3000多家门店的库存和销售情况,进而降低库存压力和物流成本,提升商品售罄率,近两年利润猛增。

达摩院开启下一个十年

2017年10月杭州云栖大会上,阿里巴巴达摩院正式亮相,时任阿里巴巴集团首席技术官张建锋兼任达摩院首任院长。

现任阿里巴巴首席技术官、阿里云智能事业群总裁、达摩院院长 张建锋

这是一个马云寄予厚望的部门,承载了阿里巴巴最顶尖的研发资源,达摩院意味着技术创新,也代表着阿里的未来。

马云还对“达摩院”提出了三个要求。

第一,必须活的比阿里巴巴长久,“企业是有周期的,但能留下来的,是阿里巴巴的技术、经验以及对社会的担当。现在我们已经18年了,还有84年要走,“达摩院”至少要活85年”。

第二,“达摩院”至少要服务全世界20亿人口,为1000万家企业创造盈利的空间和机遇,“希望达摩研究院解决1亿就业机会,即普惠共享、可持续发展以及快乐”。

第三,“达摩院”必须自己具备盈利的能力,“天下只有自己靠得住”,今年阿里巴巴将启用1000亿人民币作为启动基金,在全球寻找人才,但是未来得依靠“达摩院”自己。

在武侠世界里,“达摩院”代表着武林绝学和至尊,这是时任阿里巴巴董事局主席马云为新成立的研究院取的名字。

但在10多年前,马云甚至还在坚决反对公司有任何研究室、实验室,因为在他看来,当时阿里巴巴还是一个初创公司,在还没有立足之前就考虑研发是大灾难。

“达摩院”首批公布的 13 个研究领域,包括量子计算、机器学习、基础算法、网络安全、视觉计算、自然语言处理、下一代人机交互、芯片技术、传感器技术、嵌入式系统等,涵盖机器智能、智联网、金融科技等多个产业领域。

达摩院是一个技术密集型团队,但它并不是只专注于技术的研究,同时也要把这些技术产品化。这些技术还要放到云上,分享给阿里云的合作伙伴。

成立两年后,达摩院日前对外公布了研究成果及进展。

截至2019年9月,达摩院在国际顶级学术会议上累计发表近450多篇论文,在自然语言处理、智能语音、视觉计算等领域算法夺得40多项世界第一,已成为阿里聚集科技人才和基础技术研发的“技术基石”。

在过去两年里,达摩院建立了遍布全球的研发网络,在中国、东南亚、欧洲、中东、北美、以色列等地均设立了研发中心,并与全球150多所知名高校的100多个科研团队开展科研项目合作。

阿里巴巴达摩院

目前达摩院内“高手如林”,拥有10多位IEEE FELLOW、30多位知名高校教授、超过一半的科学家拥有名校博士学历。

达摩院区块链实验室已申请专利500余项,连续三年蝉联全球区块链企业专利申请数量排行榜第一,让奶粉、红酒、大米、化妆品等数亿商品有了自己的身份证;达摩院自动驾驶实验室推出了业界首个实现车路协同的自动驾驶方案,在多个半封闭园区实现了L4级别自动驾驶物流车日常化运营……

在攀登世界科技高峰上,达摩院也交出了出色的答卷。达摩院成功孵化出了平头哥半导体公司,已经推出3款面向公开市场的芯片类产品,包括最强RISC-V芯片处理器玄铁910,芯片设计平台无剑平台以及最强AI推理芯片含光800,全面推动芯片算力进入普惠时代。

现在,达摩院和阿里云的下一个十年已经开启,期待他们的成绩。

这是向技术寻求可持续发展解决方案的过程

100年前,伦敦向世界输出了地铁,巴黎输出了下水道,纽约输出了电网。今天,杭州携手阿里云,正向世界贡献数字化城市方案。

马云曾说,技术变革50年,未来的30年应用变革将深入到方方面面。在技术变革的大趋势下,依靠传统的资源消耗型企业必定越来越难。不拥抱新制造的企业,就如同盲人开车,你都不知道谁是你的客户,客户到底需要什么。

未来的阿里云是世界第一朵“无处不在的智能云”,阿里云将帮助更多企业在云上用科技探索新商业边界,创造新商业模式。

参考资料:

史中:《阿里云的这群疯子》 浅黑科技

王坚:《在线》 中信出版集团

阿里巴巴集团双11技术团队:《尽在双11》 中国工信出版集团 电子工业出版社

田丰 崔昊:《云战略》 中信出版集团

虎研所:《生于疼痛的阿里云》 虎嗅

阿里巴巴集团:《2017阿里技术年度精选》

分享:

发表评论

最新评论