阿里云发布ODPS 可分析PB级海量数据

 

ODPS       8日,阿里云计算发布核武级大数据产品——ODPS。通过ODPS在线服务,小型公司花几百元即可分析海量数据。ODPS可在6小时内处理100PB数据,相当于1亿部高清电影。此前,全球掌握这种能力的公司屈指可数,如Google、亚马逊等。

五年间,阿里云的工程师们写下250万行代码,不断打磨ODPS。该团队在一封公开信中描述:“把数据海洋里的水灌进ODPS,设定好一套参数,拧开水龙头,出来的就是鲜榨果汁!”对比工业时代,ODPS相当于大数据时代的流水生产线,水龙头里流出来的“果汁”,随原始数据和算法的改变而千变万化。

公开信中表示:工业革命后的200多年里,人类对物理资源的利用登峰造极,对数据资源的利用却仍处于起步阶段。Google、Facebook、阿里巴巴等互联网公司先行一步,触碰到了大数据的魅力。然而,人类拥有的绝大部分数据还无法产生价值。

采用传统方案处理大规模数据,一般得耗资数千万自建数据中心,请专业技术人员维护运作。一旦数据总量超过100TB,技术挑战会非常大。Hadoop开源运动降低了这一成本,不过自建一个像样的Hadoop集群,仍然需要上百万的起步资金。专业的Hadoop人才则更加稀缺。

相比而言,使用ODPS的成本和门槛则低得多。ODPS采取按量收费的模式,目前定价0.3元/GB,即开即用,一个月内免费。根据大部分公司的数据量来测算,一般每月只需花费数百元。

在对外商用之前,ODPS一直是阿里巴巴内部的秘密武器。阿里小贷最先将ODPS应用到商业领域。如今,超过36万人从阿里小贷借款,最小贷款额为1元,并实现3分钟申请、1秒放款、0人工干预。要做到这一点,阿里小贷每天得处理30PB数据,包括店铺等级、收藏、评价等800亿个信息项,运算100多个数据模型,甚至得测评小企业主对假设情景的掩饰和撒谎程度。阿里小贷每笔贷款成本3毛钱,不到普通银行的1/1000。

据悉,淘宝、支付宝等阿里巴巴最核心的数据业务,都运行在ODPS平台。比如阿里妈妈广告的核心算法,点击预测模型的训练等。ODPS商用,意味着阿里云将这种大数据处理能力对外开放,此举将大幅降低社会创新成本。

在公共领域,ODPS也具备广泛应用的潜力:华大基因利用ODPS进行基因测序,耗时不到传统方式的十分之一,未来一旦爆发生物危机,可以为人类赢得宝贵的破译时间;药监部门利用ODPS,全程监管药品流向,解决假药问题。“我们期待未来每一桶油、每一道菜的数据都跑在ODPS上,食品安全问题需要通过创新的方式来解决。”

目前,全球提供类似服务的仅有Google和亚马逊,国内尚无同类产品可供比较。阿里云方面表示,ODPS将比Google BigQuery更强大,不仅支持更丰富的SQL语法,还将提供MapReduce编程模型和机器学习建模能力,可以服务更多应用场景。

 

ODPS成长史】

ODPS在阿里集团内部已经被广泛用于海量结构化数据的处理分析。作为飞天的重要模块,伴随阿里云的发展一路走来的ODPS,在成长道路上历经坎坷:

1.2010年春节期间,ODPS的前身Sql Engine第一版上线,首个应用是支持阿里云金融的信用贷款和订单贷款业务(牧羊犬),运行在30台机器的飞天集群上;

2.2010年年中,牧羊犬项目飞速发展,而Sql Engine的稳定性则很难跟上业务的步伐,为了保证业务连续性和稳定性,我们采用了4个机群并行运行的方式,夜晚的护航苦乐参半;

3.2011年1月,随着业务方的更高要求,Sql Engine的架构难以为继,Sql团队利用3个月的时间对Sql Engine进行重构,新版本可以比较稳定的运行在100台机器上,并更名为Data Engine;

4.2011年Q3,飞天团队开始探索支撑集团内部数仓业务,利用Moye系统,在1500台机器上并行运行云梯1的生产作业,并取得了不输于hadoop的性能和稳定性成绩;

5.2011年年底,迅速发展的金融业务与蹒跚前进的平台之间的矛盾再次爆发,阿里小贷数位高管夜访阿里云;为了重拾客户信心,2012年1月,阿里云的40位工程师进驻滨江,在客户身边进行新版本开发和线上系统维护,历经4个月的时间,Data Engine版本升级,将客户业务迁移到2500台的集群上;依托新的机群,阿里小贷的业务量飞速增长;

6.2012年Q1,冰火鸟项目启动,团队在Data Engine和Moye之间做技术选择,并决定使用Moye作为ODPS产品的核心引擎,Data Engine退出历史舞台;历经8个月的时间,冰火鸟项目一期结束,阿里小贷和淘宝的数仓业务迁移到ODPS,ODPS第一个版本开始生产运行;

7.2013年年中,金融业务的快速发展再次造成机群资源吃紧,存储即将撞墙!由阿里云和数据交换平台组成的联合项目组开始5k项目,经过5个月的技术攻关,金融机群顺利扩容,生产系统平滑迁移,ODPS进入5000台机器和跨机房调度时代;

 

【登月计划】

阿里内部关于云梯1(基于hadoop)和云梯2的技术争论由来已久,在事实上促进了ODPS团队的成长。

2013年10月,为了融合阿里小贷和支付宝的数据,支付宝希望ODPS团队协助他们搬家,将支付宝数仓业务从hadoop机群搬到ODPS上,登月1号项目启动。2014年5月,登月1号项目顺利成功,小微金服的全部数据业务开始基于ODPS发展;

2013年底,受到登月1号项目的启发,阿里数据平台团队联合技术保障部和集团各事业部,开始了一系列宏大的登月计划,致力于将搜索、广告、物流等多个BU的数据统一,未来ODPS将成为承载阿里集团全部数据的统一处理平台。“登月计划”共计划了20多个项目,涉及阿里巴巴和小微金服所有的事业部,覆盖集团全部数据人员,其牵扯人员、资源之多,在集团内部罕见。登月计划的全面启动,标志着阿里集团自研的飞天+ODPS平台,从功能和性能上已经渐渐超越了Hadoop,阿里云的技术走在了世界前列。

从Oracle到Hadoop,我们解决了海量数据如何存储和分析的问题,阿里的数据业务不再受制于规模的瓶颈;从Hadoop到ODPS,更是一次质的飞跃,为后续大数据业务的开展扫清了障碍。

ODPS商用,则是中国大数据时代发展的一个标志性事件。

 

ODPS跟飞天平台的关系】

最底层是Linux+PC Server,上层软件是飞天,飞天是阿里云09年开始开发的一款分布式系统软件,主要提供分布式存储和分布式计算的调度、编程框架。开发语言是C++, 2013年该系统在生产环境支持调度5000台机器的集群。

飞天比较有意思的是模块的名字,都是从中国传统的神话中选择,比如分布式存储模块叫盘古,调度叫伏羲。

站在hadoop的角度看,飞天提供的功能和hadoop是类似的,在yarn之前,hadoop主要的编程模型是MapReduce,飞天的编程模型是一个有向无环图,而且除了支持批处理任务以外还支持常驻的Service。实现的细节上当然完全不同,首先实现的编程语言飞天就选择了C++。其他像安全、运维体系都有很大区别。

ODPS是在飞天之上提供的一套服务,功能包括SQL,基于java的Mapreduce编程框架,图计算编程模型,一系列机器学习算法的实现等等。所有的功能是以RESTful API的形式对外提供,所以从系统边界上说,这层API隔离了ODPS平台和用户的系统,和hadoop的区别也很明显。ODPS设计之初就是为了对外开放,做基于互联网的多租户的公共数据处理服务,所以安全性在ODPS的设计和实现中具有最高的优先级。

 

【阿里集团使用ODPS现状】

目前阿里集团内部使用ODPS的状况:阿里集团大部分数据业务都运行其上,包括阿里小贷,数据魔方,阿里妈妈广告联盟,广告搜索,点击预测模型训练、支付宝所有业务,淘宝指数,阿里无线,高德,中信21cn等。阿里妈妈广告的核心算法,包括点击预测模型的训练

 

ODPS的产品优势】

1)海量运算触手可得:用户不必关心数据规模增长带来的存储困难、运算时间延长等烦恼,ODPS可以根据用户的数据规模自动扩展机群的存储和计算能力,使用户专心于数据分析和挖掘,最大化发挥数据的价值

2)服务“开箱即用”:用户不必关心机群的搭建、配置和运维工作,仅需简单的几步操作,就可以在ODPS中上传数据、分析数据并得到分析结果

l  数据存储安全可靠:ODPS采用三重备份、读写请求鉴权、应用沙箱、系统沙箱等多层次数据存储和访问安全机制保护用户的数据:不丢失、不泄露、不被窃取

3)多用户协作:通过配置不同的数据访问策略,用户可以让组织中的多名数据分析师协同工作,并且每人仅能访问自己权限许可内的数据,在保障数据安全的前提下最大化工作效率

4)按量付费:ODPS根据用户实际的存储和计算消耗收费,最大化的降低用户的数据使用成本

 

【后续产品计划】

后续阿里云会持续研发和优化ODPS平台,提供更多功能满足客户更多层次需求:

1、提供ADC平台——基于ODPS的集成数据解决方案,包括代码集成开发环境,任务发布,任务调度,任务监控管理,BI/商业智能等。

2、提供更加丰富的SQL语法,还将提供MapReduce编程模型和大规模机器学习建模能力。

3、支持准实时查询:为支持BI/商业智能等功能提供支持。

4、支持数据的实时导入、计算、导出。

5、更复杂的计算模型,不仅支持Map/Reduce,还会支持DAG模型的任务。

6、支持用户自定义的迭代/图模型编程接口:用户可以依赖这样的接口编写聚类(例如Kmeans),PageRank。

7、内存计算,计算的中间数据不落磁盘,直接在内存中。

8、流式计算支持。

9、开放odps更底层的逻辑计算单元,支持用户基于odps开发spark,pig等分布式系统。

10、地理/空间数据类型的支持。

11、使用数据存储新技术raidfile:1.5份copy技术,目前数据每份存储三份,后续将会提供新的存储技术raidfile,在同等保证数据安全的情况下,每份数据只存储1.5份,大大优化存储空间。

 

【天池平台】//102.alibaba.com/competition/addDiscovery/index.htm

1、“天池”平台是基于阿里云ODPS的大数据开放平台,向学术界免费提供科研数据和数据处理服务。ODPS以RESTful API的形式提供针对PB级别数据的批量处理能力,主要应用于数据分析、海量数据统计、数据挖掘、商业智能等领域。

2、天池平台已开放的科研数据:天池平台的数据和计算资源是免费开放给学术界的,第一期开放三类科研数据集,包括用户购买成交记录、商品购买评论记录、商品浏览日志记录等,数据经过脱敏处理,所有数据均只能在“天池”平台中使用。(ODPS是一个收费的、商用的平台,而天池平台是基于ODPS,开放给高校和科研机构的一个平台,也就是说,相当于阿里巴巴替这些高校科研机构付费了)

3、天猫推荐算法大赛开放的竞赛数据:在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来对品牌下商品的购买行为。

4、从阿里巴巴的角度来说,做天池的主要目的是:1)为教育事业做贡献。目前中国高校科研所用数据,都是很老的数据集,科研单位非常渴望能拿到阿里的真实数据集做学术研究,我们提供这些数据集也是为了帮助大数据科研领域的发展;同时,培养和储备人才也是一个目的。

 

【御膳房】clouddata.taobao.com

基于ODPS,阿里为第三方软件服务商和品牌商提供大数据计算、挖掘、存储的云环境开发平台,构建阿里数据生态。通过御膳房数据市场,数据消费者与数据提供者可以安全地交易、使用海量数据,实现数据价值。

  1. 丰富的淘宝数据。目前御膳房已开放商品、商家、客服绩效、品牌四大主题数据,后续会继续开放行业、竞品等主题数据;同时开发者也可以将个人数据上传使用。
  2. 指标标准可靠。开放共建的聚石塔数据标准联盟,御膳房提供完善准确的基础指标定义,计算口径,检验工具等,确保数据标准、唯一可靠。
  3. 自助计算。强大稳定的计算能力,提供离线分布式计算平台及强大的算法环境,自主提交计算任务,自主开发模型挖掘数据价值,大数据计算快速响应。
  4. 安全的操作平台。御膳房支持隔离的数据存储、独立的数据任务部署,确保御膳房内的数据交易与数据开发安全防泄漏。
  5. 灵活数据接口。开发者可根据需求灵活定制API,数据输出符合TOP API规范。
  6. 大数据挖掘工具。御膳房提供R、Python、MySQL在内的主流大数据挖掘工具,支持模型研究与快速迭代试验,提升数据价值。

 

【参考文章】

阿里大数据“榨果汁” //www.wtoutiao.com/a/336506.html

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部