大数据的理想与现实

仿佛只是一夜之间,“大数据(Big Data)”火了。

那一个个关于大数据的传奇故事,一桩桩争夺大数据制高点而展开的并购案,一个接一个轮流发布大数据战略的IT厂商,还有那一场场以大数据为主题的各种研讨会,无一不在宣告,IT界又迎来了新的兴奋点、新的机遇,同时,也是新的挑战。

“数”中自有黄金屋

严格地说,大数据并非一个新词,被誉为“数据仓库之父”的Bill Inmon早在上个世纪90年代就经常将“Big Data”挂在嘴边了。大数据之所以在近一两年迅速走红,要归结于互联网、移动设备、物联网和云计算的迅猛发展,使得人类每分每秒都在产生巨量数据——从出现文明到2003年,人类总共才创造 5 EB(5 ExaBytes)的数据,但是我们现在仅在两天内就创造出相同的数据量。来自IDC全球存储及大数据研究项目副总裁Benjamin Woo表示,到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。35ZB是什么概念呢?(1ZB=1024EB=1048576PB=1073741824TB,1073741824TB×35=37580963840TB),也就是说全球大概需要376亿个1TB硬盘来存储数据。

但是大数据并非单指数据量之大。对于大数据,IDC的定义是:“为了更经济地从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术。”人们普遍将该定义概括为四个V,即更大的容量(volume,从TB级跃升至PB级,甚至EB级)、更高的多样性(variety,包括结构化、半结构化和非结构化数据),以及更快的生成速度(velocity)。前面三个“V”的组合推动了第四个因素——价值(value)。

关于大数据所蕴含的价值,有许多为人所津津乐道的故事可以佐证:

美国印地安那大学和英国曼彻斯特大学的学者通过提取Twitter上的非结构化数据分析公众情绪,再将情绪曲线与道琼斯工业指数进行对照分析,发现可以提前3~4天预测股市大盘走势。基于此,他们已经推出了欧洲第一只基于社交媒体的对冲基金。

                                                                                            (单位:百万美元)

又例如,英国的科学家根据Twitter的数据来跟踪流感的爆发。他们主要基于用户发布信息中的关键词,例如“我头痛”等,并结合用户的发布地点,按区域与英国卫生部的官方数据进行了比较,最终建立起一个预测模型。创业团队“SickWeather”甚至以预测疾病为主题开展了自己的创业项目。

象这样的大数据经典案例还有不少,而整个商业社会对大数据将带来的影响给出了极高的评价——

麦肯锡全球研究机构在2011年5月发布的《大数据:创新、竞争和生产力的下一个前沿领域》中表示,充分利用大数据可帮助全球个人定位服务提供商增加1000亿美元收入、帮助欧洲公共部门的管理每年提升2500亿美元产值、帮助美国医疗保健行业每年提升3000亿美元产值,并可帮助美国零售业获得60%以上的净利润增长。

在今年年初的瑞士达沃斯论坛上,一份题为《大数据,大影响》(Big Data,Big Impact)的报告宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。

而《华尔街日报》在文章《科技变革即将引领新的经济繁荣》中更是大胆预测:“我们再次处于三场宏大技术变革的开端,他们可能足以匹敌20世纪的那场变革,这三场变革的震中都在美国,他们分别是大数据、智能制造和无线网络革命。”

更加值得关注的则是,美国已经把大数据上升到了国家战略的层面。根据美国白宫今年3月29日新闻,奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,希望增强收集海量数据、分析萃取信息的能力。

在我国,大数据作为一个较新的概念,目前尚未直接以专有名词被我国政府提出来给予政策支持。不过,在2012年12月8日工信部发布的物联网“十二五”规划上,信息处理技术作为四项关键技术创新工程之一已经被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外三项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与大数据密切相关。

大数据的价值和重要性已经毋庸置疑,但大数据究竟带来了哪些新的技术趋势,它对当前IT产业的势力格局会造成何种影响,更关键的是,每个企业如何才能获取大数据中的“宝藏”?则是我们真正关注的焦点。

淘金的工具、流程与方法

作为一门新兴科学,大数据带来新的挑战的同时,催生了许多新的技术和趋势。

“现有的软件和工具主要适用于以结构化数据为主的传统数据,要想及时捕捉、存储、聚合和管理这些大数据,以及对数据进行深度分析和挖掘,我们不得不需要新的技术和能力。”英特尔亚太研发有限公司总经理何京翔说。

英特尔亚太研发有限公司总经理 何京翔

这些新技术包括分布式缓存、基于MPP(海量并行处理)的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案等,而其中最炙手可热的新技术就是Hadoop。

Hadoop主要由HDFS、MapReduce和Hbase组成。 它是一个分布式系统基础架构,由Apache基金会开发,用户可以在不了解分布式底层细节的情况下开发分布式程序。简单地说来,Hadoop是一套开源的、基础是Java的、能够让数千台x86服务器组成一个稳定的、强大的集群,对Pb级别的大数据进行存储、计算的软件平台。谷歌、雅虎、亚马逊、Facebook,以及国内的淘宝、百度等都采用了Hadoop技术来处理海量数据。

尽管Hadoop是开源软件,但英特尔、IBM、Cloudera等厂商都推出他们各自的Hadoop特别发行版本。这些特别发行版本一般都会有一些附加特性,比如高级管理工具及相关的支持维护服务,主要适合企业用户。毕竟绝大多数企业用户都和互联网公司一样具有强大的技术实力,采用具有商业支持的开源Hadoop技术能够快速切入到大数据应用中去。民生证券技术总监颜阳就特别强调:“做大数据的分析与应用,全靠企业自身的话还是很有难度,也不见得是最省事的方式,而且最核心最有价值的工作其实是建立分析模型。因此,我建议企业用户在大数据平台建设上借助商用的大数据解决方案或有商业支持的开源技术,从而将更多的精力投入在商业模式上。”

民生证券技术总监 颜阳

在大数据的具体处理流程上,人文科技创始人吴朱华表示:“大数据的处理流程一般包括采集、导入、分析、挖掘四个阶段,每个阶段都有许多挑战。”

人文科技创始人 吴朱华

例如,在采集来自各种客户端(Web、App或者传感器形式等)的数据的阶段里,最大挑战在于并发数高,因为同时有可能会有成千上万的用户来进行访问和操作(比如火车票售票网站和淘宝),所以需要在采集端部署大量数据库才能支撑。

采集完数据后,还要将数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并在此基础上做一些简单的清洗和预处理工作。“导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。”吴朱华说。

接下来主要是利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。其中,对半结构化、非结构化数据的处理与分析就是Hadoop大显身手的时候了。但这一阶段由于涉及的数据量大,对系统资源,尤其是I/O资源的消耗量会很大。

最后数据挖掘阶段就涉及到各种算法与模型了。由于用于挖掘的算法很复杂,并且计算涉及的数据量都很大,对底层计算资源的要求将比较高。

“从大数据处理流程就可以看出,我们需要为大规模分布式数据密集型作业而设计的计算系统,需要经济高效智能的存储,需要可快速导入大型数据集然后复制到各节点进行处理的网络基础设施,需要保护高度分布式基础设施和数据的安全能力,以及那些拥有统计数据、算法、数据挖掘和可视化技术识别机会的专家团队。总之,大数据是一个端到端的全面解决方案,涉及到服务器、存储、网络、软件等各个环节。”何京翔说。

当谈到如何着手大数据应用实践时,吴朱华建议企业用户要找准切入点。最好是找到一个技术难度小,并且有一定的商业价值的场景来做大数据技术落地的试点,并不断地进行测试和迭代来验证,而不是一味求复杂、求大,这样比较容易说服企业管理层来进行长期的投入和支持。

此外,他还强调:“尽量不要走平台思路,应以具体的应用和场景为主。因为建一个平台有很多附加的成本和设计,例如,亚马逊的云平台是通过至少五年时间构建而成。特别是项目初期,不建议走平台这个方向,而是应脚踏实地以具体的商业场景为主。”

关键趋势:企业级市场积蓄大数据商机

无论是国内还是国外,对大数据展开率先研究与应用都是互联网公司,因为互联网公司最先面临来自海量、多样化的数据的压力。但是,IDC中国企业级系统与软件研究部高级研究经理周震刚表示,大数据的一个重要趋势就是,由网络处理走向企业级应用。

IDC中国企业级系统与软件研究部高级研究经理 周震刚

“未来几年,我们将看到大数据应用将从互联网逐渐向更多的行业发展,所以未来对基于数据流的监测和分析将有更多的需求。”周震刚说。例如,电信运营商利用大数据技术对用户的行为习惯进行分析,就能更有针对性地制订市场营销计划或开发出更多全新的商业模式和服务;金融行业能借该技术更快速地分析在金融机构之间交换的营销与交易数据,以确保交易的安全可靠和防欺诈;智能城市及物联网领域则可借大数据技术更快实现智能交通监控、智能公共安全、气象和污染变化的智能监控及预测等应用。

事实上,大数据向企业级应用的迁移趋势已经初步显示。例如,中国东方航空信息部总经理严振红告诉记者,他们已经密切关注大数据,正在做一些研究性工作;民生证券早已于去年开始了实验性质的大数据应用研发;而中国联通则是非互联网用户中走得比较超前的两家企业。

据中国联通研究院副院长黄文良介绍,由于此前难以向用户提供上网记录查询服务,中国联通曾一度为3G服务客户数据流量所引发的计费争议所困扰,而通过采用基于至强平台及英特尔发行版Hadoop的大数据解决方案,中国联通目前已在移动通信用户上网记录集中查询与分析支撑系统的建设上获得了重要进展。这也是电信行业首次将Hadoop/HBase引入商用电信服务系统建设中。

“这一系统可为我们的客户服务人员提供客户上网记录的快速查询服务,或为客户本人提供高效的异常大流量上网记录自助查询服务,这将有助于解决流量投诉问题,”黄文良表示:“未来该系统还有望帮助我们更为准确地把握用户偏好,从而让我们能更有效地制定市场策略和开发新业务。”

中国联通研究院副院长 黄文良

随着大数据向企业级应用的深层次渗透,周震刚表示还将可能带来两大新的变化。

一是大数据将创造细分的市场。数据分析、数据代理将可能作为一种服务出现,专门面向数据分析人才培训的市场也会随之火爆。当然,肯定还有一些目前无法想象的细分市场涌现出来。

二是将可能出现打包的大数据行业应用。“从传统概念来讲,大数据太复杂了,无法形成打包好的分析应用,但是在未来几年中,某一个行业的应用会形成一定的共性,将会有厂商根据行业的分析应用,打包好一些分析的应用,然后将基于大数据的分析应用推广到行业方面,这不仅需要做数据分析的专长,也需要很多行业方面的专业知识,将会有很多行业的ISV加入到大数据行列中,基于大数据平台开展他们的大数据分析应用。” 周震刚说。

事实上,有些动作敏捷的IT公司已经开始与一些专注于特定行业需求的本地系统集成商协作,开始构建专为相关行业应用优化的大数据解决方案。例如,英特尔正在支持2011年夺得全世界视频监控产品市场份额第一,并在全球安防领域内拥有最大规模研发中心的海康威视,去开发和推广基于至强平台和英特尔发行版Hadoop的大数据处理方案,以满足平安城市和智能交通应用对海量非结构化数据进行高效处理的要求。

总之言之,大数据市场正在积蓄无限商机。根据IDC的预测,到2015年,全球大数据市场规模将从2012年的20亿美元增长至160亿美元。无疑,企业级市场将对此增长贡献良多。

征战新蓝海 IT厂商布局忙

拥有广阔市场发展前景的大数据俨然成了一众IT厂商心中的新蓝海,IT厂商们早已开始为此排兵布阵。他们或发布战略、或推出产品,各种合作、收购动作频频,着实热闹。

例如,2010年IBM收购了数据分析公司Netezza,并在去年5月推出了InfoSphere BigInsights软件(该软件包包括Apache Hadoop发行版);惠普不仅将Vertica揽入怀中,还重金收购了对Autonomy,并于今年推出了与Vertica 6实现高级集成了的大数据应用平台HP AppSystem for Apache Hadoop;EMC自收购Greenplum后,很快发布支持大数据分析的下一代EMC Greenplum统一分析平台;甲骨文则通过NoSQL数据库和Big Data Appliance(大数据机)让客户直接拥有处理非结构化海量数据的能力;而HANA则让SAP享有风光无限;戴尔选择联手Cloudera跻身Hadoop阵营;微软已推出了基于Azure云平台的Hadoop服务;就连传统芯片厂商英特尔也宣布,不仅继续打造的高效IT基础设施,还推出了针对英特尔平台优化的Hadoop产品和服务。

市场研究Wikibon认为,得益于深厚的积累,IBM、英特尔这些老牌劲旅目前还是占据了优势地位。根据该公司的调研报告,IBM所占有的大数据市场份额最大,总价值约10亿美元,英特尔的大数据运营收入为7.65亿美元,惠普则位列第三,分得5.5亿美元。

此外,Cloudera、Splunk 、Clustrix、1010data等一些新兴的大数据企业异军突起,它们力争在未来庞大的市场需求中打拼出自己的创新空间。不过,令人较为遗憾的是,国内类似的大数据创新企业还比较少,希望这一局面能够尽早得以改变。

文章最后,请容许笔者引用戴尔服务部首席创新官James Stikeleather的一句话寄语已经莅临的大数据:“对于一项新技术,人们总容易高估它的短期影响,又低估它的长期效益。”

【表】IDC全球大数据市场规模与预测 2012~2015

【IDC对大数据的十大预测】

1. Hadoop迈向商业化

2. 部分早期的Hadoop项目面临挑战

3. 开源软件带来更多相关市场机会

4. 大数据推动软件公司间的并购

5. 针对大数据的应用市场迅速增长

6. 大数据由网络处理走向企业级应用

7. 大数据创造新的细分市场

8. 打包的大数据行业分析应用出现

9. 大数据推动基础架构向Scale-Out发展

10. 中国成为全球最重要的大数据市场之一

【关于Hadoop,你应该知道的8个事实】

事实1:Hadoop是由多个产品组成的。

人们在谈论Hadoop的时候,常常把它当做单一产品来看待,但事实上它由多个不同的开源产品共同组成,这些产品都是Apache软件基金会的项目。

事实2:Apache Hadoop是开源技术,但专有厂商也提供Hadoop产品。

由于Hadoop属于开源技术,可免费下载,所以英特尔、IBM、Cloudera等厂商都可以推出他们各自的Hadoop特别发行版本。这些特别发行版本一般都会有一些附加特性,比如高级管理工具及相关的支持维护服务,特别适合企业用户。

事实3:Hadoop是一个生态系统,而非一个产品。

Hadoop是由开源社区和各个厂商共同开发和推动的。具体说来,厂商的Hadoop产品的结构化和关系性更强一些。

事实4:HDFS是文件系统,而不是数据库管理系统。

经常有人把二者混为一谈,但其实并非如此,能够对数据集进行管理是数据管理系统很重要的特性之一,这一点HDFS是不具备的。而且,在数据库管理系统中,我们通过查询索引可以实现对数据的随机访问,它往往处理的是结构化的数据,而在Hadoop中不会处理这样的数据类型。

事实5:Hadoop的意义不仅仅在于数据量,更在于数据的多样化。

有人把Hadoop归类为海量数据处理技术,但是Hadoop真正的价值却是对多样化数据(主要指半结构化与非结构化数据)处理的能力。

事实6:Hadoop是数据仓库的补充,不是数据仓库的替代品。

Hadoop对多样化数据类型进行管理的能力使得“数据仓库将死”的言论四起,但其实并非如此,传统数据仓库在其领域中的性能仍然出色,Hadoop对数据仓库技术是补充的作用。

事实7:大数据不一定非Hadoop不可。

别看现在大数据和Hadoop已经密不可分,但Hadoop并不是大数据的“唯一”。许多其他厂商的产品,如Teradata、Sybase IQ(被SAP收购)和Vertica(被惠普收购)等都适用于大数据分析。

事实8:Hadoop不是“免费午餐”。

虽然Hadoop属于开源技术,但其实有许多隐形开销。由于Hadoop在管理工具与支持服务方面的不足,企业在使用过程中很容易产生额外费用。另外,由于它没有优化程序,企业用户只能请专业人士在运行环境中手写输入代码,而这些专业人士的薪酬价码都不菲,更不用提部署Hadoop集群的硬件及相关配置的成本。

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部