大数据：第一部分产业大势–【连载】

第一部分产业大势

大势汤汤，顺昌逆亡。产业兴衰的决定性因素，已经不是一城一地的争夺。土地、人力、技术、资本这些传统的生产要素，甚至需要追随“数据资产”，重新进行优化配置。数据成为推动行业融合兼并、企业做大做强的战略性资产。不同产业围绕“数据资产”展开的争夺，将重新定义产业的生态环境和竞争格局！

第一章大数据概述

大数据是“在多样的或者大量的数据中快速获取信息的能力”。

——作者

提要

1．大数据是信息科技与工业生产和社会发展紧密融合的枢纽，是信息科技发展的高级阶段。其影响力超越信息产业，将引起社会、经济、学术、科研、国防、军事等领域的深刻变革。

2．大数据认知框架是全面理解、掌握、运用大数据的重要工具，对产业界确立公司战略、资本市场确定投资方向、以及政府制定产业政策具有重要的参考意义。

3．随着大数据时代的到来，数据科学应运而生。数据科学是衔接学术界与产业界的新兴交叉学科，它的兴起既可以推动数学、计算机科学、统计学、天体信息学、生物信息学、计算社会学等学科的发展，又是产业界升级转型的基石。而企事业沉淀的数据资产，则成为数据科学与工程实践相结合的最佳演练场。

4．需要在宏观尺度拓宽大数据视野、建立完整的大数据思维；正视普遍存在的三大数据治理问题（数据割据、数据孤岛和数据质量）及人才短缺的现状。

引子

大数据总统奥巴马

2012年8月份，美国总统大选正如火如荼。出人意料的是，奥巴马总统的数据团队要求他去一家叫Reddit的闻网站去回答问题。对许多人来讲，Reddit是一个陌生的名字，总统的高级助手们也不例外。但是来自数据团队的回答却非常简单：“因为我们需要动员的一些人，经常在Reddit上。”

这仅仅是选战过程中一件毫不起眼的数据决策案例。事实上，奥巴马的数据团队非常神秘，低调，但其触角又无处不在，他们被内部人士戏称为“核编码”。他们创建了单一的巨大系统，可以从民调专家、筹款人、选战一线员工、消费者数据库、以及“摇摆州”民主党主要选民档案的社会化媒体联系人与手机联系人那里得到的所有数据都聚合到一块。这个组合起来的巨大数据并不仅仅让竞选团队能够发现选民并获取他们的注意，还能让数据处理团队去做一些测试，看哪些类型的人有可能被某种特定的事情所打动或说服。

这个数据库帮助奥巴马在筹集资金、广告投放、活动安排等等方面发挥了难以替代的作用。以筹集资金为例，在12年8月份，所有人都认为无法完成筹集10亿美元的目标。但是数据团队发现参与了“快速捐献”计划的人，捐出资金是其他捐献者的4倍。于是该计划被大规模推广，达成了10亿美元的目标。

与其依赖于外部媒体顾问来决定广告应该在哪里出现，数据团队觉得不如将他的购买决策建立在内部大数据库上。“我们可以通过一些真的很复杂的模型，精准定位选民。比如说，迈阿密戴德35岁以下的女性选民，如何定位？”一个官员说。结果是，竞选团队买了一些非传统类剧集（如《混乱之子》、《行尸走肉》、《23号公寓的坏女孩》）之间的广告时间，而回避了跟地方新闻挨着的广告时间。奥巴马团队2012年的广告购买比2008年高了多少呢？芝加哥方面有一个数字：电视广告效率提高了14%。

数据团队每天晚上都在运行66000次选举，次日清晨，数据处理结果告诉竞选团队赢得这些州的机会在哪，从而合理调配资源。基于大数据的模拟竞选，可以推算出奥巴马在每个“摇摆州”的胜算，进而采取相对应的活动。

“决策者们坐在一间密室里，一边抽雪茄，一边说:‘我们总是会在《60分钟》节目上投广告。’”的时代已经结束。在政治领域，大数据的时代已经到来。”

一瓶茅台酒的旅程

消费者最头疼的恐怕还不是茅台酒的价格，而是能否买到货真价实的茅台。道高一尺魔高一丈，茅台历来的防假手段，除了推高茅台酒瓶的回收价格以外，似乎并没有真正让消费者放心。

为每一瓶茅台建立“档案”，消费者可以轻松方便的查询到任何一瓶茅台酒的档案材料，是防假的终极解决之道。每一瓶酒都有一个独立的“身份证号”，铭刻到酒瓶上，在信息系统中，记录下从灌装到出厂、运输、批发、零售所有环节的信息。人们只要把“身份证号”传输到网站一查，真伪立辩。这个办法看起来容易，但是真正实施，我们立刻会被淹没在大量的数据之中。

不仅仅是茅台，中国目前所有食品面临“安全、卫生”的大难题。如果能把茅台酒的做法推而广之，无疑是全民之福。但是这些海量的数据记录，对传统的信息处理技术，提出了巨大的挑战。

茅台的故事，其实可以演绎出管理理念的变化。这是管理日益精细化的具体体现。原来“茅台们”的管理都是按照生产批次，通常认为同一个生产批次的产品，是没有差别的。现在的管理理念则不同，要求对每一件单品实行差别化管理。

城市治理中，也在发生同样的事情。小到每一个下水道井盖都被仔细编号，追踪。这当然另我们的生活更加便利，但产业界首先需要应对的则是大数据的挑战。

大数据，事关国计民生、产业兴衰、公司存亡，不可不察。

信息科技经过60余年的发展，数据（信息）已经渗透到国家治理、国民经济运行的方方面面。经济活动中很大一部分都与数据的创造、传输和使用有关。2012年3月，奥巴马公布了美国《大数据研究和发展计划》[1]，标志大数据已经成为国家战略，上升为国家意志。国家竞争力将部分体现为一国拥有数据的规模、活性，以及解释、运用数据的能力；国家数字主权[2]体现对数据的占有和控制。数字主权将是继边防、海防、空防之后，另一个大国博弈的空间[3]。没有数据安全，也就没有国家安全。

华为、中兴开拓美国市场受挫，就是非常明显和清晰的信号。美国政府对自家数据安全的重视程度，已经到了不能让任何外国信息基础设施产品供应商染指的地步。华为此前一直希望通过竞标和并购等方式进入北美市场，多年来未能如愿。2008年，华为与贝恩资本联合竞购3COM公司，却因美国政府阻挠未能成行；2011年，华为被迫接受美国外国投资委员会的建议，撤消收购3Leaf公司特殊资产的申请；同样是在2011年，美国商务部阻止华为参与国家应急网络项目招标。

再看美国国防部立项的几个大数据项目[4]：多尺度异常检测（ADAMS）项目，解决大规模数据集的异常检测和特征识别的问题；网络内部威胁（CINDER）计划，旨在开发新的方法来检测军事计算机网络与网络间谍活动，提高对网络威胁检测的精准度和速度；Insight计划，主要解决目前情报、监视和侦察系统的不足，进行网络威胁的自动识别和非常规的战争行为。……参见附录四。其他部门包括国土安全部、能源部、卫生和人类服务部、国家航天总局、美国国家科学基金会、美国国家安全局、美国地质调查局纷纷推出大数据项目。奥巴马指出：“通过提高我们从大型复杂的数据集中提取知识和观点的能力，加快科学与工程前进步伐，改变教学研究，加强国家安全。”

产业层面，大数据技术虽然发源于信息科技，但其影响已经远远超出信息行业。数据已经存在于全球经济中的每一个部门，就如固定资产和人力资本等生产要素一样，如果没有它许多现代经济活动就不会发生。笔者观察到一些新兴的互联网公司，利用新技术大规模地收集数据，预判客户行为，然后在不同的行业纵横捭阖。他们剑锋所指，现代服务业无不受其锋芒所迫，或随波逐流，或奋起反击，但缺少数据资产、缺少强大的数据分析能力，这类公司无疑处在被颠覆的边缘。另一方面，也看到传统行业的公司，数十年如一日坚持积累当时被视作“废料”的数据，现在回头审视这些数字化的资产，居然一跃成为人类的宝库。凭借独一无二的“数据资产[5]”，公司进入相关行业，易如反掌。

我们回头审视产业的起起伏伏时，就会发现决定产业兴衰的决定性因素已经不是一城一地的争夺了。土地、人力、技术、资本这些传统的生产要素，甚至需要追随“数据资产”重新进行优化配置。封建时代，往往是裂土封王，权贵都是大地主；工业革命后，制造业巨子成为偶像；资本市场化后，受到追捧的是拥有大量钱财的投资家；但是在大数据时代，“数据资产”成为最重要的生产要素，拥有大量数据资产的人，已经成为美国总统的座上宾[6]。

产业的分分合合，一直是资本市场非常喜欢的故事。不管是分拆也好，整合也罢，资本市场都有钱赚。以往产业的整合基本围绕产业链展开，要么向上游扩展，要么向下游兼并。但是在大数据时代，人们看到的商业图景是围绕“数据资产”拉开产业并购的大幕。谷歌所有的收购或者推出的新产品，都是为了增加数据资产的“维度”和“活性[7]”。所有观察公司发展、产业未来的机构或者个人，如果忽略“数据资产”，或者对“数据资产”认知肤浅，必将导致错误的判断。大数据将是决定产业未来的战略性资产。未来产业间的整合并购，将会在很大程度上围绕“数据资产”展开争夺。

企业家、投资人、咨询顾问、分析师，必须要从战略层面思考大数据对产业、对公司的影响。2012年初，笔者曾经和恒安国际的董事会一道交流大数据对制造业的影响。会上许连捷总裁[8]说：“在大数据时代我们收集数据，研究消费者行为，推出新的产品、改善供应链，降低库存。一句话就是把大数据融入到经营中去，也许有可能把库存降到近乎‘零’的水平。所以，我们谈大数据，首先是思维方式的问题，要建立全面、系统的大数据意识，其次才是落实到公司战略。大数据对公司的影响是多方面的，涉及组织、文化、流程、技术等”。本书第八章将详细论述大数据对公司组织结构的影响，在此不赘言。

具体到中国信息产业，发展速度一直落后于国外的巨头，长期处在产业链的末端，赚取刀片一样的利润，积累到最后发觉只形成了简单可替代的“中国制造”而非具备革命性创新性的“中国智造”。国家拿出大笔资金扶持上游环节的拓荒者，如CPU、操作系统、办公软件，但是相关领域国内外的差距过于遥远，也缺少大规模的商用市场，花了国家的钱，却鲜有在商业上大获成功的先例。但是在新兴的大数据处理领域，中外公司几乎站在同一起跑线上。中国作为数据的巨大产生国，有着更广阔的应用空间。比如，中国移动、工商银行、淘宝，已经具备世界级的产业应用环境。有业内人士表示，单纯考虑狭义的大数据处理技术（如Hadoop、MapReduce、模式识别、机器学习等），中外差距仅有5年左右。如果考虑数字资产规模以及利用的技术，中外差距更多体现为意识上的差距。美国在数据开放、跨部门共享方面做出了表率，而我国对大数据的价值和应用，政府、学术界、产业界和资本市场尚待达成一致的认知。各部门、各地方普遍存在“数据割据”和“数据孤岛”的现象，缺乏大数据意识是阻碍我国大数据技术在各行业落地的关键因素。

大数据时代，有两点非常有利于中国信息产业跨越式发展。第一，大数据技术以开源为主，迄今为止，尚未形成绝对技术垄断。即便是IBM、甲骨文等行业巨擘，也同样是集成了开源技术，和本公司原有产品更好地结合而已。开源技术对任何一个国家都是开放的，中国公司同样可以分享开源的蛋糕。但是需要更加开放的心态、更加开明的思想，正确地对待开源社区。第二，中国人口和经济规模决定中国的数据资产规模冠于全球，客观上为大数据技术的发展提供了演练场。第二点亟待政府、学术界、产业界、资本市场四方通力合作，在确保国家数据安全的前提下，最大程度地开放数据资产，促进数据关联应用，释放大数据的大价值。

目前，政府和产业界积累了大量的数据资产，但是苦于缺乏行之有效的与工程实践匹配的算法和人才来充分挖掘数据的价值。形象地说，好多行业是守着“金山要饭吃”。而学术界，尤其是应用数学领域，在统计学习、图像处理、网络科学领域钻研颇深，但缺乏大量的实际数据来验证和训练算法。虽有屠龙术，无处展身手，两方长期处于脱节的状态。如果应用数学界和产业界紧密协作，将是中国公司的极大利好，会大大促进公司的发展。2012年11月17日，在北京大学国际数学研究中心召开了首届“数据科学与信息产业研讨会”。学术界和企业界的一百多位领军人物和活跃分子聚集在一起，共同商讨数据科学的含义和发展计划，以及企业界的需求。这次会议为促进学术界和信息产业的联合，开了一个好头。

数据资产并不是大公司才有的专利。在第三章中将详细讨论一种“泛互联网化范式”，终端+平台+应用，最后形成数据资产。许许多多富有活力的公司，均符合这一范式。这也是创业型公司开启大数据之路的总结和探索。

自从我们在中国资本市场第一个发出“大数据时代即将到来”的声音后，大数据已经成为年度热词。综合政府、学术界、产业界的最新动向，笔者预计，如果把2012年看成大数据普及之年，那么2013年将成为大数据应用之年。相关产业规划、行业政策将纷纷出台；金融、电信、政府、电商、医疗、平安城市等相关应用将加速推进；2014~2016年将是大数据效益之年，若干中国大数据公司相关业务形成爆发性增长，部分相关公司海内外融资或IPO上市。

本书的内容将围绕大数据对产业走势、融合、变迁的影响，在产业中的具体应用（商业模式），以及数据科学的兴起三大主题展开。本章包括大数据产生的历史背景、激动人心的典型特征、系统全面的认知框架等内容，最后会简略说明推广大数据面临的困难和挑战。

第一节大数据产生的历史背景

提要：

1．信息基础设施持续完善，包括网络带宽的持续增加、存储设备性价比不断提升，犹如高速公路之于物流，为大数据的存储和传播准备物质基础。

2．互联网领域的公司最早重视数据资产的价值，最早从大数据中淘金，并且引领大数据的发展趋势。

3．云计算为大数据的集中管理和分布式访问提供了必要的场所和分享的渠道。大数据是云计算的灵魂和必然的升级方向。

4．物联网与移动终端持续不断的产生大量数据，并且数据类型丰富，内容鲜活，是大数据重要的来源。

信息科技进步

如果把信息技术的不断进步看成世界万物持续数字化的过程，则会理出一条清晰地主线。信息科技具有三个最核心和基础的能力：信息处理、信息存储和信息传递，几十年来这三个能力的飞速进步，是人类科技史上最为激动人心的故事之一。

现代意义上计算机的发明，归功于军事上的需要。1946年2月14日，由美国军方订制的世界上第一台电子计算机——“电子数字积分计算机”在美国宾夕法尼亚大学问世，主要是为了满足计算弹道需要而研制的。“电子计算机”的称谓的确名副其实，其最初的目的就是为了更迅速的进行大量数学运算。

数学一直是计算机学科的基础，尤其是离散数学，奠定了计算机学科的理论基础。人们把计算机之父的桂冠戴在两位数学家的头上，分别是艾伦·图灵[9]和约翰·冯·诺依曼。迄今为止，人类都把图灵机作为现代智能类工具的鼻祖。美国计算机协会（ACM，Association for Computer Machinery）于1966年设立图灵奖，专门奖励那些对计算机科学研究与推动计算机技术发展有卓越贡献的杰出科学家。它被公认为计算机界的“诺贝尔”奖。以他命名的图灵机是一个二进制计算的抽象理论模型，并不是计算机的工程设计。冯·诺依曼[10]则被公认为是现代计算机（工程实现）的鼻祖，他领导的小组提出了完善的计算机设计报告。

1965年，戈登·摩尔（Gordon Moore[11]）——英特尔公司的创始人之一，准备了一个关于计算机存储器发展趋势的报告。在他开始绘制数据时，发现了一个惊人的趋势：每个新芯片大体上包含上一代芯片两倍的容量，每个芯片的产生都是在前一个芯片产生后的18~24个月内。如果这个趋势继续的话，计算机的计算能力相对于时间周期将呈指数式上升。简而言之，“芯片上可容纳的晶体管数目，每隔18个月左右便会增加一倍，性能也将提升一倍。”后来人们发现这不仅适用于对存储器芯片的描述，也精确地说明了计算能力和磁盘存储容量的发展，于是，摩尔定律成为许多工业对于性能预测的基础，主宰了信息产业的发展。

在摩尔定律的指引下，信息产业周期性地推出新的计算机，操作系统和计算能力均在不断提高。工业界和个人都不断地升级计算机设备，从而推动信息产业的巨大进步。每当英特尔公司开发出计算能力更强的芯片，微软公司就会适时推出功能更强大、操作更方便的操作系统。当人们采用了微软的新操作系统后，就会发现系统变慢，不得不升级硬件设备。每当计算机产业发展放缓，硬件生产商就会翘首企盼微软新的操作系统，带动客户新一轮的升级换机热潮。这种循环持续不间断地上演了40余年。这段波澜壮阔的历史，使信息处理和储存能力获得了成千上万倍的提升。

1977年，世界上第一条光纤通信系统在美国芝加哥市投入商用，速率为45Mbit/s，自此，拉开了信息传输能力大幅跃升的序幕。有人甚至将光纤传输带宽的增长规律称为超摩尔定律。认为带宽的增长速度比芯片性能提升的速度还要快。

事实上，存储的价格从20世纪60年代1万美元1MB，降到现在的1美分1GB的水平，其价差高达亿倍，如图1-1所示。在线实时观看高清电影，在几年前还是难以想象的，现在却变得已习以为常了。网络的接入方式也从有线连接向高速无线连接的方式转变。毫无疑问，网络带宽和大规模存储技术的高速持续发展，为大数据时代提供了廉价的存储和传输服务。因而本书假定存储和带宽不再是制约数据应用的因素。

图1-1 存储价格的下降 [12]

图1-2 网络带宽的增加[13]

互联网诞生

互联网的出现，在科技史上可以比肩“火”与“电”的发明。这个伟大的发明同样是由军事目的驱动的。计算机在军方应用得越广泛，计算机上保存的军事机密就越多。人们担心如果保存重要军事机密数据的主要计算机被摧毁的话，很可能就会输掉整个战争，于是，推动计算机之间互相传递数据并互为备份的通信机制被提上日程。1969年，把分属于不同大学的四台计算机互相连接起来，这就是最早的互联网雏形。

互联网把每个人桌面上的计算机连接起来，改变了人们的生活，成为大家获取各类数据的首要渠道。通过互联网获取数据的模式可以被简单地抽象为“请求”加“响应”的模式。理解这种获取信息的方式，有助于理解“大数据”的价值，所以我们多花些笔墨把这个模式解释清楚。

互联网上的“脚印”

用收音机听广播，或者用电视机看电视节目，都是“广播”加“接收”的模式。不管有没有电视机在接收信号，广播塔总是在发送电视节目信号。随时打开电视机，随时就能收看电视节目。在“广播”加“接收”模式中，广播塔是不知道有谁在接收节目的，如图1-3所示。

图1-3 “广播”加“接收”模式

“请求”加“响应”模式则不同，如果客户端（所有接入互联网的设备、软件等）不主动要求，服务器端是不会发送任何数据的，如图1-4所示。互联网应用协议基本上都是这种模式。当然也有“广播”加“接收”模式的协议，但是不常用。每一次访问请求其实就是一次鼠标点击操作，服务器的日志中，忠实地记录下来每个人访问的时间、请求的命令、访问的网址等数据。这些访问记录，就像人们在雪地上行走留下的脚印一样，“脚印”连成一串，构成了人们在互联网上的“行为轨迹”。想一想猎人是怎样通过追踪脚印捕获猎物的，就会明白这些“轨迹”中蕴含着巨大的价值。所以各类服务器上的日志就是一种非常重要的大数据类型。

图1-4 “请求”加“响应”模式，记录用户的请求

曾经有制作服装的公司想要调查顾客的购买意愿。需要统计顾客拿起了哪件衣服？试穿了哪件衣服？在专卖店逗留了多长时间？这就需要安装摄像头，要选样本，可能花费上亿的资金。要想省钱的话其结果可能会失去参考价值。如果在网上做同样的事情，成本近乎为“零”。大家可以想想，在淘宝网或者京东商城的主页上，每一个网页都相当于一家店铺，打开这个网页就等于进入了店铺；点击了衣服，相当于顾客拿起衣服仔细端详；把衣服放到收藏夹，可以理解为试穿；在实体店中的顾客行为几乎被完整地映射到网页上。不同的是，互联网忠实地记录下“顾客”在“店”里停留的时间、关心的品类；此外，顾客和销售员的对话、顾客与顾客之间的对话，也被忠实地记录、保存。互联网企业做与那家制衣公司同样的调查，成本近乎为“0”。

图1-5 网络生活（来源：谷歌）

因为互联网的内在机理，使互联网成为大规模接近消费者、最理解消费者的工具和平台。互联网没有删除键，人们在互联网上的一言一行都被忠实地记录。古代皇帝身边总有一位兢兢业业的史官，随身携带纸笔，记下皇帝的起居作息、金口玉言。互联网就像每个人的“史官”，它从不知疲倦，事不分大小，悉心而精准地记录着一切。事实上，这位“史官”记录的就是大家的数字化生活。

云计算与大数据

云计算，再一次改变了数据的存储和访问方式。在云计算出现之前，数据大多分散保存在每个人的个人计算机中、每家企业的服务器中。云计算，尤其是公用云计算，把所有的数据集中存储到“数据中心”，也即所谓的“云端”，用户通过浏览器或者专用应用程序来访问。

一些大型的网站，通过提供基于“云”的服务，积累大量的数据，成为事实上的“数据中心”。“数据”是这些大型网站最为核心的资产。他们不惜花费高昂的费用付出巨大的努力，来保管这些数据，以便加快用户的访问速度。谷歌公司甚至购买了单独的水力发电站，为其庞大的数据中心提供充足的电力。根据一些公开资料显示，谷歌在全球分布着36个数据中心。图1-6是谷歌公司数据中心内一景，大家可以由此领略到科技之美。

图1-6 谷歌数据中心一景（来源：谷歌）

这几年国内各地兴起了建设云计算基地的风潮，客观上为“大数据”的诞生准备了必备的储存空间和访问渠道。各大银行、电信运营商、大型互联网公司、政府各个部委都拥有各自的“数据中心”。银行、电信、互联网公司绝大部分已经实现了全国级的数据集中工作。

在我们的大数据报告中曾经提了一个观点，引起了广泛的关注和争议：“没有大数据的云计算，就是房地产的代名词[14]”。云计算确实可以称为一场信息技术领域内的革命，甚至对社会也必将产生革命性的影响，但是它却并不是一场技术革命，云计算在本质上是一场IT 产品/服务消费方式的变革[15]，云计算中的一个广为宣传的核心技术——虚拟化软件。而这个技术早在20世纪60年代就已经被应用在IBM 的大型主机中了。

云计算是大数据诞生的前提和必要条件。没有云计算，就缺少了集中采集数据和存储的数据商业基础。云计算为大数据提供了存储空间和访问渠道；大数据则是云计算的灵魂和必然的升级方向。

2012年，业内所有的云计算大会，无论官方背景还是民间主办，都是把“大数据”作为一个核心的主题。甚至有时候都分不清楚，这是云计算的会，还是大数据的会。

物联网

物联网是另一个信息技术领域的热词，究其本质是传感器技术进步的产物。遍布大街小巷的摄像头，是大家可以直观感受到的一种物联网形态。事实上，传感器几乎无处不在，使用它可以监测大气的温度、压强、风力，监测桥梁、矿井的安全，监测飞机、汽车的行驶状态。一架军用战斗机上的传感器多达数千个。现在大家常用的智能手机中，就包括重力感应器、加速度感应器、距离感应器、光线感应器、陀螺仪、电子罗盘、摄像头等各类传感器。这些不同类型的传感器，无时无刻不在产生大量的数据。其中的某些数据被持续地收集起来，成为大数据的重要来源之一。

社交网络

社交网络是互联网发展史上的又一个重要的里程碑。它把人类真实的人际关系完美地映射到互联网空间，并借助互联网的特性而大大升华。广义的看，社交网络使得互联网甚至具备某些人类的特质，譬如“情绪”：人们分享各自的喜怒哀乐，并相互传染传播。社交网络为大数据带来一类最具活力的数据类型，人们的喜好和偏爱。更重要的是，人们还知道在社交网络中，如何利用网民的关系链来传播这些喜好和偏爱。这就为研究消费者行为打开了另一扇方便之门。如果深入地分析社交网络，就会发现，大型的社交网络平台事实上构成了以“个人”为枢纽的不同的数据的集合。借助“分享”按钮，人们在不同网站上的购物信息、浏览的网页都可以“分享”到社交网络上。想想前面提到的雪地上的

脚印，社交网络把网民在不同网站上留下的“脚印”链接起来，形成完整的行为轨迹和“偏好”链。

图1-7是Facebook的一个实习生，把网站中人们相互联系的数据通过建模、渲染得到的一幅图片，越是明亮的地方，人们相互交流越是活跃。现在Facebook是世界上最大的社交网站，每月的活跃用户数突破10亿。

图1-7 反映社交网络Facebook上人们活跃程度的世界地图（来源：Facebook）

智能终端普及

古人只能用“大漠孤烟直，长河落日圆”等诗词歌赋来主观描述他们的所见所闻；我们则可以掏出手机、照相机、摄像机，再现美丽的风景，与亲朋好友分享。执着的古人迷路时索性信马由缰不问归路[16]。我们则可以拿出智能手机，使用导航软件找到目的地。

智能终端不仅仅局限于个人应用，许多行业都已经开始大规模的部署终端产品。举一个“美丽”的例子，婚纱摄影行业：以前影楼需要租用大面积的场馆、位置优良租金高昂的门店，携带大型的、笨重的写真集，展示给准新娘们用以挑选照片。但是如今利用iPad，可以做出令人心醉神迷的实景效果，如360°旋转等特效。准新娘只需要一部iPad，就可以全面的看到最终的拍摄效果，并利用其交互特性提高样片选择的精准度。

KPCB[17]（凯鹏华盈）是美国最大的风险投资基金之一，其合伙人Mary Meeker在2012年发布的一份趋势报告中指出，在2010年第四季度，智能手机加平板电脑的出货量已经超越台式机和传统笔记本电脑（参见图1-8），并且预计在2013年第二季度，智能移动终端全球保有量也将实现反超（参见图1-9[18]）。

图1-8 移动设备与传统台式机、笔记本电脑的全球出货量对比图
（来源：Katy Huberty, Ehud Gelblum, Morgan Stanley Research.Data and Estimates as of 9/12.）

图1-9 移动设备与传统台式机、笔记本电脑的全球保有量对比图
（来源：Katy Huberty, Ehud Gelblum, Morgan Stanley Research. Data and Estimates as of 9/12.）

智能终端的普及给大数据带来了丰富、鲜活的数据。苹果公司2012年公布的一组运营数据，可以反映智能终端上人们的活跃程度。其中，iMessage 功能目前每秒为用户传递28 000条信息；iCloud 已经为用户提供了总计1亿多份的文档；GameCenter的账号创建数达到了1.6亿；iOS 应用总数突破了70万，支持 iPad 的应用则达到了27.5万；苹果 AppStore 的应用下载量突破350亿次大关，通过分成付给应用开发商的分成总额已达65亿美元；iBooks 中的图书总数已达150万册，下载量也超过了4亿。

第二节大数据的定义和特征

提要：

1．未来的不确定性是人类产生恐惧的根源之一，也是各类组织最为头痛的问题。大数据技术让我们看到解决未来预测问题的一丝曙光。

2．大数据四个典型的特征：第一，数据量巨大；第二，数据类型多样；第三，数据中富含价值；第四，必须在尽可能短的时间内发掘出价值。

3．尽管本节重点介绍大数据的四个特征，但是并非只有数据量大，才能称为大数据。我们更看重的是“快速的从各类数据中获得信息的能力”。

麦肯锡（美国首屈一指的咨询公司）是研究大数据的先驱。在其报告《Big data: The next frontier for innovation, competition,and productivity》中给出的大数据定义是：大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调，并不是说一定要超过特定TB值的数据集才能算是大数据[19]。

国际数据公司（IDC）从大数据的四个特征来定义，即海量的数据规模（Volume）、快速的数据流转和动态的数据体系（Velocity）、多样的数据类型（Variety）、巨大的数据价值（Value）。

亚马逊（全球最大的电子商务公司）的大数据科学家John Rauser给出了一个简单的定义：大数据是任何超过了一台计算机处理能力的数据量。

维基百科中只有短短的一句话：“巨量资料(big data)，或称大数据，指的是所涉及的资料量规模巨大到无法通过目前主流软件工具，在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯”

大数据是一个宽泛的概念，见仁见智。上面几个定义，无一例外地都突出了“大”字。诚然“大”是大数据的一个重要特征，但远远不是全部。笔者在调研多个行业后，给出了自己的定义：大数据是“在多样的或者大量数据中，迅速获取信息的能力^{^[20]}”。前面几个定义都是从大数据本身出发，我们的定义更关心大数据的功用。它能帮助大家干什么？在这个定义中，重心是“能力”。大数据的核心能力，是发现规律和预测未来。

发现规律，预测未来

任何行为，皆有前兆。但在现实世界中，缺少实时记录的工具，许多行为看起来是“人似秋鸿有来信，事如春梦了无痕”。在互联网世界则完全不同，是“处处行迹处处痕”。要买商品，必先浏览、对比、询价；要搞活动，必先征集、讨论、策划。互联网的“请求”加“响应”机制恰恰在服务器上保留了人们大量的前兆性的行为数据，把这些数据搜集起来，进一步分析挖掘，就可以发现隐藏在大量细节背后的规律，依据规律，预测未来。收集分析海量的各种类型的数据，并快速获取影响未来的信息的能力，就是大数据技术的魅力所在。

1993年，《纽约客》刊登了一副漫画，标题是“互联网上，没有人知道你是一条狗”，如图1-10所示。据说作者彼得·施泰纳因为此漫画的重印而赚取了超过5万美元。彼时关注互联网社会学的一些专家，甚至担忧“计算机异性扮装”而引发的社会问题。譬如，同性恋和恋童癖可能会借助互联网而大行其道。

图1-10 “互联网上，没有人知道你是一条狗”（来源：www.chrisabraham.com）

20年后，互联网发生了巨大的变化，移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域。人们在享受便利的同时，也无偿贡献了自己的“行踪”。现在互联网不但知道对面是一条狗，还知道这条狗喜欢什么食物、几点出去遛弯、几点回窝睡觉。人们不得不接受这个现实，每个人在互联网进入到大数据时代都将是透明性存在的。

事实上，对于未来的不确定性是人类产生恐惧的根源之一，也是各类组织最为头痛的问题。大数据技术让人们看到解决未来预测问题的一丝曙光。通过利用大数据技术，可以预测预测自然、天气的变化，预测个体未来的行为，甚至预测某些社会事件的发生。它会让我们的生活更为从容，让决策不再盲目，让社会更加高效的运转。这就是大数据技术带给我们的好处。全球复杂网络权威巴拉巴西认为，人类行为93%是可以预测的。我的确不知道这位老先生是怎么计算出来93%这个数字的，但大数据可以预测未来是显而易见的，这是首个使人类具备了预测短期未来的技术。

听起来似乎很玄妙，大数据不就是算命先生么？

其实，或多或少，人们都具备预测的能力。譬如，儿子跟小伙伴们疯玩，我知道他肯定在7点之前会回家，因为他饿了。再如，家乡流传的很多谚语，其中一句“八月十五云遮月，正月十五雪打灯”，说明大自然就有许多规律性的东西。估计现在的科学也没有办法解释几乎半年跨度内气象间的因果关系，但是几千年的观察和积累，却发现了它。自然、社会、商业无不服从某些规律，大国兴衰、王朝更替亦有规律可循。只是过去囿于技术条件人们无法记录下造成某件事情发生的先兆数据，无法去计算其中的因果关系。这些规律要么被神秘化，要么被庸俗化。

任何事情的发生，都会有蛛丝马迹的前兆表露出来。如果我们不去关注一支股票的行情走势，就不会去买卖这支股票；如果我们从不去询问某件商品的价格，也很难产生购买行为；如果事先没有联络沟通，人们就很难聚在一起；如果没有闷热的天气，似乎就没有透心凉的大雨。关于地震前种种异象，更是被许多书籍、文章大肆渲染。

假定有一种技术可以记录下所有这些先兆，人们就获得了未卜先知的能力。利用大数据技术，能够广泛采集各种各样的数据类型，进行统计分析，从而预测未来。大数据影响之深远，波及之广泛，远非一般的信息技术可比。

“过去我认为我的工作就是追捕罪犯，而现在对这项工作有了全新的认识，我们分析犯罪数据，识别犯罪模式，并部署警力，帮助美国部分城市重大犯罪率降低了30%。终结犯罪，在案发之前。”这是IBM公司的一则广告，宣传利用大数据构建智慧的地球。

“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑，欧美对中国采购在下滑。海关是卖了货出去以后再获得数据，而我们提前半年时间从询盘上就推断出世界贸易发生变化了。”通常而言，买家在采购商品前，会比较多家供应商的产品，反映到阿里巴巴网站统计数据中，就是查询点击的数量和购买点击的数量会维持一个相对的比例。统计历史上所有买家、卖家的询价和成交数据，可以形成询盘指数和成交指数，这两个指数是强相关的。询盘指数是前兆性的，前期询盘指数活跃，就会保证后期一定的成交量。所以，当马云观察到询盘指数异乎寻常的下降后，自然就可以推测未来成交量的萎缩。这种统计和分析，如果缺少大数据技术的支持，是难以完成的。这次事件，马云提前呼吁、帮助成千上万的中小制造商准备过冬粮，从而赢得了崇高的声誉。

中国建设银行的电子商务金融平台——“善融商务于2012年6月28日正式开业。官方的宣传是“善融商务”是建设银行顺应电子商务发展潮流，结合传统金融服务优势和新兴电子商务服务应用而搭建的全流程、综合性的电子商务服务平台。”据说建行内部推进电子商务的力度非常大，分行考核严厉，甚至亏本也要把小商家搬到网上。银行建立电子商务交易平台，听起来像不务正业，其实是醉翁之意不在酒。银行需要那些小商家的经营数据，来预测商家的贷款需求和还款能力，从而大幅降低小额借贷风险。建行此举，不论成功与否，都足以证明建行高层深刻地理解了大数据的重要性和其惊人的预测能力。这种能力，对建行而言，就意味着低风险，高收益，是每家金融机构都梦寐以求的境界。常常说富贵险中求，传统经营一般是高风险，高收益；不料有了大数据在手，就能低风险，高收益，难怪金融机构趋之若鹜。如果金融机构再不重视大数据的潜在价值，行将成为21世纪的恐龙，不复往日的荣光。

数据大爆炸

截止到2011年，互联网用户数已达到20亿； RFID标签在2005年的保有量仅有13亿个，但是到2010年这个数字超过了300亿；2006年资本市场的数据比2003年增长了17.5倍；日前新浪微博上每天上传的微博数超过1亿条；Facebook每天处理10TB的数据；世界气象中心积累了220TB的Web数据，9PB其他类型数据……

根据国际数据公司（IDC）的《数据宇宙》报告显示：2008年全球数据量为0.5ZB，2010年为1.2ZB，人类正式进入ZB时代。更为惊人的是，2020年以前全球数据量仍将保持每年40%多的高速增长，大约每两年就翻一倍，这与IT界人尽皆知的摩尔定律极为相似，姑且可以称之为“大数据爆炸定律”。预计2015年全球数据量将达到7.9ZB，2020年将突破35ZB，是2008年的70倍、2011年的29倍，如图1-11所示。

单位：ZB

图1-11 全球数据量增长预测（来源：IDC数字宇宙研究）

同时，根据互联网数据中心的《中国互联网市场洞见：互联网大数据技术创新研究2012》报告显示：截至2011年年底，中国互联网行业持有的数据总量已达到1.9EB，预计2015年该规模将增长到8.2EB以上。

人类社会的数据量在不断刷新一个个新的量级单位，已经从TB、PB级别跃升至EB、ZB级别。然而，35ZB、8.2EB究竟是一个什么样的概念呢？为此，首先了解下面几组关于数据衡量单位的公式：

1B = 8 bit

1KB = 1024 Bytes ≈ byte = 1000 byte

1MB = 1024 KB ≈ byte = 1 000 000 byte

1GB = 1024 MB ≈ byte = 1 000 000 000 byte

1TB = 1024 GB ≈ byte = 1 000 000 000 000 byte

1PB = 1024 TB ≈ byte = 1 000 000 000 000 000 byte

1EB = 1024 PB ≈ byte = 1 000 000 000 000 000 000 byte

1ZB = 1024 EB ≈ byte = 1 000 000 000 000 000 000 000 byte

1YB = 1024 ZB ≈ byte = 1 000 000 000 000 000 000 000 000 byte

一本《红楼梦》共有87万字（含标点），每个汉字占两个字节，即1个汉字=2B，由此计算1EB约等于6626亿部红楼梦。美国国会图书馆是美国四个官方图书馆之一，也是全球最重要的图书馆之一，截至2011年4月，藏书约为1.5亿册，收录数据235TB，1EB约等于4462个美国国会图书馆的数据存储量。

数据的多样化

电影《黑客帝国》中，主人公尼奥吞下那颗蓝色的小药丸后，发现原来他生活中一切的一切，包括他的工作、伙伴，高楼大厦、天空、大地，甚至喜、怒、哀、乐；都是数字化的幻像。真实的物理世界当然不像电影那样天马行空，但在许多领域的确朝高度数字化的方向演进。

譬如，那些高楼大厦，利用三维建模技术，形成了包含设计、施工、维护等综合信息的建筑信息模型。在消费者眼中，建筑信息模型呈现出来漂亮、壮观，让人们不得不掏出钱来埋单的效果图；在房地产商老板眼中，建筑信息模型则清楚地告诉他们整个过程应该花多少钱；在设计师眼中，建筑信息模型就是各种各样的设计图的综合，利用它可以方便地调整管线走向、通风的设计等；而在工人眼中，建筑信息模型这就是施工图。对于消防部门不用等到完工，通过建筑信息模型就能评估建筑的消防效果和做出人群疏散的动态模拟；也就是说，建设一栋大楼的方方面面都可以是数字化的。

人们日常工作中接触的文件、照片、视频，都包含大量的数据，蕴含大量的信息。这一类数据有一个共同的特点，大小、内容、格式、用途可能都完全不一样。以最常见的Word文档为例，最简单的Word文档可能只有寥寥几行文字，但也可以混合编辑图片、音乐等内容，成为一份多媒体的文件，来增强文章的感染力。这类数据通常称为非结构化数据。

与之相对应的另一类数据，就是结构化数据。这类数据大家可以简单地理解成表格里的数据，每一条都和另外一条的结构相同。大家每月都能领到工资条，每个工资条结构都是一样的，当然里面的工资和缴纳的个税、保险不同。每个人的工资条依次排列到一起，就形成了工资表。利用计算机处理结构化数据的技术比较成熟，从事会计、审计等工作的人，利用Excel工具很容易进行加减乘除、汇总、统计之类的运算。如果进行大量的运算，一些商业数据库软件就派上用场，它们专门用于存储和处理这些结构化的数据。

但不幸的是，企业中和人们日常接触到的数据绝大部分都是非结构化的。有的咨询机构认为非结构化数据占企业总数据量的80%，也有机构认为占95%，总之，没有权威、准确的统计。如何像处理结构化数据那样，方便、快捷地处理非结构化数据，是信息产业一直以来的努力方向之一。在这个领域，信息业是走了不少弯路的。起初人们借助结构化数据处理的成果，把非结构化数据也用传统的数据库（基于关系型的数据库）来处理。非结构化数据的一大特点就是龙生九子，各各不同，硬要套到一个模子里面来，结果是费力不讨好。由是人们一度认为大量的非结构化数据是难以达成的。

幸运的是，谷歌公司在为公众提供页面搜索服务的同时，顺便解决了大量网页、文档这类数据的快速访问的难题，成为大数据技术的先驱。雅虎公司的一个开发小组，利用谷歌的成果成功地开发出大数据处理的一套程序框架，这就是众所周知的Hadoop。目前，这个领域非常活跃，发展可谓日新月异。

这些公司的实践，让大家面对其他各类的非结构化数据这一处理难题重建信心，如高清图像、视频、音频等的处理技术都已驶入了快车道。

另外，社交网络上的表现人们情绪的数据日益丰富。例如，[笑脸]、[鼓掌]、[握手]、[愤怒]、[纪念]等代表人们心情的标准化图释的大量使用，无疑表达了人们对某一事件的总体情绪，可能昭示线下会发生某些行为。

大数据的价值特征

7·21北京暴雨之夜，微博成了救灾的明星。一些好心人在微博上公开自己公司地址，方便大家去躲雨和休息。大家依据微博实时了解哪个地方出现了拥堵，哪个地方需要救援。当然救灾不力，应对失当是另外一回事儿。短信、电话都难以描述精确的地址，尤其是当人们焦虑和着急的时候，但是一条微博中可以同时包括人物、时间、地点三个要素，打开微博附加的坐标数据，就可以在地图上迅速定位，为及时救灾提供了方便。在这个例子中，人们看到融合数据的价值。

再如视频监控的例子。银行、地铁等一些敏感的部门或者地点，摄像头都是24小时运转，会产生大量视频数据。一般情况下，这些视频数据非常枯燥、乏味，并不会引人注目。但是如果恰巧拍到有图谋不轨的人，那么这一帧图像对公安人员来讲，就是非常有价值的了。问题是我们无法在事前知道哪一帧会有用，只好把所有的视频数据都保存下来，甚至保存了一年的数据，只有那一秒对破案有用。但是在研究人类行为的社会学家眼中，这些视频可能就是难得的第一手资料，也许可以借此窥探人类的某些行为模式。

笔者曾经读过一篇日本的短篇小说，情节惊悚。一位年轻貌美却家境贫寒的姑娘，有幸得到一份高薪的工作，照顾一个垂死的病人。奇怪的是，院长要求姑娘必须每时每刻都穿着一件电子背心。医院大楼空空荡荡，令人害怕。姑娘为了养家，不得不忍受大楼里每晚都发生的恐怖事件。终于在一件极端骇人听闻的事件中，姑娘被活生生吓死。这时候，大楼变得灯火通明，病人脱掉伪装，取走姑娘身上的电子背心，高价卖给神秘的买家。原来电子背心中记录了一颗健康的心脏，在高兴、害怕、惊恐，以至于骤然停止跳动的全部数据。这可能是笔者读过的第一篇恐怖小说，至今仍记忆犹新。

现在人们获取医疗数据，却变得相当简单。只要在手腕上佩戴一块类似电子表的仪器，就能随时随地把脉搏、体温、血压等数据，源源不断地传输到医疗中心。这些数据除了可以检测人们的健康以外，更是医疗保险公司的最爱。保险公司的精算师，根据这些数据可以开发新的保险产品，或者优化他们的现有产品组合。

从上面各种事例中，可以得出以下结论：第一，数据是无价之宝；第二，价值虽有，但确如沙滩中的黄金；第三，数据融合的价值，要远远大于种类单一的数据价值。

在研究各行各业数据应用时，笔者发现很多公司坐拥金山，却是苦苦挣扎。他们没有认识到自身的数据中正蕴涵着业务的重生之道。最早重视数据价值的是互联网公司，在大数据研究和应用方面领风气之先。但是，大数据并非仅仅是大公司的专利，它更多的是看待世界、产业的观念和视角。大公司自然可以合纵连横，跨界扩张；小公司也可以静水流深，别具高格。关键是你怎么看。

多快才算快？

答案是小于1秒，客户的体验就分秒之间。

这一条是区别传统的数据应用和大数据应用最重要的区别。过去的十几年间，金融、电信等行业都经历了核心应用系统从散落在各地市到逐步统一到总部的过程。大量数据集中后，带来的第一个问题，就是大大延长了各类报表生成时间。业界一度质疑，快速地在海量数据中提取信息，是否可行？

谷歌公司在这方面的贡献，无疑是开创性的。它的搜索服务，等于向信息业界宣布，1秒钟之内就能检索全世界的网页，而且可以找到你想要的结果。在写作本段的时候，当用谷歌搜索关键词“大数据”，提示“找到约46 300 000条结果（用时0.37秒）”。谷歌等于为大数据应用确立了一个标杆。如果超过1秒钟的数据应用，就会给用户带来不良的使用体验。甚至在某些情况下，如果应用速度达不到“秒”级，其商业价值就会大打折扣。我们来看一个营销的例子。

价格越贵的东西，人们购买时就会越犹豫，反复掂量自己的钱包。相反，价格越便宜的东西，人们购买时更多根据一时的喜好，呈现冲动型购买的特征。京东商城根据消费者购买商品的特征，分为四种类型，其中冲动型购买者占37%。冲动嘛，自然一闪即逝。所以能否在用户冲动的瞬间及时送达精准的商品信息，就成为了提高商品销售的关键所在。幸运的是，社交型互联网的应用，如美国的Facebook、中国的微博、微信，提供了侦测人们偏好和兴趣的接口，使得这种精准的营销在大数据时代成为可能。

在以高频交易为主的股票市场，比别人快0.02秒，就可能获得惊人的超额收益。所以，有人为了抢这宝贵的20毫秒，单独建了一条从西海岸到东海岸横跨美国的光纤，也有人干脆就呆在纽交所相同的街区。这种毫秒级时差造成的商业机会，也许会随着大数据的普及应用而在其他行业不断上演。

以应急[21]为代表的一些新兴产业，对时效性要求非常高。假如市区某工厂发生事故，要求需在第一时间做出正确判断，第一时间评估影响范围，第一时间到达现场，第一时间开展正确的处置方法。

O2O[22]应用是互联网投资创业的一个热点领域。当消费者在商家门口经过时，就能收到商家的促销信息，这种服务听起来非常美妙。如果促销信息恰好是大家需要的商品或者服务，那么所有人都能从中受益。消费者节省了时间，商家卖出了商品，服务商获得了佣金。但是，如果推荐的不是消费者需要的商品，或者等消费者离开了很久才收到提示，就变成了令人烦恼的垃圾信息，没有人喜欢随时随地地接收垃圾信息，垃圾信息和有价值的及时提示只有短短的几秒钟的差别。

再举一个信用卡消费提醒的例子。当笔者刷卡消费的同时，收到银行的提示短信，会感到很安全，也不会认为被打扰，因为当时正在处理跟消费支付相关的事情。如果过了几个小时，才收到相同内容的短信，情况就不同了，也许笔者正在跟朋友聊天，也许正在写一篇文章，这条短信就成了打扰笔者的垃圾信息。客户的体验就在这短短的分秒之间。

孤立的数据是没有价值的

Facebook、微博为代表的社交网络应用，构建了普遍关联用户行为数据。本来大家在网络上浏览网页、购买商品，游戏休闲等等，都是互不关联的。尤其是智能手机的普及，大家的网络行为更趋向于碎片化。这些碎片化数据如果没有关联，是难以进行分析并加以利用的。但是社交网络提供了统一的接口，让大家无论是玩游戏还是买商品，都能够方便轻松地分享到微博上。微博扮演了用户行为数据连接器的角色。用户在网络上的碎片化行为，经由社交网络，就能完整地勾勒出一幅生动的网络生活图景，真实地反映了用户的偏好、性格、态度等等特征，这其中蕴育了大量的商业机会。

反之，孤立的数据，其价值要远远小于广泛连接的数据。然而，数据孤岛现象普遍存在。个人计算机中的文件，虽然按照目录分门别类的存放，但是之间的内容关系往往杂乱无章。企业中各部门壁垒林立，大家更倾向于尽可能地保护自己的数据。我国政府部门的数据孤岛现象更为严重，甚至可以称为“数据割据[23]”现象。在数据孤岛的影响下，难以发挥大数据中蕴藏的价值。

所以，笔者曾经和一些专家、学者交流，提到培育大数据能力的三个发展阶段。第一阶段，融合结构化和非结构化数据，消除数据孤岛现象；第二阶段，融合企业内部和外部的数据，消除数据割据现象；第三阶段，建立数据驱动的新型企业。对这三个阶段的探讨超出了本章的范围，后续还将有详细的描述。

活性越高价值越大

有一家公司给笔者寄来数据样本，希望笔者能帮他们评估这些数据的潜在商业价值。虽然数据量很大，但是数据更新的频率大概是每月一次。这样的数据类型很常见，一些支付公司收集的没有交费记录就属于这种情况。

所谓活性，也就是数据更新的频率。更新的频率越高，数据的活性越大；更新的频率越低，数据的活性越小。一般而言，数据活性更高的数据集，蕴含更丰富的信息。所以，这家公司如果想在大数据领域有所作为的话需要想办法提高数据的活性。

在判断公司的投资价值时，我们挂在嘴边的一句话就是，要看公司拥有数据的规模和数据的活性。之所以没有提多样化、快速等特征，是因为这样一句简练的话，更容易被大家理解和记忆。

第三节大数据的认知框架

提要：

1．“三大发展趋势、六种商业模式”是本书解读大数据的认知框架。

2．“数据成为资产”是最核心的产生趋势，以数据资产为核心演绎出租售数据、租售信息、数据使能、数字媒体、数据空间运营和大数据技术提供商六类商业模式。

3．围绕数据资产，产业间拉开融合、分立的大幕。具体到信息产业内部，表现为靠近最终用户的公司，在产业链拥有越来越大的发言权。携用户优势，具备向产业链上游逆向整合的潜力。同时产业链上游企业则积极向下游拓展。整体上呈现垂直整合趋势。

4．泛互联网化是积累数据资产，形成竞争壁垒的重要范式。大型公司如苹果、谷歌、亚马逊都是泛互联网化范式的典型公司。这也是有小型公司发展壮大的契机和路径。

资本市场观察大数据的态度是中立的，最基本的出发点是要识别哪些是真正创造价值的公司，而哪些又是“挂羊头，卖狗肉”骗股东、股民钱的“坏人”。所以必须深入到细节、必须洞察未来趋势、必须提出自己完整的理论和模型，不能人云亦云。说白了就是练好一双火眼金睛，给妖精们当头一棒，让取经人拿到真经。

在2011年9月份，我们注意到业界在大数据领域的发展动向后，随即开始了系统的调研分析，先后走访了IBM、甲骨文、EMC、微软等行业巨擘，和国内A股上市公司、领风气之先的互联网公司、各大咨询机构、高校、研究所充分交流。连续发布了三篇大数据专题研究报告，持续跟踪海内外大数据领域的进展，逐步形成了相对完整的认知框架。此框架最早发布在券商报告《大数据时代三大发展趋势和投资方向》中，几经修改，如图1-12所示。

图1-12 大数据认知框架[24]

围绕数据和最终用户，笔者观察到信息产业的发展具有三大趋势：第一，数据成为资产；第二，行业垂直整合；第三，泛互联网化。数据成为资产，更强调数据的战略意义；行业垂直整合趋势在数据运用层面，通过搜集大量的用户数据，更贴近用户，更理解用户，为其提供更适当的服务；泛互联网化驱动大数据飞轮效应的第一步，是收集数据的重要渠道，没有泛互联网化的应用软件和硬件设备，公司就难以获得用户的行为数据。三大趋势的提出，拓展了大数据主题的研究范围，开辟了新的视角和逻辑来观察信息产业内公司成长路径和投资价值。成为我们分析研究的顶层逻辑的要素之一。

数据成为资产

数据成为资产是本书的重点内容和华彩章节，第三、四、五章都与数据资产内容相关。数据已经成为工业化与信息化深度融合的关键枢纽，成为推动产业融合兼并的战略资产，成为各地方城市转换发展思路的新思维，成为推动公司跨行业转型的根据地，成为数学与工程实践结合的最佳演练场。

在信息时代，数据将成为独立的生产要素。有人把“数据”比喻为工业时代的石油，但笔者认为“数据”和农耕时代“土地”的属性更加接近。如果企业拥有某类相对完整、全面的数据，退可偏安一隅，进可跃马中原。

谷歌、Facebook、亚马逊这三家互联网巨头，积累了不同的数据资产。谷歌为全世界的公开网页建立了最为庞大的索引；Facebook拥有的社交网络，积累了全世界最为庞大的人际关系数据库；亚马逊网站上沉淀了大量的商品信息，成为互联网上最为庞大的商品数据库。不同的数据资产，决定他们不同的战略选择和商业模式。他们在某种程度上，甚至取代了IBM、微软等传统的老牌巨头，在引领产业的发展方向。

拥有独一无二的数据资产的公司，将会获得难以置信的发展的速度，发育出令人叹为观止的商业模式。事实上他们具备了颠覆、冲击其他行业的压倒性优势。除了上面提到的互联网巨头外，本书中还谈到了雅昌公司的案例。这家从传统印刷行业起步的公司，通过年复一年、日复一日的漫长积累，形成了人类历史上空前的“艺术品数据库”。凭借这些数据资产，雅昌涉足出版、展览、收藏、移动互联网、线下实体博物馆等多个行业。其未来亦难以估量。

行业垂直整合

第二大趋势是行业应用的垂直整合。如图1-13所示，新兴产业往往是以垂直整合的态势开疆拓土，但产品成熟后，产业链上专业分工则激发出惊人的创造力，并且成本也逐渐降低，优势逐渐转向水平分工格局。但是当下，信息产业中行业垂直整合趋势明显，是大数据效应改变产业竞争格局的一个缩影。了解这个趋势，可以解释很多公司的成长逻辑。真真是“三十年河东，三十年河西”。在这个趋势下，越靠近终端用户的公司，在产业链中拥有越大的发言权。微软的股价十年横盘，苹果股价却一飞冲天，两大巨头之间的恩恩怨怨此起彼伏是这个趋势最好的注脚。

图1-13 产业格局在垂直整合与水平分工之间摇摆

过去大家计算机，关注的是CPU主频、内存、操作系统等；现在入手iPad，直观感受是酷不酷，没有人问iPad的CPU是几个核。这标志着消费者的关注重点已经迁移到产品能否满足自身的个性化需求。在企业级市场也一样有相同的趋势，不要讲你的数据库、主机又出了什么新功能。客户更多会问，你们能不能满足我业务的需要？这个趋势的出现有两大原因：第一，通用的平台型软件逐渐同质化；第二，用户对自身业务的关注超过了对计算能力的追求。

其实很多人都没有意识到软件同质化[25]的问题。笔者观察到，几乎每个大型的商业软件都有对应的开源软件，而且这些开源软件的功能和性能也已经可以满足大部分客户的需求。在第六章列了一张开源软件和商用软件的对比表，以及开源软件的统计数据。此处不赘言。需要提醒的是，谷歌、Facebook这种世界级的平台，其核心技术架构都是开源软件唱主角。开源软件的兴起和繁荣客观上也加剧了软件的同质化。在这个趋势下，拥有大量的客户，了解客户业务需求的公司，将会迎来一波大的发展机遇。

行业应用垂直整合的内容在第六章展开论述。

泛互联网化

在讲述泛互联网化趋势时，提炼了一个重要思想——泛互联网化范式。在和产业界人士交流的过程中，笔者反复强调大数据并非只是大型公司的游戏，小公司、传统企业也一样可以搞得精彩纷呈。泛互联网化范式，为其提供了现实可行的理论基础；亦是目前为止，实现大数据战略的最佳实践。

在泛互联网化范式中，强调终端、平台、应用“三位”加上“大数据”这“一体”，如图1-14所示。这四个方面都可以成为盈利的主要来源，但是，如果要取得竞争先机，则需要明确，主要靠哪部分盈利？需要补贴哪个方面？甚至在不同的发展阶段，盈利的主体也不尽相同。根据公司主要盈利来源的不同，可以把简单归类成五种模式，分别是强终端模式、强应用模式、强平台模式、强数据模式、以及混合模式。

图1-14 “四位一体”的泛互联网化范式

泛互联网化范式，批判工业时代的标准化思维，指出利用科技手段碎片化应用，满足用户个性化需求才是王道。应用的碎片化，恰恰可以解决标准化产品和用户个性化服务间的矛盾。泛互联网化内涵非常丰富，以碎片化为例，事实上不仅仅应用呈现碎片化趋势，服务、内容都可以碎片化适应新型媒介需求。譬如，教育如何满足人们利用零星时间学习知识的渴望呢？限于本书的篇幅，仅在第七章来阐释，先给出范式框架，再通过与各行各业的深度交流，不断补充发展。本书第二版将会补充这部分内容。

提醒读者注意的是，传统企业如果灵活运用泛互联网化范式，往往能取得意料之外的高速增长。说一句很玄的话，“运用之妙，存乎一心。”

六种商业模式简述

围绕数据资产，我们考察不同行业的盈利方式和经营策略，归纳总结了六种商业模式。

（1）租售数据模式：简单来说，就是售卖或者出租广泛收集、精心过滤、时效性强的数据。这也是数据成为资产的最经典的诠释。按照销售对象的不同，又分为两种类型：一是作为客户增值服务，譬如销售导航仪的公司，同时为客户提供即时交通信息服务；二是把客户数据有偿提供给第三方，典型的如证券交易所，把股票交易行情数据授权给一些做行情软件的公司。

（2）租售信息模式：一般聚焦某个行业，广泛收集相关数据，深度整合萃取信息，以庞大的数据中心加上专用传播渠道也可成为一方霸主。信息指的是经过加工处理，承载一定行业特征的数据集合。

（3）数字媒体模式：这个模式最性感，因为全球广告市场空间是5000亿美元，具备培育千亿级公司的土壤和成长空间。这类公司的核心资源是获得实时、海量、有效的数据，立身之本是大数据分析技术，盈利来源多是精准营销和信息聚合服务。

（4）数据使能模式：这类业务令人着迷之处在于，如果没有大量的数据，缺乏有效的数据分析技术，这些公司的业务其实难以开展。譬如，阿里金融为代表的小额信贷公司，通过在线分析小微企业的交易数据、财务数据，可以计算出应提供多少贷款、多长时间可以收回等关键问题，把坏账风险降到最低。

（5）数据空间运营模式：从历史上来看，传统的IDC就是这种模式，互联网巨头都在提供此类服务，但近期网盘势头强劲。从大数据角度来看，各家纷纷嗅到大数据的商机，开始抢占个人、企业的数据资源，海外的Dropbox、国内的微盘都是此类公司的代表。这类公司的发展空间在于可以成长为数据聚合平台，盈利模式将趋于多元化。

（6）大数据技术提供商：从数据量上来看，非结构化数据是结构化数据的5倍以上，任何种类的非结构化数据处理都可以重现现有结构化数据的辉煌。语音数据处理领域、视频数据处理领域、语义识别领域、图像数据处理领域都可能出现大型的高速成长的公司。

第四节数据科学——改变探索世界的方法

提要：

1．越来越多的事物不断的数字化。使得人们可以从大量的数据中，发现隐藏的自然规律、社会规律和经济规律。从这个角度来看，大数据将拓展人类的视野。

2．大数据给科学和教育事业的发展提供了前所未有的机会，同时也提出了前所未有的挑战。它将对现有的科研和教学体制带来大幅度的变革，对科学与产业之间的关系、科学与社会之间的关系带来大幅度的变革。

深入思考大数据带来的颠覆性的影响，其根源就是越来越多的事物数据化了。图像、声音、人类的情绪和基因组，看起来风牛马不相及。但是信息科技的发展都把他们神奇地变成了“0”、“1”的不同组合，也就是“数据”。

当网页变成数据，谷歌具备了令人大跌眼球的全文搜索能力，在几个毫秒之内，就能让人们检索世界上几乎所有的网页。当方位变成数据，每个人都能借助GPS快速到达目的地。当情绪变成数据，人们甚至根据大家快乐与否判断股市的涨跌。这些不同的数据可以归结为几类相似的数学模型，从而使得“数据科学”成为一门具备普遍适用性的学科。譬如生物信息学、计算社会学、天体信息学、金融学、经济学、电子工程等学科，都依赖数据科学的发展。

事实上，数据科学还带给大家观察世界的新方法——从大量的数据中，揭示世界运行的规律。2008年《连线》杂志主编克里斯·安德森[26]就指出“数据爆炸使所有的科学研究方法都落伍了”，用一系列的因果关系来验证各种假设和猜想的研究范式已经不实用了，如今它已经被无需理论指导的纯粹的相关关系研究所取代。安德森指出：“现在已经是一个有海量数据的时代，应用数据已经取代了其他的所有学科工具。而且只要数据足够多，就能说明问题。如果你有一拍字节的数据，只要掌握了这些数据之间的相关关系，一切就都迎刃而解。”[27]

安德森的观点引起轩然大波，但是的确值得深入思考。从牛顿力学到量子力学，科学家们建构了精巧的模型，原则上来讲几乎可以解释日常所有的自然现象，量子力学提供了研究化学、材料科学、工程科学、生命科学等几乎所有自然和工程学科的基本原理。但是狄拉克[28]指出，如果以量子力学的基本原理为出发点去解决这些问题，那么其中的数学问题太困难了。如果人们利用更为简单的数学模型，利用大量的数据则可以得到在工程实践中完全可行的结果。

人们在研究自然语言处理方面走过的弯路，为安德森的观点提供了有利的证据。20世纪50年代，几乎所有的科学家都认为如果让计算机来充当翻译，就必须像人一样，让他理解词句的含义。于是提出人工智能的概念，让计算机来学习的人类的各种规则。这种方法很快在70年代走到了尽头。但是基于大量数据、运用概率模型的统计语言学的出现使得自然语言处理柳暗花明。如果没有这些概率统计模型，风靡一时的Siri（个人语音处理）等应用，就不可能实现。

本书第九章将系统的阐述大数据给科学和教育事业提供的前所未有的机会。我们将指出，第一，数据科学将成为科研体系中的重要部分，并逐渐达到与包括物理、化学、生命科学等学科在内的自然科学分庭抗礼的地位。第二，数据科学研究和市场、产业有着密切的联系。在数据科学领域，从科学原理的发现到产业化所花费的时间远远短于传统科学的领域。第三，数据科学同样和人们的日常生活、与社会紧密关联。

第五节大数据面临的挑战和机遇

提要：

1．大数据将强烈冲击人们的观念，旧有僵化思维将导致公司在竞争中落了后手。片面地、孤立地、静止地看待大数据都是缺少大数据思维的典型特征。

2．大数据时代“自主版权”将退居次席。信息技术本身的重要性让位于数据资产的重要性。

3．数据治理必须提到重要的地位，宏观层面国家解决“数据割据”问题需要顶层设计；企业则需要在“数据孤岛”间架起桥梁；微观层面则需要注重“数据质量”，包括数据的正确性、完整性、一致性。

4．目前缺少必要的法律法规界定数据资产的归属和使用，客观上存在发挥数据资产商业价值与侵犯个人隐私之间的矛盾；缺少大数据人才，缺少系统的学科建设亦是制约大数据发展的关键因素。

大数据概念刚刚提出，有人击节赞叹，认为“数据人”的春天到了，也有人质疑为炒作，认为不过是业界和资本市场又一次发神经而已；但更多的人是茫然的，并不知道这个概念对自己的业务意味着什么。本节主要澄清一些概念和误读，探讨大数据落地存在的障碍。

重新审视“自主版权”

大数据时代，产业重心发生了迁移。信息产业的重心由基础软件向应用软件过渡，信息技术本身的重要性向数据资产的重要性过渡。而应用软件领域，恰恰是中国软件企业的强项。利用好开源的基础软件，实现在应用软件领域的突破，带动基础软件领域的进步，是中国信息产业的发展方向。

“智慧出，有大伪”。多少人假“自主版权”之名，却从未超越开源软件的功能？信息产业的创新，是亦步亦趋么？微软有操作系统，我们就必须搞“自主版权”的操作系统？多年的拨款，支持“创新”，为我国信息产业技术提升带来哪些进步呢？幸而我们有一个华为，看看华为老板任正非怎么说。

2012年7月份，任正非与华为实验室的干部和专家座谈。有人问：“当前在终端OS领域，Android、iOS、Windows Phone 8三足鼎立，形成了各自的生态圈，留给其他终端OS的机会窗已经很小，请问公司对终端操作系统有何期望和要求?”

“如果说这三个操作系统都给华为一个平等权利，那我们的操作系统是不需要的。为什么不可以用别人的优势呢?微软的总裁、思科的CEO和我聊天的时候，他们都说害怕华为站起来，举起世界的旗帜反垄断。我给他们说我才不反垄断，我左手打着微软的伞，右手打着CISCO的伞，你们卖高价，我只要卖低一点，也能赚大把的钱。我为什么一定要把伞拿掉，让太阳晒在我脑袋上，脑袋上流着汗，把地上的小草都滋润起来，小草用低价格和我竞争，打得我头破血流。我们现在做终端操作系统是出于战略的考虑，如果他们突然断了我们的粮食，Android系统不给我用了，Windows Phone 8系统也不给我用了，我们是不是就傻了？同样的，我们在做高端芯片的时候，我并没有反对你们买美国的高端芯片。我认为你们要尽可能的用他们的高端芯片，好好的理解它。只有他们不卖给我们的时候，我们的东西稍微差一点，也要凑合能用上去。我们不能有狭隘的自豪感，这种自豪感会害死我们。我们的目的就是要赚钱，是要拿下上甘岭。拿不下上甘岭，拿下华尔街也行。我们不要狭隘，我们做操作系统，和做高端芯片是一样的道理。主要是让别人允许我们用，而不是断了我们的粮食。断了我们粮食的时候，备份系统要能用得上。”

在国家“信息安全”的背景下，我们的确是要搞操作系统，万一别人不给我们用了呢？不能被人卡脖子。这是国家或者和华为一样体量的公司，不得不在安全层面思考的一个问题。但是过分强调“自主版权”的操作系统是否是任正非口中“狭隘的自豪感”呢？

国家的数据安全，应该建立在“自主可控”的软件、硬件之上，并非一定是“自主版权”的软件、硬件。自主可控与自主版权仅仅两字之差，但导致的产业方向，截然不同。

华为过去没有自己操作系统，也没有自己的芯片，但是硬是在广阔的“应用市场”，打开一片天地。利用“应用”带来的市场地位、积累的研发实力，开始向产业链上游扩张。这是一条实实在在的路。华为的成功和战略选择，带给信息产业宝贵的经验，就是扎扎实实做好应用，切切实实积累技术。华为并不是在平地起高楼，充分利用了“开源软件”，是华为在基础软件领域，快速赶上的原因之一。在开源的Hadoop（大数据主流技术）社区重要贡献公司名单，排名第七。是贡献最大的中国公司。

过分的强调“自主版权”，使一些“头脑灵活”的公司嗅到“商机”。去开源软件社区，下载几个软件，改改界面，换一个标识，就成了“自主版权”软件，拿来骗取国家的科技补贴。这样的公司就是国家的蛀虫，产业中的败类。第一，欺骗国家，第二，违背开源社区的精神。这些公司的出发点从不是着眼于实际的应用中，他们只是骗取国家的创新扶持的拨款。他们的技术从开源社区“偷窃”而来，从无超越开源软件的可能。

相反，哪些埋头解决客户的实际业务问题，利用开源软件弥补自身基础软件的短板，在实际应用中，不断的修改、完善、升华开源软件的公司，才是中国的信息产业的希望，他们才有可能借助应用为王的时代，实现反超。

充分利用开源软件，尊重开源社区分享、合作的精神，发展“自主可控”的基础软件、基础硬件产品，才是一条正路。事实上，中国绝大多数的软件公司，都在利用开源软件。最值得学习和推崇的是华为公司。第一，他们大张旗鼓的在用，尊重开源精神。第二，他们不断地反哺开源社区，促进开源软件的发展。反哺开源软件，是一种态度，更是一种能力。如果公司不能超越开源软件，是谈不上反哺开源的。除华为之外的第二类是偷偷的用，模糊版权问题，谈不上反哺开源社区。第三类则最为恶劣，明明是拿的人家开源软件，非要说自主版权，这种行径与偷盗无异。幸好中国有一些有志于技术的年轻人，自发地成立开源技术小组。我衷心的祝福他们在开源的道路上，走的更远。

中国的互联网公司在使用开源软件方面做出了表率。淘宝网光棍节一天的销售额达到191亿，这在世界上都是独一无二的。这套以开源软件为基础构建、开发的后台信息系统可以说承受了最大的压力。。京东商城也是如此，2012年初，京东开始“去贵族化”（抛弃昂贵的商业软件）的努力，以开源软件为主，重新构建了其信息系统。我们在和其CTO交流的时候，他感到非常欣慰，因为这次光棍节的购物，京东的信息系统没有出现任何性能问题。海外的最大的电子商务公司亚马逊、最大的搜索引擎谷歌、最大的社交网站Facebook，无一例外都选择了开源软件为主，构建信息系统。而且大数据技术，本就是开源软件唱主角。既然如此复杂的业务，如此巨大的交易量，都可以使用开源软件，我们为什么要花大把大把的金钱，给那些提供昂贵产品的公司呢？京东商城恰好又是非常典型的例子：京东的CTO，是从大名鼎鼎的甲骨文（Oracle）公司挖来的，但也正是他主导了京东“去甲骨文”的历程。

开源软件，是送给中国信息产业界的一份大礼，我们要大大方方的接受他，改造他，支持他。这是一种态度，更是一种能力。校正公司对待开源软件的态度，引导公司加强开源软件研发、改进，支持开源事业，则是信息产业政策需要认真对待的一个课题。开源软件既然是送给我国信息产业的一份大礼，那么如何收下，如何用好，就是需要政府和产业界共同面对的大命题了。

缺少大数据思维和意识，没有紧迫感

曾经有人问，发展大数据要采用哪些技术，有什么产品？事实上：大数据首先是一种思维方式，其次才是判断产业发展趋势和选择公司战略，最后才谈得上技术实现的问题。有四种典型的片面认识阻碍企业家完整的认知大数据：第一，认定是炒作；第二，片面理解；第三，视野狭隘；第四，唯技术论。这些都是缺少大数据意识的表现。尽管还有其他各种客观原因，但是企业家的思想认识，是阻碍大数据获得深入应用的最重要因素。

第一，认定无非是另一次炒作。这是最常见的一种误读。其流毒在于阻碍了人们去耐心认真的研究大数据的由来和机理。IT业和资本的确有炒作的传统。对千年虫连篇累牍的报导和宣传，除了让IBM等大赚一笔外，结果发现问题并没有事前描述的那么耸人听闻。物联网也曾经是资本市场的宠儿，但现在却已风光不在。如果因此就把大数据归于炒作一途，肯定会与机会失之交臂。大数据与以往的技术概念有显著的不同，最大的差异是大数据已经远远超越技术的概念，是互联网、智能终端、社交网络发展到一定阶段的必然产物。以往，信息技术总是在围绕提升企业运营效率打转，而大数据促使商业智能真正走向企业的决策中枢。

第二，片面的理解。有人一听说大数据，就说十多年前我们就有多少多少数据。以前都说海量数据如何如何。的确，海量的数据是大数据的特征之一，但海量数据并不等同于大数据。大数据更强调数据的多样性、及时性。网络日志、文档、视频、图片等都是大数据关心和处理的对象。更重要的是，大数据技术总是要求尽可能快的发现有决策价值的信息。快的度量单位是不能超过1秒。厂商在介绍大数据概念时，往往介绍三个“V”特征：Volume 体量大，至少要到PB级别（1PB等于1024个TB，大约相当于地球观测系统五年的数据）；Velocity，实时要求高；第三个Variety，强调数据的多样性。还有厂商增加一个V，Value，意思是说大数据有价值。这些都是对的，但不免过于片面。

第三，狭隘的视野。仅仅埋头在自己的一亩三分地，是难以领略大数据全部魅力的。它首先是超越行业的，一定会促使新的行业诞生，也一定会令一些行业消亡。几乎所有行业的竞争格局都将被大数据所颠覆。其次它是超越技术的，无论是开源的Hadoop，还是各厂商力推的新产品，都不足以反映大数据的全貌。作为投资人，或者公司的决策者，如果不能确立这是行业竞争的战略要地思维，则不足以妄谈大数据。

以企业在线服务市场为例，这个看起来很朝阳的产业，并没有在中国取得引人瞩目的成长。国内最大的几家公司，营业收入大约在1亿元左右。前段时间和业内人士辩论能否免费为企业提供在线服务。大多数业界人士认为企业市场与个人市场不同，企业客户担心免费服务的质量，不收钱人家反而不敢用云云。事实上，我看到已经有公司免费为企业提供在线的企业管理服务，其盈利模式变成为他的在线客户提供金融贷款业务。在线业务加小额贷款服务已经成为极具颠覆性的商业模式，这种商业模式如果进展顺利，传统的在线服务商，将面临行业性的灭顶之灾。这种新模式，其核心竞争力体现在拥有大量的、真实的客户运营数据。借助对这些数据的收集分析，预测客户的运营风险，最大限度的降低借贷违约风险。阿里巴巴公司刚刚提出的平台、数据、金融的战略，则是大数据前景的最佳诠释。

广告产业将重新洗牌。大家都知道广告预算至少有一半被浪费掉，可悲的是不知道浪费的是哪一半。借助大数据，广告将变得及时和精准，而且能够评估量化每个渠道的广告效果，看起来具有非常诱人的前景：广告主大大节约资金，消费者得以避免垃圾广告的骚扰。理论上，如果大数据技术得到充分运用，那么我们每个人将不会收到垃圾信息。在日常消费中，冲动型的购买决策越来越普遍。商家必须在消费者最感兴趣的时候，及时触发刺激消费者的购买欲望。离开大数据的支持，这种精准的营销则难以实现。

制造业将重新定义核心竞争能力。在制造业发展的不同阶段，其核心竞争力是不同的。在发展初期，产品质量是非常重要的因素，就是能够做到人有我优。这个阶段的关键资源是拥有先进的生产设备。产品同质化后，对于渠道的掌握和控制成为生命线，关键资源是优质经销商队伍。当渠道成熟到一定的阶段，谁能掌控终端，谁将占据竞争优势，关键资源终端营销团队。考察制造业关键资源的迁移，我们发现它逐渐向最终用户端迁移。换句话说，谁能掌握最终用户，谁就能笑傲江湖。这方面例子还有很多，各行各业都不在少数。对此本章不在赘言，后续章节均有详细描述。

第四，唯技术论。大数据是一种思考方式，和有没有数据、数据量的大小、使用什么技术，不存在严格的正相关。没有最新的技术，也可以通过数据资产来获利；即便拥有最先进的技术，缺少数据思维，没有数据资产，往往也徒劳无功。不能单纯的认为只有哪些围绕hadoop（泛指大数据技术）开发的新兴公司，才是大数据公司。也不能认为没有技术的就不是大数据公司。相反，在大数据领域，那些拥有稀缺性数据资产的公司，往往可以指点江山，独领风骚。大数据既不等于数据挖掘也不等于统计分析，更不等于人工智能。但是这些技术和算法都需要大数据的支持。使用同样的算法，如果利用全部的数据集，而非小样本量，甚至得出截然不同的结论。这就是大数据的魅力。他可以在宏观尺度上把握潮流，也可以在微观颗粒上预测未来。

数据治理缺位

数据割据、数据孤岛和数据质量，是典型的三大数据治理问题。

因为制度、地方主义、部门主义等人为因素造成数据分散的现象，我称之为“数据割据”；因为技术差距、历史遗留问题等形成的数据分散的现象，称之为“数据孤岛”。数据割据现象更多存在于国家各部门、各地方之间；大型企业内部也会存在数据割据现象。

譬如气象部门详尽的天气观测数据，是研究大气规律、做天气预报的第一手资料。但是这些数据因为各种各样的原因在气象局那里睡大觉。理论上讲，科学院的大气物理研究所是可以拿到这些观测数据的，否则，大气所的科学家们怎么支持气象局的工作啊？根据“有关部门的有关规定”，大气所的确也能够接触到这些数据。但实际操作中，要拿到些有用的数据，不拖个半年是不行的，而且就算到手了，也是鸡零狗碎的，没什么用途。这就是典型的“数据割据”现象。

有家公司专门为淘宝网上的商家提供在线的服务。这些服务需要淘宝开放数据接口。早期，如果不使用淘宝提供的服务器是没有任何障碍的，但现在这项服务有50%的时间是无法连通的。我们自然无权指责淘宝的经营策略，但这种因先发优势进而形成数据割据的局面，的确令人担忧。

美国政府在消除数据割据方面可谓用心良苦。除了系统性的提出国家层面的数据战略外，一些做法也值得借鉴。具体方法参见本书第三部分的详细介绍。

我国政府面临更加严峻的数据割据困境。数据保护主义不过是部门保护主义在信息领域的延伸而已，必须出台国家级别的顶层设计，由上而下地破除阻碍数据分享的藩篱，并建立数据共享，成果分享的利益分配机制，才有望从根本改善数据割据的问题。

数据质量的好坏，直接影响数据资产的价值。数据质量主要包括数据的真实性、完整性、一致性。数据质量的解决非一日之功，需要技术、制度、文化等等方方面面的努力。如果把数据认认真真的当成资产对待，数据质量，就是需要面对的第一个问题。

数据资产的界定与安全

随着数量越来越多的数据被数字化，在跨越组织边界而流动着，一系列政策问题将会变得越来越重要，这包括但不限于隐私、安全、知识产权和责任。显然，随着海量数据的价值愈加明显，隐私是个重要等级（尤其是对消费者来说）不断提高的问题。个人数据（例如健康和财务记录）经常能够提供最重要的人类福利，例如，帮助精准确定适当的医疗或者最恰当的金融产品。然而，消费者也将这些类别的数据视为最敏感的个人隐私。显然，个人和其生活所在的社会将不得不努力在数据隐私和数据的功用之间权衡取舍。

另一个密切相关的担忧是数据安全，例如，如何保护竞争方面的敏感数据或应保持隐私的其他数据。最近的例子表明，数据被盗不仅暴露消费者个人信息和企业保密信息，甚至还会暴露国家安全秘密。鉴于严重的数据被盗事件有增无减，通过技术和政策工具解决数据安全问题将成为关键。

海量数据日益提升的经济意义也昭示了一系列法律问题，尤其是当其与如下事实联系起来时：即数据与许多其他资产具有根本性的差异。数据可以与其他数据结合起来完美而轻松地复制，同样一份数据可以由多个人同时使用。这些是数据与实体资产相比的独有特征。有关数据所附带的知识产权的问题不容回避：何人“拥有”某份数据，某一数据集附带着何种权利？数据的“公平使用”的定义是什么？此外，还有与责任相关的问题：当一份不准确的数据导致负面结果时谁应负责？要充分发挥海量数据的潜力，此类法律问题需要澄清，也许会随着时间的推移逐步澄清。

缺乏大数据人才

就算政府和企业界认识到大数据可以释放经济的下一波增长潜力，认识到数据资产是关乎企业未来的命脉。但是如果想要成功运用大数据技术，达成企业战略目标，最大的制约因素往往是大数据人才的匮乏。这一点已然成为推广利用大数据技术的阿喀琉斯之踵

不过许多高校近期的举动令人欣慰。北京大学、上海交通大学、中国人民大学、北航等高校都在设立数据科学的专门研究机构和相关专业，未来，也许数据科学家将成为令人尊重的职业。

[1] 《大数据研究和发展计划》原文网址：//www.whitehouse.gov/blog/2012/03/29/big-data-big-deal，中文译稿参见本书附录四。

[2] 通过搜索引擎，并未发现其他文献强调“数字主权”。之所以采用“数字主权”，而非“数据主权”，主要因为构成信息科技的基础是“0”、“1”两个二进制的数字。所有的数据在本质上都是“0”、“1”的排列组合。

[3] 参见国金证券大数据系列报告第三篇《以数据资产为核心的商业模式》，第1页。

[4] 原文参见//www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final_1.pdf

[5] 数据成为资产，参见国金证券大数据系列研究报告《大数据时代的三大发展趋势及投资方向》

[6] 美国总统奥巴马2011年2月17日与多名科技界领袖共进晚餐。总统左侧是苹果公司创始人斯蒂夫·乔布斯，右侧是Facebook的创始人马克·卡克伯格。

[7] 维度、活性等概念将在数据资产章节详细说明，是数据资产评估模型的一部分。

[8] 许连捷现任中国民间商会副会长，泉州市工商联主席，第十届全国工商联副主席。

[9] 阿兰·麦席森·图灵（1912~1954），英国著名数学家、逻辑学家、密码学家，被称为计算机科学之父、人工智能之父。他是计算机逻辑的奠基者，提出了“图灵机”和“图灵测试”等重要概念。人们为纪念其在计算机领域的卓越贡献而专门设立了“图灵奖”。

[10] 冯·诺依曼的贡献在于提出了一个清晰的，可存储程序的通用计算机的可技术实现的结构。

[11] 摩尔：1929年出生在美国加州的旧金山，曾获得加州大学伯克利分校的化学学士学位，并且在加州理工大学（CIT）获得物理化学（physical chemistry)博士学位。20世纪50年代中期他和集成电路的发明者罗伯特·诺伊斯（Robert Noyce）一起，在威廉·肖克利半导体公司工作，1968年，摩尔和诺伊斯创办了大名鼎鼎Intel（英特尔）公司。自1982年起的10年间，微电子技术共有22项重大突破，其中由英特尔公司开发的就有16项之多。摩尔在1974~1987年间担任英特尔公司的总裁和首席执行官，英特尔公司在微机时代和微软公司一道主宰了整个信息产业的发展。

[12] 来源： Plattner and Zeier, “In-Memory Data Management”, 2011, p. 15-16; * Driscoll, “Big Data Now”

[13] 来源： Plattner and Zeier, “In-Memory Data Management”, 2011, p. 15-16; * Driscoll, “Big Data Now”

[14] 参见国金证券大数据系列研究报告第一篇《大数据时代即将到来》，第14页。

[15] 参见《转折——IT产业透视》，谢耘著，第31页。

[16] 《晋书·阮籍传》中记载，“时率意独驾，不由径路，车迹所穷，辄恸哭而反”。籍非迷路，刻意为之。正文是夸张的说法。

[17] KPCB（Kleiner Perkins Caufield & Byers）公司成立于1972年，是美国最大的风险投资基金之一，主要是承担各大名校的校产投资业务。KPCB公司人才济济，在风险投资业首屈一指，在其所投资的风险企业中，有康柏公司、太阳微系统公司、莲花公司等计算机及软件行业的佼佼者。随着互联网的飞速发展，公司抓住这百年难觅的商业机遇，将风险投资的重点放在互联网产业上，先后投资美国在线、奋扬（EXICITE）、亚马逊书店、网景、谷歌、Intuit等公司。

[18] 计算保有量，预计保有量，假定台式机的换机周期是5年，笔记本电脑的换机周期是4年，智能手机2年，平板电脑2.5年。

[19] 参见麦肯锡，《Big data: The next frontier for innovation, competition, and productivity》，2011年。

[20] 参见国金证券大数据系列研究报告第二篇《大数据时代的三大发展趋势和投资方向》，第7页。

[21] 应急产业一般指为预防、处置突发事件提供产品和服务而形成的活动的集合。按类别划分，一是救援处置装备与技术，二是监测预警诊断设备与技术，三是预防防护产品与技术，四是应急教育培训咨询服务等。应急产业具有多行业交叉和服务公共安全的属性，是新兴产业。发展应急产业，有利于国家的防灾减灾和公共安全，有利于基层的产业结构优化和社会和谐稳定，有利于企业的市场拓展和利润增长，有利于公众的安全和健康。

[22] O2O即Online To Offline，也即将线下商务的机会与互联网结合在一起，让互联网成为线下交易的前台。这样线下服务就可以用线上来揽客，消费者可以用线上来筛选服务，还有成交也可以在线结算，很快做到规模化。

[23] “数据割据”、“数据孤岛”是数据治理中的最突出的两类问题。

[24] 参见国金证券大数据系列研究报告第二篇《大数据时代的三大发展趋势和投资方向》，第5页。

[25] 软件同质化，是从相对宏观的角度来审视基础软件的发展。更强调的是现在这个阶段用户的可替代选择增多，对单一厂商软件产品的依赖程度在不断的降低。

[26] 克里斯·安德森，Chris Anderson，美国《连线》杂志主编，喜欢从数字中发现趋势。他是经济学中长尾理论的发明者和阐述者。著有《长尾理论》（The Long Tail）、《免费：商业的未来》（Free:The Future of a Radical Price)

[27] 参见《大数据时代》[英]维克托·迈尔-舍恩伯格肯尼思·库克耶著，第92页。

[28] 保罗·狄拉克（1902年8月8日～1984年10月20日）全名Paul Adrie Maurice Dirac，英国理论物理学家，量子力学的创始者之一。

作者介绍：

赵国栋

广东省应急产业协会专家会员

中国工业与应用数学学会数据科学专业委员会委员（筹）

前神州数码系统集成服务有限公司咨询总监

国金证券计算机与互联网行业高级分析师

拥有15 年的信息产业工作背景，曾获工信部颁发的计算

机信息系统集成高级项目经理资质、国际信息系统审计

协会（ISACA）会员。在互联网、云计算、大数据等新

兴领域拥有深刻、独到的见解。

易欢欢

国金证券计算机与互联网行业首席分析师

中国工业与应用数学学会数据科学专业委员会委员（筹）

前甲骨文战略咨询部高级经理

北京著名的青年财经沙龙、TMT 沙龙发起人，多次获得

证券行业最高奖项新财富奖、水晶球奖金牌分析师称号

糜万军

亿赞普公司CTO

中国工业与应用数学学会数据科学专业委员会委员（筹）

UNHUA TECHNOLOGIES INC.,PALO ALTO,ＣＡ，联合

创始人，首席技术官；荣获 “2011 中关村高端领军人才”、

“2012 中关村十大海归新星”等称号

鄂维南

中国科学院院士

北京大学长江讲座教授

美国普林斯顿大学教授

现在担任北京数学国际研究中心的副主任

菜单Menu

大数据总统奥巴马

一瓶茅台酒的旅程

第一节大数据产生的历史背景

信息科技进步

互联网诞生

互联网上的“脚印”

云计算与大数据

物联网

社交网络

智能终端普及

第二节大数据的定义和特征

发现规律，预测未来

数据大爆炸

数据的多样化

大数据的价值特征

多快才算快？

孤立的数据是没有价值的

活性越高价值越大

第三节大数据的认知框架

数据成为资产

行业垂直整合

泛互联网化

六种商业模式简述

第四节数据科学——改变探索世界的方法

第五节大数据面临的挑战和机遇

重新审视“自主版权”

缺少大数据思维和意识，没有紧迫感

数据治理缺位

数据资产的界定与安全

缺乏大数据人才

更多阅读：

菜单Menu

大数据总统奥巴马

一瓶茅台酒的旅程

第一节 大数据产生的历史背景

信息科技进步

互联网诞生

互联网上的“脚印”

云计算与大数据

物联网

社交网络

智能终端普及

第二节 大数据的定义和特征

发现规律，预测未来

数据大爆炸

数据的多样化

大数据的价值特征

多快才算快？

孤立的数据是没有价值的

活性越高价值越大

第三节 大数据的认知框架

数据成为资产

行业垂直整合

泛互联网化

六种商业模式简述

第四节 数据科学——改变探索世界的方法

第五节 大数据面临的挑战和机遇

重新审视“自主版权”

缺少大数据思维和意识，没有紧迫感

数据治理缺位

数据资产的界定与安全

缺乏大数据人才

更多阅读：

分享这篇文章

第一节大数据产生的历史背景

第二节大数据的定义和特征

第三节大数据的认知框架

第四节数据科学——改变探索世界的方法

第五节大数据面临的挑战和机遇