美国大数据产业–信息图

数据科学早已不是新颖事物了，不过对数据品质的须要却是这几年才激增起来的。这可不是一阵时兴或旧词新用，而是一场革命。大至总统选举，小至总部设在厨房餐桌的小守业公司的各种决策，已不再是建设于直觉与猜想之上，而是植根于切实可靠的数据。

数据科学开展突飞猛进，当初各种数据工具已经构成了一个宏大的生态系统。我花了一个多月以尝试给这个生态系统勾勒出一个明晰的轮廓，在接上去的文章里会引见给大家。

数据科学本身性能交叉，许多数据公司与工具难以归类。但总体来说，它们分属数据专家任务流程中的三个主要部分：数据获取、数据解决、数据分析。

为何要勾勒这个数据生态信息系统？

我花了少量时间与数据专家交换，了解他们的任务流程、难点及处置打算。数据科学工具不可胜数，这个生态系统表当然无奈将其逐一列举，不过最罕见的软件、公司及推进这些工具开展的开源顺序都已蕴含其中。

数据专家不能只生存在R言语或Excel表格里。他们需求工具来获得品质拔尖且可用于预测分析的数据。其实我感觉这正是统计学家和数据专家的区别所在。在我看来，统计学家利用数据停止回归分析。而数据专家需求实在获取数据、停止回归分析、沟通结果、展示形式，并逾越所在机构过后的局限，立足于制高点带领大家寻求实在可行的打破开展。鉴于他们需求兼顾整个数据通道，我宿愿这个数据生态系统可能列举出数据专家门罕用的重要工具和利用方法，以及工具之间的交互联络。

如今干货来了！

第一部分：数据源

数据是整个数据生态系统的源头。总的来说，数据源可分为数据库、运用和第三方数据三类。

数据库

结构化数据库早于非结构化数据库出现。结构化数据库每年有约250亿美元的市场，你可能在数据生态系统图里看到妇孺皆知的Oracle，和一些新创公司譬如MemSQL等。结构化数据库储存有限的数据列，普通由结构化查问言语(SQL)运转，用于数据可靠欠缺至关重要的畛域，比如说财政和经营。

对结构化数据库有一个重要假定，那就是查问数据时必需能失去分歧且欠缺的结果。想一想谁绝对需求这样一种结构化数据库？对了，就是你的银行。它们存储账户信息、个体姓名、借款等等，必需随时候毫不差地知道你账户中的金额。

而另外一种则是非结构化数据库。道理之中，非结构化数据库是由数据专家们开拓的，由于数据专家眼中的数据与账户并不相反。数据专家不太在意查问结果绝对分歧，他们更关注数据的灵敏性。因此，非结构化数据在许多方面升高了对数据存储和查问的要求。

很多非结构化数据库是谷歌获失利利的间接产物。谷歌尝试把互联网存储在数据库中，高频交易合法性，其野心和工程之宏大可想而知。MapReduce是一种用于这种数据库的技术，只管它必定程度上没有结构化查问言语 (SQL)那么强大，然而用户可能依据需求来调整和扩大它们的数据。MapReduce的数据利用甚至已经超出了谷歌的初始预期。比如如今谷歌可能在一切网站间查问，并根据网站之间的互相链接来调整搜查结果。这种可量化的灵敏查问使谷歌获得了渺小的竞争劣势，因此雅虎和其余公司以巨额投资来开发这种技术的开源版本，名叫Hadoop。

此外，非结构化数据库通常所需的储存空间通常更小。在过去数据存储十分低廉，因此几年前，一些主要的互联网公司不得不每隔几个月就清空一次数据库。如今这种情况已难以构想了。

从强大的引荐引擎，到世界级的翻译系统，到令人难以置信的存货治理，都建设于这些数据之上。非结构化数据库普通来说没有结构化数据库那么精确，但关于许多运用（尤其是数据科学界），这个折衷是值得的。举例来说，比如你的非结构化数据库在100个机器上运转，然而其中有一个当机了。这时你仅用99台机器（而非100台）来决议向用户引荐观看一部特定的电影，也齐全可行。这种类型的数据库看重灵敏性，量化以及速度，哪怕不能随时保障齐全精确。

还有一个更有名的例子。一个软件公司创建了一个基于Hadoop的非结构化数据库软件Cloudera。来看看它有多大的生长空间吧：7年前，我接到风投的电话，他们预期Cloudera在寰球有10到15家公司的市场，去年Cloudera已获得了将近10亿美元的融资。

随着数据专家取代财务和会计，成为最主要的数据生产者，数据库将会越来越走进每一个体的生存。

商业运用

十年前，没有人想过能把重要的商业数据存在云端，如见这却早已成为了事实。这兴许是商业的IT基础结构的最大转变之处。

我在数据库生态系统中列出了四种主要的商业运用，区分是销售、营销、产品和生产者，每一种性能都有多种SaaS运用可供抉择。SalesForce 应该是首先掀起这股趋向的并最先获失利利的。他们把软件开发的指标人群是终端用户（销售团队），而非单个的首席技术官。这对他们的用户十分有用，在此进程中，大家也能看到公司客户可以信赖地把重要公司数据放在云端。

销售数据不再存在于用户自己装置的内部数据库，而是被放在云端，由努力于保障数据可用且巩固的云端公司提供效劳。其余公司也纷繁效仿这种做法。当初基本上每个商业部门都有一个对应的数据运用。Marketo存储营销数据，MailChimp存储电子邮件，Optimizely存储A/B测试数据，Zendesk存储顾客满意度，诸如此类。

为什么这是相干的呢？当初每个商业部门都有强大的数据库，由数据专家分析并用于预测分析。数据量很大，却零散地分布在多个运用之中。比如说你在SugarCRM 中检查某个生产者的信息，然而当你想知道这名顾客的效劳记载时，需求去ZenDesk中检查。而假设你想要知道他能否支付了最近的账单，则要去查Xero。一切的数据都被存放在不同的地点，网站和数据库中。

商业数据被转移到了云端，可能存放更多的数据了，然而这些数据被零散地存放在全世界的不同效劳器的不同运用里。

第三方数据

第三方数据出现得比结构化和非结构化数据库都早得多。Dun & Bradstreet从1841年就末尾卖数据了。随着数据对每个机构都愈发重要，这个畛域也将会获得长足的开展。

在数据库生态系统图中，我大体把第三方数据分红四个畛域，区分是商业信息数据，社交媒体数据，网页爬虫和地下数据。

商业信息数据末尾最早。我上面提到了Dun & Broadstreet，商业数据购置对许多商业机构来说都至关重要。商业数据能回答一切B2B公司至关重要的效果：咱们的销售团队该找谁谈？当初，这些数据更被裁减运用至网上地图和高频买卖等畛域。新创的数据卖方如Factual，不只售卖商业数据，更偏差于从这些高盈利的新型畛域起步。

社交媒体数据只管是新兴产物，但开展很快。经过智能PR公司对社交媒体中的文本作情感分析，营销人员可以实在地了解到品牌热度与影响力，并有效评价品牌价值。你可能从Radian6 和DatSift里看到全副细节。

接上去咱们来看看网络爬虫，我个体以为这是一个很有开展后劲的畛域。假设可以把一切网站都作为数据源，由数据科学团队开展和分析，真不知道还有多少新型商业和技术会由此而生。当初从事网络爬虫的重要公司包含 import.io和kimono，我以为这个畛域将在接上去几年呈现爆炸式的增长。

最后，当然还要提及群众数据。假设没有数据专家团队的反对，不知道奥巴马总统能否还可以赢得2004年的大选，这能够也是起初奥巴马大力推进 Data.gov 的缘由。许多地方政府也紧随其后。亚马逊网络效劳存放了许多惊人的群众数据，囊括从卫星图像到坦然公司的邮件等各个方面。这些宏大的数据系列可能协助扩展新型商业，训练更智能的算法，并处置许多实践效果。这个畛域开展快速，甚至出现了 Enigma.io 这种专门协助企业利用群众数据的公司。

开源工具

开源数据储存的种类激增，尤其是在非结构化数据的存储方面，Cassandra, redistribute, Riak，Spark, CouchDB 和MongoDB 等都大受欢迎。它们多数专一于公司运用，另外也着重于数据工程的生态系统。经过这个交互式地图你将可能一睹最受欢迎的开源数据存储及开采工具的概貌。

菜单Menu

更多阅读：

菜单Menu

更多阅读：

分享这篇文章