美国大数据产业地图和数据科学家必备工具-数据处理

第二部分：数据处理

最近，福特汽车的数据专家迈克尔·卡瓦雷塔在纽约时报上提到了数据专家在日常工作中面临的挑战。卡瓦雷特说：“我们真的需要更好的工具来减少处理数据的时间，来到达‘诱人的部分’。”

数据处理包括清洗数据、连接数据并把数据转化成可用的格式；
“诱人的部分”则是数据预测分析和建模。

前者有时被称作是“看门的工作”，可见前后两者哪个处理起来更有乐趣了。

在我们最近的调查中，我们发现数据专家需要实打实地花费80%的时间来处理数据。数据专家的工资如此之高，可进行数据处理的公司还那么少，实在令人惊讶。

在上一部分中，我提到结构化数据库起源于财务或经营要求，而非结构化数据库则是被数据专家推动发展的。数据领域的发展过程也是如此。结构化数据库是一个很成熟的行业了，有足够的工具形成金字塔供财务和经营人员使用。然而对于需求更加灵活的非结构化数据库，则需要一套新的工具供数据专家使用。

先从我熟悉的领域说起吧。

2.1，数据强化

数据强化是对原始数据的提升。最初的数据来源可能很混乱，格式不同，出处不同（如此之类），很难甚至完全无法对其进行预测分析。数据强化对数据进行清洗，大大减少了数据专家在这一部分花费的时间。

我把数据强化分为“人工的”和“自动的”两类，但实际上两者都需要人和机器的参与。

人工数据强化是把所有的原始数据都用人工转化，不过这需要大量的电脑自动化来保证其可靠。同理，自动数据强化通过许多规则和脚本来转化数据，但是需要人工来设立和检查这些规则。

人工数据强化的基础在于，有些任务确实人做起来比机器更简单。比如图片识别吧，人类可以轻易看出一个卫星图片是否含有云状物，可机器识别起来却十分困难。

语言则是另外一个人工数据强化派上用场的地方。自然语言处理的算法可以做很牛的事情了，不过仍然没有办法像人那样区别挖苦讽刺或粗话。所以你会看到PR公司和营销人员都会人工来分析这些情感。

人工数据强化还可以用来训练搜索算法，而且人能比机器更好地阅读和收集完全不能比较的信息。再次强调，这需要任务被设立好，软件能做很好的质量控制。但是如果能有数以千计的人，协力一起来做人比机器能完成得更好的简单任务，你就能以极快的速度来完成数据强化。

CrowdFlower和WorkFusion，以及部分Amazon Mechanical Turk都在做这部分的工作。

自动数据强化和人工数据强化的目标相同，但是是由机器（而不是人工）通过脚本来把原始数据转换成可用数据。正如上文提到的，你还是需要一个厉害的数据专家来输入那些信息，并在转化完成后检查。如果数据格式统一，自动数据强化还是很强大的。只要有好的脚本，含有少量错误和不完全连贯的数据几乎能立即转换成可用数据。

自动数据强化甚至能够有效地清洗数据，只要这个过程不需要人参与。从规定姓名和日期格式等简单任务，到从网络上有效抓取元数据等复杂任务，都是自动数据强化的典型例子。Trifacta、Tamr、Paxata和Pantaho 等都提供了很好的自动化解决方案。公司们都希望能够把一些宝贵的时间还给他们的数据科学家，因此自动数据强化也是正在快速发展。

2.2，ETL/混合

ETL表示提取 (Extract)，转换（Transform) 和加载 (Load)，显现了这一部分的数据生态系统的核心。本质上，ETL/混合解决方案是帮助数据专家匹配不相似的数据，以做分析之用。

举个例子，比如说你有一个财务数据库，包含了你的消费者、支付金额和购物种类明细，并被储存在一个地方。而你同时还有另一个数据库包含了消费者地址。ETL/混合领域的工具帮助顾客把它们合并成一个单一且可用的数据库，由此数据专家便可以探索一些新的方面，比如某个特定商品在哪个地区消费最多，或者哪个地方会是你的目标市场，等等。

以上只是一些简单的例子；实际情况可能复杂得多。不过基本上每个数据专家的日常工作中都包含了数据混合。通常数据来源不同，格式也会不同。如果需要一览全面信息，混合整理这些数据源是必不可少的。

Alteryx、Astera、CloverETL 和etleap 都开发了可以混合这类数据的软件。而ETL虽然早在结构化数据库出现之时便有了，但由于越多数据源也意味着更多的格式不一，ETL的重要性现在越发显现出来。无论何种数据分析，大数据的前景都依赖于全局与细节分析的全面结合。

2.3，数据整合

数据整合与ETL/混合有不少重合之处，它们都是要对数据进行整合。不过数据整合更多是按照应用的需要把数据统一成某个特定格式（而不是进行一般的混合）。

回想一下我在上一部分提到的第三方数据云应用，是如何全面覆盖销售和营销数据，以及社会研究和邮件管理的。怎么才能把这些应用都合并到一个可用的数据集，让数据专家可以据此做预测分析呢？ClearStory、Databricks 和SnapLogic 等软件便可助你实现。

Informatica 已经从事数据整合多年，并获得了超过十亿美元的收入。我虽把它放在了数据整合的部分，但它其实对数据处理的各个领域都有所涉及。微软也提供了两项数据整合服务：Azure数据工厂和SQL服务器整合服务。

类似于ETL/混合工具，数据整合项目主要是混合数据生态系统图左边的数据，使其可以通过图中右边的软件建模。也就是说，数据整合工具（如Apatar 或 Zoomdata），可匹配来自云应用（如Hootsuite 或Gainsight）的数据，让你通过Domo 或Chartio 获得商业智能（BI）。

2.3，应用程序界面(API)接口

最后，我们谈谈API接口。这些公司不那么着重于数据转化，而是更强调独立的API之间的整合。这类公司一旦兴起，实在是前途无量。

这些工具一旦用对了地方，是很好很强大的。从一个没什么技术含量的例子说起吧，IFTTT 应该能帮大家理解API接口是怎么一回事。IFTTT 表示“如果这样，则那样”（“if this, then that”），人们通过它，可以把发到Instagram的图片马上保存到Dropbox或发上Twitter。IFTTT就是一个非数据的专家在协调在线工作时使用的API接口。我把这个例子包含进来，是因为许多数据专家也会在私底下或工作中稍微使用到它。

Zapier 和IFTTT类似，不过着重于商业应用，所以也更受数据专家欢迎。

MuleSoft 则是一个能把所有商业应用都连接起来的接口。比如说一个用户登录你的网页，谁需要知道这个信息？你的销售团队需要这个信号吧？你的运营团队需要知道那个用户什么时候再次登录吧？营销部门需要知道他们的邮件营销活动的成果吧？一个简单的API接口就可以同时触发这些通知了。

最后，Segment.io 能把你的产品连接到许多这个生态系统图左边的SaaS商业应用及其他应用。

API接口的存在，正是因为数据专家要使用数据生态系统中的那么多工具来混合和整合数据，可是这些工具又不是全部为数据专家设计的。

2.4，开源工具

用于数据处理的开源工具，远比用于数据存储和数据分析的少。Google开源了他们非常有意思的open-refine项目。多数时候，公司会在Python上建立他们自己的专属工具；而Kettle 作为一个开源的ETL工具，用户也越来越多。

菜单Menu

199IT大数据导航，汇集1000多款与数据相关的工具（//hao.199it.com/ ），欢迎分享收藏！

更多阅读：

菜单Menu

199IT大数据导航，汇集1000多款与数据相关的工具（//hao.199it.com/ ），欢迎分享收藏！

更多阅读：

分享这篇文章