数据驱动背后的“陷阱”

“数据驱动”已经成为当下必须。更明智的进行决策，尤其是在自动化商业智能的赋能下，会带来更高的ROI和更好的业绩。

从AI工程到超自动化，更多应用数据的有效方式出现，遍及所有商业领域，也被Gartner认为是“2021年十大战略性科技趋势”的重点。

想在后疫情时代获得发展，“以数据为中心”不再是可选项，而是必选项。

但同时，据《哈佛商业评论》2019年的报道，多达77%的高管们将应用大数据和AI看做是最大的挑战。更糟的是，这个数字在过去几年中呈指数级增长。

这一趋势是否会在未来十年持续下去？在向数据驱动体系转变的过程中，企业努力想要高效利用数据却又力不从心。大多数企业都不知该如何摆脱这个困境。

海量的交易数据收集下来了，然后呢？

收集和访问数据并不难。商业每天制造出数以十亿计的数据点。到2025年，每天产生的数据将高达463艾字节，这是把人类历史上说过的所有话都存储下来所需数据量的90倍！其中的大量数据是社交媒体、短视频、邮件和自拍照，但更多的还是交易数据。

尤其是零售业，一些最有价值的商业智能就是从交易数据中获得的。这曾经是个简单的过程，我们用Excel甚至手工计算就可以算出市场需求和理想定价。但现在，传统的数据分析方法已经远远不能满足需求了。数据规模之大让我们连一知半解都无法做到，更别说从其中获得有用的洞察。

大数据已经改变了问题的性质。

难点不再是如何收集数据，而是如何高效利用数据。

当我们拥有了海量的交易数据，最让人感觉手足无措的就是“接下来怎么办”。

大数据的四个V惯例

幸好，还有一个行业标准可以指导我们。这“四个V”可以帮助你高效利用数据。必须要理解、标准化和验证每一个元素，不然就无法成功提取出有用的智能。

1、Volume-数量

到底拥有多少数据？当然，大数据意味着很大的数据量，但是正在利用的有多少？这个数量决定了分析要承载的容量。

2、Velocity-速度

数据收集、存储、处理的速度有多快？是接近拥有实时数据了，还是存在延迟？模型每隔多久需要接收新数据？速度决定了分析的时效性和相关性。

3、Variety-类型

拥有哪些种类的数据？它们的结构如何？数据源的丰富性如何？数据的类型是否足够多样化，以提供可用的建议？类型决定了分析是片面封闭的，还是全面整体的。

4、Veracity-准确

数据是准确的吗？其中是否存在缺漏？又存在多少噪声？准确性决定了分析的精准度。

价值：第五个V

前面所讲的四个V可能是行业惯例，但数据科学家越来越认识到，还有一个V甚至更为重要——价值（Value）。

换句话讲，在商业场景中，大数据最重要的赋能，就是将数据转化为帮助企业提升ROI的决策。数据必须是要能指导行动的，带来的价值必须要高于分析的成本。相比之下，数据的质量比数量更重要。而价值则衡量了可用数据的最终质量。

企业是否能够做好这第五个V非常关键。就算我们遵循前四个V收集到了好的数据，也并不意味着就真的有用。不产生价值，数据就没有任何用处。

更好的数据引入+更好的分析=成功

那么多企业尝试转型数据驱动但失败，问题就出在数据的价值上。一些企业花了超出承受能力的时间去搞定数据的前四个V，说到价值时却无法提取出有用的洞察。另一些企业重心全在数据分析上，没有关注四个基本的V，而被数据本身的缺陷限制了价值的输出。没有良好的平衡，就得不到关键的智能。

幸好，如果能实现数据引入（data ingestion）和分析的自动化，平衡并没有想象的那么难。

理解数据引入（data ingestion）

数据引入与为数据管理和创建模型相关。本质上，数据引入关注的是前四个V，也就是容纳数量、降低时延、描述类型、监控精确度的过程。数据被恰当的存储，误差和缺口也被定位和修复。

数据引入可能会特别复杂，但可以在一些工具的帮助下将这个过程自动化。如EvoFlow、AirFlow等工具可以编排数据流并执行一系列的检查，来保证我们所使用的数据井然有序。通过对流程的自动化和二次检查，这些工具确保数据符合前四个V的要求，让我们能够把注意力放在价值上。

自动化分析

对价值的关注并不意味着要牺牲自动化。反之，分析也应该自动化，来避免人工产生的错误。我们发现，这就是数据科学与商业科学之间的区别：导致性能欠佳的最显著原因是使用和输入错误，而自动化能够减少这些错误。

同时，自主化系统可以让价值最大化，而价值也是每一家企业最需要关注的方面。分析，是将海量交易数据和其他业务数据最终转化为洞察的一步，这也是大数据能帮助企业完成KPI和成功占领市场的地方。没有自动化的分析，就无法优化价值。

AI自动化：避免数据驱动的坑

完成数字化转型这一目标依然困难重重，但是所有生意都可以通过自动化的、AI驱动的大数据，来实现真正的数据驱动。只要我们借助了那些比任何人类都快速的处理、验证和分析数据的技术来应用数据，就可以避免被大数据所困。这样我们也就不会被交易数据所淹没，而是能够从中挖掘出价值，带来更好结果。

作者：Fabrizio Fantini

来源：towards data science

原文链接：https://towardsdatascience.com/the-5-vs-of-big-data-hide-a-trap-30eb8d8de8f6

翻译：TalkingData

图片来源：pixabay