重创新：传统企业转型互联网四个数据坑

一个有价值的数据库的属性

你应该怎么努力才能让你积累的大数据具有优势？下面是宝贵的数据库的关键属性：

一个理想的数据库是很难让别人从头开始构建。

一个理想的数据库包括全面，准确，最新的数据。

一个理想的数据库理应是有价值的。例如，餐馆菜单的数据库，将是非常有价值的，同时鞋码的数据库会不值钱。

一个理想的数据库的增长的越多价值也就越多，也就是说，该数据需要有正网络效应。

数据源

好相信数据是伟大的，你想多了吧。但是你怎么弄的？下面是一些经过验证的方法：

直接收集。传感器网络的形式，调查，访谈等都是很好的方式，直接收集数据。

众包。公司如Glassdoor，Yelp和Waze主要通过用户贡献获取数据。众包是直接收集的子集，但有一个值得注意的点，因为用户通常不知道他们正在帮助公司建立一个数据资产。例如，Yelp的用户写评语，因为他们想表达他们的意见，但这些评论还帮助建立了Yelp的的数据集。

付费众包。您可以支付员工（通常这些都是外包员工）或机器人进行数据收集，可能很难收集没有人类的帮助。

使用工具产生的「数据废气」。一切与众包技术密切相关的都可以说是在利用「数据废气」。虽然众包往往是一个商业模式的核心部分（Yelp必须要依赖用户写评语），「数据废气」是正常使用工具时产生的数据副产品。

例如，亚马逊的主要目的是销售产品，但它收集了大量的用户行为和商店数据。用户搜索什么？结果他们点击了什么？他们最终购买了什么？所有这些数据都有助于亚马逊建立价格弹性的内部模型，其中可以促成一些产品组合购买，并针对每个用户提供个性化的建议。

需要注意的是，几乎任何工具可以产生有价值的「数据废气」。一个购物网站积累的数据来自搜索和购买，制药公司的销售数据很多都是来自药师的工具。所有这些数据可以用来为用户做出更好的产品，有时这些数据甚至可以直接卖给第三方,。

当怀疑一些数据块它是否值得保存的，尽量选择继续和保存。因为你以后可以随时删除它，如果它不能证明是有用的，但你会惊奇地发现，大量的数据最终被有价值的，如果你只是得到足够它。

捆绑许多现有的数据集在一起。公司如事实，Vurb和DataFox都结合多个数据源在一个地方。事实上，谷歌搜索可以被认为是一个巨大的数据集线器，由于谷歌收集数据（内容）从许多来源（网站），并使其通过一个统一的搜索接口访问。

数据积累，这种模式往往涉及大量爬虫行为、数据清理和实体解析。尽管以上列出的其他数据收集方法包括创建原始数据，这种方法就是找出现有数据源之间的连接。

这个模型的数据积累往往涉及大量web爬行,数据清洗、和实体解析。虽然上面列出的其他数据收集方法包括创建原始数据,这种方法就是找出现有数据源之间的连接。

提示积累数据

收集尽可能多的数据，几乎任何数据都有价值，如果你的创意，你可以随时删除数据，在未来，如果你决定这是不是有价值的不够。

尽早开始收集数据，数据分析可以推迟到你的公司比较成熟时，但数据的收集不能被推迟。你不能回到过去来检索未保存的数据。

更喜欢原始数据得出的数据。原始数据（例如，每个用户给一本书的评论）比处理过的数据（例如一本书的平均评分）更有价值。处理过的数据的主要问题是，将让你丧失掉部分的可能性。

例如，如果你只跟踪平均收视率，那么你将无法弄清楚，当你添加一些用户标记为垃圾邮件的能力调整时的一个评级。那么你将无法弄清楚，如何调整这些评级当您添加一些用户标记为垃圾时。

软件缺陷也可以严重破坏处理的数据。例如，如果你永远不会保存个人用户评级，然后引入了一个错误，得到平均收视率全部是错的，那么所有等级的数据将变得一文不值的。由于这些原因，每当存储成本不是高昂时，尽量存储原始数据。

与外部连接的数据集的数据可以访问，更独立数据源源将会使得你的见解会越好。例如，如果你知道Bob的邮件地址，那么你知道如何与他联系。如果你可以电子邮件链接到Bob的Facebook和LinkedIn档案，那么你将有一个更好地了解他的个人和职业兴趣。如果你能让OAuth访问电子邮件帐户，你就会知道鲍勃会买什么产品，你将知道如何与他进行谈判。

如果配合Bob的位置历史记录，以企业名单，那么你就会知道，如果他是一个健身房或艺术爱好者，更甚者家庭至上。你可以连接你的数据到其它专有的数据集（例如，你可以从Factual或者社会网络中购买企业名单）或公关数据集（如气象数据或美国人口普查数据）。

注意事项和陷阱

建立一个庞大的数据集可以是伟大的，但有些事情是会减少你的数据价值。这里有一些问题要问自己：

收益递减规律对数据集来说非常严重。对于一些数据集，如汽车价格,10倍的数据点可能是比3倍或4倍更有价值。每辆车有许多可能的配置，数据点越多越准确，你就可以更准确的为一个特定的配置预测一个公平的价格。其他数据集，如汽车燃油效率，十几倍的数据可能只有1.01倍的价值。100数据点会让你估计普锐斯的MPG非常准确，当增加到1000或10000数据点时帮助也只有一点点。最有价值的数据集将不遭受迅速边际收益递减因素

还有没有其他的更简单的方式来积累数据？如果你是一个信用卡公司，你可能会认为有在线交易数据，很多消费者是有价值的。但你不必非得成为一个信用卡公司去得到这些数据。你可以是一个会计工具如Mint，或优惠券工具如Honey，或电子邮件分析器像Unroll.me。复制的数据集越大，这将更有价值。

如何确保你的数据是准确的？有时一个数据集的实用性是有混乱的限制。例如，书的价格列表是巨大的，如果每个价格对应一个ISBN号，但不太有用，如果每个价格对应于一本书的标题。（如果你看到两个不同的价格，是不是因为一个价格是针对精装书，一个是一本平装书？还是因为有两本书同名？）

如何确保你的数据是新鲜的？如果你的数据说，谷歌的股票价格创下400美元高价，就像天文学家发现了两个新的卫星围绕冥王星，如果是2005年时那么这是有用的。不幸的是，谷歌现在是1100美元和冥王星不再被认为是行星。作为数据变得不那么新鲜，那就变得不那么有用。

结论

到目前为止，我已经介绍积累有价值的数据方式，以及如何使用这些数据作为一个竞争优势。在下面文章中，我将讨论特定业务模型和他们的核心数据。

菜单Menu

一个有价值的数据库的属性

数据源

提示积累数据

注意事项和陷阱

结论

更多阅读：

菜单Menu

一个有价值的数据库的属性

数据源

提示积累数据

注意事项和陷阱

结论

更多阅读：

分享这篇文章