重创新:传统企业转型互联网四个数据坑

Database

一个有价值的数据库的属性

你应该怎么努力才能让你积累的大数据具有优势?下面是宝贵的数据库的关键属性:

一个理想的数据库是很难让别人从头开始构建。

一个理想的数据库包括全面,准确,最新的数据。

一个理想的数据库理应是有价值的。例如,餐馆菜单的数据库,将是非常有价值的,同时鞋码的数据库会不值钱。

一个理想的数据库的增长的越多价值也就越多,也就是说,该数据需要有正网络效应。

数据源

好相信数据是伟大的,你想多了吧。但是你怎么弄的?下面是一些经过验证的方法:

直接收集。传感器网络的形式,调查,访谈等都是很好的方式,直接收集数据。

众包。公司如Glassdoor,Yelp和Waze主要通过用户贡献获取数据。众包是直接收集的子集,但有一个值得注意的点,因为用户通常不知道他们正在帮助公司建立一个数据资产。例如,Yelp的用户写评语,因为他们想表达他们的意见,但这些评论还帮助建立了Yelp的的数据集。

付费众包。您可以支付员工(通常这些都是外包员工)或机器人进行数据收集,可能很难收集没有人类的帮助。

使用工具产生的「数据废气」。一切与众包技术密切相关的都可以说是在利用「数据废气」。虽然众包往往是一个商业模式的核心部分(Yelp必须要依赖用户写评语),「数据废气」是正常使用工具时产生的数据副产品。

例如,亚马逊的主要目的是销售产品,但它收集了大量的用户行为和商店数据。用户搜索什么?结果他们点击了什么?他们最终购买了什么?所有这些数据都有助于亚马逊建立价格弹性的内部模型,其中可以促成一些产品组合购买,并针对每个用户提供个性化的建议。

需要注意的是,几乎任何工具可以产生有价值的「数据废气」。一个购物网站积累的数据来自搜索和购买,制药公司的销售数据很多都是来自药师的工具。所有这些数据可以用来为用户做出更好的产品,有时这些数据甚至可以直接卖给第三方,。

当怀疑一些数据块它是否值得保存的,尽量选择继续和保存。因为你以后可以随时删除它,如果它不能证明是有用的,但你会惊奇地发现,大量的数据最终被有价值的,如果你只是得到足够它。

捆绑许多现有的数据集在一起。公司如事实,Vurb和DataFox都结合多个数据源在一个地方。事实上,谷歌搜索可以被认为是一个巨大的数据集线器,由于谷歌收集数据(内容)从许多来源(网站),并使其通过一个统一的搜索接口访问。

数据积累,这种模式往往涉及大量爬虫行为、数据清理和实体解析。尽管以上列出的其他数据收集方法包括创建原始数据,这种方法就是找出现有数据源之间的连接。

这个模型的数据积累往往涉及大量web爬行,数据清洗、和实体解析。虽然上面列出的其他数据收集方法包括创建原始数据,这种方法就是找出现有数据源之间的连接。

提示积累数据

收集尽可能多的数据,几乎任何数据都有价值,如果你的创意,你可以随时删除数据,在未来,如果你决定这是不是有价值的不够。

尽早开始收集数据,数据分析可以推迟到你的公司比较成熟时,但数据的收集不能被推迟。你不能回到过去来检索未保存的数据。

更喜欢原始数据得出的数据。原始数据(例如,每个用户给一本书的评论)比处理过的数据(例如一本书的平均评分)更有价值。处理过的数据的主要问题是,将让你丧失掉部分的可能性。

例如,如果你只跟踪平均收视率,那么你将无法弄清楚,当你添加一些用户标记为垃圾邮件的能力调整时的一个评级。那么你将无法弄清楚,如何调整这些评级当您添加一些用户标记为垃圾时。

软件缺陷也可以严重破坏处理的数据。例如,如果你永远不会保存个人用户评级,然后引入了一个错误,得到平均收视率全部是错的,那么所有等级的数据将变得一文不值的。由于这些原因,每当存储成本不是高昂时,尽量存储原始数据。

与外部连接的数据集的数据可以访问,更独立数据源源将会使得你的见解会越好。例如,如果你知道Bob的邮件地址,那么你知道如何与他联系。如果你可以电子邮件链接到Bob的Facebook和LinkedIn档案,那么你将有一个更好地了解他的个人和职业兴趣。如果你能让OAuth访问电子邮件帐户,你就会知道鲍勃会买什么产品,你将知道如何与他进行谈判。

如果配合Bob的位置历史记录,以企业名单,那么你就会知道,如果他是一个健身房或艺术爱好者,更甚者家庭至上。你可以连接你的数据到其它专有的数据集(例如,你可以从Factual或者社会网络中购买企业名单)或公关数据集(如气象数据或美国人口普查数据)。

注意事项和陷阱

建立一个庞大的数据集可以是伟大的,但有些事情是会减少你的数据价值。这里有一些问题要问自己:

收益递减规律对数据集来说非常严重。对于一些数据集,如汽车价格,10倍的数据点可能是比3倍或4倍更有价值。每辆车有许多可能的配置,数据点越多越准确,你就可以更准确的为一个特定的配置预测一个公平的价格。其他数据集,如汽车燃油效率,十几倍的数据可能只有1.01倍的价值。100数据点会让你估计普锐斯的MPG非常准确,当增加到1000或10000数据点时帮助也只有一点点。最有价值的数据集将不遭受迅速边际收益递减因素

还有没有其他的更简单的方式来积累数据?如果你是一个信用卡公司,你可能会认为有在线交易数据,很多消费者是有价值的。但你不必非得成为一个信用卡公司去得到这些数据。你可以是一个会计工具如Mint,或优惠券工具如Honey,或电子邮件分析器像Unroll.me。复制的数据集越大,这将更有价值。

如何确保你的数据是准确的?有时一个数据集的实用性是有混乱的限制。例如,书的价格列表是巨大的,如果每个价格对应一个ISBN号,但不太有用,如果每个价格对应于一本书的标题。(如果你看到两个不同的价格,是不是因为一个价格是针对精装书,一个是一本平装书?还是因为有两本书同名?)

如何确保你的数据是新鲜的?如果你的数据说,谷歌的股票价格创下400美元高价,就像天文学家发现了两个新的卫星围绕冥王星,如果是2005年时那么这是有用的。不幸的是,谷歌现在是1100美元和冥王星不再被认为是行星。作为数据变得不那么新鲜,那就变得不那么有用。

结论

到目前为止,我已经介绍积累有价值的数据方式,以及如何使用这些数据作为一个竞争优势。在下面文章中,我将讨论特定业务模型和他们的核心数据。

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部