理工思路如何分析和投资大数据

大数据正在变得越来越重要,因为我们每天都在产生如此多的数据。

根据IBM公司的相关解释,我们每天产生2.5万兆字节的数据,这个数据来源于各个方面。我们需要对这些数据进行收集、储存,并建立应用程序进行分析。最成功的大数据公司Palantir拿到200亿美元估值。

用友幸福投资的投资总监赵山利则指出,数据大意味着数据垃圾也多了,让数据越小越闪光,这个过程才是大数据。

以下推送赵山利先生在健一会第55期闭门沙龙上的发言:

对于大数据,大家可能都听腻了。每分钟的数据有这么多:

1470728086-2673-3417eb9bbd90191388a459
但什么是大数据?

个人觉得,数据应该由庞杂变得精细、智能化,最后让数据越小越闪光,这个过程才是大数据。并不是说数据大才是大数据,数据大也意味着数据垃圾越来越多了。大数据其实是价值凝聚的过程,在这个过程中找到闪光数据,这也是我们投资大数据的一个初衷。

大数据由大变成闪光数据,是怎么样的一个过程?

大数据应用价值的七层凝聚

可以用一张表来表示:

1470728087-9580-3417eb9bbd90191388b15a
表的最底层,是用户ID、画像、兴趣、行为。这些是源数据,它们是有价值的,代表着事务或者事件由数据构成,最本原的、朴实的数据。

之上一层是业务运营监控。简单说,就是监控数据哪些有问题,或者异常波动。原来它可能每天有100个销量,突然变成30个销量了,或者突然变成1000个销量了,这是异常波动,这是很初级的大数据发现问题。

再往上一层是客户体验优化。比如说之前一直是30个销量,我想优化成40个销量,或者优化成50个销量,出发点和落脚点就是数据监控再优化。

之上第四层,是精细运营、营销,包括精准营销,也就是对数据加工之后产生的价值,这一块对于个体化推荐、生命周期管理、数据挖掘提升还有工具的使用,要求比较高。

来到第五层,是数据对外及对内服务了。数据之前可能是一个工具,或者是一个概念,这个时候可能变成一个产品了。对内服务老板,对外服务客户,同时这个产品具有传播性,因为你这个产品要实现它的价值,肯定要传播。

之后第六层,是专题的分析,收入的分析,因为收入是大家最关心的东西,这一块,是从不同的侧面,去切大数据。

最后第七层,最顶尖的,是趋势战略分析,就是企业的发展,或者个人的选择,它是为明确下一步大的方向而凝聚的。

这七层数据的组合变化过程,每一层都有它的价值。企业或者投资项目如果能够在某一层里挖掘出这种细分价值,做到极致,在大数据价值凝聚过程中,是很有作用的。

以上这张图是从数据应用价值上描绘的。

大数据技术实现的七层框架

我们再来看第二张图,它是从纯技术角度上分析的。

1470728087-3072-3417eb9bbd90191388c45b
最底层是文件系统,包括HDFS、谷歌的等。

之上是存储系统,包括列存储、文档存储、图片视频存储,还有基于存储的管理或者特性辅助的,这是一个文件的存储。

之上是资源管理层,包括侧重于集群管理的、侧重于不同设备之间共享管理的,还有负责效率提升的。

再上面是一个计算框架,侧重于迭代式计算或流式计算,批处理、交互等,它的整个技术很有针对性,效率也很高的。

再之上是数据分析,数据集成,应用操作框架。这张表,都是纯技术角度来看一个大数据项目切的哪个点,切的点是不是足够深。这些技术在国际上已经过初步验证,有一定的说服力了,当然新的技术迭代也很快。

上面这两张图,分别来自数据应用角度,以及来自纯技术角度。这两张图结合一下,简单一点,我觉得应该是下一张图:

1470728088-8588-3417eb9bbd90191388dd5c
最底层,数据来自数据源,互联网的,物联网的,政府的,企业的,包括还有个人的。经过中间的众多环节,到达最上层,数据返回给用户,如金融、电信、政府、交易平台等。整个这张图看起来简单一点。整个大数据,当我们第一眼看的时候,看它切入哪一个点。

下面开始虚实结合:

这张图可能大家都看过,太复杂了,我估计也讲不透,参考而过。

1470728099-8186-3417eb9bbd90191388f65d
这张图,大家也可能看过,国内的图,比上面那个好一点,就是看的是身边的企业,结构简单一点,所以看的容易一点。但是我觉得,还有点大。

1470728091-2851-3417eb9bbd90191389025e
所以,这是我做的一个表,可以看的更简单一点,更直白一点。

1470728088-7026-3417eb9bbd901913890e5f
实际上这个表分两个部分,大数据,一边是应用类分类,一边是技术类分类。这个分类,不是说完全从行业分类拽出来的,而是针对全球956家大数据相关企业进行分析,包括国际712家,包括国内244家。

应用类分为大数据平台、大数据应用、数据分析三大块。

技术类分为基础架构、开源技术、数据采集三大块。

准确的说,国内基金(包括人民币基金)投左边应用类多一些,因为国内原创技术还是差一些。而美元基金既投应用也投技术,这方面实际上是美元基金和人民币基金的小区别吧。

国际712家大数据企业有机会另作分析,下面我就针对这244家企业它的一个分类,应用类的,接近200家,占大头。技术类,40多家。

1470728089-4150-3417eb9bbd901913891d60
1470728090-2029-3417eb9bbd901913892561
针对最近的公开数据,244家有49家是新三板已经挂牌的,这49家,后面有简单的一个分析,或许是这个行业能跑到前面的。当然有跑的好,人家没有上新三板,也有可能。这49家里,广告营销占14家,就是广告营销太多了,挂牌也很多。项目实施占12家,商业分析占4家,剩下的其他都很零散,实际上大数据分布比较广。

1470728089-1271-3417eb9bbd901913893362
1470728089-1967-3417eb9bbd901913894063
从收入和利润看,大数据,目前我觉得还属于早期,基本还没有到能够盈利的阶段。至于这个盈利点是明年后年,我觉得两年内,应该不会有特别大的改善,这是一个行业现状。

有两张清单,一是广告营销的,按15年年收入排序的,从六个多亿的,到最低800多万的,利润介于正负5000万之间,就是做广告营销的,竞争对手特别多,收入的分布也特别广,这是广告营销的特点。

二是做项目实施的。最高的年收入三个多亿,利润4000多万。最低的,六七百万,利润几十万。收入分布也很广,但是他们几乎都有利润,也就是说做项目实施,应该是不会赔钱,这是大家一个策略吧。

数据基本上说完了,当然数据分析的比较浅,时间也比较仓促。我个人几个小观点:

第一、美国的数据分析市场非常大,基于美国信息化非常发达。而国内信息化程度和数据分析市场需要协同扩张。

第二、美国公司注重差异化竞争,一个模式基本上不会有太多人去模仿。国内公司模仿的现象太普遍了,这一点在大数据领域同样是这样。貌似大数据是高科技,技术含量高。但实际上,大家模仿还是很普遍的。

第三、大数据是面向企业收费的产品,我个人在企业服务这方面看的比较多,面向企业收费的产品,特别是软件产品,一定要做好“服务”这个事儿,要深刻理解“服务”的意义。互联网发展这么多年来,我觉得大家虽然说我投资企业服务,或者说我做企业服务的,但从来没有把企业服务,这个“服务”两个字给加重,这一点我觉得是应该加重的。

第四、广告营销。大数据广告营销,在线上销售方面发展至少有三五年了,发展挺快的。而线下销售营销提升方面,急需结合大数据手段,就是针对于传统的地面营销。近年来,互联网对整个传统产业的颠覆改造,实际上不像之前那么猛烈了。传统产业、传统的生活生产消费方式慢慢在回温。但是它们也需要线上,或者大数据的方式来促进他们,来提升他们。这就是线下销售,用大数据来促进提升,哪怕只是一点,是很有价值的。

第五、大数据技术发展很快。如果你做这方面的投资,就需要做大量追踪技术的体力活,就是包括我觉得分析这个报告,其实上产生了很多数据。不管是来自一对一的数据,还是公开途径的数据,这个活挺费劲,挺不太好干的。但是如果你投资大数据的项目,这方面的工作很有必要的。

最后,因为今天讲投资策略,我们再回到上面大数据投资策略那张PPT:

1470728090-8254-3417eb9bbd901913895200
右边做技术类的,美元基金投的比较多,他们也敢投。特点是,就是早期的时候,你一定瞄准机会。一旦这个项目有一点点冒头,它的估值一下就暴涨。可能你跟踪一段时间,想择日再投,肯定就来不及了,估值很高了。它的风险,在没有降低的情况下,它的估值确暴涨了。

而左边应用类的,这个估值涨的过程,是一个稳步的过程。人民币基金,美云基金投的都比较多。政务、金融,软件开发,项目实施,还有商业分析这一块,我觉得是有价值的。为什么没有敢圈广告营销呢?广告营销太细了,这个方面,它比我研究一个大数据技术,可能还要猛,就是这里面坑太多了。当然有专业投资人士,能够搞懂,是非常厉害的,这个市场是足够大的,只是我个人对广告营销是不太敢碰的。

作者:
赵山利,
信息工程(北邮)和金融学(对外经贸)双硕士。多年通信产业经验,后转行财务顾问撰写材料,再逐步成为投资人。既了解创业者融资意图,又通晓投资人甄别项目价值的脉络。现任职用友幸福投资,投资总监,专注云计算、大数据、企业服务等细分领域,已投项目包括易云捷讯、华傲数据、EventBank、大河云联、销售罗盘等。

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部