大数据应用层次和案例及展望

作者:奇虎360傅志华


3417eb9bbd9017b8cf453d

3417eb9bbd9017b8cf453e

  第一部分是大数据发展的动力,第二部分是想跟大家分享一下大数据在互联网里面的应用的各种层次,就是它都有哪些应用场景,第三方面是不仅仅是互联网行业,我们想看看其他行业未来大数据都有什么样的机会。因为时间比较短,所以每一块我都只能是提纲挈领的去跟大家分享一下,大家有问题可以等我下来以后交流。

3417eb9bbd9017b8cf453f

  大数据这两年为什么这么火,除了技术本身逐渐成熟以外,我认为还有一个很重要的驱动力,这个数据大家应该有概念,这个数据是是网民数,今年上半年网民数有6.7亿,这个数据是什么?

3417eb9bbd9017b8cf4540

  通过手机上网的比例,就相当于说,有6亿的手机网民。这个意味着这什么呢?因为大数据或者一样新的技术,一定是要有新的商业价值,才会发展的比较好。那我们可以看到,移动互联网发展对于大数据来说是有两个好处的,第一个是数据采集的成本降低了,就是从数据采集的角度来说成本降低了,原来我们可能是通过比如说摄像头,或者其他的方式采集数据,通过摄像头采集数据的话采集成本成本就很高。但是由于移动互联网的发展让我们采集数据效率更快,另外是说移动互联网采集数据和PC采集的数据完全不一样的是,对于用户来说我们可以采集到更完整的信息。原来在PC的时候,他下班以后你可能就不知道它在干吗,但是手机我们现在可能随身携带手机,比见你的家人还要多,从睡觉到起床的时候,从那一刻打开手机,那采集的时间完整度也是比较的。

还有一些重要的就是产品信息,这个产品信息和PC互联网时代不一样的,什么意思呢?原来PC互联网里面没有的数据是什么呢?比如说位置信息,就是你的精确的比如说你的经纬度,那位置信息可以反映什么呢?比如说你要是已经结婚了,搞婚外恋那你就要小心了,你在哪里活动很容易都被知道。不是说安全问题,就是说位置其实能反映你的消费能力,很容易的反映到你的消费能力,比如你住哪个小区、经常出没哪些商场。包括你移动的速度也能反映到你的状态,你经常性移动速度比如说定期的周末移动速度很快,很可能是因为你在跑步。但是在PC互联网时代是不太容易知道。由于移动互联网,让我们对这个人全方位的了解更加容易了。

3417eb9bbd9017b8cf4541

  另外一个很重要的原因是移动互联网又是数据反馈、数据应用的一个很重要的渠道,我知道他可能在一个消费场所里面有消费欲望的时候,我可能通过大数据及时给他推荐他可能感兴趣的信息。所以简单说我认为除了技术逐渐成熟之外,很重要的是移动互联网的发展,我们在用大数据的时候,一定是要充分的运用移动互联网的数据,不仅仅是你企业拥有什么数据,一定要想办法要跟移动互联网的数据打通,因为这里面太多有价值的信息。

这个我刚才说过了,另外一个我说到的移动互联网,移动互联网还有一个很重要的特点,为什么那它对数据依赖度这么高,PC互联网的时候,我们看这里面这个屏幕,这个是12还是13寸的屏幕很大,对产品经理来说,或者对于营销人员来说,比如说他看广告,他可以随便放,反正一个页面可以放10个广告,那我命中概率还是比较高的,但是一个手机这么小屏幕,它能可以随便放10广告吗?比如你们上次接上房产网站,经常一打开就是满屏的广告,你在手机上做不到,因为那样用户体验一定很差,所以我为什么这个手机上我只放三个或者两个广告,那产品经理是要拍脑袋去决策还是说他有什么样的办法投其所好,拍脑袋的时代已经过去了。由于屏幕小就更要我们去了解这个用户是谁,他的兴趣爱好是什么?然后我投广告的时候就更加精准,所以我们看到6亿移动互联网民里面都需要用大数据去服务他们,你说这个市场多大,对吧?

因为我之前上一家公司是一个社交公司,在深圳也是比较大的,也是亲身感受到移动互联网的魅力。因为那时候我看到某个你们经常用的一个社交应用,它在2011年底的时候,手机用户活跃量已经超过PC的活跃量,所以我们可以通过那个数据亲眼看到移动互联网是怎样超过PC互联网,就那个瞬间我们就能感觉到大数据的应用价值越来越大。你们需要服务这6亿网民,你要想办法把6亿网民的数据或者是移动互联网数据收集回来,为你企业的运营,精细化营销所用。

3417eb9bbd9017b8cf4542

  第二方面我会跟大家分享一下,在互联网企业里面数据的应用体系都有哪些应用层次。我们看到,上面有应多应用层。第一层是业务运营监控,第二是用户体验优化,第三层是精细化营销层,第四、五、六层分别是传播、经营和战略分析,今天不可能都完全讲,因为讲完这个金字塔体系要两天。

我主要跟大家分享,这个金字塔要要用好,底层要做的很好才行。底层是什么呢?这个数据基础平台很重要。数据基础平台如果从业务价值的角度来看,要做到什么呢?我希望通过搭建这个数据平台,除了数据质量要提升,数据准确度、数据稳定性,还有很好的业务价值。

那这一层的业务价值是什么?我希望是我对这个互联网企业的用户了解,都跟我的家人一样了解,底层搭建的目的的业务的含义,就是我对每个客户、每个用户都非常了解,那我怎么了解,我就给他打标签,我们从这个叫用户画像,如果你画像做的不好,你上面有再好的算法,如果你数据完整度不够的话,你的算法起得效率很容易在碰到瓶颈。所以底层这一块,要想办法把公司的数据管理起来,把各个业务的部门的数据打通。

在传统的企业,甚至一些互联网企业里面,也是也很多的问题,比如说数据质量不好、乱打点,你也不知道这个数据的背后的含义是什么,元数据管理也做不好,有很多各方面的问题。而其中最大的问题数据不打通,因为在是有很多大型的企业里面,是有不分享的。不同业务部门之间都不太愿意共享数据,甚至怕别的部门通过中立部门偷看到他们的数据。我们技术人员不太好改变这个问题,除非老板去授权。你要想办法让去影响到老板,让老板重视这个事,让老板授权去打通数据,然后做一个更完全的用户画像,你后面再做上面的应用的时候,个性化推荐的营销、用户航游戏等等,那个效果它会更好。

你要跟老板讲,数据就需要像无形资产一样要把它管理起来。往往是我们一上来大数据团队就想办法做各种算法、做各种优化,但是这个只是在局部做事情,我希望你们可以站的更高,跟老板沟通,把数据当成一个无形资产管理起来,专门形成数据整合、数据质量管理的委员会。这才有可能把数据充分的挖掘,所以我今天更多的不是讲算法的问题,在这一部分我要强调的是数据怎么去打通和管理,然后下面我们各种层面的才可以更好的优化。

关于应用案例,我举几个案例。我会跟大家分享一下业务运营监控、信息化运营、用户体验优化,这几个层面我简单举几个案例。

3417eb9bbd9017b8cf4543

  关于业务运营监控。我统计过BI的同事的工作,很多时间他们是在分析老板问的问题“数据为什么下跌”。然后你经常遇到这种问题的时候,就急急忙忙的、很匆忙的去跑数据,然后老板又跳出来说你怎么那么慢,你告诉他说,这个数据要两天后我才能算出来,或者三天后才可以算出来,那没办法对吧?经常是遇到这种问题。那怎么解决这种问题呢?那既然要花那么大工作量,为什么不把它IT化。也就是说,你可以跟业务人员一起梳理他们的KPI,你就假设他的KPI下跌的时候,可能有哪些分析纬度。

现在有一些开源的软件,是可以做成脑图的方式的,同时,脑图中哪个节点有异动,你用不同的颜色标出来,用计算机自动的标注出来。如果你能把这个事情做好,那下跌的问题你就如容易发现,不用重新提出。因为你这个数据脉络已经梳理出来了,我们每天去监控,业务人员看了这张图就知道,也许这个点标红,那个点,要值得关注,他就不用你们去写报告,或者提数据,所以这个事情是非常重要的。怎么样去打造一个数据体系,完整的把企业的运营监控跟数据相关的脉络都监控起来。

3417eb9bbd9017b8cf4544

  这个好比是我们做出了一个智能的体温计,每天我去做这个体温,他的运营过程中有什么问题,通过我的数据手段去测,一测38度那就发烧。

3417eb9bbd9017b8cf4545

  第二方面是用户生命周期管理。一个完整的用户分为获取、磨合、成长、成熟、衰退和离开这6个阶段,对于互联网用户来说,每个阶段都可以用我们的大数据,用我们的算法去辅助它,更好的做优化。比如说我们在获取用户阶段,怎么去挖掘潜在客户我们可以通过很多算法,逻辑回归、决策树、随机森林等等,很多算法帮助去发现潜在客户,包括流失也是。

你们觉得做用户防流失在哪个阶段做比较合适?成熟期还是衰退期还是哪些阶段?成长?还有吗?磨合?差不多每个阶段说完了,就差获取期了。防流失有两个的阶段,磨合期和成熟到衰退的过渡阶段,但是磨合期的效果是比较好的。为什么呢?很多人喜欢做衰退时期的防流失,但这方面但工作像啃一块硬骨头,因为就跟谈恋爱一样,如果这个人跟你谈了8年了,想要跟你分手,你怎么再挽留,通过什么方式挽留也没用,即使欧洲游花10万8万也没用。但是磨合期谈了两三个月,你可能去郊区转一转,花了可能2000、3000块钱,可能还不用,如果当天来回还不用,就有可能不分手了。这性价比有多高,所以我花那么多钱,去做防止衰退,还不如再找一个新的女朋友。所以你们做算法的时候要注意,不要一直往这个硬骨头去啃,虽然说什么忠诚客户什么啊,客户价值有多高,但是对互联网产品来说,他用脚投票,转换门槛低,他很容易就切走了,所以你们要聚焦很容易出效果的那个地方。

而且我们整套体系做完以后,你们就不用每次都提数据、挖数据,然后来写报告,帮业务人把尤其流失用户提出来,如果你模型固化以后,你可以把算法的规则放在生产系统里面,那这个生产系统每天去或者每周去预测下一周这个用户是需求什么,是属于高风险流失还是属于高付费的概率的用户,你可以让算法自动的给它打标签,那样业务系统就自动滚动起来。所以我今天说了很多都是希望把很多算法、很多分析能力IT化,这个行业里面有一个DT就是这个概念,我希望我把很多能力就IT化的搞起来,这样我就重点去优化这个算法就行了。可能两三个月去优化一次算法。

3417eb9bbd9017b8cf4546

  第三个面是防作弊,因为其实在移动互联网上面推广,至少有一半是假量。按下载付费的情况下,你怎么去发现这些用户是假的呢?我们通过数据可以帮公司节省推广费用。防作弊最核心的是什么?最核心的算法是讲,看这个用户是不是真的是人?那你设计纬度和指标的时候,你知道正常人是怎么样的,不正常的人是怎么样的。这个留存是看他是不是正常的一个人的其中一个纬度而已,我只是今天把这个纬度展开给你看看。

3417eb9bbd9017b8cf4547

  对用户量产品来说,用户的的留存率是比较有规律的,比如说对于游戏来说,留存率属于幂函数分布的,什么叫留存率?比如说今天我发展了100个新用户,第二天我可能就留下了,第二天只有30个人登陆我这个游戏,到第三天只有20%的人登陆我这个游戏,这个比例就是留存率,很多时候考核渠道质量,运营人都会看这个渠道的留存率。

3417eb9bbd9017b8cf4548

  假设产品质量不变的情况下,通过留存率,通过算法去对几万个渠道做了聚类。我们发现,这边是一日留存,这个是三日留存,我们回想一下,这个一日留存一定比三日留存高,对吧,因为不可能反过来。不好意思,不可以反过来,你可以看看,那反过来是哪些渠道?这类渠道是反过来的,就是三日留存率远远比一日留存率高。一看这个渠道,渠道就是想办法做三日留存率的作弊,就是第三天通过某种手段,用机器人或者人工手段的让它活跃一下。中间那个渠道还行,其他都比较差,那算法这个可以帮助渠道人员发现这个渠道的质量。甚至可以拿算法的结果给这个渠道打折扣。

3417eb9bbd9017b8cf4549

  刚才我说过,防作弊的核心思想是看这个渠道来的用户是不是正常一个人,那正常的一个人是什么呢?比如说我从用户行为来看,你们用社交软件,不会天天来换你的头像,设置头像,如果一个渠道来了以后大部分的用户都是换头像,假设,但作弊的人不会那么笨,假设都是来换头像,那这个渠道一定是有问题,那你就可以用什么?关键谁操作,占总活跃度的比例来做一个值,就正常的人,应该是A操作可能占总活跃率可能是占80%或者70%,结果别的渠道来了,跟这个不一样,那就很容易发现。还有其他,比如说它的登录的一些规律,比如说你发现这个用户,突然在这个渠道凌晨2点中,在山东的某一个小地方激活了100万的用户,那你觉得可能有问题,整个地方也没有那么多人,甚至大半夜这么齐刷刷的一批人就上来了。

3417eb9bbd9017b8cf454a

  我刚才简单过了一下大数据在互联网企业应用的一个框架和金字塔以及几个简单的案例,然后我们可以看看其他行业大数据都有哪些比较好玩的产品。我认为大数据在应用层次上,用几个层次,一是导航仪,第二个方向盘,第三个发动机。

导航仪是什么呢?导航仪一般都是外置在汽车上。那比如说我们通过一些数据分析,去给老板做决策,我觉得这个就是叫导航仪;方向盘是什么呢?它已经嵌到生产系统里面,比如说我们做的个性化推荐,防流失等等;还有一种就是发动机,大数据已经是成为企业很重要的一个驱动力。

3417eb9bbd9017b8cf454b

  比如说在教育这个行业我们看到的,通过大数据去驱动它的商业模式的发展,我的有一个朋友创业做了一年,通过大数据做教育,现在估值有2、3亿美金了,已经融到B轮了,那怎么做到的?很简单,=打一点,就是我们看到K12,K12就是中小学生的教育,中小学生的教育里面有一个很刚需的痛点是写作业,大家知道,写作业如果找不到答案怎么办,我们小时候就是给别人两毛钱,让别人帮助我写作业。但是现在不用这样了,他拿起手机打开一个APP,然后他对着作业拍一个照片,然后答案就出来了,就是通过图像识别的手段,把文本提取出来,通过算法推荐答案。

所以我们在思考,比如说思考大数据创业的时候,如果通过大数据去帮助别人,比如说刚才说了做方向盘、导航仪,这个是可以的,这个肯定没有问题,但是我这里更喜欢的是说大数据做一个业务发动机、引擎,这种是最有价值的。

3417eb9bbd9017b8cf454c

  第二个是什么呢?金融领域,金融领域给我们解决了一个很大的问题就是信用的问题,其实就是信息不对称,或者我们简单来说,大数据最终目的是什么?就是通过数据去减少信息不对称,你看我们为什么要整合数据,为什么要反复通过算法去发现数据里面的规律,就是为了充分的减少信息不对称,金融领域也一样。

比如说,我们可以看到卖保险的,卖保险的现在也在用大数据,原来你去买保险的时候,对于车险公司核心是要发现那些出事概率比较低的人,就是开车习惯比较好的人,那你怎么通过大数据发现这些人?原来是去交管局查违章纪律,这种是很常规的一种手段,但是在大数据时代就有新的方法。比如说手机导航,比如说你保险公司可以跟手机导航企业合作。因为导航仪就就充分记录了你开车的各种习惯,你是不是经常急加速、急减速,你是不是经常开夜车等等,那这些其实如果经常开夜车的出事概率一定是比这个普通的用户要高的,因为毕竟晚上的视线、视野不太好,包括你经常急加速、急减速的话,那这种人也是值得注意。这也是通过大数据检验。

还有贷款,那电梯的数据为什么跟小额贷款有关系?在纽约有一个公司把纽约市整个电梯数据都收集起来,作为中小企业贷款的一个参考纬度,但不是绝对的,不是充分必要条件,那是一个参考的纬度。那为什么电梯数据对它有帮助?因为如果说这个企业所在的楼层,如果去年来的人次是是10万人,今年突然变成5万人次了,或者每月都有明显下降的过程,那是不是这个企业有某方面的问题。所以我们想想,我们可以打开我们的思路,很多数据未来还是可以充分挖掘的。

现在有公司用社交网络数据做信用评估的一个纬度,做他的信用能力的评估,比如说假设你有新浪微博的数据,如果这个人他的粉丝里面有10%是加V的,那你觉得这个人是不是比一般的人信用好一些,作为参考纬度,不是充分必要条件。那还有比如说这个人经常在微博上发言,一周发个几次,那这个人也会好一些,因为他是比较有社交表现欲人,他在欠债的时候不会跑掉,对吧?或者是你会发现他经常访问一些两性论坛、求包养等等,你可能就要给他的信用降低,万一哪天染上病还不起你的钱。或者在一些赌博论坛上发言,因为好赌成性,谁知道他借你的钱是不是拿去赌博去了。

3417eb9bbd9017b8cf454d

  未来还有这个智能家居,未来你的洗衣机可以告诉你,说主人我肚子里面已经有一条黑色的裤子了,已经放了一个白色的衬衫进来,你这样是有风险的,万一染色了怎么办,还有一个更狠的,它告诉你,你这个衣服已经洗了100次了,然后按下去告诉你说,这个品牌在打折,你要不要再某电商网站下单?你看到这个数据你都不好意思,生怕别人看到。还有,冰箱告诉你说,鸡蛋快没了;酸奶快过期了,然后更厉害的告诉你说你缺乏维C了,因为它通过你吃的食物,知道你营养不太均衡。

3417eb9bbd9017b8cf454e

  包括360做的智能摄像头,比如说我们可以通过图象识别,知道这个门窗被打开了,这里面它一个消息,我家里的门窗被打开了,包括还有一些陌生人进入家里也会提醒你,因为我一会就要出差了,也许我出差以后,它会告诉你家里进来一位帅哥,那我就会很紧张。

3417eb9bbd9017b8cf454f

  所以大数据未来很好玩。摄像头告诉你父母摔倒了,这个很刚需是吧?还有摄像头可以告诉你父母身体健康有问题,为什么?比如说通过它的步数,大概走路的步数,大概知道他走路变慢。还有互联网,其实未来更多的大数据是互联网,你也可以看到餐厅里面的数据都会联网,联网以后干嘛,以后位置都可以竞价,那会产生新的商业模式,你可以预定位置,预定靠窗户的。

3417eb9bbd9017b8cf4550

  大数据的几个误区。

  第一个是所以我刚才说了,也许获取数据的方法比数据挖掘的方法更重要。没有数据,就相当于做厨师一样,没有好的菜,即使你厨艺再高超也不行。

那第二误区是数据孤岛依然是很严重的问题,这个我说过了;

第三个误区,业务刚开始或者是业务体量小的时候,不需要数据,这是错误的。无论是在360也好或者其他互联网企业,产品上市最后一步就是要他设计数据采集体系,一开始就要有数据,如果产品上线后来再想要数据的话就比较困难了。

第四个误区,只要大数据就够了,不需要小数据,这不行,大小数据要结合。

第五,大数据是技术人员的的事情,这个不一定,另外有很多算法是把业务经验考虑进来的。比如说我们之前做的那些社交网络推荐里面,能把你前女友找出来的算法,这就会用到一些社会学的理论,比如说你为什么跟这个人关系比较好,其实是通过社会学里面很简单的一个理论,就是你们的共同好友数就可以知道你们的关系紧密度,所以这个是很重要的。

第六个误区,不要老想着大数据问题,也许是产品或服务架构的问题。因为曾经有一个出版社的老板问我,他说傅总,你看我们很多书把京东上卖,我怎么有什么办法可以把京东的数据拿过来;我说你以为我是黑客啊,把它的数据拿过来,即使它拿给你也是一些结果层的数据,他不会给你个人层面的明细数据,也没有意义。我就跟他说,其实核心是你的产品逻辑没想好,如果你有一个APP,让所有的买过你的书都回到这个APP里面,那你的数据就可以采集回来了,因为你买完书以后,如果发现这本书不好,你总想去沟通一下,或者骂他一下,对吧?但是现在没有渠道去直接骂那个作者,或者他随意写个话你非得跟他沟通一下,比如说像刘总书写得的很好,你非得跟他沟通一下,那你就得用APP跟他沟通。

最后一个是要注意养数据,因为数据是养越养越大,越养越好。比如说我看到一个电商网站,我在六一儿童节的时候买完一个儿童玩具,结果让我再点评这种产品的时候,弹出一个对话框,让我去填写宝宝的性别和年龄,是一个很大的电商网站,你看人家这么大的网站还在使劲想办法去养数据,好吧,因为时间关系,我看我们的刘总已经在催我下去了,看大家有什么问题。

本文选自《DCon2015 中国大数据技术嘉年华》

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部