成为一名优秀数据科学家的前提是心中有“数”

2013年的夏天,一匹红褐色的赛马静静地站在纽约州北部的一个马厩里,它比一般的赛马体型略大一些,有着黑色的鬃毛。它是那一天被拍卖的152匹赛马中的一匹,也是那一年被拍卖的1万匹1岁大的赛马之一。

它还没有名字,人们就用它的马厩的编号来叫它,赛马第85号。它谱系(pedigree,也就是遗传因子,是传统评估赛马最重要的因素之一)不错但也没有十分突出。它的父亲是顶尖的赛马,但它父亲的其它孩子都不太成功。

另外,它的膝盖上还有一个划痕,有些买主担心是因为受伤留下的。它的主人——Ahmed Zayat, 准备把它卖了,再买另外几匹马。像其它的买主一样,Zayat也雇了一个专家团队来替他选马。一般的选马的专家都来自于肯塔基或者佛罗里达乡村来的养马世家。中年男人可能没有受过太多的教育。但这次Zayat的团队有些不同,这个团队的负责人——Jeff Seder是从哈佛大学毕业的。

经过几天的评估,Jeff告诉Zayat,他无法帮他找到合适的赛马,相反,Seder几乎是用乞求的口气对Zayat说,“不要卖你的马,就是卖了你的房子,也不要卖你的马!”第二天,赛马第85号以30万美元成交,买主叫Bloodstock,其实Bloodstock就是Zayat本人。在这次拍卖中,62匹赛马卖出了比85号高的价钱,其中有两匹马超过了100万美元。3个月之后,85号赛马终于有了自己的名字——American Pharoah。18个月之后,在纽约郊区的一个周六的夜晚,American Pharoah成为了30年来第一匹得到三连冠的赛马。

图片:摘自网络

那么是什么原因让这个哈佛的毕业生这么有自信选择American Pharoah呢?

Seder从哈佛毕业之后,又继续拿了一个法律和一个商学院的学位。像大多数有相似背景的人一样,他毕业之后就去了华尔街。

一天,在公司里他被一张有着辽阔的旷野的油画所吸引,这张油画激起了他内心对乡村生活的向往以及对马的热爱。第二天,他就辞职搬到了宾夕法尼亚。选赛马是非常具有挑战性的。传统的方式认为遗传是最重要的因素。但是如果我们看看数据,所有年度赛马(每年赛马的最高奖项)的后代,有3/4没有赢得任何主要的赛事。

当然传统的方式也会看其它的信息,如马跑的姿态。但关键是没有任何大家都认为有效的标准。由于又有大量的热钱,使得整个系统变得非常低效。10年前,一匹有史以来最好的赛马的后代,被1千6百万卖出,但只赢了3场比赛,共得到1万美元的奖金。所以,Seder不想使用任何传统的方法,他只对数据有兴趣。他对马进行各种的测量,包括鼻孔的大小,心率,肌肉,甚至粪便的重量。但都没有什么结果。

直到12年前,他有了突破,他决定去测量内脏的大小,他发现左心室的大小和马的成功非常相关。他通过对马跑的姿势的数字化处理,发现一些和成功相关的姿态。他还发现跑一会儿就发出哮声的马,这些马有的会卖出上百万,实际上很少会成功。通常在1000匹赛马中,只有10匹可以通过Seder的数据标准。而第85号赛马,它的左心室的大小是99.61%,加上其它的数据,Seder预测它是一匹10万里挑一,甚至百万里挑一的赛马。

这一次,他是正确的。

上面这个故事是我在Stephens-Davidowitz, Seth写的《Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are》中看到的,有兴趣的同学可以看看。

而朋友圈前一阵还流传着一篇关于林彪的文章,题目有些标题党《林彪:玩大数据的鼻祖》。是说在辽沈战役开始后,林彪每天深夜都要值班参谋读出下属各个纵队、师、团用电台报告的当日战况和缴获情况。林彪的要求很细,俘虏要分清军官和士兵,缴获的枪支,要统计出机枪、长枪、短枪,击毁和缴获尚能使用的汽车,也要分出大小和类别。一天,他听参谋汇报的时候突然说“停”,问“刚才的念的在胡家窝棚那个战斗的缴获,你们听到了吗?”,在大家一脸茫然的时候他连问了三句:

“为什么那里缴获的短枪与长枪的比例比其它战斗略高?”

“为什么那里缴获和击毁的小车与大车的比例比其它战斗略高?”

“为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高?”

他就此判断,那个战斗发生的地方,就是敌人的指挥所。他命令部队乘胜追击,并且传达下口号“矮胖子,白净脸,金丝眼镜,湖南腔,不要放走廖耀湘!”。刚刚庆幸脱身的廖耀湘,就这样成了俘虏。林彪之所以可以做出准确及时的判断,是和他的数据积累和对数据的敏感分不开的,可以迅速在数据中发现异常点。“数据的积累、数据的挖掘、分析、归纳、整理,是一支优秀团队所必须具备的基本素养,没有它,你永远是匹夫之勇。”文章在最后这样总结到。

今年5月我去杭州参加了王坚博士发起的2050大会,参加了一个非常“另类”的论坛——“中国一亿少女正在改变世界”。论坛里是由大V,网红,微商构成,于是我就非常想去了解一下她们的想法是怎样的,她们的世界是怎样的,她们的故事又是怎样的。

我印象最深的一位演讲者,她讲她是怎样从一个家里都没有门的农村走出来一步步走向成功的。她刚刚从农村到上海的时候,靠押了自己的身份证拿了一些尾货到街上卖。但她不是盲目的卖,她发现卖货的那条街,有非常多的大学生情侣,她就把货组成情侣体恤衫,基本上别人卖一件,她就可以卖两件。另外她从来没有被城管抓到过,不是因为她找了个城管的男朋友,而是她发现城管都是从街的两头开始抓人的,她就尽量在街的中间摆摊儿。就这样,她成了那条街上最成功的小贩,后面进一步成为成功的淘宝店主,成功的微商。

一个是哈佛的高材生,一个是统帅千军万马的将军,一个是成功的电商。他们或许没有一个人听说过大数据这个词,也可能并不知道什么是AI。但他们具有了一个在我看来数据科学家最重要的特质,就是心中有“数”。

心中有数实际上是包含了两个能力,一是观察能力,二是分析的能力。Seder观察到对于赛马的评估,方法非常传统,而且效果很差,他分析出这里面有非常大的就机会,用现代统计的方式颠覆了整个行业。林彪持续的观察每一次战斗结束后俘虏和战利品的情况,通过分析掌握了其中的规律(从统计学上说就是均值和方差),所以当一旦这些值偏离出正常的范围,他就可以敏感的捕捉到信号。而这位靠自己打拼成功的正在改变世界的少女,正是通过自己的观察和分析,发现了消费者的购买特性和城管抓人的模式,挣到了人生的第一桶金。

作为一个数据科学家,当然需要具备很多的能力,如基本的统计和数学能力,编程能力,建模能力,这些能力可以让你成为一个不错的IC(individual contributor)。也就是说别人定义好问题,你可以来解决。在这些能力之上,良好的沟通能力,协调能力,能让你成为一个不错的数据科学团队的Leader,可以整合资源,用团队的力量完成公司重要的项目。我上面所提到的观察分析能力,是在于对业务的理解,根据业务的需求,提出问题,并找到解决的办法的能力。具备了这个能力,你就有机会成为真正一流的数据科学家。

想成为一流的数据科学家吗?那么别犹豫, 9月欢迎到友盟+主办的UBDC大会一起进化,努力做个心中有“数”的人吧。

作者:李丹枫【友盟+】CDO,美国数据分析和挖掘领域工作10多年,曾任职于包括雅虎,微软,FICO等在数据应用走在前沿的公司,积累了丰富的数据挖掘和机器学习的实战经验。负责【友盟+】数据科学团队,并带领【友盟+】数据科学团队基于设备行为数据建立风控数据模型,成功打造了互联网金融风控解决方案。

来自:友盟+ 数据视野 

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部