希拉里·梅森是Bitly的首席科学家,一个基于网络的“打捞”工具,允许用户保存、分享和发现新的东西在网上。为此,Bitly跟踪社交媒体数据与焦点和强度的一个科学家试图揭开人类基因组。换句话说,他们数据科学家。但希拉里·梅森,Bitly的首席科学家,称之为“令人敬畏的书呆子”——精通技术的科学类型不仅知道如何挖掘黄金从一个不断扩大的信息,但也知道宇宙跟正常人类对他们所发现的。瑞士信贷坐下来和梅森来找出这些人是谁,他们实际做的。
瑞士信贷:哈佛商业评论称为数据科学家最性感的21世纪的工作。你叫他们可怕的书呆子。那么什么是他们做什么?
希拉里·梅森:数据科学家是有人谁能理解业务问题,谁能真正做一个分析,告知问题的解决方案,然后它成功地交流。但他们这么做是通过使用一个技能,以前从未结合成一个职业。
基本技能是技术能力获得数据的系统和流程,也许在其上建造基础设施,这是工程和黑客。那么你需要做一个分析,这是统计、线性代数和概率论的数学侧。然后最后一件是社会科学的结合与好奇和理解业务,提出正确的问题,将其转化为你的数学和工程分析,然后翻译成一些你可以跟其他人类有关。
CS:你在哪里找到这些人吗?是大学教学数据科学?
HM:我没有雇佣任何一个有数据科学硕士学位,因为项目刚刚开始。数据来自所有不同领域的科学家,包括很多学术科学家离开学术界,谁可以被训练来沟通。我是一个计算机科学家,和我一起工作的一个天体物理学家、物理学家、计算机科学家和数学家的另一个。但是我有同行在其他企业和大学来它从政治学和心理学。它是这样一个年轻的领域,人们已经抵达它从许多不同的方向
CS:它已经快成为一个精英的位置在一个健康的它的就业市场。有近500万年,仅在美国工作。是供应满足需求?
HM:很难找到任何有用的经验的人。很多公司招聘数据科学家正在招聘他们的第一人,这意味着他们没有一个基础设施为指导或培养他们在内部。和人们连一点点的经验是非常难。
CS:但是我已经读到数据新手参加课程或两个,然后去解决复杂的问题贴在网上。也许有人会说数据科学可能比你认为的要容易。
HM:我有点怀疑的。大公司可以包算法需要解决的问题,把一个挑战在线。但这是一个非常定义误差度量你想优化。就像那个小扳手你获得从宜家在你的工具箱里。当你需要它,它是完美的工具。但大多数时间它不是最好的工具来解决数据问题。数据科学家的工作就是知道什么问题是在第一个地方。
CS:那么谁需要一个数据科学家吗?
HM:你需要一个数据科学家当你认为你会比你做出更好的决策都是基于现有的数据。带我们做什么在Bitly的。在过去,商人只会看自己的数据和使用自己的材料。但现在我们知道每个人都是在互联网上关注,并且您可以使用,告知你的实践。和你可以构建产品,就不可能在。我通常描述整件事是:第一个层次是使用数据来做出更好的决定你现在的业务。2级是把你的业务在一个方向,是永远不可能没有数据。
CS:哪里数据首席坐在公司图腾柱吗?
HM:我的朋友·d·j·帕蒂尔,谁实际上参与了哈佛的文章你提到在一开始,有最好的方式来描述这个:你应该考虑你的首席数据科学家作为你的“斯波克在桥上。“他不会发出订单,但是当柯克船长必须做出一个决定,那是人他会转向。
CS:你如何构造一个数据团队?
HM:你有一堆碎片——数据仓库,分析基础设施和接口与其他群体,需要使用数据。所以数据团队倾向于做许多不同的事情。他们做业务分析:健康是我的业务吗?如果我做X,我赚更多的钱吗?他们做的产品开发:这是什么群用户谁进我的产品在这个时候做的产品,这是什么意思的设计吗?他们修建诸如推荐算法,搜索引擎和垃圾邮件过滤器。和他们做了很多研究。
CS:当你需要时你为什么不请来他们?
HM:雇佣承包商可以工作,但你真的需要可以吸收你的数据和系统的人并且知道如何回答问题。
CS:你尽量回到知道正确的问题。
HM:它不是你问的这种问题。真正回到遵循科学的方法:有一个理论,看看数据,看它是否证实你的理论,然后做出决定。所以我可以给你一个图,但是我们可能有非常不同的故事,描述我们所看到的。图和我们可能无法达成一致意见在一个解释上,除非我们同意我们学习放在第一位。
CS:你怎样说服你的CEO来搭配你的提议的方案解决企业问题的?
HM:关于数据很难与之争论。
更多阅读: