13张图看6年来数据科学概念之争

2010年起,Drew Conway开始用一张维恩图(即用不同的圆圈显示元素集合重叠区域的图示)表示数据科学,之后,不同的数据科学家也根据自己对数据科学的理解对这一维恩图进行了不同程度的删改和调整。

Drew Conway的第一张维恩图至今依然是很多数据科学家最认可的对数据科学的基本描述,这张图清楚的显示了,数据科学最相关知识来自三大基础领域:数学和统计知识、计算机科学、行业应用知识。

本文用13张经典维恩图展示了数据科学这个领域,你最喜欢哪一张?你觉得哪张图最能代表你对数据科学的理解?

数据科学是一个定义相当模糊的词语。我听到的一些定义有——

“这是一项需要比大多数统计学家更多的编程技巧,和比程序员更多的统计数据技能的工作。”

“是应用统计,但在旧金山却不是。”

“有人突然决定在自己的名片上印上‘数据科学家’这几字,然后靠着这个涨了工资。”

就我个人而言,我最近决定称呼自己为数据矿工来避免争议。(无论如何,数据矿工并不时髦。)

数据科学是一个寻找定义的行业,人们进行着很多不同的尝试来定义它也不足为奇。

作为一个充满着数据书呆子而且对可视化情有独钟的领域,很多人在尝试定义时使用维恩图也是不足为奇。

1. 2010年·Drew Conway版

1476115268-4148-94de80684e441964252712
 
 
他的个人博客在2013年因为发表了数据科学维恩图而火了起来。对于Conway,图的中心是数据科学。关于下面的那个圈“实质性专业(Substantive Expertise)”的含义(我接下来会进一步解释)有过一些争议:我只能说,如果是Conway的意思不是我所说的领域知识(例如物理学)而是其他的东西,那么他选择的这个名字确实不怎么样。

因此,假如领域知识是他的意思,至少这个想法的一部分是:比如一个物理学家,本来具有物理和数学/统计的专业知识,但缺乏黑客知识(我见过不少物理学家也有黑客知识,故而这个现象现在并不那么普遍了);机器学习专家有时会在缺乏对要进行分析的事情所在领域知识情况下,对他们要分析的事情应用算法(这和我第一次在一个全新的产业里起步建立模型时的情况一模一样,我不得不作了很多知识补充);还有的人可以编程,并且知道自己领域内的知识,但却没办法知道什么时候是偶然,什么时候是一个统计上显著的结果,这样的人是很危险的;他们给出的解决办法可能会是非常错误的,导致他们公司大量的经济损失。

2. 2012年 Brendan Tierne版

这个图……确实看起来有点乱。顺便说一句,KDD代表知识发现和数据挖掘(Knowledge Discovery and Data Mining)。尽管如此,数据挖掘也有自己的圈。我欣赏他在这里的所作所为,这里为了说明数据科学是个多学科的领域,数据科学的价值在于其所需技能的广度。显然,这些技能中有一个是神经计算(Neurocomputing) ,这似乎也有点太…..具体了。

1476115268-1025-94de80684e441964253d13
 
注:

KDD:Knowledge Discovery and Data Mining,知识发现和数据挖掘

AI:Artificial Intelligence,人工智能。

3. 2013·Ulrich Matter版

紧跟着Conway的脚步,Ulrich Matter也在2013年同一个月内在博客上发表了自己的版本。

他把Conway的版本沿对角线做了个翻转,把“实质性专业”指定为社会科学(他的领域),把“ 黑客能力(Hacking)” 改成“计算机科学” (你可以理解为什么有人会不想被定性为一个黑客,虽然我本人没意见),由于一些原因,他把“ 数学与统计” 改成了“ 定量方法(Quantitative Methods)” 。更重要的是,他把在Conway版本中本应该是“机器学习”的地方改成了“数据科学”——这是一个有趣的差别。有些数据科学家专注于一个领域,也有些人是通才(这些人通常在一个领域开始,但一发不可收拾,像我这样的:我一开始在化学行业而现在我在保险行业)的数据科学家。此外,他显然对“危险区”这个词感到不舒服,将其更改为…一个问号。但很显然,最重要的是图的中心:数据驱动计算[社会](Data-driven Computational [Social] Science)。

1476115268-4880-94de80684e441964256b14
 
我们可以说它有点…罗嗦?他还在“传统研究”的前面加上了“实验性”这个词。

4.Joel Grus版

爱德华·斯诺登消息传出后, Joel Grus提供了这个混乱的版本。现在我们进入这种四个圈的维恩图领域,第四个圈就是很讨厌的。

1476115268-1488-94de80684e441964257915
 
注:

NSA:National Security Agency,国家安全局。

5.2013年·Harlan Harris版

2013年9月,Harlan Harris用了这个图来处理数据产品,而不是数据科学。

每一个切片不再和Conway的版本相对应,因为我们已经完成从科学到产品的变化,但是类别仍值得关注(他们也跟着真正的维恩的方法,不是独立的切片本身)。“领域知识”仍然存在,“计算机科学/黑客”仍然作为“ 软件工程”存在。此外,关键的是Harris在统计圈上增加了预测分析和可视。统计圈和软件工程圈的交集是实际应用的工具。

1476115268-4338-94de80684e441964258f16
 
6.2014年·Steven Geringer版

2014年1月,Steven Geringer提供了一个调整,不再像Conway那样把数据科学放在中间三路交叉口,而是称整个事情为“数据科学”, 三个圈的交界处为独角兽(意思是像一个神兽一样,传言存在,但从来没有人在野外亲眼看到。)

这是…有点怪异,如果按维恩图解来说。我想我知道他想要干吗。当我第一次听到有人被称为数据科学家,我经常听到还击,“难道不是所有的科学家,顾名思义,都是数据科学家?”诚然,任何科学都不能没有数据处理,不过,数据科学,而相当模糊的,不能是一个总称。

另外,我很抱歉,但你可以看到他的鼠标箭头还在截屏图上呢。

1476115268-3668-94de80684e44196425a217
 
7.2014年·Michael Malak版

在2014年2月,Michael Malak增加了第四个圈,声称Conway在说“实质性专业”时,意思不是领域知识。

根据Malak的说法,当涉及到“实质性专业识:“你继续用这个词。我不认为它是你认为的意思。” Malak把它分成领域专业知识,和……呃,和某一个领域的知识比如社会科学。也许是我想太多,但我不明白他们的区别。我也不知道他想用“整体的传统研究”表达什么。科学数据,再次回到了独角兽的位置,有三个危险区域(其中一个还是双重危)。看起来每个人都讨厌“黑客”这个词。

1476115269-6927-94de80684e44196425b518
 
8.Vincent Granville

我的下一个例子来自Vincent Granville,他于2014年4月转发了Gartner的作品,但我不知道其原作的具体日期。

这是数据科学解决方案,而不是数据科学本身的维恩图; 因此,数据科学是其中一个圈,与其他的能力(通常不属于同一个人,但希望在同一个团队里)是IT技能和业务技能。有点困扰我的是,文字标签指着每个圈里非常具体的位置,但实际位置却是任意的。

1476115269-3247-94de80684e44196425ce19
 
9.Shelly Palmer

Shelly Palmer在赫芬顿邮报上客串博客中发表了他自己书里的这个图:

1476115269-7811-94de80684e44196425de1a
 
10.2015年·Stephan Kolassa版本

在2015年11月,StackExchange数据科学用户Stephan Kolassa想出了我个人的最爱的图,其在Conway的版本上加了“交流”,并把“实质性专业”改成了“业务”。

关于他的这个成果,在这个测试版发布论坛上得到了21个“赞”(我就是其中之一)。他的分类都还不错。我想我可以被归入“好的顾问”这一类。或可能是“平庸顾问”。或者是个“用力过猛”的顾问?

是的,这才是一个四圈维恩图该有的样子,不是之前Malak那种不能包含交叉点的所有组合的四个同心圆。

1476115269-6742-94de80684e44196425f01b
 
11.2016年·Matthew Mayo与Gregory Piatetsky-Shapiro版

2016年,Matthew Mayo的博客发表了由Gregory Piatetsky-Shapiro制作的一张图。

好吧,虽然它声称是数据科学的维恩图:第一,它不是一个维恩图;第二,数据科学是其中的一个圈。大数据被承认令人欣喜,不过…这个字体是啥情况?

1476115269-1126-94de80684e441964260b1c
 
12.2016年·Gartner版

最后(我敢肯定,我没有收集到所有的。如果你知道有哪张维恩图我错过了,请让我知道),后来在2016年,Gartner在他的博客上重做了他那样有点繁忙的数据解决方案图,并使其更漂亮和更加基于数据科学。

我们兜了一圈,又回到Conway,除了“危险区”又一次所取代,这一次被改了“数据工程师”。我喜欢这次文字都指向圈的边缘,比他们以前的乱标注好多了。

1476115269-5211-94de80684e441964261d1d
 
13.未来的数据科学维恩图:

维基百科上关于科学的页面有以下这个不完全是维恩图的图:

1476115270-8454-94de80684e441964262d1e
 
说真的,在我看来,这是看待数据科学的方式。也许不是这些具体的技能,但它确实是不同学科的协同作用。不幸的是,在一门学科的技能有时可以掩盖自己也许在另外一门学科知识的严重缺陷,从而破坏数据科学的名声。(在我虚度年华的青春岁月,我也许也是促成了这一现象的一分子。)

当然,那么你则需要一个非常复杂的维恩图。

它们确实存在——

这里有一个七维级别的:

1476115270-7258-94de80684e441964263a1f
 
原作者 | David Taylor

选文 | Aileen

翻译 | Aileen

校对 | 黄念

来自大数据文摘

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部