哈佛商评:警惕虚假相关性 图表也不一定可靠 

当今时代,大数据泛滥、数据挖掘工具种类繁多,玩弄图表游戏已经变得不能再容易,管理者需要火眼金睛,秒杀数据间的虚假关系!

举个例子,随机选取统计学上相关的两组数据,Y轴表示数据。

640.webp

640.webp (1)640.webp (5)

截取Y轴,让两条线接近。看,订阅HBR增加了WidgetCo公司的收入。

是不是感觉被忽悠了呢?!警惕虚假相关,一起新技能get√

我们都知道“相关关系并不意味着因果关系”,但当我们看到两条线朝同样的方向倾斜,柱状图中数值同时上升,或者数据点在散点图上聚集在一起时,数据简直在请求我们找出其中的逻辑,我们也甚至想要相信其中存在某种逻辑。

然而,统计学原则要求我们不能做这个逻辑跳跃。有些图表利用视觉小把戏,企图证明事物间存在密切相关性。哈佛法学院法学博士生、《虚假相关》(Spurious Correlations)一书作者泰勒·维根(Tyler Vigen),在他的网站上展示了一些荒唐可笑的“相关性”例子,比如美国人造黄油的人均消耗量和缅因州离婚率。

1 荒谬性

泰勒•维根制作网站就是为了从容量较大的数据组中,找到并描述出数据间荒谬的相关性。以下是三个例子:

640.webp (6)

640.webp (8)

640.webp (7)

 

2 严重性

我们能够轻易发现并揭穿荒谬的例子,但当管理者碰到人为设计却看似合理的图表该如何做呢?以下是三类需要留意的把戏:

(1)苹果和橘子 比较不同的变量

表示不同数值的两条曲线可能相似,但实际上不应放在一起比较。

当两个数值看似相关但实际上无关时,这种曲线图展示方式极其有害。所以最好用不同的表格表示不同的数值。

640.webp (9)

640.webp (10)

(2)扭曲坐标轴 调整数值范围从而比较数据(图表中K代表1000)

即使两条Y 轴表示的数据类型相同,改变数值范围也能改变曲线走势,进而指示虚假相关性。

左图中,表示RetailCo 公司每月收入的两条Y 轴,数值范围和变化比例都不同。去除第二条Y 轴后显示了图表是如何被扭曲的。

 

640.webp (11)640.webp (12)

(3)如果-那么 暗示不存在的因果关系

将不相关的数据绘制在一张图表中,让它看起来像一个变量变化,会引发另一个变量发生变化。

我们可以根据左图来做一个推断——Pandora(Pandora 是美国最流行的提供在线音乐服务的软件——译者注)净亏损越少,越多音乐作品受到版权保护——而实际上这只是巧合,并不存在这样的因果关系。

640.webp (13)

640.webp (14)

来源:哈佛商业评论

原文参见《哈佛商业评论》2015年6月《警惕虚假相关性》(Beware Spurious Correlations)。本文由腾跃翻译,王晨校对,万艳编辑。

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部