傲娇的大数据,真的能告诉你什么时候穿秋裤?

傲娇的大数据,真的能告诉你什么时候穿秋裤?

凉风有信,秋月无边,魔都大降温袭来!

于是乎DT君倒下了,此刻明显感到上呼吸道有些感染——通俗来说,就是感冒。

对症下药,DT君急忙打开了百度,郑重地在搜索框中输入“感冒”两字。然后,度娘自动推荐了“感冒了吃什么好的快”,正合孤意,轻轻一点,跳转页面第一条却是:

640

对于已经习惯了只有“喝杯热水”问候的DT君,惊喜来得猝不及防。

不过惊喜过后,细思极恐:根据我的上网行为,百度们完全能准确知道你在何时何地感了个冒,然后,趁机给你投个精准的广告。

DT君也只是害怕了三秒,随后就坠入了大数据的脑洞:

能知道我感冒的百度,当然也知道别的人是不是也感冒了。逻辑非常简单,某个时段某个区域突然出现了一大波关于“感冒”的搜索,那么基本不用怀疑,有大量的人此时此地感冒了。

什么时候是感冒高发期呢?

DT君截取了2012年到现在的百度搜索数据,发现这还真是有一点小规律。比如说,就全国来看,每年12月到次年1月,“感冒”这个词的搜索量就会暴增,并在年初到达顶峰。当然,3月以及9月也是不得不提防的次高危季节。

6402

考虑到中国地大物博,南北温差跨度之大,地区性数据可能实际价值更大。DT君又看了看魔都的搜索趋势,最近大风大雨大降温,像DT君这样上网找药的人确实节节攀升。

6430

再来看看搜索地域,似乎也有一点端倪,比方说,广东人真的很爱搜“感冒”。当然,并不能就此下定论,广东人就比较容易感冒。因为广东同学自己说了,我们这里上网的人特别多,基数大跟别的省比较很不公平!

6404

好事的DT君又去查了一下2012年以来的淘宝指数,黄色的是秋裤,蓝色的保暖内裤,灰色的是棉毛裤。

不过,广东人并不喜欢以上三类的任何一种,看来号称冬天不下10度的广东人,不喜欢买秋裤……

6405

细心的DT君还发现一个不科学的小巧合:搜索秋裤等类似产品排名靠前的地区,跟搜索感冒排名靠前的地区,几乎没有重合。

这……我们再看看秋裤、棉毛裤、保暖内裤热销的季节。

6406

秋裤的购买也很有季节规律:

每年11月中,保暖必备就会迎来突然飙升的销售高峰。凑巧,正是感冒搜索高峰来临之前。

DT君不得不构想出这样一个李菊福的故事:秋天降温了,妈妈叫你穿秋裤,听话的人都去淘宝下单了,其余各位,12月就只能去问度娘,“感冒了吃什么好得快”。

按照这个剧本:麻麻叫你穿秋裤的时候,一定要听她的话!

——分割线,上面是DT君的脑洞,下面才是有料的科普——

对于感冒(以及其他疾病),除了DT君感受到的精准营销,互联网大数据还有更高级的价值:疾病预测。

此处请出大名鼎鼎的“Google Flu Trends”(GFT),在大众看来,这可能算是大数据现实应用的先驱之作了。

2008年,GFT项目上线,试行预测流感传播。第二年《自然》刊登了一篇来自谷歌攻城师们的有趣论文:《利用搜索引擎查询数据检测禽流感流行趋势》。

预测原理跟DT君上面说到的一样简朴:在某个区域的某个时间段内,发现大家都在搜索“流感”,那么就有可能在此时此地出现了流感人群,相关部门可以依据此发布流感预警信息。

有个部门叫做“美国疾病预防与控制中心”(很多人可能更熟悉它的缩写CDC),其实也一直在默默地采集流感数据并发布预警信息,但是由于操作流程的关系,往往会滞后两个星期,这时候再发预警绝对是来不及。

谷歌攻城狮们在发表论文前,将GFT的预测数据(下图黑线)与美国疾控中心的监控数据(下图红线)做了仔细的对比,发现重合度还挺高。

6407

果然,GFT成功预测了几周后美国H1N1的爆发,一战成名。但这并不是Happy ending……后来的故事告诉我们,大数据其实很调皮!

四年后的2013年,《自然》上刊发了一篇新的论文,指出GFT预测的流感样病例门诊数超过美国疾控中心预测结果的两倍。

这……谷歌都错了,以后还怎么相信爱?

不过,2014年的《科学》上的另外一篇论文,帮忙解释了这一现象,原因归结起来就是“大数据傲慢”,具体有以下几种可能:

  • 在进行计算的过程中。很有可能会出现过度拟合(将噪声误认为信号)的情况:很多关键词只是看似与流感相关,但实际上却并无关联。

  • 相关搜索(People also search for)的算法也会对GFT造成影响。例如搜索“发烧”,相关搜索中会给出关键词“流感”,而搜索“咳嗽”则会给出“普通感冒”。

  • 搜索建议(Recommended search)也会进一步增加某些热门词汇的搜索频率。

DT君凭生活经验也觉得还有一种情况:如果新闻里都在报道感冒,大家都会好奇地搜索关心一下,于是,感冒的搜索量大幅上升。

这事也可以问度娘,在百度指数上,图中标记了字母的地方是出现了“新闻头条”的时点,可以看出有时候确实感冒主题的热点新闻后面,紧跟了一波搜索上涨,但有时候也没有……

6408

就这样,“大数据傲慢”可能会不规则地出现在各种可能性当中,从而干扰了预测的准确度。

不过,对于疾病预测的尝试不会因为这么一点小挫折就停止。

大中华区的度娘也在进行这方面的尝试,站在巨人的肩膀上,它的预测模型看起来也很科学(至于和谷歌比谁更靠谱DT君不敢下结论):

将百度自身数据(比如搜索、微博、贴吧)与中国疾控中心(CDC)提供的流感监测数据结合建立预测模型。

而且,度娘不仅可以预测流感,还把手口足病、艾滋病、肝炎、心脏病、性病、各种癌都包办了。谷歌都玩脱的事情,百度居然这么强悍?DT君不明觉厉。

百度预测的负责人曾经被问过这个问题,他是这么说的(此处为原文照登,不代表DT君的态度):

谷歌主要是通过相关性选取的检索词,而我们可以直接从原始日志数据构造特征, 在特征选取上会更灵活准确。我们的空间粒度也比谷歌更细,可以利用流感爆发在空间上的相关性做更好的预测与丰富产品功能。

6409jpg

DT君登陆上去看了下最近的热点地区和预测情况,正在大降温的魔都果然一直都盘旋在榜单前列。

顺便看了下最近的艾滋病热点地区,榜单前列来来回回都是黑龙江、云南、四川、山西……以及我大魔都,按照常识推测也很有道理的样子。这几个地区的盆友们,进行高危行为更要注意安全啊!

最后DT君想说的是,大数据在监控疾病趋势并建模预测方面,有巨大潜力可挖掘是无需质疑的,但至少在眼前,还远没有到把大数据当神算子的时候,所以这些已经研发出来的大数据疾病预测产品,参考即可。

这事,任还是很重,道也还是很远,不管是美帝还是我大天朝,攻城狮和科学家叔叔们加油~

文/唐蒂姆

来源:公众号DTcaijing

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部