傲娇的大数据，真的能告诉你什么时候穿秋裤？

凉风有信，秋月无边，魔都大降温袭来！

于是乎DT君倒下了，此刻明显感到上呼吸道有些感染——通俗来说，就是感冒。

对症下药，DT君急忙打开了百度，郑重地在搜索框中输入“感冒”两字。然后，度娘自动推荐了“感冒了吃什么好的快”，正合孤意，轻轻一点，跳转页面第一条却是：

对于已经习惯了只有“喝杯热水”问候的DT君，惊喜来得猝不及防。

不过惊喜过后，细思极恐：根据我的上网行为，百度们完全能准确知道你在何时何地感了个冒，然后，趁机给你投个精准的广告。

DT君也只是害怕了三秒，随后就坠入了大数据的脑洞：

能知道我感冒的百度，当然也知道别的人是不是也感冒了。逻辑非常简单，某个时段某个区域突然出现了一大波关于“感冒”的搜索，那么基本不用怀疑，有大量的人此时此地感冒了。

什么时候是感冒高发期呢？

DT君截取了2012年到现在的百度搜索数据，发现这还真是有一点小规律。比如说，就全国来看，每年12月到次年1月，“感冒”这个词的搜索量就会暴增，并在年初到达顶峰。当然，3月以及9月也是不得不提防的次高危季节。

考虑到中国地大物博，南北温差跨度之大，地区性数据可能实际价值更大。DT君又看了看魔都的搜索趋势，最近大风大雨大降温，像DT君这样上网找药的人确实节节攀升。

再来看看搜索地域，似乎也有一点端倪，比方说，广东人真的很爱搜“感冒”。当然，并不能就此下定论，广东人就比较容易感冒。因为广东同学自己说了，我们这里上网的人特别多，基数大跟别的省比较很不公平！

好事的DT君又去查了一下2012年以来的淘宝指数，黄色的是秋裤，蓝色的保暖内裤，灰色的是棉毛裤。

不过，广东人并不喜欢以上三类的任何一种，看来号称冬天不下10度的广东人，不喜欢买秋裤……

细心的DT君还发现一个不科学的小巧合：搜索秋裤等类似产品排名靠前的地区，跟搜索感冒排名靠前的地区，几乎没有重合。

这……我们再看看秋裤、棉毛裤、保暖内裤热销的季节。

秋裤的购买也很有季节规律：

每年11月中，保暖必备就会迎来突然飙升的销售高峰。凑巧，正是感冒搜索高峰来临之前。

DT君不得不构想出这样一个李菊福的故事：秋天降温了，妈妈叫你穿秋裤，听话的人都去淘宝下单了，其余各位，12月就只能去问度娘，“感冒了吃什么好得快”。

按照这个剧本：麻麻叫你穿秋裤的时候，一定要听她的话！

——分割线，上面是DT君的脑洞，下面才是有料的科普——

对于感冒（以及其他疾病），除了DT君感受到的精准营销，互联网大数据还有更高级的价值：疾病预测。

此处请出大名鼎鼎的“Google Flu Trends”（GFT），在大众看来，这可能算是大数据现实应用的先驱之作了。

2008年，GFT项目上线，试行预测流感传播。第二年《自然》刊登了一篇来自谷歌攻城师们的有趣论文：《利用搜索引擎查询数据检测禽流感流行趋势》。

预测原理跟DT君上面说到的一样简朴：在某个区域的某个时间段内，发现大家都在搜索“流感”，那么就有可能在此时此地出现了流感人群，相关部门可以依据此发布流感预警信息。

有个部门叫做“美国疾病预防与控制中心”（很多人可能更熟悉它的缩写CDC），其实也一直在默默地采集流感数据并发布预警信息，但是由于操作流程的关系，往往会滞后两个星期，这时候再发预警绝对是来不及。

谷歌攻城狮们在发表论文前，将GFT的预测数据（下图黑线）与美国疾控中心的监控数据（下图红线）做了仔细的对比，发现重合度还挺高。

果然，GFT成功预测了几周后美国H1N1的爆发，一战成名。但这并不是Happy ending……后来的故事告诉我们，大数据其实很调皮！

四年后的2013年，《自然》上刊发了一篇新的论文，指出GFT预测的流感样病例门诊数超过美国疾控中心预测结果的两倍。

这……谷歌都错了，以后还怎么相信爱？

不过，2014年的《科学》上的另外一篇论文，帮忙解释了这一现象，原因归结起来就是“大数据傲慢”，具体有以下几种可能：

在进行计算的过程中。很有可能会出现过度拟合（将噪声误认为信号）的情况：很多关键词只是看似与流感相关，但实际上却并无关联。
相关搜索（People also search for）的算法也会对GFT造成影响。例如搜索“发烧”，相关搜索中会给出关键词“流感”，而搜索“咳嗽”则会给出“普通感冒”。
搜索建议（Recommended search）也会进一步增加某些热门词汇的搜索频率。

DT君凭生活经验也觉得还有一种情况：如果新闻里都在报道感冒，大家都会好奇地搜索关心一下，于是，感冒的搜索量大幅上升。

这事也可以问度娘，在百度指数上，图中标记了字母的地方是出现了“新闻头条”的时点，可以看出有时候确实感冒主题的热点新闻后面，紧跟了一波搜索上涨，但有时候也没有……

就这样，“大数据傲慢”可能会不规则地出现在各种可能性当中，从而干扰了预测的准确度。

不过，对于疾病预测的尝试不会因为这么一点小挫折就停止。

大中华区的度娘也在进行这方面的尝试，站在巨人的肩膀上，它的预测模型看起来也很科学（至于和谷歌比谁更靠谱DT君不敢下结论）：

将百度自身数据（比如搜索、微博、贴吧）与中国疾控中心（CDC）提供的流感监测数据结合建立预测模型。

而且，度娘不仅可以预测流感，还把手口足病、艾滋病、肝炎、心脏病、性病、各种癌都包办了。谷歌都玩脱的事情，百度居然这么强悍？DT君不明觉厉。

百度预测的负责人曾经被问过这个问题，他是这么说的（此处为原文照登，不代表DT君的态度）：

谷歌主要是通过相关性选取的检索词，而我们可以直接从原始日志数据构造特征, 在特征选取上会更灵活准确。我们的空间粒度也比谷歌更细，可以利用流感爆发在空间上的相关性做更好的预测与丰富产品功能。

DT君登陆上去看了下最近的热点地区和预测情况，正在大降温的魔都果然一直都盘旋在榜单前列。

顺便看了下最近的艾滋病热点地区，榜单前列来来回回都是黑龙江、云南、四川、山西……以及我大魔都，按照常识推测也很有道理的样子。这几个地区的盆友们，进行高危行为更要注意安全啊！

最后DT君想说的是，大数据在监控疾病趋势并建模预测方面，有巨大潜力可挖掘是无需质疑的，但至少在眼前，还远没有到把大数据当神算子的时候，所以这些已经研发出来的大数据疾病预测产品，参考即可。

这事，任还是很重，道也还是很远，不管是美帝还是我大天朝，攻城狮和科学家叔叔们加油~

文/唐蒂姆

来源：公众号DTcaijing

菜单Menu

傲娇的大数据，真的能告诉你什么时候穿秋裤？

更多阅读：

菜单Menu

更多阅读：

分享这篇文章