大数据背后的星球脉动

这些事情正在发生:伦敦的闪烁之眼

对于正在伦敦参加奥运会的选手和观众来说,除了赛场上激烈的比赛之外,另一个地方也值得一看,那就是泰晤士河岸的伦敦之眼。在奥运期间,每晚 9 点到 10 点,这个世界最大摩天轮之一的伦敦之眼都会变成一个巨大的情绪指示器,会根据当天 Twitter 用户对奥运的不同情绪进行点亮。

这一被称为 Energy of the Nation 的项目从 Twitter 公共时间线中筛选出来自英国本土、带有“Olympics”、“London 2012”等与本次奥运会相关词条的信息。扫描这些信息中带情绪意义的词汇(如“brilliant”、“failure”、“very”、“never”)、语调(如“!!!”、“?!”)、甚至表情(如“:(”、“:)”),通过算法评估出大众对于这次奥运会的情绪态度指数。伦敦之眼展示的只是一个模糊的情绪比例,而在项目官方网站上则可以看到各种各样详细的数据,包括热门地区、热门关键词、Twitter 信息分布等,甚至还有实时的信息流动的地图(酷!)

从这其中,我们可以看到很多有趣的现象,如今天热门关键词的第二位“cheat”,很明显是对应昨日羽毛球混双比赛中,球员消极比赛被退赛事件的反应。

美国的政治晴雨

而正在今天,Twitter 也联合社交分析服务商 Topsy、两家民调机构,发布了针对 2012 美国大选的“Twitter 政治指数”(Twitter Political Index)。通过对提及到两位候选人的 Twitter 信息的情绪指数与其他主题 Twitter 信息的情绪指数进行比较,预估广大选民对两位候选人的满意程度。

以当前数据为例,现任总统奥巴马的 44 分表明,包含奥巴马关键词的 Twitter 信息表达出的积极情绪比 Twitter 全站 44% 信息的情绪要高。而罗姆尼的 26 分则 Twitter 用户对其积极情绪高于 26% 的信息数据。如果觉得 Twitter 提供的信息还比较模糊,USA Today 的大选网站在 Twitter 数据的基础上,还呈现出了不同时间点上,决定民意走向的一些关键事件的相关 Twitter 信息,让我们能够更清晰的了解数据背后的意义。

星球的脉动

Twitter 曾经在泄漏出的内部文件里将自己定义为“星球的脉动”。在阿拉伯之春中、在日本大地震中、在奥罗拉枪击事件中,以 Twitter 为首的社交网络以其病毒式的信息传播速度、对最基层用户的调动参与展示了自己的力量,但也有人认为,社交网络上飞速流逝的信息流并没有长久的价值。然而我们看到,包括社交网络的互联网大数据对企业、对政府、对研究机构来说,已经开始带来积极的价值。但所谓社交网络大数据真的能够反应最普遍的真实民意吗?

数据与民意

虽然在 Facebook IPO 中,社交媒体监测平台 Datasift 对 Twitter 上相关信息的监测显示,Twitter 上与 Facebook 相关的情绪倾向与 Facebook 随后的股票走向呈现直接的正相关;美国政府早已开始利用 Facebook、Twitter 等网站的数据,综合传统报纸、电视、广播等媒体的资讯来监测国内和世界各地的舆情变化,效果也相当显著。但就目前而言,仅凭这一渠道的数据,还无法获得真正准确的结论。

  1. 目前研究人员对于社交网络数据的挖掘方式还处在比较初级的阶段。以伦敦奥运会为例,伦敦之眼项目主要依靠的是对表达情绪的关键词进行匹配的方法,辅以对语调、表情的分析,但在日常口语的表达中,讽刺、反语或是不同的使用场景都会让一个词语的实际意义发生变化,而预先固定的匹配词库也可能对信息的收集带来了限制。研究者表示,通过大量数据的累积,这一类偏差大多可以被抵消,但对语义进行更精细的分析无疑是想要达到更准确结论必须解决的问题。
  2. 虽然 Twitter、Facebook、微博的用户已经开始扩展到更广泛的用户群体,但其依然无法普遍代表整个社会群体,特别是老人、低收入、欠发达地区的人群在这些渠道中显著的缺失代表。当然,随着互联网的继续普及,这并不是不能解决的问题。

Twitter 在博客中也表示,就像雷达、卫星的出现对传统以温度计、气压计为主要数据来源的气象学来说是一个重要的补充一样,社交网络上的数据在今天也可以为用户调研、舆情观察进行辅助和补充。例如在许多交通不便,无法进行现场民意调查的地方,人们可能可以通过手机上网发表意见,而这是传统调查无法覆盖到的。Twitter 过去两年的政治指数数据显示,其与常用的民意调查 Gallup 在大多数情况下趋势都保持一致,这说明了社交网络大数据在一般情况下还是可靠的;在当两者趋势不一致时,却也能带来更多有趣的信息。如在本拉登被击毙后,Twitter 上奥巴马的满意度指数在上升后,比 Gallup 的数据更早的开始回落,更进一步的数据显示,这是因为 Twitter 上的相关讨论更多的回归到了国内依然肆虐的经济危机上,这一数据的差异可以为政府评估任务提供重要的参考。

当然,利用互联网的大数据进行用户分析并不是一件新事,搜索引擎的热门搜索词条(如最典型的 Google 搜索趋势)在包括卡特里娜飓风、智利大地震、中国禽流感危机等许多事件中发挥了重要的作用并继续在新的事件中展示自己的力量。但我们可以看到,传统的民意调查、搜索趋势、社交数据分析三者获得的数据有各自不同的特征,传统的民意调查获得的是被调查者对于他人观点的看法,搜索趋势获得的是搜索者对某个东西或事件表达的兴趣,而社交数据揭示的是用户自己对某个问题的态度和观点。其中传统民意调查在未来可能被搜索引擎、社交网络的功能所代替,但搜索引擎、社交网络在目前来说,两者数据依然具有各自重要的意义(题外话:很多分析人士认为,这也是为什么 Google 广告比 Facebook 广告有效的原因。)

数据的商业价值

当然,我们不能忘记,所谓大数据在搜索引擎、社交网络之外还有很多其他的使用场景,“大数据所能带来的巨大商业价值已经被人认为将引领一场足以匹敌 20 世纪计算机革命的巨大变革”。亚马逊精准的商品推荐、McKesson 高效的物流调配、沃尔沃持续的零件缺陷监测,都受益于对大数据的合理利用,为其服务带来了更好的反馈和改良机制。那么,你认为下一个借助大数据崛起的公司会是哪一家呢?

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部