细究大数据

“大数据”是时下流行的一个术语,是解决技术世界最难解的问题的一站式答案(目前已经变成三个X级别了)。这个词通常用来指分析大量信息数据的科学技术,以检测模型,收集意见并预测复杂问题的解决方法。听起来可能有点枯燥,但是大数据的作者们觉得从防恐到结束贫困再到拯救地球都不是什么大的事情。

“当大数据成为敦促全球性问题的解决办法之一时,带给社会带来巨大的益处,比如探气候变化,根除疾病,推进良好治理和促进经济发展。” Viktor Mayer-Schönberger 和Kenneth Cukier在名称很谦虚的《大数据:将改变我们生活、工作、思想的革命》一书中预示。

不管数据是来自iPhone手机,杂货店采购清单,网上交友记录,或是整个国家的匿名健康记录,只要信息量够大,运用我们的计算能力将数据解码,从中获得的结论将是不可计数的。即使奥巴马政府也很吃惊于这个新趋势,5月9日称企业家,研究员和公众“从前不能获取或管理的数据”现在成为了“开创性”的宝藏。

“我们推动个人创新和发现的一个举措就是让大量的美国数据有史以来第一次如果公开,易于获取。有才能的企业家们正在利用这些数据做的事情让人感到相当惊奇。”奥巴马总统说。

但是大数据的确是像宣传的这样神奇吗?我们能够相信这么多的个体和英雄将为我们照亮人类行为的隐秘世界吗?外交政策杂志邀请麻省理工学院公众媒体研究中心的Kate Crawford探讨数据背后的故事。——编辑。

“如果有足够的数据,数据将自证。”

完全没有可能。大数据的推动者们想要我们相信,大量的数据库和代码后,是人类行为模式的客观通用解释,比如消费,犯罪或恐怖行为,健康习惯,还有雇员生产率。但很多大数据的作者不去冷静地思考弱点。数据并不能自我证明,不管数据规模有多大,数据集仍是人类设计的产物。阿帕奇云计算软件框架等大数据工具并不能让人们的思维避免偏移、中断或出现错误假设。在大数据试图反应我们居住的社会的真实情况时,这些因素特别重要,然而我们经常被愚弄,认为计算结果比人类的的观念更客观。大数据与个体知觉和经验一样,有同样多的偏差和盲点。但有一个错误的看法,认为数据越大越好,关联性等于因果。

举例来说,大数据喜欢分析来自社会媒体的数据资源,而且其中必定有很多信息有待发掘。我们被告知,推特数据告诉我们人们离家较远时比较高兴,周四晚上最不高兴。但是有很多理由问一下这个数据真正要反映的是什么。首先,我们从皮尤研究中心知道只有16%的美国在线成年人使用推特,这个人数不能作为有代表性的样本——他们更多倾向于年轻人和城里人,而不是普通人群。其次,我们知道很多推特用户使用自动回复程序“bots”,还有虚假帐户或半人工帐户——使用“bots”和人工共同控制的帐。最新估计数据表明有2000万虚假帐户。因此,在我们进入推特感情评估这个方法的雷区前,先问问这些感情是人们自己的表达还是自动设置的。

但是,即使你确信推特上的大多数都是有血有肉的真人,也存在确认偏向的问题。比如,IBM使用社会信心指数大量分析了推特关于参赛选手的信息,预测2013年澳大利亚网球公开赛中谁将是社会媒体中“最积极的”选手。结果是维多利亚·阿扎伦卡列在第一。但推特上很多人批评阿扎伦卡使用医疗时间超时,引起争议。所以,推特们是喜欢她还是讨厌她?很难相信IBM的计算是正确的。

一旦解决了垃圾数据的问题,我们来考虑一下计算本身是如何偏移的,急急忙忙地划定范围,写程序,迎合需求。

人权组织也指望利用大数据来帮助理解冲突和危机。但同样存在数据与分析的质量问题。迈克阿瑟基金最近为卡耐基梅隆大学的人权科学中心提供了为期18个月17500美元的资金,用于调查大数据分析如何改变人权实情调查,比如通过“可信度检验”对来自危机地图仪Crisis Mappers, 目击者Ushahidi, 脸谱Facebook,YouTube等网站的声称侵害人权的事件进行分类。中心主任Jay D. Aronson指出“研究机构和人权组织使用数据时,出现了严重的问题,对数据来源钡有责任。很多情况下,报告事情的人们的安全是否由于新技术的应用而进一步得到保障还是因此受到威胁,并不清楚。”

“大数据不存在不同社会团体间的歧视。”

很难。大数据声称客观性的另一个保证是大数据中对少数群体的歧视较少,因为原始数据不受社会偏见干扰,使得分析在量级很高的数据中进行,因此避免了群体歧视。但大数据常常就是为了这个目的而进行的——将个体分离并划到不同的人群里——因为它有能力声称不同人群的行为如何不同。例如,最近的一篇论文指出科学家们如何运用他们关于人种的假设来设计大数据基因研究。

正如阿利斯泰尔克罗尔所写,用大数据分析价格歧视分析的可能性引起了有关民事权利的严重关注,这种行为历史上称为“划红线注销”(将某些顾客划出贷款对象范围)。在“个性化”的红色标题下,大数据可以用来隔离特定社会人群,并区别对待,这是法律明文禁止企业或人们去做的。公司可以选择通过在线广告向那些家庭收入可观或银行信用记录良好的人推广信用卡,而其他人完全不知道能够获得这种有选择性的信用卡。谷歌甚至有一项动态估价的专利:因此,如果你过去的购买记录表明你很有可能购买昂贵的鞋子,下一次你在线购买鞋类产品的起价可能会相当高。现在雇主们试图将大数据应用到人力资源管理,通过分析雇员的每一个敲击行为和拍打行为,评估如何使雇员的生产效率更高。雇员或许根本不知道有关他们的数据有多少正在被收集,用来干什么。

歧视也会发生在人口统计领域。比如,纽约时报报道说Target几年前即开始收集其顾客的个人档案,现在拥有的采购趋势方面的数据量很大,某些情况下足可以仅仅根据一个女人的采购记录来预测她是否怀孕了,并且有87%的把握。文章中提到的Target统计人员强调这将如何帮助公司加强对准父母的市场营销,可以想象,这些结果也会以其它的歧视方式被利用,可能严重影响社会公平,当然不有隐私。

最近,哥伦比亚大学对58000个脸谱网的好恶数据进行研究分析,分析结果用来预测非常敏感的用户个人信息,比如性取向,种族,宗教和政治观点,个性特点,智商,幸福程度,使用上瘾药物,父母婚姻状况,年龄,及性别等。记者汤姆·福斯基注意到这个研究,说“雇主,房东,政府机构,教育机构,私人组织能够轻易地获取敏感度如此高的信息,他们有办法歧视对待和惩罚个人,个体却没有办法反抗。”

最后,想想在实施法律条文过程中的隐藏的事情。从华盛顿特区到特拉华州的纽卡斯尔县,警察开始使用大数据的“预防性监控”模型,希望能给未破的案子一些调查线索,甚至有助于预防新的犯罪。不管怎样,将警力活动重点放在大数据检测到的“热点地区”是冒着另一种危险,进一步指责社会群体是可能的罪犯,将不同的警务行动制度化成常规作法。正如某位警察局长所写,预防性监控尽管确定地避免了种族和性别歧视,但使用该系统而不考虑各种影响的实际后果可能是“恶化警察与社区的关系,让人感觉缺少程序上的公正,被控告按种族定性,对警察的合法性造成了威胁。”

“大数据是匿名的,因此不会侵犯隐私。”

完全错了。尽管很多大数据的提供者尽力把个人信息从人群数据集中去除,重新鉴别身份的风险还是真实存在的。手机数据总体上规模大,看起来没有个人特征,但最近有一项针对欧洲1500万手机用户数据的研究表明,只要四个控制点就足以识别出一个人95%的信息。研究员注意到,人们在城市间穿梭的方式有其独特性,但考虑到可以从大量的公众信息数据中导出很多内容,使得隐私“引起更多关注”。多亏有Alessandro Acquisti这样的研究机构,我们知道如何通过交叉分析公共现有数据直接猜出个人安全社会保险号。

但是,大数据的隐私问题远远不只是通常的身份重新识别风险。当前,卖给研究公司的医学信息也有风险,可能被用来追踪你的个人身份。关于个体化用药,有很多议论,有人希望处方药和其它治疗方法可以目标个性化,从提高医学角度讲,这个前景很美妙,但基础是掌握个人细胞遗传信息,但有这些信息有很大的风险被不当利用或泄漏。尽管象RunKeeper和 Nike+这样个人健康数据采集装置发展迅速,但应用大数据提高卫生保健的实践仍然是渴望高于现实。

拥有大数据的能源生产商们正在收集其它的私人信息,比如智能电网Smart Grid。通过分析大量的用户能源用量数据,看起来可以促进能源输送到家庭和公司的效率。这个项目前景广阔,但也面临巨大的隐私风险。它不仅能预测我们需要能源的数量和时间,而且每分每秒都有大量的数据信息流失。据英国海上金融工业的消息,世界上百分之一的事物与每个个人一样易于受到个人数据公开化的攻击。

“大数据是科技的未来。”

部分是对的,但还有很多事情要做。毫无疑问,大数据为科学发展提供了一条新的途径。我们只需看看希格斯玻色子的发现即可,成果来自历史上最大的网格计算工程,欧洲核子研究委员会使用云上文件传送系统Hadoop Distributed File System来处理所有数据。但是,除非我们能够识别并应对大数据在反应人类生活时的内在缺陷,否则我们可能让主要的公众政策和商业决策建立在错误的假设之上。

要应对这些内在缺陷,数据科学家们开始与社会学家合作,社会学家长期以批判的眼光与数据打交道:评估数据来源、数据的收集方法、数据应用涉及的道德伦理问题。随着时间的推移,这意味着找到一条新的途径,将大数据方法与小数据研究结合起来。这远远超过了广告和营销使用方法,如焦点讨论或A/B测试(测试中,给用户两个版本的设计或产品,看哪一种结果证明更有效)。而新的方法组合还会提出人们为什么做事的问题,而仅仅总结出事情发生的频率。这意味着吸收了社会学分析和民族学的深度见解,还包括追溯信息检索和机器学习的内容。

科技公司早就意识到,关于人们如何对待他们产品,为何如此,社会学家能够提供更有力的观点,比如施乐公司的帕洛阿尔托研究中心雇用人类学家的先驱萨奇曼先生。接下来,各领域的计算机科学家、统计学家、社会学家之间的合作将更加丰富——不仅检验彼此的发现成果,还会提出根本不同类的问题,而且更加尖锐。

想到关于我们的信息每天都在被大量地收集——包括脸谱点击率,GPS数据,医药处方,网飞的数据列——我们必须尽早确定谁是可以信任的,他们使用我们的数据的目的何在。有一个事实无法逃避,数据从来不是中立的,很难做到匿名。但我们可以利用不同领域的专业知识更好地确认偏差、差异和假设,进而应对隐私和公平方面的挑战。

via:yeeyan

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部