数据新闻学入门(内含大量相关网站)

数据新闻学对于有些人来说显得高不可攀,因而亚利桑那大学(University of Arizona)的斯蒂夫·多伊格(Steve Doig)教授在5月1日的国际记者节上为代表们讲解了入门的关窍。

找到新闻报道的灵感

多伊格说,现在处处都能找到数据,大多数的社会事件和人们感兴趣的新闻报道都在某个方面和数据有关。讲述地方性新闻有一定的模式,因而对于现场报道来说,调查你习惯报道的那些领域是有价值的。

如果你还是无从下笔,多伊格建议从其他项目或者新闻报道里面寻找灵感。

他说:“如果在某个城市存在某种特定类型的社会问题或者犯罪活动,有可能在你们那个城市也是如此。”因而记者们可以借鉴来自远方的城市最近发生的报道,看看是不是在本地也能适用。

还须弄清更多的细节。

数据新闻学(Data Driven Journalism)的网站上有一些专题报道,多伊格常常点击调查记者和编辑的Extra Extra feed栏目。还有《卫报》的数据博客也是捕捉灵感的好地方。

他说,如果你的人脉很广,“线人和揭发人”是新闻报道的可靠来源,而在相关机构和学术部门阅读档案和报道总会收获颇丰。

多伊格还说,这些报道未必是严肃的新闻。在Miami Herald这份日报上,他读到当地所有的狗都注册在案,这样就能看出哪种品种的狗最流行(杜宾还是贵宾),还能看出什么狗的名字最受欢迎(许多人都喜欢给斗牛犬起名温斯顿)。

沿着灵感追本溯源

多伊格说,新闻报道中的数据往往是围绕一个前提展开的。接下来应该对照采访和已经检验的数据,推敲这些前提。

想知道自己需要什么样的数据,记者必须对如下变量做出充分估计——年龄、性别、地点、工作、收入、犯罪,还要明白什么机关或者政府部门收集了这些不同的数据。接下来就要——

收集数据

多伊格说,信息自由法案【1】为我们提供了主要的数据来源,而在欧洲国家,就不一定总是能找到稳定的数据来源,像Wobbing.eu这样的网站有一定帮助。

点击Journalism.co.uk上的文章,可以看到如何向“信息自由法案”提交检索请求,以及数据新闻学的其他资料来源和工具,获得新闻报道的数据。

多伊格说,数据也许有多种文件格式,因此最好的办法就是无辜地说“我真的不懂数据啊”,让和你打交道的部门找一个不懂数据的人来接待你,以取得最好用的文件格式。

他说,尽量避免接收pdf格式的文件,因为很难把pdf中的数据输出到其他程序,加以利用。而这种输出总是必要的,因为大部分数据都没有好好排列,不能拿来直接分析。

整理数据

多伊格说:“收集这些数据是为了当局的目的,但是我们索要这些数据是为了分析。我们必须做得更加精确。”

在同一组数据中,城市名常常有不同的拼写方法(“我见过在同一列里面把凤凰城拼成Phoenix,Pheonix和Feenix三种形式的”),因而这些数据必须整理。

多伊格极为推崇Open Refine网站,因为它可以把不一致的地方标出来,建议进行修改,大致对数据进行整理,使其便于分析。

寻找模式

他说:“寻找波峰和波谷、幅度、平均值和中位数,让你的脑海中出现数据图。”

接着记者就应该寻找模式或者异常之处,离群值的出现或许是由于一大笔钱用于资助政治家选举,或者是捐给了资金匮乏的学校。在有些时候,发现离群值和发现模式一样,背后有一个大事去报道。

多伊格说,检验数据的最好的工具——至少称得上“入门必备”——就是微软的Excel。用这个软件至少能“处理80%-90%”的数据。

他说,分类、过滤、函数、数据透视表都能用来处理数据,稍微练习一下就能上手,或者找同事帮忙也行。

多伊格说:“数据新闻学是场团队合作。”正如写作其他类型的故事一样,通力协作、分享观点常常能收到最佳效果。

他说,一个真正优秀的数据新闻报道也应该包含多种要素,使之生动起来。这些要素包括:文本、声音、采访、图表、图片、多媒体、社交媒体、法律、档案以及其他可以充当背景的东西,让报道充满人文关怀。

多伊格还推荐参加欧洲新闻中心免费的数据新闻学课程,本课开始于5月19日,专为那些要染指数据的人们而设计。

【1】信息自由法案(Freedom of Information Act)是承认公众对政府机构持有信息访问权的美国联邦法律。

译者: 独眼一点五 原作者:Alastair Reid  来源:译言

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部