消失的网页:信息衰减正在蚕食我们的历史

得益于像Facebook、Twitter这类社交网站的崛起,用户拥有了实时发布和获取相关信息的能力。但是有新的研究表明,在这些信息内容里面,很多链接所指向的网页内容已经不翼而飞。

在当下的媒体时代,我们会接收到大量变化迅速的信息,不管它是来自于博客、新闻网站还是社交网站。如果你非常喜欢阅读实时信息,这肯定是一件好事。但是它也存在一个不是那么隐晦的缺陷:许多信息将会被新的内容所覆盖,部分内容也在无声中消失。有研究报告指出,那些通过Twitter分享的新闻链接很多已经失效,比如说跟中东阿拉伯之春的革命的相关内容消失了不少,这可能会引起很大的问题。

在这份研究报告中,研究人员主要把过去三年所发生的重大新闻作为调查对象,当中包括埃及的革命、迈克尔·杰克逊的逝去、伊朗的选举和H1N1病毒的爆发等。他们跟踪了Twitter上的相应分享链接,最终发现了一个惊人的结果。

在链接所指向的页面里面,30%历经两年半后已经消失

研究人员指出,在过去的一年里,有11%的链接内容已经不复存在。如果把时间范围扩展到两年半的话,这个比例到达30%!基于这个信息“衰变”的速度,有专家认为一年内消失的新闻内容会占总体的10%,剩下的则以每天0.02%的速率消失。

在这份报告里面并没有说明新闻消息消失的原因,很有可能是网站把相关的内容删除或者转移到别的地方去了。《科技创业》认为这些信息是非常有价值的,它们可以用来跟踪历史的发展。

其他科学家也对这些“数字数据”的消失而感到担忧。苏格兰的国家图书馆认为那些与苏格兰相关的数字生活数据正在消失,他们要求政府迅速立法,允许图书馆对各大网站的内容进行备份。网络先驱Brewster Kahle在数字存档这方面是富有名气的,因为他参与了互联网档案计划(Internet Archive),使得早期的网站内容得到了存档。

获得社交数据不是一件易事

对于Twitter上的内容,不管是链接所指向的内容还是自身的,要收集起来都是有一点难度的。Twitter的搜索是出了名非常不靠谱的,要把一周以外的内容搜索出来是无法保证的。有一个名叫Gnip的外部服务可以访问Twitter完整的内容存档,但是它是要付费的。用户也可以通过基于Twitter的搜索小引擎Tops对tweet进行归档,哪怕是非常老旧的内容都能搜刮出来。虽然上述的两个工具在存档方面提供了一些便利,但是要它们和历史研究与归档结合起来的话还是存在不少困难的。美国国会图书馆对Twitter的消息内容也保留了一份存档,但是一般用户是不能轻易读取得到的,而且它的内容也不一定及时更新了。

虽然Twitter一直有说要向用户提供一个可以下载自己内容的服务,但是具体的时间我们是无法确定的。就算用户能够通过Twitter的服务(或者第三方的工具或者服务)来做内容存档,但是要从中筛选有用的历史信息作为研究对象也是有一定难度的。不仅仅是Twitter,要获得Facebook的内容存档也是一样的困难。

那些散播在我们身边的信息可以说是稍纵即逝的,而我们也缺乏很好的工具去把它们都记录下来。从长期上来看,这些社交元素会对“数字失忆”造成多大的影响呢?我们的历史又会在数据膨胀的过程中被遗忘吗?

Via:gigaom

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部