谷歌发布大型数据集合Wikilinks 可让程序更好地理解人类语言

据外媒报道,谷歌于近日发布了一个大型数据集合–Wikilinks Corpus,它将可以帮助开发人员构建出可以准确解释人类语言的软件。Wikilinks Corpus中包含了来自各大网页及维基百科文章的4000多万条个人链接,它们则被称为mention。开发人员则可以通过分析每一条mention的内容以及目标文章的内容,进而确定一些模棱两可单词的意思。

 

Google logo

谷歌在其Reaserch Blog中提出,人类非常擅长辨别同一个单词在不同语境下的意思。比如说,当把dodge写成Dodge时,它就是一个车子的品牌,而当写成to dodge的时候,它就是一个动词。

跟谷歌搜索算法非常类似,Wikilinks Corpus也是由在来自马萨诸塞大学阿默斯特分校的研究人员的协助下完成的,并且它的规模要比以往的数据集合都要来得大。更重要的是,它是免费的。虽然由于版权问题,谷歌无法发布个人网页的实际内容,但是它却可以提供获得这些内容的代码。

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部