图像元数据如何帮助剥离搜索

图像元数据可以携带有关它的创造者的敏感信息,比方说,GPS衍生的地理坐标。因此,这些数据应该被掩盖。例如,正是出于这个原因,Twitter和Facebook把经常大量剥离用户的元数据作为一件理所当然的事情。但是,网站经常这样做并非出于保护其用户的目的,他们的目的在于占有这些信息。图像通过裁剪切除可见的水印或经过数字化洗涤,以摆脱元数据使用一应俱全的电子清除器的烦恼。这以恰当的分配排除了不法用户的存在,更重要的是,这是对图像最初所有人的补偿。

那些发布在网页上的照片,在规模和数量上都在迅速增加,并且现在已发展到能够从图像数据本身获取有用信息的程度。利用对使用计算机视觉算法的研究,计算机可以自行识别照片或插图的部分场景,以多种方式解构图像数据,进而分析出目标和特征,而无需再依靠嵌入在图像文件的元数据的文本,或有精确像素匹配的图像(这在很多方面是不现实的)。那么,对蒙娜丽莎画像的分析,可以成功地与其他图片相匹配,无论是那些不同时期所做的相同的画,还是在形式、色彩和构图上与原画都十分接近的转变画(包括模拟画)。

这种类型的自动图像分析已经引起“反向”搜索的发展,这是一种通过提交图片来获得与之相匹配的索引图片的技术服务,并且这种服务也已经逐步开展了。Google图片和TinEye(由 IDEE建立,公司总部设在蒙特利尔)为个人使用都在提供良好的免费服务。这样的反向搜索的大体目的是要找出可能的图像来源,找到一个更高分辨率的图像版本,或确定该图像已经被用于某网站。形象已被用于(一种与之略相关的、依赖更为传统元数据的服务,通过寻找序列号,可以帮助确认被盗相机是否再次被人使用。)

在有效的反向图像搜索技术出现使用之前,摄影师和版权持有人不得不亲自追查被盗取图像,当然,有时他们也会雇用别人来做。另外,他们也可以使用数字水印,这是一种“隐写”的方法,它可以让你在整个图像中嵌入一个可读代码,作为一层难以察觉的细小修改。修改或裁剪图像通常不会删除代码。可读代码嵌入一个看似难以察觉的微小的修改在整个图像层。 早在15年前,Digimarc公司就成了该领域的先驱。(现在它还提供对纸币和驾驶执照防伪技术支持。)

Google和IDEE使用更普遍的方式。其共同创始人、现任老板Leila Boujnane说,比Google更早提供服务的TinEye,正采用图像识别、图像处理和计算机视觉研究技术。这可为图像创建指纹,从而在不需要精确匹配的情况下,用来和其他图像匹配,甚至是完全储存原图。同时,公司也在设法发展对图像的追踪转换,无论是把单一图片作为某拼贴画的一部分,还是把多数图像覆盖组合成一张单图。在图像的裁剪、倾斜和修改后的衍生物中,这些对象的相互关系仍将会被保存下来。

Boujnane女士说,与5年前TinyEye刚开始时提供的2千万次服务相比,现在它提供了将近4000亿次对独特图像的索引服务。由于许多数据导向型业务的发展,计算能力和存储空间价格的急剧下降,导致像IDEE这样的小公司,能将数据集保持发展壮大,以至于在几年前,它们能完全替代Google和Facebook。

网络上可用的图像数量是未知并且不可知的; Instagram和Facebook每家都拥有数十亿,虽然许多仅限于网络可用。其总量即便没有几万亿,至少也可达几百亿,其中当然也包括数不清的重复的图片。互联网公司的工作面试中,一个常见的问题就是怎样计算这个总量。

除了免费服务,在与Digimarc和其他同行的竞争中,IDEE还协助个人和企业形象的著作权人关注图像使用。IDEE计划引入一项新的跟踪图像使用的服务,例如,当发现在索引过程中,图像出现在新的网站,它会及时提醒客户。

TinEye和Google图片等索引让似是而非拒绝图像专有变得不太可信。Boujnane女士说,“我不知道,我无法找出它来自何处”,这句话已不再是一个值得信赖的辩解。她指出,这里还有比版权控制更重要的,但她承认,这也就是利润的出处。对于许多人来说,与工作相关的概念似乎更重要。

评论已关闭

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部