在科技行业,从来没有出现一家屹立不倒的“百年老店”。比如,在互联网时代,谁都不曾想在手机市场不可一世的诺基亚,最终却日渐没落,黯然退场。AI 时代来临,为了避免被时代淘汰的命运,科技巨头们开始在内部进行自我革新,希望突破自身发展瓶颈。而要想在 AI 领域做出一番成绩,数据则是其不可或缺的基本要素,有一种说法是拥有了数据就拥有了未来,是这样吗?
此前,Google 发布了一项人工智能研究报告,其结果提醒我们当前 AI 繁荣期的重要业务动态。消费者和经济都越来越依赖科技公司的生态系统,而它也一直被认为是通过内部瓦解而保持创新和非垄断的,在这一过程中小型公司也因此得以颠覆大企业。 不过,当科技竞争取决于由大量数据所驱动的机器学习系统时,超越科技巨头可能变得比以往更为困难。
在星期一,Google 发布的新论文预印本描述了与卡内基梅隆大学(CMU)的一次“昂贵”的合作。他们的图像识别实验花了两个月将 50 个强大的图形处理器集成在一起,并且前所未有的使用了 3 亿张标记图像集(图像识别中的大量工作使用了仅 100 万张标准图像集)。该项目旨在测试是否可以为其提供更多数据的方式来获得更为精准的图像识别,而并非通过调整现有算法。
答案是肯定的。在 Google 和 CMU 的研究人员用他们新的数据集训练了标准图像处理系统后,他们发现,它在多个标准测试中产生了新的最先进的结果,以便软件可以解读图像,例如检测照片中的物体。他们抽取的数据量与图像识别算法展现出的准确性之间存在明确相关性。这一发现有助于澄清人工智能研究领域盛传的一个问题,即是否可以通过提供更多的数据,从而让现有算法“挤”出更多数据。
实验表明,拥有海量数据在很大程度上甚至等同于具有更强的实力,这也意味着像 Google,Facebook 或微软这样有海量数据的技术巨头可能会获取比以前更大的好处。然而,Google 的 3 亿张庞大图像数据集并不会产生巨大的效益——从 1 百万张图像增长到 3 亿张图像,物体检测评分只增长了 3 个百分点。但该论文的作者却认为,他们可以调整软件以使其更匹配超大型数据集,从而来扩大这种优势。即便事实证明并非如此,但在科技行业中,一点微小的优势也很重要。例如,自动驾驶汽车视觉的准确性每提高一点都将是至关重要的,而对于一个可能有数十亿美元收入的产品而言,效率也将会得到很大提升。
对以 AI 为中心的公司而言,收集数据已然成为了一种防御性策略。Google、微软等公司都开源了很多软件——甚至是硬件设计,但却很少开放使这些工具起作用的数据。
据雷锋网了解,在宣布开源 TensorFlow AI 引擎时,Google 就曾表示,对 AI 而言,真正的价值并不在于软件或算法,而在于使其更加智能化所需的数据。Google 也许会放弃其他内容,但必定会保留数据,至少目前是这样。
不过,科技巨头也确实公开了一些数据。去年,Google 公开了一个有超过 700 多万条 YouTube 视频的庞大数据集,而 Salesforce 也开放了维基百科,以促进算法来分析语言。但是,AI 开发实验室 Manifold 的合伙人和劳伦斯伯克利国家实验室(Lawrence Berkeley National Lab)的访问研究员 Luke de Oliveira 表示,这种开放对潜在的竞争对手来说通常不会产生太大的价值。“这些数据集对产品能维持其市场地位来说从来无关紧要。”他说道。
在云计算兴起之后,像 Amazon 和微软这样的公司都可使用网络强大的处理能力。但最丰富的数据仍然被 Google 和 Facebook 等巨头们攥在手里,有近数十亿人使用它们的服务,包括从文字到图片,视频到语音等丰富的交流信息。它们都在努力建立强大的 AI 软件,但它们真正的竞争优势在于拥有大量高品质的数据,它们可以利用这些数据来教会软件像人一样思考。
Google 和 CMU 的研究人员表示,对那些经过处理的有价值的海量数据,他们希望用自己最新的研究来帮助创建更具“Google 规模”的开放图像数据集。“我们真诚希望可以让视觉领域相关人士不要低估数据,我们可以通过集体努力来构建更大的数据集。”他们这样写道。负责这项研究的 Abhinav Gupta 认为,他们的其中一个选择是与通用视觉数据基金会(Common Visual Data Foundation)合作,它是由 Facebook 和微软发起的非营利性组织,目前已经开放了图像数据集。
与此同时,数据匮乏的公司要想在一个希望算法变得更智能的拥有丰富数据的巨头们夹缝中生存下去,它们必须要富有创造性。DataRobot 的首席执行官 Jeremy Achin 猜测,随着机器学习在很多公司和行业变得愈加重要,比如,在保险行业中,小公司收集的数据使其风险预测能力可以与大公司进行竞争,这种模式可能会受到广泛关注。
在机器学习免于数据匮乏后,这种进步可以颠覆 AI 的数据经济性。去年,Uber 为此收购了一家 AI 公司,但现在它也可能尝试回避 AI 从业者的数据优势。Fast.ai——一家致力于使机器学习变得触手可及的公司——其联合创始人 Rachel Thomas 认为,初创公司通常能够将机器学习应用在互联网巨头们目不能及的领域(如农业)。“我不确定这些大企业是否在任何地方都有巨大的优势,但在很多特定领域,现在还没有人去收集到任何数据。”她说道。即便是人工智能领域的巨头,也有其盲点存在。
来自:雷锋网编译自 Wierd
更多阅读: