为让机器人理解世界 科学家都做了什么?

科幻小说中平行宇宙多是由与人类难以区分的机器人所组成的。这些机器人通常比我们更聪明、更敏捷、更强壮。他们似乎有能力做任何可以想象到的工作,从驾驶星际飞船、对抗外星人入侵,到清理垃圾以及烹饪美食。当然,现实远非幻想。除了工业环境之外,机器人仍未达到《杰森一家》中机器人的程度。公众所接触到的机器人似乎不过是一些尺寸过大的塑料玩具,它们被事先设定好执行一系列任务的程序,却没有能力与周围的环境或他们的创造者进行有意义的互动。

套用PayPal联合创始人、科技企业家Peter Thiel的话来说就是“我们本想要酷酷的机器人,但我们只得到了有着140字输入限制的汉堡机器人Flippy”。但是,科学家们正在逐步取得进展,赋予机器人与人类一样的能力,可以对周围的环境进行观察和反应。

该领域的一些最新进展是本月在年度机器人大会暨马萨诸塞州剑桥科学与系统会议上所提出来的。这些论文深入探讨了一些话题,包括如何让机器人更健谈,帮助他们理解语言的模糊性,以及帮助他们在复杂的空间中观察和导航等。

优化的视觉
杜克大学的研究生Ben Burchfiel以及他的论文导师George Konidaris、布朗大学计算机科学助理教授,提出了一种算法,从而让机器能够从更像人类的视角来看待这个世界。在论文中,Burchfiel和Konidaris展示了他们如何能教会机器人识别物体并尽可能操纵三维物体——即使物品可能被遮住或放置在陌生的位置上,比如被打翻的茶壶。

研究人员对机器人的算法进行了训练,方式是对大约4,000种常见的家用物品进行3D扫描,如床铺、椅子、桌子,甚至是马桶。然后,他们测试了机器人以鸟类的视角观察和分辨出900个新的3D物体的能力。相对于其他计算机视觉技术50%的正确率而言,该算法在其75%的时间内做出了正确的猜测。

研究人员表示,他们的研究并不是训练机器对3D物体进行分类的首例。他们的方法不同之处在于,他们对机器人学习物体分类的空间进行限制。

“想象一下所有可能的物体存在的空间,”研究人员解释道:“这就是说,假如你有微型乐高积木,我告诉你,你可以随意将它们粘在一起来创造不同的东西。你可以创造出很多东西!”

这种无限的可能性可能会最终带来人或机器都不能够识别的物体。

为了解决这个问题,研究人员使他们的算法找到了一个更有限的空间,以容纳它将要辨认的物体。通过在这个有限空间中工作——从数学上说,我们称之为子空间——我们极大地简化了分类任务。“正因为发现了这个空间使我们拥有了区别于以往的方法。”
服从命令
与此同时,布朗大学的两名本科生找到了一种方法,可以让机器人更好地理解方向,甚至在不同程度的抽象概念上也可以完成。由Dilip Arumugam和Siddharth Karamcheti带领的这项研究探讨了如何训练机器人理解自然语言的细微差别,以及随后如何正确有效地遵循指令。

“问题在于,命令可以有不同的抽象级别,这可能会导致机器人无法有效地规划其行为或根本无法完成任务。”Arumugam在一份新闻稿中说。

在这个项目中,年轻的研究人员提供了将虚拟机器人移动到在线域名的说明。该空间包括几个房间和一把椅子,机器人被告知要从一个地方到另一个地方操纵。志愿者向机器人发出各种指令,这些指令既有较为概括的,比如“把椅子带到蓝色房间”,也有一步一步的具体指令。然后,研究人员使用指令数据库来教系统理解不同的表达方式。这台机器不仅学会了遵循指令,还学会了识别不同抽象程度的话语。这是解决问题的能力,以最合适的方式解决这个问题的关键。

研究最终从虚拟环境进入了真实世界,使用了一个 和Roomba相似的机器人,90%的情况下,该机器人可以做到一秒内对指令做出反应。相反,当无法识别任务的特异性时,机器人需要20秒或更多秒的时间来计划任务约50%的时间。

论文中提到的这种新机器学习技术的一个应用是在仓库环境中工作的机器工人,但还有许多领域可以从一个更全能的机器中受益,这种机器能够在具体操作和一般化任务之间无缝切换。

“其他可能受益于这样系统的领域包括自动驾驶汽车、辅助机器人技术以及医疗机器人等。”Singularity Hub在回答一封邮件来信时这样说。

还有更多值得期待
这些研究成果有助于帮助人们实现创造出可以像人类那样看、听和行动的类人机器人的理想。不过,这距离真正创造出类人机器人还有很长的路要走。“我认为我们距离机器人可以像人类一样进行交流还有很长一段路要走。我们目前所采取的学习模式还不能达到这一点,前面有很多障碍:从看似简单的问题,比如如何处理从未见过的单词,如何处理更困难、更复杂的问题,如何解决语言中固有的含糊性例如习语或比喻表达等。”

即使相对“话多”的聊天机器人也可能会被问的无言以对,因为未来人机谈话可能变得更加复杂。根据Burchfiel的说法,人类的视力也是如此。

虽然深度学习技术极大地改善了模式匹配——谷歌能找到任何一张猫的照片——但人类的视力具有的能力远不止于找东西。

“有两个大领域我认为人工智能认知还有很长的路要走:归纳性偏见和形式推理,” Burchfiel说。他解释道,前者本质上是人们用来帮助他们推理的背景知识。他使用大街上的一个水坑作为例子。例如,人们习惯于认为这是一滩水,而不是一块玻璃。他说:“这种偏见可以解释为什么当看着云的时候我们会认为看到了人脸,因为我们对于人脸有很强的偏好。”虽然乍一听起来很简单,但它却为我们所做的大部分事情提供了动力。人类对自己期望看到的东西有一种非常直观的理解,这让认知变得更容易。

形式推理同样重要。在Burchfiel的例子中,当一台机器学习了水向下流的原理后,它可以利用深度学习算法计算出所有河流的流向。但它还没有拥有人类将此知识扩展到其他事物上的能力,例如研究水在火星的管道系统里是如何运动的。

“在过去的几十年里,我们做了很多这样的形式推理……但我们还没有找到如何将它与标准的机器学习方法结合起来以创造出一个在现实世界中有益的无缝化系统。”Burchfiel表示。机器人在人类身上还有很多东西需要学习,这应该会让我们感觉良好,因为这证明人类才是地球上最复杂的。

来自:网易智能

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部