机器人强化

两个机器人,Jaco和Baxter,必须一起工作来烹饪、组装和供应热狗。他们必须探测并找到他们的补给,如图左上角所示,在整个实验过程中,这些补给都会被动作捕捉技术跟踪。

 

一种新的机器学习框架可以用来完成高风险、复杂的任务

莉兹·希利著

机器学习可以识别乳房x光片上潜在的癌变点,或者理解播放音乐的语音命令,但澳门威尼斯人注册网站研究人员并不完全理解机器学习算法是如何学习的。这种盲点使得该技术难以应用于复杂的高风险任务,如自动驾驶,因为安全是一个问题。

Calin Belta教授(ME, SE, ECE)领导的一组澳门威尼斯人注册网站研究人员向前迈进了一步,他们开发了一种新方法来教机器人或机器人团队完成高风险、复杂的任务——一种可以应用于许多任务的框架。

在《科学机器人》杂志上发表的一篇论文中,该团队通过教两个机器人一起烹饪、组装和供应热狗,展示了这个框架的概念验证任务。

“这项工作试图通过基于优化的规划来弥合符号知识表示和推理之间的差距,同时允许整个系统通过与环境的互动来持续安全地改进,”该论文的第一作者、博士生李晓(ME)说。“我们希望这样的架构可以帮助我们将我们的知识和目标传授给机器人,并提高我们对机器人所学知识的理解,从而开发出更有能力的机器人系统。”

他们的方法结合了机器学习和形式化方法的技术,形式化方法是计算机科学的一个领域,通常用于保证安全,最明显的是用于航空电子设备或网络安全软件。这些完全不同的技术很难在数学上结合起来,也很难组合成机器人能理解的语言。

贝尔塔和他的团队使用了机器学习的一个分支,即强化学习。当计算机正确完成一项任务时,它会获得指导其学习过程的奖励。

澳门威尼斯人注册网站研究人员建立了一个模拟实验来训练机器人,指出了机器人应该限制运动的安全区域,以及机器人应该提供完成热狗的服务区域。

澳门威尼斯人注册网站研究人员还在算法中建立了所谓的先验知识。这些信息包含了机器人成功烹饪热狗所需的步骤,比如拿起热狗并将其放在烤架上。这些知识还包括对人类来说很明显的信息,但对机器人来说却不是——例如,如果热狗已经被拿着,它就不需要被拿起来。

尽管在算法中概述了任务的步骤,但如何准确地执行这些步骤却没有说明。当机器人在某一步骤上做得更好时,它的奖励就会增加,从而形成一种反馈机制,促使机器人学习最好的方法,例如,把热狗放在面包上。

将先验知识与强化学习和形式化方法相结合是该技术的新颖之处。通过结合这三种技术,该团队可以减少机器人在学习如何安全烹饪、组装和供应热狗时必须经历的可能性。

为了验证他们的理论,即结合这三种方法将是教这些机器人煮热狗最有效、最安全的方法,他们测量了每个机器人在接受强化学习和其他两种技术任意组合训练时的成功率。澳门威尼斯人注册网站研究人员能够证明,当这三种技术结合在一起时,两个机器人的成功率最高。在这里,成功意味着在保证安全的情况下完成任务。

与其他类型的机器学习不同,这种类型的框架允许澳门威尼斯人注册网站研究人员分析任务阶段的成功率。这让他们能够理解并消除机器学习过程中的瓶颈——这是一件极其困难的事情。

贝尔塔认为这项工作是他们总体框架的概念验证演示,他希望它可以应用于其他复杂的任务,如自动驾驶。

机器人强化

5年前发表于*NEWS, *Research, ME Research, SE Research