人工智能可以帮助机器人学习新技能,并迅速适应现实世界。这个四条腿的机器人之所以特别,是因为它学会了自己做所有这些事情,而没有在计算机模拟中被展示该怎么做。
机器狗在空中挥舞着双腿,就像一只愤怒的甲虫。经过10分钟的挣扎,它设法翻到前面。半小时后,机器人正在迈出第一步笨拙的步骤,就像一头新生的小牛一样。但一个小时后,机器人满怀信心地在实验室里走来走去。
这个四条腿的机器人之所以特别,是因为它学会了自己做所有这些事情,而没有在计算机模拟中被展示该怎么做。
加州大学伯克利分校的Danijar Hafner及其同事使用了一种称为强化学习的人工智能技术,该技术通过奖励算法所需的动作来训练算法,以训练机器人在现实世界中从头开始行走。该团队使用相同的算法成功地训练了另外三个机器人,例如能够捡起球并将其从一个托盘移动到另一个托盘的机器人。
传统上,机器人在尝试在现实世界中做任何事情之前,先在计算机模拟器中接受训练。例如,一对名为Cassie的机器人腿使用强化学习自学了走路,但只有在模拟中这样做之后。
“问题是你的模拟器永远不会像现实世界那样准确。世界上总会有一些你错过的方面,“Hafner说,他与同事Alejandro Escontrela和Philipp Wu一起参与了这个项目,现在是DeepMind的实习生。他说,将模拟器的课程适应现实世界也需要额外的工程。
该团队的算法名为Dreamer,它使用过去的经验来构建周围世界的模型。Dreamer还允许机器人通过预测其潜在行为的潜在未来结果,在计算机程序中而不是现实世界中进行试错计算。这使它能够比纯粹通过实践更快地学习。一旦机器人学会了走路,它就会不断学习适应意外情况,比如抵抗被棍子推倒。
“通过反复试验来教授机器人是一个难题,由于这种教学需要漫长的培训时间,这变得更加困难,”纽约大学计算机科学助理教授Lerrel Pinto说,他专门研究机器人和机器学习。Dreamer表明,深度强化学习和世界模型能够在很短的时间内向机器人传授新技能,他说。
俄勒冈州立大学(Oregon State University)机器人学教授乔纳森·赫斯特(Jonathan Hurst)表示,这些尚未经过同行评审的研究结果清楚地表明,“强化学习将成为未来机器人控制的基石工具。
从机器人训练中删除模拟器有很多好处。Hafner说,该算法可用于教机器人如何在现实世界中学习技能并适应硬件故障等情况 - 例如,机器人可以学习在一条腿上行走时出现故障的电机。
这种方法也可能在更复杂的事情上具有巨大的潜力,比如自动驾驶,这需要复杂而昂贵的模拟器,爱丁堡大学人工智能助理教授Stefano Albrecht说。阿尔布雷希特说,新一代的强化学习算法可以“在现实世界中超快速地了解环境是如何工作的”。
但是有一些大的未解决的问题,平托说。
通过强化学习,工程师需要在他们的代码中指定哪些行为是好的,因此是奖励的,哪些行为是不可取的。在这种情况下,翻身走路是好的,而不走路是坏的。“机器人专家需要为他们希望机器人解决的每项任务[或]问题都这样做,”Pinto说。这是非常耗时的,并且很难为意外情况编写行为。
虽然模拟器可能不准确,但世界模型也可能不准确,Albrecht说。“世界模型从零开始,所以最初模型的预测将完全无处不在,”他说。他们需要时间才能获得足够的数据来使其准确。
哈夫纳说,在未来,教机器人理解口述命令会很好。哈夫纳说,该团队还希望将摄像头连接到机器狗上,以使其具有视觉。这将允许它在复杂的室内环境中导航,例如走到房间,找到物体,以及 - 是的! - 玩抓取。
隐藏