智东西10月20日消息,近日,美国论文预印本发布平台arXiv收录了一篇关于四足机器人拦截足球的论文,美国加州大学伯克利分校等学校的研究人员为名叫迷你猎豹的四足机器人部署了一个强化学习(Reinforcement Learning)框架,能够让它完成足球守门任务。该四足机器人对随机射门的成功拦截率高达87.5%,而人类足球运动员的平均成功率为69%。
▲四足机器人拦截足球实验
这项研究通过使用分层次强化学习框架,在四足机器人上结合了高动态运动和精确的物体感知方法。四足机器人在进行运动时,能用其末端执行器跟踪自身运动轨迹,并完成一系列的截球动作。
(相关资料图)
研究人员在麻省理工学院实验室进行了拦截足球的相关实验,并发表了名为《Creating a Dynamic Quadrupedal Robotic Goalkeeper with Reinforcement Learning(使用强化学习创建动态四足机器人守门员)》的论文,研究实验展示了四足机器人能够有效地拦截快速移动的球。
▲论文链接:https://arxiv.org/pdf/2210.04435.pdf
01.四足机器人成为足球守门员,要分“三步走”
如何让四足机器人成为足球守门员,这个问题要分三个步骤解决:操纵四足机器人拦截快速移动物体、控制四足机器人进行高动态运动,以及击中高速运动的足球。
▲四足机器人拦截足球过程
1、四足机器人对快速移动物体的捕捉、打击
在机器人操纵领域,人们已经广泛地研究了如何让机器人捕捉或击打快速移动的物体这一课题。球是比较常见的用于研究的快速移动物体。
处理机器人接球任务有两种常见方法,一是估计球的位置和速度,利用球的动力学模型预测球的轨迹,并根据机器人的动力学模型或无模型强化学习框架生成机器人末端执行器的轨迹,让机器人在预测的拦截点接球。另一种方法是在模拟中学习端到端的策略,研究人员直接输入球的预测轨迹图像,然后在模拟中进行微调。
然而,由于四足机器人动力学模型非常复杂,以往基于模型的方法需要对球和机器人进行精确建模,这种方法难以在四足机器人上应用,而无模型强化学习框架方法,还没有被应用于控制四足机器人运动的先例。
2、四足机器人通过高动态动作拦截足球
近几年来,因为四足机器人的硬件和控制算法有了长足的进步,四足机器人能够在现实世界中完成高动态的运动,如跳跃或跑步。实现这一目标共有两种方法:
一种方法是利用四足机器人动力学模型的优化控制框架,这些模型可以在四足机器人的全部模型上进行离线优化,也可以在其简化模型上进行在线部署。
另一种方法是利用无模型强化学习框架,先在模拟中通过跟踪和错误训练四足机器人,然后把其学习经验转移到真实的四足机器人上。
然而,以前的研究大多只关注特定的动态运动技能,比如跑步、跳跃等,而没有让四足机器人在学习技能的基础上,完成更丰富的动作,如在跟踪不同的摆腿轨迹时完成跳跃,并拦截一个球。
▲四足机器人守门员防守人类进攻
3、四足机器人能在三维和高速运动下完成拦截
开发未来能与人类在足球比赛中竞争的机器人一直是机器人研究学界的一个长久目标,在设计机器人足球守门员方面,有一些研究是在工程学的轮式机器人的基础之上进行开发。
以前关于四足机器人的研究,大多只考虑让它们在二维平面内移动并拦截从地面上低速滚动的球,而没有考虑让四足机器人在三维中和高速运动情况下去拦截球。
最近,利用强化学习框架,一个四足机器人展示了在低速行走时将足球运往球门的能力,另一个四足机器人能在站立时用单一的射击技能,将足球精确地射向一个随机的给定目标。然而,四足机器人进行多种高动态运动技能,去精确踢快速移动的足球还没有得到证明。
02.强化学习框架,让四足机器人拦截成功率高达87.5%
研究实验是在麻省理工学院的迷你猎豹四足机器人上进行的。它重9公斤,高0.4米,有12个驱动电机和6个自由度的浮动底座,能够进行平移、滚动和俯仰等动作。
▲迷你猎豹四足机器人
以往的四足机器人的强度学习框架主要集中在低层次的运动控制研究,如计算行走速度或模仿参照物运动等,没有将学到的运动技能扩展到更高层次的任务,比如让四足机器人通过敏捷的动作去精确拦截快速移动的足球。
▲四足机器人拦截足球实验设计
研究人员在论文中写道:“将低层次运动控制和高层次精确拦截结合起来,这很有挑战性,单独研究其中一种就已经很困难了。”
为了解决上述问题,研究人员提出了一个无模型的强化学习框架,将四足机器人动态的腿部运动和快速、精确的部分手臂操纵结合起来,以应对飞来的球。
▲强化学习框架
该框架共包含两个部分,第一部分是低层次的运动控制,包含了跳跃、俯冲和侧身等不同运动技能的多种控制策略,这些策略可以覆盖球门的不同区域。每个控制策略都能使四足机器人在执行一种特定的运动技能时,跟踪末端效应器,记录其运动轨迹。
第二部分是一个高级规划器,它能够确定末端效应器轨迹和决定所需的技能,从而拦截飞向球门不同区域的球。
在麻省理工学院的实验证明,多技能强化学习框架明显优于以往基于模型的计划器,并且能够充分地利用每种技能的特殊性。
分层次的强化学习框架可以直接将四足机器人在模拟中学习到的动态动作和守门员的技能转移到现实中的四足机器人上,实验中的四足机器人对随机射门的成功拦截率为87.5%,而人类足球运动员的平均成功率为69%。
03.多技能组合,促四足机器人快速动态反应
因为球的弹道总时间通常在1秒以内,所以四足机器人需要快速反应。从球门中间的初始站立姿势开始,四足机器人需要执行非常动态的机动动作来拦截球。受到人类守门员的启发,研究人员提出了一套拦截飞向球门不同区域的球的技能——侧身、俯冲和跳跃。
▲侧身、俯冲和跳跃示意图
1、快速侧部拦截,无法覆盖球门下角、上部区域
当球在地上滚动或以低角度飞向球门时,四足机器人采取快速侧步,在横向方向上拦截球。在只需要迈开较小步幅时,四足机器人可能只需要摆动起一条前腿,而其余的腿可以使其保持在站立状态。但对于较大的步幅,它需要进行一个小的侧跳。然而,侧跳技能可能无法覆盖离四足机器人较远的区域,如球门的下角或上部区域。
▲四足机器人在使用侧身技能
2、俯冲技能一气呵成,转移重心、转动身体、跳跃够球
俯冲技能是基于四足跳跃之上的运动,它使得四足机器人可以拦截更大的球门面积。在使用俯冲技能时,四足机器人应首先将身体重心移至后腿上,然后朝着球的运动方向转动身体,在跳跃的同时伸出两条前腿去够球,最后落地。在俯冲过程中,它的后腿是否离开地面,取决于它需要走多远。俯冲技能使四足机器人能够迅速封锁球门的下角。
▲四足机器人在使用俯冲技能
3、跳跃拦截高处足球,还能稳定降落
跳跃与俯冲技能类似,跳跃技能也要求四足机器人以最快的速度抬起身体并向上摆动前腿。但在跳跃时,它还需要将其前腿伸得更高,以便拦截在球门上部区域的球。为了进行这种动态跳跃,四足机器人需要用它的后腿将身体推离地面,以便让它的前腿够到更高区域。在球被拦截后,四足机器人需要在空中重新调整自己,以达到更稳定的降落姿势。
▲四足机器人在使用跳跃技能
04.结语:强化学习框架未来,可应用于更多场景
近年来,机器人应用研究在不断扩展,本篇论文为机器人研究学界提供了一个新的四足机器人研究方向,将分层次的强化学习框架应用到驱动控制方面,或许对未来四足机器人的高级规划控制产生重要意义。
此外,在这项研究中,研究人员只关注了守门员的工作,但论文所提出的框架可以扩展到其他的场景,比如说多技能足球等。如果未来该强化学习模型能够成功应用,让机器人与人类运动员进行足球比赛的想法或许真的能够实现。
来源:TechCrunch、arXiv