【新智元导读】在杂乱的物理国际中,人型机器人的全身操控一直是个难题,现有的强化学习做出的作用有时会比较笼统。近来,LeCun参加的一项作业给出了依据数据驱动的全新解决方案。
不过,要想像人类相同考虑和举动,关于机器人,特别是人型机器人来说,仍是个艰巨的工程问题。
道理上没什么问题(遵从奖赏机制),上楼梯的方针也达到了,除了进程比较笼统,跟大部分人类的行为形式或许不太相同。
机器人之所以很难像人相同「天然」举动,原因首要在于调查和举动空间的高维性质,以及双足动物形状固有的不稳定性。
比照右边的作用,新的办法练习出了更接近于人类的行为,尽管有点「丧尸」的意味,但笼统度降低了不少,至少在大部分人类的才能规模之内。
在这项作业中,研究人员探究了依据强化学习的、高度数据驱动的、视觉全身人形操控办法,没有一点简化的假定、奖赏规划或技术原语。
作者提出了一个分层国际模型,练习高档和初级两个智能体,高档智能体依据视觉调查生成指令,供初级智能体履行。
这个模型被命名为Puppeteer,运用一个模仿的56-DoF人形机器人,在8个使命中生成了高功能的操控战略,一起组成了天然的相似人类的动作,并具有穿越挑战性地势的才能。
而人形机器人经过集成全身操控和感知,能够履行各种使命,所以作为多功能渠道锋芒毕露。
比方下图中,人型机器人为了不踩坑,就需要精确地感知迎面而来的地板缝隙的方位和长度,一起细心和谐全身运动,使其有满足的动量和规模来跨过每个缝隙。
Puppeteer依据LeCun在2022年提出的分层JEPA国际模型,是一种数据驱动的RL办法。
它由两个不同的智能体组成:一个担任感知和盯梢,经过关节级操控盯梢参阅运动;另一个「视觉木偶」(puppeteer),经过组成低维参阅运动来学习履行下流使命,为前者的盯梢供给支撑。
Puppeteer运用依据模型的RL算法——TD-MPC2,在两个不同的阶段独立练习两个智能体。
(ps:这个TD-MPC2便是文章开篇用来比较的那个动图,别看有点笼统,那其实便是之前的SOTA,宣布在本年的ICLR,一作相同也是本文的一作。)
第一阶段,首要对用于盯梢的国际模型进行预练习,运用预先存在的人类动作捕捉数据作为参阅,将运动转化为物理上可履行的动作。这个智能体能够保存起来,在一切下流使命中重复运用。
在第二阶段,练习一个木偶国际模型,该模型以视觉调查为输入,并依据指定的下流使命,整合另一个智能体供给的参阅运动作为输出。
这个结构看上去大道至简:两个国际模型在算法上是相同的,只是在输入/输出上不同,而且运用RL进行练习,无需其他任何花里胡哨的东西。
与传统的分层RL设置不相同的是,「木偶」输出的是结尾履行器关节的几许方位,而不是方针的嵌入。
这使得担任盯梢的智能体易于在使命之间同享和泛化,节约全体核算占用的空间。
研究人员将视觉全身人形操控,建模为一个由马尔可夫决议计划进程(MDP)操控的强化学习问题,该进程以元组(S,A,T,R,γ,∆)为特征,
其间S是状况,A是动作,T是环境转化函数, R是标量奖赏函数, γ是扣头因子,∆是停止条件。
如上图所示,研究人员运用RL在人类MoCap数据上预练习盯梢智能体,用于获取本体感觉信息和笼统参阅运动输入,并组成盯梢参阅运动的初级动作。
然后经过在线互动,对担任下流使命的高档木偶智能体进行练习,木偶承受状况和视觉信息输入,并输出指令供盯梢智能体履行。
TD-MPC2从环境交互中学习一个潜在的无解码器国际模型,并运用学习到的模型进行规划。
国际模型的一切组件都是运用联合嵌入猜测、奖赏猜测和时刻差异 丢失的组合端到端学习的,而无需解码原始调查成果。
在推理进程中,TD-MPC2遵从模型猜测操控(MPC)结构,运用模型猜测途径积分(MPPI)作为无导数(依据采样)的优化器进行部分轨道优化。
为了加速规划速度,TD-MPC2还事前学习了一个无模型战略,用于预发动采样程序。
为了评价办法的有效性,研究人员提出了一种新的使命套件,运用模仿的56自由度人形机器人进行视觉全身操控,一共包含8个具有挑战性的使命,用于比照的办法有SAC、DreamerV3以及TD-MPC2。
8个使命如下图所示,包含5个视觉条件全身运动使命,以及别的3个没有视觉输入的使命。
使命的规划具有高度的随机性,包含沿着走廊奔驰、越过障碍物和缝隙、走上楼梯以及绕过墙面。
5个视觉操控使命都运用与线性行进速度成正比的奖赏函数,而非视觉使命则奖赏任何方向的位移。
上图制作了学习曲线。依据成果得出,SAC和DreamerV3在这些使命上没办法完成有意义的功能。
TD-MPC2在奖赏方面的功能与本文的办法适当,但会发生不天然的行为(拜见下图中的笼统动作)。
此外,为了证明Puppeteer生成的动作的确更「天然」,本文还进行了人类偏好的试验,对46名参加者的测验标明,人类遍及喜爱本文办法生成的运动。