可变腿长、能下楼、走沙坑 数研院具身四足机器人控制取得突破
近日,上海数字大脑研究院(简称“数研院”)成功利用强化深度学习的方法,将Transformer大模型应用于四足机器人的跨地形、跨具身运动控制。这一突破使得不同具身的四足机器人能够在多种真实的复杂地形上自如行动,为自由、自主的运动控制奠定了基础。相关的成果以两篇论文的形式,发表在机器人领域的顶级会议ICRA2023上。(文末附文章链接)
四足机器人运动控制的发展概述
在机器人领域中,足式机器人一直是研究的热点。尤其是四足机器人,相较于其他类型的机器人(如轮式、履带式),它们展现出更优越的灵活性和通过性,能够在更复杂的地形中行动。这使得四足机器人在代替人类进行巡逻、搜救、故障检测、服务、侦查等任务时,具有广泛的应用前景。
足式机器人的运动控制大体上可以分为两类方法。第一类是基于传统控制方法,如轨迹优化和模型预测控制。这类方法需要深入的专业知识,如机器人的运动学方程、地形特征等。在复杂地形中,这些知识的获取和应用往往难以实现。与之相比,深度强化学习方法则展现出更大的潜力。通过直接在模拟器中训练神经网络,再将其应用到真实世界中,这种“模拟到真实”的迁移策略,能够在很大程度上减少对特定领域知识的依赖,并且表现出更强的鲁棒性。
传统方法与Transformer模型的对比及挑战
尽管深度学习方法在机器人控制中取得了显著进展,但传统的深度学习模型在面对更复杂地形和机器人形态时,其容量和泛化性往往不足以支持更高级的控制。大部分强化学习算法都仅针对特定形态的机器人进行训练,一旦机器人形态发生改变,就需要重新训练控制器。尽管有一些研究尝试设计跨形态的机器人控制器,但如何设计一个真正跨具身的机器人控制器仍然是一个巨大的挑战。
Transformer模型在四足机器人控制中的应用
为了突破这些限制,数研院开始探索将Transformer模型应用于四足机器人控制的可能性。我们提出了TerrainTransformer(TERT)和Embodiment-aware Transformer(EAT)两大控制框架。
TerrainTransformer(TERT)的工作原理
如图一所示,TERR训练框架包括离线预训练和在线修正两个阶段。在离线预训练阶段,我们借鉴广泛应用于机器人控制的特权学习方法,使用强化学习算法在模拟器中训练一个教师策略。之后,我们利用教师策略和模拟器交互搜集数据,并训练Transformer根据过去的观测和动作序列预测教师动作。而在在线修正阶段,我们让Transformer与真实环境互动,不断调整其预测动作,以确保其在真实世界中的性能。
具有可变形态的四足机器人
对于跨具身的四足机器人控制,数研院引入了向量e来表示机器人的形态,包括前后腿长度、躯干长度等。通过考虑这些因素,我们的模型能够更好地适应不同形态的机器人,从而实现更广泛的跨地形、跨具身运动控制。
随着研究的深入,我们期待四足机器人在更多领域得到应用,为人类生活带来更多便利。在模拟器的训练场上,EAT方法通过训练M个不同具身的机器人控制策略,并搜集了丰富的专家数据。这些策略与数据,如同多彩的画笔,为Transformer模型勾勒出多种具身的泛化能力。每一条轨迹都携带着机器人的具身向量e,这个向量就像是机器人的身份标识,记录了它在特定环境下的身体特征。
关于四足机器人的真机实验,数研院选择了宇树的A1四足机器人作为测试平台。当面临复杂地形挑战时,TERT展现出了卓越的控制效果。无论是上坡、沙坑还是下楼梯,TERT都能轻松应对,如同在自家后院般自如。相较之下,传统强化学习方法虽然可以在简单地形上表现良好,但在面对复杂地形时却显得捉襟见肘。
想象一下,当MiniCheetah机器人面对不同具身挑战时,EAT模型的优越性更是展现得淋漓尽致。无论前后腿长度如何变化,EAT模型都能让机器人完成出色的泛化任务。这就像是为机器人赋予了适应环境的能力,让它们可以根据实际情况调整自身结构,达到一种类似进化的境界。例如,当机器狗需要下楼梯时,它可以根据环境调整自己的躯干和腿的长度,从而顺利完成任务。
未来,数研院将继续探索将视觉信息融入Transformer模型的控制中。这一创新将有望使决策大模型在更复杂、更多样的环境中实现鲁棒控制。这就像是为机器人安装了一双“眼睛”,让它们不仅能感知自身的状态,还能感知周围环境的变化,从而实现更智能、更灵活的控制。我们期待着这一技术的进一步发展,为机器人技术的未来描绘出更加美好的蓝图。