机器人利用强化学习来3D雕刻沙子
2025年9月16日,arXiv上发表的一项题为“Interactive
Shaping of Granular Media Using Reinforcement
Learning”的研究详细介绍了波恩大学的研究人员如何开发一种强化学习框架,使机器人能够将沙子等颗粒状介质操纵成目标形状。

研究系统训练一个配备立方体末端执行器和立体摄像头的机械臂,将松散的材料重塑成各种形状,包括矩形、L
形、多边形以及考古壁画碎片的底片。实验表明,模型的精度达到了毫米级,训练后的智能体优于两种基准方法,并且无需额外训练即可从模拟系统成功迁移到实体机器人。
颗粒材料因其高维配置空间和不稳定的动力学特性,给机器人技术带来了挑战。基于规则的方法常常会失败,而粒子模拟的计算成本又非常高昂。研究人员通过设计紧凑的观测空间和引导学习的奖励函数来应对这些挑战。视觉策略的训练使用了截断分位数评论算法
(TQC),这是一种离线强化学习算法。来自 ZED 2i
立体摄像机的深度图像被转换为高度图,使机器人能够以适合高效训练的形式比较当前结构和目标结构。

△机器人的任务是利用立方体末端执行器操纵颗粒介质,使其尽可能接近目标形状。图片来自波恩大学。
研究系统根据随机策略和牛耕式覆盖路径规划基线进行了评估。在 400
种目标形状中,学习到的代理始终优于这两种方法。使用增量奖励 (DELTA) 公式,机器人实现的平均高度差为 3.4 毫米,而规划方法为 4.8
毫米,随机运动为 7.2 毫米。执行时间也更短,平均为 23.5 步,而路径规划基线为 44 步。代理还修改了目标区域中 97%
的相关单元,而随机运动仅为 54%。执行步数定义为末端执行器连续三步离开颗粒介质的动作次数。统计测试证实,DELTA 策略显著优于所有替代方案。
该项目由波恩大学人形机器人实验室、自主智能系统实验室和机器人中心参与,并与拉玛机器学习和人工智能研究所合作。资金来自欧盟委员会“地平线2020”计划下的“RePAIR”项目,以及德国联邦教育和研究部通过德国机器人研究所倡议提供的资金。

△采用训练过程,使代理能够利用传感输入操纵颗粒介质。通过强化学习训练视觉策略,基于当前目标高度图与期望目标高度图之间的差异,实现目标形状配置。图片来自波恩大学。图片来自波恩大学。
进一步的实验检验了设计选择。当移除目标区域移动奖励时,智能体完全避免了操作行为,表现并不优于随机基线。特征提取器消融实验表明,所提出的基于门控的编码器实现了最佳性能,平均误差为
3.4 毫米,而直接依赖深度图像时的平均误差为 4.6 毫米。算法比较证实,TQC 实现了稳定的收敛,而 Soft Actor-Critic
算法出现滞后,Twin Delayed Deep Deterministic Policy Gradient
算法则未能收敛。论文中链接的补充网站提供了更多详细信息、视频和代码。
在UR5e机械臂上的部署验证了该方法在模拟之外的有效性。尽管存在传感器噪声和不平坦的起始表面,机器人仍能重现矩形等目标形状,结果与模拟结果相似。能够直接从模拟训练环境迁移到实际执行,证明了框架的稳健性。

△从左到右依次为模拟中重建的3D场景。图片来自波恩大学。
颗粒介质操控研究涵盖挖掘、平整和地外土壤处理等诸多领域。许多方法依赖于计算量巨大的有限元或离散元模拟,或依赖于针对特定任务定制的模仿学习流程。通过将高效的高度图表示与精心设计的奖励公式相结合,波恩团队证明了强化学习可以自适应地塑造颗粒介质,而无需制定规则。
作者总结道,他们的方法始终优于传统基线方法,并为自适应机器人操控可变形材料建立了一条可行的途径。
版权声明
本站部分文章来源于网络,如有侵权请联系删除!。
文章观点并不代表本站观点,请谨慎对待。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。