机器鱼作为一种典型的仿生水下机器人,充分利用其仿生结构与仿生运动与环境和其他机器人或生物进行交互,突破了传统水下航行器机动性笨拙且隐蔽性差的难点,受到了生物学家、物理学家、以及工程师的广泛关注。为了使机器鱼能够在水环境中执行任务,有必要找到一种为其高效设计运动控制器的方法。近年来,蓬勃发展的深度强化学习为机器人控制提供了新的活力,但由于机器鱼在游动过程中存在复杂的流固耦合,如何设计能够控制机器鱼在现实世界中执行任务的强化学习运动控制器依然是个挑战。

        近日,北京大学谢广明教授课题组在IEEE Transactions on Robotics (TRO)上发表了题为“From Simulation to Reality: A Learning Framework for Fish-Like Robots to Perform Control Tasks”的研究论文,介绍了一种从仿真到现实的机器鱼运动控制学习框架,可以在仿真环境中高效地训练基于深度强化学习的机器鱼运动控制器,并在现实世界中取得令人满意的性能。

        该学习框架仅通过在仿真环境中训练机器鱼沿着直线路径游动,训练好的深度强化学习策略便可以控制机器鱼在现实世界中实现对贝塞尔曲线路径的跟踪,并且取得比传统控制器更好的性能。

        进一步,仅通过改变对控制任务的描述,便可以快速训练出完成相应任务的控制器。在稀疏性奖励下,机器鱼可以通过课程学习掌握位姿控制技能,即在局部感知信息下以期望的朝向游到期望的位置。

        在仿真环境中训练得到的强化学习策略往往在现实世界中表现并不理想。因为仿真环境和现实环境必然存在差距。减少这种差距意味着仿真精度的提升,这会大大增加计算时间,从而延长强化学习方法的训练周期。为了解决这一问题,如图1所示,该工作所提出的框架会先在基于数据驱动的仿真环境中训练强化学习策略,从而快速获得基本掌握执行任务的能力,然后会在更为精确的基于流体力学计算(CFD)的仿真环境中完善,以提升运动控制性能。这样一种方式平衡了模拟与训练的速度精度,使得策略能够被高效设计并直接部署到机器鱼上,从而在现实世界中完成相应的任务。

图 1从仿真到现实的机器鱼运动控制学习框架

        综上,该工作结合深度强化学习、计算流体力学、以及机器人学,为仿生水下机器人的智能控制研究提供了新的思路。未来,研究团队计划将在该学习框架探究适用于仿生水下机器人运动控制的深度强化学习与模仿学习方法,并开展群体机器人集群控制的研究工作。论文的第一作者是课题组的博士生张天昊,该研究得到了国家自然科学基金委和南方海洋科学与工程广东省实验室(广州)的经费资助。

原文链接:

https://ieeexplore.ieee.org/abstract/document/9802680