近日,自动化学院杨晓飞副教授“自主智能无人系统”团队在未来混合交通体系下的无人艇智能航行和安全避碰研究方向取得新进展。团队研究成果“A Balanced Collision Avoidance Algorithm for USVs in Complex Environment: A Deep Reinforcement Learning Approach”和“Design and Field Test of Collision Avoidance Method With Prediction for USVs: A Deep Deterministic Policy Gradient Approach”先后在人工智能和智能交通领域的国际顶级期刊《IEEE Internet of Things Journal》和《IEEE Transactions on Intelligent Transportation Systems》上发表。两篇论文的第一作者均为自动化学院2022级硕士研究生娄猛猛,杨晓飞副教授为论文唯一通讯作者,天博网页版为第一完成单位。论文的共同作者还包括自动化学院2022级硕士研究生胡家宝、天博网页版朱志宇教授、安徽工业大学沈浩教授、南京理工大学向峥嵘教授和美国南卡罗来纳大学张斌教授。
随着智能技术的发展,未来将形成有人和无人船舶共存的混合交通体系。在该体系中,无人船舶如何与有人船舶和谐共存,并按照人类的航行规则进行安全航行是值得研究和探讨的问题。因此,实时安全避碰对于复杂环境中的水面无人艇(USV)至关重要。针对传统方法难以保证控制决策安全性和实用性的平衡问题,团队提出了一种基于互补原理的两级激励奖励机制,并构建了基于深度强化学习的安全避碰算法框架。同时,为了解决深度确定性策略梯度(DDPG)的稀疏奖励问题,团队参考动态窗口算法(DWA)的轨迹评价函数,构建了主要奖励策略,并基于速度障碍(VO)设计次级激励奖励,以筛除潜在的碰撞风险。在提高训练效率方面,团队利用电子海图(EC)和Unity3D构建了一个沉浸式仿真平台,并通过该平台开展算法仿真和验证。此外,通过现场实验测试了算法在多种遭遇场景下的有效性。
此外,为了解决当前基于深度强化学习(DRL)的无人艇避碰研究大多依赖固定数量障碍物假设、忽视碰撞预测重要性的问题,团队提出了一种基于DDPG的新型“预测-决策”避碰模型。该模型首先设计和构造了辐射形状态空间,使得DDPG方法能够用于具有随机障碍物的时变场景,同时将速度障碍(VO)与状态空间相结合以实现碰撞预测,使用奖励塑形技术设计奖励函数,以提高安全性和训练效率。虚拟仿真实验和现场测试验证了该算法的有效性,显示出所提方法不仅使无人艇在未知环境中能够安全避碰,而且具有较强的泛化能力。
《IEEE Transactions on Intelligent Transportation Systems》是智能交通领域的国际顶级期刊(影响因子7.9),《IEEE Internet of Things Journal》是人工智能与物联网领域的国际顶级期刊(影响因子8.2),两者均属于中科院SCI一区TOP期刊。
论文链接:
https://ieeexplore.ieee.org/document/10715732
https://ieeexplore.ieee.org/document/10733753
(撰稿:杨晓飞 初审:罗文 二审:夏志平 终审:张强 编辑:罗文)