基于DDPG算法的游船航行避碰路径规划

所属分类：经济论文阅读次时间：2021-12-03 10:56

本文摘要：摘要:[目的]作为船舶航行安全的核心问题，若船舶避碰完全依赖船长的个人状态和判断将存在一定的安全隐患。为了统筹关键水域上所有船舶(游船、货船等)并进行路径预测，需要建立防碰撞预警机制。[方法]利用深度确定性策略梯度(DDPG)算法和船舶领域模型，采用电子海图模拟

高端学术服务项目

　　摘要:[目的]作为船舶航行安全的核心问题，若船舶避碰完全依赖船长的个人状态和判断将存在一定的安全隐患。为了统筹关键水域上所有船舶(游船、货船等)并进行路径预测，需要建立防碰撞预警机制。[方法]利用深度确定性策略梯度(DDPG)算法和船舶领域模型，采用电子海图模拟船舶的航行路径，提出基于失败区域重点学习的DDPG算法改进策略，并针对游船特点改进的船舶领域模型参数等改进方法，提高航线预测和防碰撞准确率。[结果]使用改进的DDPG算法和改进的船舶领域模型，与未改进前的算法相比，船舶避碰正确率由84.9%升至89.7%，模拟航线与真实航线的平均误差由25.2m降至21.4m。[结论]通过基于改进的DDPG算法和改进的船舶领域模型开展船舶避碰路径规划，可以实现水域船舶航线监管功能，且当预测航线与其他船舶存在交会时，告警调度人员，从而实现防碰撞预警机制。

　　关键词：混合航道;船舶领域;船舶避碰;深度确定性策略梯度算法;失败区域探索策略

船舶航行

　　0引　言

　　本文主要研究周庄水域的船舶航行安全。由于该水域急水港航道由4级升为3级，通行的各类货船无论是数量还是吨位都有明显的增加，而游船进出港穿越航道并与货船共线航行会增加游船的碰撞风险，人为驾驶因素也会引发碰撞事故，进而造成严重的经济损失和人员伤亡[1-2]。

　　船舶论文范例：环保新政下的内河船舶用油分析

　　因此，开展船舶避碰研究，对推动水运行业安全发展具有积极意义。现有的船舶避碰算法，例如遗传算法[3-4]、粒子群算法以及蚁群算法[5-6]等，都存在实时性差的问题，因为无法预先从样本数据中建立模型，所以在应用过程中需要重复进行路径优化搜索过程，造成大量无用的计算，且其依赖的评价函数较简单，在不同水域应用环境下的鲁棒性较差。所以，船舶避碰算法需能够从大量经验数据中学习避碰策略，同时保证在未知环境下依然可以保证避碰策略的准确性[7-10]。

　　DDPG算法具有多维特征提取能力，能从大量样本中学习避碰模型及评价函数，而且具备良好的泛化应用能力[11-14]，其采用的DQN(deepQnetwork)算法可根据不同应用环境选择合适的避碰策略[15-16]，较现有的避碰算法有明显的优势。但DDPG训练收敛速度慢[17]，训练过程所采用的经验池随机采样方式一定程度上降低了有效样本数据的利用率。针对此问题，陈希亮等[18]优化了优先缓存经验回放机制，提高了有效数据在学习时被选中的概率，提升了算法的学习效率。

　　但上述对经验池回放机制的改进大都集中在提高样本的利用率方面，而忽略了智能体盲目探索时造成有效数据不足的问题。鉴于以上存在的不足之处，本文将提出基于失败区域重点学习的DDPG算法改进策略，在训练过程中的失败区域扩大探索的随机性，有针对性地收集该区域的学习样本，提高避碰学习效率。同时，提出根据游船特征改进的船舶领域模型参数等方法，保障领域模型的正确性，进一步提高路径预测的准确性。

　　1游船航道环境下的船舶领域模型

　　船舶领域模型被广泛应用于船舶的避碰分析中。上世纪60~70年代，Fujii等[19-20]提出了船舶领域的概念，将其定义为“绝大部分后续船舶驾驶人员避免侵入前一艘船舶周围的领域”。我国内河流域水道狭窄弯曲，藤井(Fujii)提出的狭窄水域船舶领域模型对内河货船有着较好的适用性。本文的研究内容主要应用于周庄客货混合航道，航道长约1.5km，宽约130m。周庄水域中货船平均长宽为43和7m，游船平均长宽为24和6m。

　　由于游船与货船在长宽比、尺度以及驾驶规范方面存在的差异，藤井狭窄船舶领域模型难以准确适用于游船。为进一步提高游船避碰路径规划的精度，本文在藤井狭窄船舶领域模型的基础上采用数据统计方式建立了游船的船舶领域改进模型。传统的数据统计主要依赖于船舶自动识别(AIS)系统，AIS系统虽能提供大量的船舶数据，但也存在覆盖率不足的问题，例如在游船水域存在大量未安装AIS系统的渔船。

　　由其确定的椭圆区域为游船的船舶领域范围，椭圆船舶领域的长半轴为60.3m，短半轴为25.2m。藤井狭窄水域船舶领域的长轴为船长的6倍，短轴为船长的1.6倍，基于藤井模型的游船领域长轴为144m，短轴为38.4m，相较于传统藤井船舶领域模型，改进后的游船领域模型长轴更短，长宽比更小，体现出游船惯性小、驾驶更加灵活的特性，所以基于最大密度法改进的游船领域模型更符合游船航行的特征。

　　2DDPG船舶避碰路径规划算法设计

　　strtatst+1rt+1DDPG是基于Actor-Critic框架的深度确定性策略梯度(deepdeterministicpolicygradient)算法，其可有效解决复杂物理系统的控制和决策问题。强化学习智能体与系统环境交互的过程中，智能体根据当前状态和环境奖励值选择下一步动作，达到新的状态以及获取环境奖励值;而智能体根据当前状态，以最大化奖励期望值为目标，在与实际环境交互过程中不断学习并改进动作策略，其中DDPG使用深度神经网络拟合策略和价值函数，运用经验回放和目标网络技术提高算法的收敛性与稳定性。

　　本文的防碰撞系统通过AIS系统实时读取水域内所有船舶的真实经纬度信息，并同步到电子海图中。游船智能体依据当前周围船舶的分布及航道走向、长宽等信息来规划航线。当游船智能体规划的未来航线不可避免地与其他船舶发生碰撞时，防碰撞系统将给出告警提示，指挥中心调度员将对目标船舶进行紧急调度，通过预测航线实现船舶碰撞提前预警、紧急调度的功能，从而进一步保障游船的航行安全。本文模拟的船舶智能体主要通过DDPG算法对周围水域环境数据进行处理，输出船舶未来最佳行驶路径。DDPG算法的设计主要包括在船舶避碰路径规划过程中的状态设计、船舶动作设计和所获奖励值的设计。

　　1)DDPG算法的状态设计。强化学习中智能体在决策时需要参考当前智能体自身状态及环境因素。船舶要从当前位置驶向目标点，避碰算法模型需考虑船舶当前的位置、速度、航向、目标点位置以及与周围障碍物之间的距离和方位等信息。在船舶避碰仿真环境中，船舶的位置、速度及航向通过AIS系统获得;目标点位置的选取依赖于航行水域的环境信息;对于障碍物和其他船的船舶方位、距离等信息，采用模拟雷达的方式扫描周围环境获得。

　　2)DDPG算法的动作设计。在航行过程中遇到其他船舶或障碍物时，驾驶员通常采取改变航向的方式以避碰。船舶需要在舵的控制下才能改变航向。本文在仿真环境中设定船舶单位时间航向变化量在到之间。通过对船舶进行直角转弯过程的实测数据分析，航向角变化约为1(°)/s。因此，本文将设置为1°，使船舶智能体的转向输出更贴近实际情况。

　　3)DDPG算法的奖励值设计。船舶避碰路径规划过程可以分为2个部分：一是船舶周围无危险障碍物时驶向目标点;二是船舶存在碰撞危险时进行避碰路径规划。本文使用的DDPG算法的奖励函数设计分别围绕以上内容展开。

　　3DDPG算法改进

　　3.1基于失败区域重点学习的改进DDPG算法

　　受人类学习过程的启发，针对智能体盲目探索时造成有效数据不足的问题，有学者提出了失败区域重点学习方法，该方法有以下几个要点：

　　1)失败区域的反复试错学习。前期DDPG探索中，通过在行为的确定性策略上添加高斯噪声来使算法实现探索的随机性。

　　2)经验池分类。为进一步增强算法对学习样本中有用数据的利用效率，本文采用了经验池分类的方法将主经验池A的样本数据分为2类：常规样本经验池和重点区域样本经验池。其中，常规样本经验池为正常探索时获得的样本数据，重点区域样本经验池为单独经验池B复制过来的反复试错的样本数据。

　　3.2改进算法会遇仿真实验

　　船舶在航行中会存在与其他船舶航线会遇的情况，这会增加碰撞风险。本文通过DDPG算法建立船舶会遇避碰路径规划模型，实现了船舶在会遇时的避碰路径规划，从而可以保障船舶航行安全。

　　3.3原始与改进的DDPG算法比较

　　为验证改进算法的有效性，本文分别从学习速率和学习效果这两个方面对原始算法和改进算法进行比较。其中，对学习速率的比较主要依据计算达到相同正确率的训练迭代次数;对学习效果的比较主要通过每步平均奖励值，每步平均奖励值越大表示学习效果越好。

　　4结　语

　　本文将深度强化学习的DDPG算法与船舶领域模型相结合，利用改进的游船船舶领域模型，提出了基于失败区域重点学习的DDPG算法改进策略。通过仿真实验表明，基于失败区域重点学习的改进DDPG算法无论是在学习速率，还是在学习效果方面都优于原始的DDPG算法。通过对改进的算法预测路径与真实航迹的比较，结果显示，改进算法获得的航迹点平均距离偏差降低了15.1%，转向正确率提高了4.8%。将改进DDPG算法和游船船舶领域模型运用于周庄水域，实现了对游船的避碰路径规划，验证了改进算法在真实水域环境下的可行性。

　　参考文献：

　　吴飞,李志特.新时期中国内河航运发展问题分析[J].珠江水运,2020(15):87–88.WUF,LIZT.AnalysisofthesustainabledevelopmentofChina'sinlandriverinthenewera[J].PearlRiverWaterTransport,2020(15):87–88(inChinese).

　　[1]童霖.内河船舶避碰事故调查处理要点[C]//中国航海学会内河船舶驾驶专业委员会桥区船舶航行安全与管理学术会议论文集.珠海:中国航海学会,2010:3.TONGL.Keypointsofinvestigationandhandlingofinlandwatercraftcollisionavoidanceaccidents[C]//PapersonNavigationSafetyandManagementinBridgeArea(1).Zhuhai:ChinaNauticalSociety,2010:3(inChinese).

　　[2]倪生科,刘正江,蔡垚,等.基于遗传算法的船舶避碰决策辅助[J].上海海事大学学报,2017,38(1):12–15.NISK,LIUZJ,CAIY,etal.Shipcollisionavoidancedecisionaidsbasedongeneticalgorithm[J].JournalofShanghaiMaritimeUniversity,2017,38(1):12–15(inChinese).

　　[3]倪生科,刘正江,蔡垚,等.基于混合遗传算法的船舶避碰路径规划[J].上海海事大学学报,2019,40(1):21–26.

　　作者：周怡，袁传平，谢海成，羊箭锋