论文部分内容阅读
近年来,海洋运输步入到了一个高速发展的时期,船舶的运输量和数量急剧增长,航海安全正日益成为一个重要且复杂的研究领域。AIS(Automatic Identification System)系统广泛应用于船舶定位与轨迹跟踪当中,旨在保障船舶航行的安全性和提高政府对船舶的管理能力,精确地掌握船舶实时位置以及关联信息,可以为船舶碰撞规避、航道管理、异常航迹检测等提供数据支撑。随着大数据和人工智能的快速发展,通过历史航迹数据提前预知船舶航行状态,已经成为船舶航迹大数据的研究重点。航迹数据量庞大且分布复杂,现有航迹预测方法不区分航迹类型,使用同一个模型预测所有类型航迹,预测准确率有待进一步提高,因此,本文提出了一种先聚类再预测的研究思想。首先,由于原始数据存在很多异常和丢失现象,所以需要对原始AIS数据预处理,去除异常点,补全丢失点,以提取到有效的航迹;预处理后的航迹数据量依旧庞大,为减少聚类时计算量,还需对原始航迹进行有效压缩。接着对航迹进行聚类处理,在聚类算法中,评价航迹之间的相似程度是判断航迹是否属于同一个簇的重要依据,本文以子航迹为比较单元,定义了完整航迹之间的相似性度量距离DBLD(Distance Based on Location and Direction),采用航迹的航向和位置两个关键特征对航迹进行了聚类。最后,在航迹预测环节,对每个簇单独训练模型,再根据需要预测的船舶已走航迹对其进行分类,自适应地选择对应类别模型来预测未来航迹。本文围绕航迹大数据的预测方法开展了研究,提出了一种先聚类再预测的自适应多类别航迹预测方法。主要工作和贡献如下:(1)针对不同种类船只航迹数据进行了有效预处理,并为提高航迹聚类效率,提出了一种基于子航迹长度的改进D-P压缩算法。首先,预处理环节主要包括:根据不同种类船只速度的异常数据剔除、空缺值补全等,经过处理后得到的航迹数据可以完整地表达航迹变化特征,保证预测模型的训练效果;其次,提出了一种改进的D-P压缩算法,在保证航迹聚类效果的前提下,对航迹中存在的短航迹进行合并,使用尽可能少的特征点描述航迹的整体变化趋势,大幅减少航迹聚类过程中度量距离的计算时间。(2)航迹聚类中,针对航迹间相似性度量算法复杂且难定义的问题,根据船舶“航向”和“位置”两个关键特征定义了子航迹间的相似性度量,并结合DTW算法思想提出了一种比较不同长度航迹之间相似性的度量距离(Distance Based on Location and Direction,DBLD)。为验证方法的有效性,在三种经典聚类算法中,使用DBLD距离同融合距离、豪斯多夫(Hausdorff)距离进行了聚类效果对比,结果表明在这三种聚类算法中,基于DBLD距离的聚类效果均优于另外两种度量距离,聚类效果最理想。(3)航迹预测中,由于航迹簇之间的差异性大,针对不同类型的船舶轨迹,提出了一种自适应多类别的航迹预测方法。在复杂海域中,航迹之间的差异程度较大,一个模型很难学习到所有类型航迹的特征变化,因此本文使用一种自适应多类别的预测方法,首先,使用每个历史航迹簇中航迹分别训练Seq2Seq网络模型,并结合注意力机制以提高模型预测精度,再对需要预测船舶已经航行的历史航迹使用KNN算法进行分类,判断该船舶的已走航迹属于哪一个历史航迹簇,最后选择对应类别的预测模型,自适应地完成多类别航迹的预测。本文使用了洛杉矶港口(33.40°N~33.70°N,118.40°W~118.10°W)2017年1月的航迹数据作为历史数据,经数据预处理后,满足实验条件的航迹有1070条,共包含73283个航迹点。实验表明,经过改进后的D-P压缩,使得提取相似航迹的时间开销降低了46.68%;本文通过聚类的方法提取相似航迹,基于DBLD距离聚类时,聚类结果的轮廓系数得分达到0.5488,高于基于融合距离、豪斯多夫距离的0.4301和0.4578;将自编码器应用到航迹预测当中,在自适应的多类别航迹预测下,预测步长分别为5、10、15步的情况时,预测结果相对误差分别为12.74%,20.65%,22.11%,效果均要好于不聚类,或者不加入注意力机制时的预测结果。本文工作以历史航迹为数据驱动,通过实时地预测船舶未来航迹,为船舶碰撞规避、船舶管理、异常航迹检测提供重要参考价值。