论文部分内容阅读
我国是铁路大国与人口大国,铁路客运作为一种主要的长途客运方式在生产生活中有着重要的地位,而科学的探索与挖掘铁路客流的短时变化规律与客流日变化模式,不仅有助于了解旅客在不同时间段的出行需求,也有助于相关部门科学合理的安排工作与调配相关资源。
现有的铁路客流模式挖掘方法,无法同时发现客流数据中隐含的多种客流模式,且有关短时时段客流模式挖掘的研究较为匮乏。为了挖掘不同时间粒度下的铁路客流模式,本文对铁路客流序列短时时段模式的挖掘方法以及日客流模式的挖掘方法进行了深入研究,主要研究内容与成果如下:
第一、针对主旨模式枚举算法(Motifsenumeration,MOEN)在铁路客流数据主旨模式挖掘时只考虑子序列间的相似度而造成主旨序列漏选的问题,提出了一种基于子序列支持度的主旨模式枚举算法(Motifsenumerationbasedon subsequence support,MOESS)。MOESS算法自动调整距离阈值以约束不同长度下子序列的相似程度和缩减不同长度下的距离矩阵;同时通过设定主旨模式子序列最小计数值的方式,在选取主旨模式的过程中综合考虑了子序列计数与子序列间的相似度。实验证明,在子序列支持度为3时,MOESS算法的查全率为MOEN算法的4~4.5倍。
第二、采用MOESS算法来发现铁路客流序列的短时时段模式。MOESS算法通过挖掘铁路客流序列中频繁子序列的方式,来发现客流变化模式性较为明显的短时时段。实验发现,主旨模式挖掘算法可以有效的发现客流序列的短时时段模式,分析发现主旨模式通常表示不同相邻日期的相同时段的客流模式,且不同日期的相同时段可能对应不同的主旨模式,这说明虽然铁路客流短时变化具有模式性,但不同日期的相同时段客流变化模式具有多样性。
第三、为了解决铁路日客流变化随机性较大而导致日客流模式难以被发现的问题以及频繁序列模式挖掘方法无法直接应用于铁路日客流序列的问题,提出了基于主旨特征的频繁序列模式挖掘方法(Mining frequent sequence patterns based on motifs,FSPMO)。FSPMO方法将铁路客流的主旨序列作为关键特征对日客流序列进行重新表示,摒弃了日客流序列中随机性较大的短时时段;同时解决了日客流序列数据不具有频繁项集的问题,将面向一般事务型数据的频繁序列模式算法应用于铁路客流序列数据的日客流模式挖掘任务中。实验表明,在铁路日客流模式挖掘任务中采用FSPMO方法,能够同时发现铁路客流数据中隐藏的多种日客流模式,以2015年3月份某站点日客流序列为例,该方法可以有效的发现日客流序列数据中2种客流模式,分析发现模式1主要出现在3月份的上半月而模式2则主要出现在3月份的下半月。
现有的铁路客流模式挖掘方法,无法同时发现客流数据中隐含的多种客流模式,且有关短时时段客流模式挖掘的研究较为匮乏。为了挖掘不同时间粒度下的铁路客流模式,本文对铁路客流序列短时时段模式的挖掘方法以及日客流模式的挖掘方法进行了深入研究,主要研究内容与成果如下:
第一、针对主旨模式枚举算法(Motifsenumeration,MOEN)在铁路客流数据主旨模式挖掘时只考虑子序列间的相似度而造成主旨序列漏选的问题,提出了一种基于子序列支持度的主旨模式枚举算法(Motifsenumerationbasedon subsequence support,MOESS)。MOESS算法自动调整距离阈值以约束不同长度下子序列的相似程度和缩减不同长度下的距离矩阵;同时通过设定主旨模式子序列最小计数值的方式,在选取主旨模式的过程中综合考虑了子序列计数与子序列间的相似度。实验证明,在子序列支持度为3时,MOESS算法的查全率为MOEN算法的4~4.5倍。
第二、采用MOESS算法来发现铁路客流序列的短时时段模式。MOESS算法通过挖掘铁路客流序列中频繁子序列的方式,来发现客流变化模式性较为明显的短时时段。实验发现,主旨模式挖掘算法可以有效的发现客流序列的短时时段模式,分析发现主旨模式通常表示不同相邻日期的相同时段的客流模式,且不同日期的相同时段可能对应不同的主旨模式,这说明虽然铁路客流短时变化具有模式性,但不同日期的相同时段客流变化模式具有多样性。
第三、为了解决铁路日客流变化随机性较大而导致日客流模式难以被发现的问题以及频繁序列模式挖掘方法无法直接应用于铁路日客流序列的问题,提出了基于主旨特征的频繁序列模式挖掘方法(Mining frequent sequence patterns based on motifs,FSPMO)。FSPMO方法将铁路客流的主旨序列作为关键特征对日客流序列进行重新表示,摒弃了日客流序列中随机性较大的短时时段;同时解决了日客流序列数据不具有频繁项集的问题,将面向一般事务型数据的频繁序列模式算法应用于铁路客流序列数据的日客流模式挖掘任务中。实验表明,在铁路日客流模式挖掘任务中采用FSPMO方法,能够同时发现铁路客流数据中隐藏的多种日客流模式,以2015年3月份某站点日客流序列为例,该方法可以有效的发现日客流序列数据中2种客流模式,分析发现模式1主要出现在3月份的上半月而模式2则主要出现在3月份的下半月。