论文部分内容阅读
随着卫星追踪及其它位置获取技术的成熟与广泛应用,人们能够收集各种移动对象的位置数据。这些移动数据使人们可以从一个新的角度理解各种社会现象。移动数据的独特性质对传统的数据分析方法提出了挑战。针对各种移动场景和应用需求,人们已经提出许多新的方法来提取移动相关的规律。针对动物移动数据的研究是其中的一个重要研究和应用场景。当前,在e-Science跨领域研究环境下,动物学、生态学和计算机学科的科学家们开展了广泛的合作,利用GPS设备对动物进行长期、大范围的追踪,并使用数据挖掘技术分析动物在栖息地内部和栖息地之间活动的各种模式。 本文针对候鸟追踪的轨迹数据,以栖息地发现为研究基础,尝试利用数据挖掘理论和方法,分别从候鸟在多个区域间移动的周期性规律、频繁的有序行为状态、轨迹数据中体现出来的潜在群组关系三个角度研究候鸟迁徙中的集体性移动模式。首先,提出了用于栖息地发现的层次聚类算法,进一步定义了三种移动模式:共同周期模式、连续行为模式、松散群组移动模式,并给出了模式发现方法,为人们进一步理解动物的行为规律及其与环境、疾病传播之间的潜在关系提供支持。 利用区域化将位置数据离散,是移动数据挖掘中常用的数据处理方法,也通常是后续知识发现的基础。在数据迅速增长的情况下,常用于热点区域发现的聚类方法计算效率低下。本文提出一个快速的层次聚类算法,用于发现候鸟栖息地,并能够揭示不同粒度下栖息地的层次结构。其中,利用核函数度量空间密度,使用基于网格的递归细分机制加速聚类的计算。在真实数据集上的实验以及和传统DBSCAN算法的比较,显示本文提出的聚类方法可以高效地发现多个层次上候鸟活动的主要区域。 周期行为是候鸟固有的一种行为规律。从轨迹数据中提取周期性移动模式可以概括候鸟移动的时空特征。个体轨迹数据具有模糊性、抽样不均匀、长度有限等特点,并含有大量数据缺失和噪声。候鸟移动的随意性、灵活性导致了周期性本身的不确定性,也给挖掘周期模式带来了挑战。针对这些问题,本文从多个个体的移动相似性出发,定义了候鸟移动的共同周期性模式,并给出了模式发现框架,包括四个阶段:轨迹数据变换、共同周期长度检测、周期性时空模式提取、时空可视化。针对每个阶段,本文提出了详细的处理方法。在真实的候鸟轨迹数据集上的实验研究表明了检测共同周期性的需求,验证了周期长度发现的准确性,也充分显示了本文提出的算法在共同周期模式发现方面的实用性。 轨迹中展现出来的时空属性是理解、推测其候鸟活动行为真实语义的重要线索。本文中迸一步提出了连续行为模式,从时空的角度准确地刻画候鸟移动过程中出现的相似的活动序列,用于揭示动物迁徙过程中群体性的、有序的、阶段性的底层行为状态。相对于传统的移动序列模式,连续行为模式可以更准确地定义其中各个阶段候鸟活动的时空范围,因此模式的现实语义更容易推断和解释。此外,连续行为模式能够容许现实情况下相似行为中频繁存在的短暂分歧或者噪声。本文进一步提出一个候选生成和精炼框架以发现所有的连续行为模式,并提出一个序列图结构和有序的处理策略来改进框架的效率,并且使用了真实的GPS数据集和大量合成数据集来进行详细的实验,验证了提出的方法的效果和效率。 除了具有上述相似的行为特征外,移动对象之间还具有各种复杂的社会关系。群组关系是其中最常见的社会关系之一。针对现实中候鸟迁徙过程中群组关系表现出来的复杂特征,本文提出两种松散群组移动模式及其发现算法,以发现任意时段内,多个对象之间松散的群组关系和群组移动路线。首先,提出弱一致性群组模式,允许任意时刻群组成员的部分聚集,能够容忍迁移过程中成员频繁的离群现象。进一步将这种模式拓展到群组非连续聚集的场景,提出弱一致性和连续性群组移动模式,允许群组聚集现象的间断性,以进一步容忍现实中某些时刻群体成员之间的高度分散。通过在真实GPS数据和合成数据上的实验和分析,以及和现有群组移动模式,包括Convoy、Travelling companion、Loose companion模式的比较,充分验证了本文提出的群组移动模式挖掘算法能够符合现实世界中群组关系的非严格特性,发现更多、更完整的群组关系,并具有良好的效果和性能。