论文部分内容阅读
时空数据挖掘是指从时空数据库中提取用户感兴趣的时空模式与特征、时空与非时空数据的普遍关系及其它隐含在时空数据库中知识的过程。离群点检测是数据挖掘中用于发现小部分数据表现出的异常模式的技术。时空离群检测是时空数据挖掘的一个重要部分,也是离群点检测在时空数据上的扩展,用于发现与其时空邻域非时空属性值有极大不同的时空对象或时空模式。由于巨量的占据地理空间的时空数据在连续更新,比如遥感数据,必定存在一些异常和表现不一致的数据,因此时空离群研究成为离群点研究领域的一个热点课题。时空离群检测需要解决邻域确定和离群判断二个主要问题。时序离群检测研究的重点是如何依据时序数据自身特点划分时序数据,用于时序离群挖掘。空间离群检测关注的是如何较好地结合空间数据的相互依赖约束和分布特性的不一致约束。定义时空邻域的难点在于如何结合各种空间相邻关系和各种时序相邻关系。时空离群检测要解决离群检测的对象是什么,离群比较的范围是什么,离群程度衡量的标准是什么。本文在上述几个方面做了较深入的探讨,主要贡献如下:1、在时序离群检测方面,通过提取时序数据的变化特征与重要点相结合得到基于时序离群检测的重要点分段方法,成功用于时序离群模式的挖掘。2、在空间离群检测方面,采用对象的邻域距离解决空间对象间的相互依赖约束,提出结合空间数据邻域分布特性的空间局部离群系数及基于空间局部离群系数的检测算法。在合成数据集和实际数据集上的实验证明了该算法的有效性。3、在时空邻居确定方面,在归纳基于连接、连通性和Voronoi三种空间相邻关系和基于随机项和周期项二种时序相邻关系的基础上,得到时空对象的邻域定义和形式化描述,与邻域的图形化方法相比表示能力更强。4、在时空离群检测方面,引入时空模式作为时空离群检测的对象。利用基于时空对象的邻域和基于空间局部离群系数的空间离群点检测算法分别解决邻域确定和离群判断,得出高鲁棒性的基于时空局部离群系数的时空离群模式检测算法。