基于空间数据库的数据挖掘方法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:lewy540
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着空间数据获取技术的快速发展,空间数据量急剧增加。为了充分地利用空间数据库中的资源,在大量的数据中获取有价值的信息,提出了空间数据挖掘技术。空间数据挖掘技术可以帮助人们理解空间数据,获取空间数据之间的内在关系。文中对空间数据库以及空间数据挖掘方面的基础知识——包括空间数据库的数据结构、数据模型、索引技术,以及空间数据挖掘的基本步骤、方法等进行了详细的介绍,作为进行空间聚类研究的理论基础。聚类分析是空间数据挖掘的一个重要的研究方向,它通过度量空间数据之间的相似性将空间数据库划分为不同的簇或类,使得同簇中的对象尽可能相似,而不同簇之间的对象尽可能不同。聚类分析在现实生活中用途广泛,可以用在选址、客户群分类等方面,帮助投资者进行决策,并带来尽可能大的效益。因此,聚类具有重大的研究意义。目前,已经有许多比较成熟的聚类算法,如DBSCAN算法、CURE算法、CLARANS算法等。这些算法是空间聚类的经典算法,但仍在某些方面存在一定的问题。本文的研究重点就是在已有算法的基础上,对算法进行改进,以提高算法效率。本文针对普通聚类和带障碍约束的聚类,分别提出了一种改进算法。算法1:对DBSCAN算法的改进。DBSCAN算法需要判断每个对象是否是核心点,这种判断会占据大量的I/O开销,是限制算法效率的瓶颈。本文的算法不需要对每个点进行核心点判断,算法在寻找连通区域的过程中,每次循环选取一个没有聚类标识的点:如果这个点是核心点,并且其核心区域内的点已经有其他的聚类标识,则将该点及其核心区域的点的聚类标识设置为其中的最小值;若该点不是核心点,则选择下一个点继续判断。这种算法不仅大大减少了需要判断的核心点的数量,而且在寻找连通区域的同时直接将聚类合并,会大大提高算法的时间效率。算法2:基于数学形态学的带障碍约束的空间聚类算法。该算法主要借鉴数学形态学聚类—MMC算法的基本思想,在此基础上加入了对障碍约束的处理。该算法与DBCluC算法不同,不需要通过每两个对象的连线是否与障碍物相交来判断两对象是否属于同一个类,而是借助于结构元素,仅仅对受障碍物影响的对象(即障碍物附近的点)进行判断。从数据点集中选取一个点作为结构元素的圆心进行膨胀运算,若结构元素与障碍物相交,则将位于圆心的点与该点膨胀运算所包含的点分别连线,对于连线与障碍物相交的点,将其flag值设为false,说明该点位于障碍物的另一侧,与圆心点不属于同一个连通区域;对于连线不与障碍物相交的点赋予与圆心位置的点同样的聚类标识。经过分析,算法的效率优于其他算法。在文章的最后,进行了数据实验,进一步验证了算法的正确性和有效性。本文对空间数据库、空间数据挖掘、空间聚类技术进行了探讨,一步一步深入,最后提出了改进的聚类算法。在后续的研究工作中,作者需要阅读大量的聚类技术方面的书籍及文章,提出更快、更易于理解的算法,并应用在实际的生产、生活中,辅助决策者做出正确的决策,获得更好的效益。
其他文献
随着互联网技术的迅速发展,互联网的应用模式也从最初的页面Web、应用Web,发展到Web服务。然而单个的Web服务已难以满足实际应用的需求,如何组合已有的服务,形成新的服务,已
本体映射是本体重用和本体集成的关键环节,这项技术的发展对语义web中本体查询、推理等应用具有重要意义。本文将着重对此进行研究。首先,简要介绍了课题的研究背景,总结了本
《代理银行财政集中支付系统——银行业务子系统》是配合财政支付系统改革的银行端业务应用系统,该系统实现了财政对银行的业务需求,包括:额度管理、凭证管理、授权支付、直接支
在信息化社会里,特别是随着电子商务,电子政务的发展和广泛应用,信息安全显得格外重要。为了保证电子支付、电子合同、电子投票、电子文件等电子信息的安全性,数字签名随之产生。
报表引擎是报表工具软件的核心组成部分,它控制报表系统的运行过程,为灵活多变的企业级报表展示提供强有力的软件支持。在研究报表引擎工作原理、Eclipse插件、RCP、XML、OSG
随着计算机体系结构的发展,多核平台得到了越来越广泛的应用。多核平台与并行计算理论相结合,以多线程并行的方式使应用程序性能大为提高。然而在图形领域,多核平台的应用尚未展
本体映射旨在不同的本体间搭建语义桥梁,以期实现不同本体间的信息交流和知识共享。对于大规模本体,由于其概念数量庞大、相互之间关系复杂,要实现大本体之间的映射变得非常
随着社会信息化进程的不断深入,办公软件已经成为人们日常办公不可缺少的基础软件之一。但自上世纪以来,各个办公软件厂商大多采用封闭专有的文档格式,这些标准不开放,存在安全隐
无线传感器网络是由大量传感器节点组成并以多跳自组织方式构成的无线网络,各传感器节点通过协作方式感知、采集、处理和传输监测区域内被感知对象的信息,并最终把这些信息发
XML已成为Web上数据表示、集成和交换的标准,它格式简单、自描述能力强,越来越多的应用如信息集成、电子商务等使用XML来存储、交换和发布信息。有效地存储和查询XML文档是技术