论文部分内容阅读
数据挖掘技术是从大量的、随机的、有噪声的、无序的、模糊的数据中提取隐含在其中有效的、有价值的、可理解的模式,进而发现有用的或是潜在有用的信息,并得出事件之间的趋向和关联程度,为用户求解问题提供决策支持。在数据泛滥的今天,数据挖掘对人们提取有效信息从而进行高效的知识管理有着重要的意义。本文重点介绍了数据挖掘中的两个重要技术——关联规则和聚类分析,以及著名的离散Morse理论,并将离散Morse理论分别应用于聚类分析和关联规则挖掘中,提出了基于离散Morse理论的网格聚类算法和基于广义离散Morse理论的强关联规则挖掘两个新的算法。Morse理论是分析平滑流形的拓扑结构的一种工具,最初是由Marton Morse提出,并分析了黎曼流形上Morse函数的临界点和流形拓扑之间的关系。随后Forman将离散结构引入Morse理论形成了应用更为广泛的离散Morse理论,它通过对单元复形建立其离散Morse函数或离散梯度向量域并进行分析研究,从而得到单元复形的拓扑信息和属性。离散Morse理论将空间图形的拓扑结构转化为数学函数进行计算分析,是一种强大的优化工具。本文将离散Morse理论应用于网格聚类中,提出了一种新的网格聚类算法——基于离散Morse理论的网格聚类算法。该算法首先利用网格聚类将大量数据分散到每个小网格中,并将每个稠密网格视为一个点同时舍弃稀疏网格,然后相互连接各个点形成单元复形,以代表稠密网格的点作为单元复形的顶点,点与点之间的链接作为单元复形的边,随后在该单元复形上构造离散Morse函数从而达到聚类的目的。实验表明该算法对于形状不规则的数据集有很好的聚类效果。此外,本文将离散Morse理论和关联规则的概念扩展为广义离散Morse理论和强关联规则,给出了广义离散Morse理论和强关联规则的定义,并将广义离散Morse理论应用到强关联规则的挖掘中,得到了基于广义离散Morse理论的强关联规则挖掘算法。该算法将事物数据库的每个项看做一个顶点并连接顶点形成单元复形,然后在单元复形上构造广义离散梯度,根据离散梯度中箭头的方向来表示置信度和支持度,从而得到超强关联规则,并通过仿真实验对该算法进行了分析验证。新算法使得对于特殊关联规则的挖掘变得更加简单、直观。本文最后对全文进行了总结,列举了该文的创新点和各章的内容,同时指出了两个新算法存在的不足之处,给出了有待进一步研究的方向。