论文部分内容阅读
数据挖掘是从海量的、没有固定规律的、不完整的数据中抽取尚未被发现的、有一定价值的信息和知识。粗糙集理论在数据挖掘中已有广泛应用,它能够通过基于分明集合(标准逻辑)的上下近似来表示和处理不精确、不确定的问题,但它只能针对离散化数据进行,对连续的数据则需要进行离散化后再进行处理,这也限制了粗糙集理论的应用范围。柔性逻辑是在标准逻辑和各种非标逻辑基础上发展出来的,可针对各种不确定性、不精确性、模糊性以及不完全性进行连续的信息处理。正是由于柔性逻辑和粗糙集都是针对不确定性的,这给二者的结合带来了可行性与便利性,也给连续型属性数据带来了新的处理方法。本文尝试把柔性逻辑和粗糙集理论结合起来,探索研究了不可分辨关系和容差关系的改进及将其应用在属性约简中的方法,并使用实验数据对其在数据挖掘过程中的应用进行了验证,取得了如下研究成果和创新:(1)提出了完备信息系统中的连续属性的柔性逻辑处理方法。在数据挖掘过程中,当信息系统中属性连续的情况下,一般先要将连续属性离散化,然后应用粗糙集理论的有关算法来处理这些数据。如此在整个数据挖掘的过程中会增加离散化的步骤、时间和误差。而柔性逻辑既可以处理离散数据,也可以处理连续数据。利用该特点本文应用柔性逻辑将粗糙集中的不可分辨关系(等价关系)重新进行定义,分析了新不可分辨关系的性质并对其进行证明,特别是针对连续的属性信息,应用新不可分辨关系对其进行等价类划分,可以取得更好的分类效果,并用实例进行了说明和验证。这项研究既扩展了粗糙集的适用范围,也使得柔性逻辑可以结合粗糙集理论来指导应用。(2)提出了新的不完备信息系统量化容差关系的量化方法;并将柔性逻辑引入不完备信息系统,定义了新的泛容差关系。传统的粗糙集只能针对完备信息系统进行处理,对于不完备信息系统要对粗糙集模型进行扩充,将其等价关系扩充为非等价关系,如容差关系或相似关系等。本文提出了一个新的量化容差关系,引入属性之间的相关性,定义了属性相关因子参与相似度的计算,得到更简洁有效的相似度的量化计算方法。已证明了新的量化容差关系的性质,并以实例对该量化容差关系的有效性进行了验证。本文还结合柔性逻辑中的泛等价关系,扩展容差关系的范围,得到泛容差关系的定义。在此基础上定义了新的相似度计算方法,得到新的基于泛容差的量化容差关系。已证明了新量化泛容差关系的性质,用实例数据对数据的填充效果进行了验证。(3)将新不可分辨关系应用到包含连续属性的区分矩阵属性约简中,并用实验数据比较了改进属性约简和经典属性约简算法所用的时间。在完备信息系统中,将改进后的新不可分辨关系代替原不可分辨关系应用到包含连续属性的属性约简中,并利用等价类的概念和离散定律中吸收率的概念对不可分辨函数进行化简,进而再求得其属性约简,并用实验数据比较了改进前后的约简时间。从结果来看应用新不可分辨关系在进行数据处理时省去了数据离散化过程,简化了数据预处理的步骤,势必有效地减少属性约简的时间。另外,为了和已有属性约简算法进行横向比较验证,本文还实现了基于区分矩阵(可分辨矩阵)属性约简、启发式的属性约简、基于条件信息熵的属性约简及动态属性约简等经典属性约简算法,将它们和用新不可分辨关系改进的基于区分矩阵的属性约简进行了约简时间的比较。(4)在实现聚类数据挖掘算法的基础上,用实验数据比较了应用柔性逻辑前后的聚类时间的不同,并对泛非在文本挖掘中的应用做了初步探讨。在分析了聚类数据挖掘经典算法后,在VC环境下实现了分级聚类算法、K-均值聚类算法及模糊聚类算法,并用实验数据比较了原始数据聚类时间和使用改进属性约简后的聚类总时间,并提出了下一步研究和改进的方向。最后对柔性逻辑中的泛非逻辑运算在数据挖掘中的应用做了初步的探索,将泛非运算用到义原相似度的计算中,完成了基于关键词的Web用户挖掘的实现及简单数据验证。