论文部分内容阅读
分类和聚类是数据挖掘中两种重要的数据分析方法,广泛应用于商业各个方面。传统的聚类方法很难直观反映样本个体与类间关联程度的变化动态。可拓聚类方法在聚类分析过程中引入可拓集合理论,利用可拓集合中关联函数的特点,使聚类分析方法能更全面的分析对象属于某集合的程度,从而有助于从变化的角度来分析变化中的事物。
本文介绍了数据挖掘及可拓学的思想,比较了用于数据挖掘的算法和技术,回顾了可拓学的发展历程,讨论了可拓分类方法。理论上,针对传统聚类的不足,提出用可拓集合中的关联度来代替传统聚类中的距离和相似系数,作为度量分类对象之间的接近程度,并与当前聚类方法相结合,提出新的聚类方法——可拓k-means聚类算法。
此外,在学习可拓理论的基础上,给出了基元模型在C++环境下表示形式,针对发散树方法设计了一种查找结构,改善了基元对象的查找效率,并提出了一种基于关系的发散树方法以及利用训练数据集确定类别各特征经典域的方法,并对分类中使用的关联函数做了改进,使分类更加准确。
实践上,把可拓分类方法应用于流动单元划分中,并与其它方法做了对比,结果证明了该方法的有效性和优越性。