论文部分内容阅读
聚类分析在数据挖掘理论和应用中都是一个非常必要的部分,是一种数据划分或分组处理的重要手段和方法。到目前为止,已有大量的数据挖掘聚类算法被提出来,其中很多聚类算法都有非常成功的应用。但是,它们主要继承多元统计分析学和模糊数学的结论,即主要是基于距离和阈值的各种聚类算法和改进算法。很多时候需要人为干预,需要行业知识、领域专家等因素的介入,大多数算法对混合型属性数据力不从心。尤其在商务决策、市场分析、刑侦破案、知识发现、生物学、Web文档分类等领域,需要新的适合于混合型属性数据的聚类算法,本课题就是在此背景下被提出来。 论文首先研究了具有代表性几种多维聚类算法,比如,硬聚类划分、软聚类划分和可能性聚类。这些算法一般最终都必须引入一个阈值才能确定类别,而实际上,这种阈值往往没有一个标准,这为用户增加了灵活性,但也增大了它的随意性,这正是此类算法的缺点所在。为此,提出了新的基于划分的聚类算法,本算法基于这样的核心思想:具有许多相同主要属性的有效集合是比较相近的,大致可以划分一类,即“并发最大化原理”;同时,对于某个特殊属性(标记)具有相同值的集合之间可能存在很大的相似性。即“类标最小化原理”;明确属于某个集合的子集,与原集合是一类的。但数据库(数据仓库)中的元组,可能同时属于多个集合,这正是算法的难点所在。本文利用求关联规则中的频繁项目集的算法作为辅助手段,来判断子集最大可能隶属于的集合,即“隶属度原理”;以及子集合与父集合之间的继承关系,即“继承原理”。本算法主要基于以上几个基本原理,实现半模糊化聚类。通过理论证明和实验表明,该算法是有效的,比K-means划分方法更能确定出有效的类别。本算法实现全局最优,对数据的输入顺序不敏感,实现的是动态聚类,对于高维数据的聚类是有效的,对领域知识的要求最小化。本算法是数据挖掘中聚类分析理论的进一步探索,尤其是对多维混合型属性数据的聚类。