论文部分内容阅读
聚类分析是数据挖掘中重要的研究课题,在信息过滤、资料自动分类、生物信息学等领域得到广泛应用。随着技术进步,聚类分析许多应用领域的数据具有很高的维度,例如,各种类型的文档数据、基因表达数据等其维度(属性)可以达到成百上千维,甚至更高。由于高维数据存在的普遍性,高维数据的聚类分析具有非常重要的意义。数据在高维空间中的表现相对于低维空间有很大的差异。在高维空间的许多情况下,由于数据分布的内在稀疏性,低维数据聚类常用的L_p距离等相似度度量有效性大大降低;高维空间中簇类往往只存在于某些低维子空间中,而不同的簇类其所处的子空间也可能存在差异。受“维度效应”的影响,许多在低维数据上表现良好的聚类方法运用于高维数据时无法获得很好的效果,需要采用一些特殊的方法进行高维数据的聚类分析。本文从高维数据子空间聚类的数学统计模型入手,研究其潜在的概率统计模型,继而提出新的聚类算法、开展高维数据的聚类有效性等研究;并在文本分类、网络入侵检测和恶意软件鉴别中进行应用研究,具有一定的理论意义和实际应用价值。本文的主要工作及贡献如下:1.提出了一种高维数据子空间聚类的概率统计模型及其学习算法,分析了子空间聚类算法的目标优化函数;2.建立了现有软子空间聚类算法与统计模型之间的联系,对其中两种代表性算法进行了多方面的改进;提出检测局部离群点的方法,提高了子空间聚类算法的鲁棒性:3.基于统计模型给出了模糊隶属度的新定义,提出一种高维数据的模糊聚类算法;结合三种改进的子空间聚类有效性指标,用于估计高维数据集的子空间簇类数目;4.针对传统方法需要对大型、高维数据集进行反复聚类引起的计算效率问题,提出了基于层次划分的最佳聚类数目确定方法;5.将子空间聚类方法应用于有指导的文本分类,提出了一种具有线性时间复杂度的文本分类新算法:将以上高维数据的聚类方法应用于网络入侵检测系统的关键特征选择和实际项目进行恶意软件辅助鉴别。