高维数据的聚类方法研究与应用

被引量 : 0次 | 上传用户:wusic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘中重要的研究课题,在信息过滤、资料自动分类、生物信息学等领域得到广泛应用。随着技术进步,聚类分析许多应用领域的数据具有很高的维度,例如,各种类型的文档数据、基因表达数据等其维度(属性)可以达到成百上千维,甚至更高。由于高维数据存在的普遍性,高维数据的聚类分析具有非常重要的意义。数据在高维空间中的表现相对于低维空间有很大的差异。在高维空间的许多情况下,由于数据分布的内在稀疏性,低维数据聚类常用的L_p距离等相似度度量有效性大大降低;高维空间中簇类往往只存在于某些低维子空间中,而不同的簇类其所处的子空间也可能存在差异。受“维度效应”的影响,许多在低维数据上表现良好的聚类方法运用于高维数据时无法获得很好的效果,需要采用一些特殊的方法进行高维数据的聚类分析。本文从高维数据子空间聚类的数学统计模型入手,研究其潜在的概率统计模型,继而提出新的聚类算法、开展高维数据的聚类有效性等研究;并在文本分类、网络入侵检测和恶意软件鉴别中进行应用研究,具有一定的理论意义和实际应用价值。本文的主要工作及贡献如下:1.提出了一种高维数据子空间聚类的概率统计模型及其学习算法,分析了子空间聚类算法的目标优化函数;2.建立了现有软子空间聚类算法与统计模型之间的联系,对其中两种代表性算法进行了多方面的改进;提出检测局部离群点的方法,提高了子空间聚类算法的鲁棒性:3.基于统计模型给出了模糊隶属度的新定义,提出一种高维数据的模糊聚类算法;结合三种改进的子空间聚类有效性指标,用于估计高维数据集的子空间簇类数目;4.针对传统方法需要对大型、高维数据集进行反复聚类引起的计算效率问题,提出了基于层次划分的最佳聚类数目确定方法;5.将子空间聚类方法应用于有指导的文本分类,提出了一种具有线性时间复杂度的文本分类新算法:将以上高维数据的聚类方法应用于网络入侵检测系统的关键特征选择和实际项目进行恶意软件辅助鉴别。
其他文献
<正>咳嗽是指肺失宣降,肺气上逆作声,咳吐痰液而言,为肺系疾病的主要证候之一。韩明向教授为国家第二批、第四批名老中医,主攻呼吸病、心血管疾病及内科杂病的中医治疗,他认
我国是粉煤灰资源大国,低等级粉煤灰由于活性低,在利用上受到限制,造成很大的资源浪费。为解决低等级粉煤灰应用问题,参阅大量国内外文献,由粉煤灰特性入手,综合阐述了低等级
在经济社会转型时期,建设社会主义和谐新农村是我国深化农村改革的新举措,是贯彻落实科学发展观、全面建设小康社会的必然要求,也是推动农村社会进步的有效手段,更是我国实现
韩国教师任用制度的诞生有着特定的历史背景,并在漫长的历史变迁中逐步得到完善。韩国教师任用制度的一个重要特征是,规定不论何种院校的大学毕业生都要参加严格的国家教师任
中国是当今世界经济最为活跃的地区之一,跨国公司纷纷登陆中国,在一部分跨国企业获取巨大利润的同时,也有相当一部分跨国企业面临着因为中西方文化差异、企业管理模式、人员
本文设计了包含几何图形、现实图形、非现实图形、图形的表现方式等八组内容不同但遵循相同原理的测试题,通过对110名5-6岁儿童进行的问卷测试,研究了5-6岁儿童对平面图形的
传统仿形法加工锥齿轮齿形误差大导致载荷不均、寿命短,而可控螺旋角锥齿轮是一种基于数控加工技术的新型锥齿轮,其为使用普通机床实现大型锥齿轮的精加工开辟了一条新途径。但
随着跨文化交际的盛行,翻译者更倾向于研究文化与翻译的关系而不是语言本身的研究。对于英语学习者来说,了解英语和汉语这两种语言之间的区别起着基础性的作用。翻译中所遇到
自上世纪80年代起,文学教育逐步恢复了它在语文学科中的应有地位。在历经“世纪末尴尬”后,人们对其重要性和必要性达成了共识,开始把更多的注意力转向它在课程与教学层面的
对建峰化肥厂包装系统中所使用的袋式除尘器的工作原理、结构性能作了介绍,并对运行情况和改进情况进行了总结,对存在的问题进行了分析,提出了今后改造应注意的问题。