基于集成学习的H-K聚类算法研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:hzjiawei333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析作为数据分析、挖掘的一种重要技术,已经被广泛的应用于模式识别、信息检索、机器学习、生物种群划分等领域中,是数据挖掘中个非常活跃的研究分支。目前,学术界已经提出了很多种不同的聚类算法,它们主要可以分为以下几类:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法等。这些方法根据自身特点的不同,应用于不同的领域中。H-K聚类算法(Hierarchical K-means Clustering)通过先采用层次聚类算法对数据集进行初始划分,再采用K-means算法进一步完善聚类过程,从而充分发挥了两者的优势、避免了两者的不足。随着传统的H-K聚类算法在实际中的应用越来越广泛,也凸显出一些问题,在处理海量数据集合和高维数据集上表现尤为明显。本文将PCA(Principal Component Analysis,主成分分析方法)和集成学习(Ensemble Learning)思想引入到对传统H-K聚类算法的改进中,使得改进后的算法在处理海量和高维数据集聚类问题时,得到了较满意的聚类效果。本文主要完成了以下研究工作:1.将统计学方法PCA引入到对传统的H-K聚类算法进行改进,提出-种新的PCAHK聚类算法,该算法首先采用PCA方法,将高维数据集投影到较低维空间中,再对降维后的数据集执行H-K聚类算法,得到最终的聚类效果。通过在不同数据集上的实验结果表明:PCAHK聚类算法较之传统的H-K聚类算法,可以得到更好聚类效果,同时,算法执行效率更高或者说计算复杂度更低。2.将集成学习的思想引入到对传统的H-K聚类算法进行改进,提出一种新的聚类算法EPCAHK。 EPCAHK聚类算法不仅采用了聚类集成的思想,同时将协矩阵和传递闭包应用到对传统的H-K聚类算法进行改进,结合了协矩阵和传递闭包本身的优点。实验结果表明,EPCAHK聚类算法较之以往同类的算法可以得到更优聚类效果。
其他文献
在海报设计中,文字作为图形的运用越来越广泛。本文以文字构形为切入点,分析研究了文字构形的多种空间表现形式,通过在海报设计中文字构形的空间形式运用,将文字构形图形化、立体
本文通过对汉语借词的研究,分析了其在中国英语不同概念中的表达,进而分析了汉语借词对中国英语的发展以及对中国文化传播的影响。认为,音译词主要集中在饮食、娱乐和表达中
D·H·劳伦斯是20世纪著名的作家,他虽著有如代表作《儿子与情人》、《虹》、《恋爱中的女人》、《查泰莱夫人的情人》等多部著作,但却因作品中的争议性描写,而备受抨击,长期流亡
近年来,酒店业蓬勃发展,国际品牌酒店纷纷进军国内酒店市场,国内开设酒店管理专业的院校如雨后春笋般出现。伴随着我国高职教育循序渐进,不断发展,有了较大进步,高职院校怎么应对高
企业年金是企业及其职工在依法参加基本养老保险的基础上,依据国家政策和本企业经济状况建立的、旨在提高职工退休后生活水平的一种制度安排,是对国家基本养老保险制度的重要补
端午节是我国古老的传统节日,至今各地存有丰富多彩的民俗活动。中国的端午节习俗于唐朝传入日本民间并流行至今,其主要表现形式为:在门口插菖蒲和艾蒿;洗菖蒲浴;供奉粽子和
<正>海南日报秉持以人物典型推动核心价值观建设的重要编辑方针,以典型引路,讴歌善行义举,弘扬社会正气,用感天动地的"海南故事",对社会主义核心价值观作最生动、最真实、最
在人类教育历史发展的过程中,语文教育自始至终占据重要席位。语文教育主要通过教学展开,语文教学传播和创造着人类的文化精神,构建了人类主体的精神家园。阅读教学是语文教
PCF型湿式脱硫除尘器是湖南大学环境科学与工程学院在普通麻石除尘器进行设计改装开发的一种结构简单、脱硫除尘效率高、气体处理量大的新型湿式脱硫除尘器。本文采用实验研
中国移动通信集团是中国通信运营商的龙头企业,更是世界500强企业之一,品牌价值位列全球电信品牌前列,成为全球最具创新力企业50强。随着电信体制的改革以及社会竞争的日益激