高维数据的K-harmonic Means聚类方法及其应用研究

来源 :上海大学 | 被引量 : 15次 | 上传用户:xiaoxiaohaizi319
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术和数据存储技术的进步使大容量的高维数据获取成为可能。在金融分析、基因组学、传感器、网页文档以及卫星图像等领域出现了大量的高维数据,为了从中挖掘感兴趣的知识,聚类分析是一种重要的技术手段。然而,受“维灾难”效应的影响,许多在低维数据空间表现良好的聚类方法运用在高维空间上往往无法获得好的聚类效果。因此,对高维数据聚类分析方法的研究有着重要的理论意义和实际的应用价值,它已成为聚类分析研究的一个重要方向,是聚类分析方法研究的难点所在。解决高维聚类问题的一个重要方法是通过降维将数据从高维降到低维,然后用低维数据的处理办法进行处理,从而保证低维数据处理方法的有效性。维数约减技术是进行数据降维的重要手段。传统的聚类方法已经比较成功地解决了低维数据的聚类问题,其中,划分聚类方法由于其快速性和简单性得到了广泛的应用,它主要包括K均值聚类(K-means,KM)算法、模糊c均值聚类(Fuzzyc-means,FCM)算法及K调和均值聚类(K-harmonic Means,KHM)算法,其中,KHM算法由于对初值弱敏感而具有更好的稳定性。然而,划分聚类算法普遍存在的噪声及初值敏感、簇个数需要预先确定及易于陷入局部最优等固有的缺点也导致它们在处理高维数据时性能急剧下降。针对高维数据聚类问题,本文首先在快速关联过滤(Fast Correlated-BasedFilter,FCBF)及ReliefF特征选择算法的基础上,提出了一种两阶段组合式特征选择算法(ReliefF-FCBF,RF);在此基础上,为了解决划分聚类算法本身固有的问题,以KHM聚类算法为研究对象,对基于KHM的自动聚类分析方法进行了深入研究,提出了一些有效的自动聚类算法,并将它们应用于基因表达数据的分析。本文的主要工作及创新如下:(1)提出了一种基于过滤的两阶段组合式特征选择算法(ReliefF-FCBF,RF)。在对高维数据进行聚类分析之前,RF特征选择算法能够对数据进行有效的预处理,以去除高维数据中存在的噪声、冗余及不相关特征,最终达到对高维数据降维的目的。在经RF算法处理过的UCI机器学习数据集和基因表达数据集上的实验证实RF方法能够发现较小的有区分力的最优特征子集,并保证划分聚类算法应用于高维数据上的有效性。(2)提出了一种基于聚类有效性指标的KHM自动聚类方法,(AutomaticKHM,AKHM),在此基础上,提出了基于模糊验证指标PBMF的自动聚类算法(PBMF-Based AKHM)。该算法能够较好地解决KHM聚类算法需要预先确定簇个数的问题。在经RF算法处理过的UCI机器学习数据集和基因表达数据集上的实验证实在绝大多数情况下PBMF-Based AKHM算法能够准确地发现数据集中固有的簇。(3)提出了基于AKHM与PSO混合的元启发自动聚类方法,在此基础上,提出了两种自动聚类算法PSOAKHM与DAPSOAKHM。它们较好地解决了AKHM聚类算法易于陷入局部最优的问题。在经RF算法处理过的UCI机器学习数据集和基因表达数据集上的实验证实自动聚类算法PSOAKHM与DAPSOAKHM能够找到问题的全局近似最优解,在多类数据集上它们表现出更好的性能和健壮性。(4)提出了一种基于和声搜索(Harmony Search)与KHM混合的元启发自动聚类方法,在此基础上,提出了一种全局动态自适应和声搜索自动聚类算法(Global DynamicAdaptive Clustering HSKHM,GDACHSKHM)。该算法将HS算法扩展到基因表达数据的分析中,从而丰富了HS算法的实际应用领域。HS算法是比PSO更新的元启发算法,具有许多优点。GDACHSKHM算法通过HS组件本身自动地发现数据中固有的簇数目,并自适应地找到问题的全局近似最优解,而无需手动调整参数。在经过RF算法处理过的UCI机器学习数据集和基因表达数据集上的实验证实自动聚类算法GDACHSKHM的有效性,它在某些数据集上具有比自动聚类算法PSOAKHM与DAPSOAKHM更好的性能和健壮性。本文针对高维数据聚类问题,开展了以KHM算法为核心的自动聚类方法研究及在基因表达数据分析上的应用研究,取得的研究成果证实本文的研究工作具有一定的理论意义和实际的应用价值。
其他文献
亨利·劳森是澳大利亚民族文学的先驱之一,以现实主义的写作手法而闻名。本文旨在分析劳森的《赶牲畜人的妻子》和《黑暗中的孩子,一位外国父亲》两篇短篇小说,分析其从
古诗鉴赏活动是通过读者的审美心理结构,将诗作中存储的表象再造为读者头脑中的意象,并产生一个整体意象以把握诗歌深层意蕴的心理过程,这一过程往往带给读者很强的顿悟感。
本研究在猜谜“催化”任务范式的基础上,建立了古诗鉴赏的顿悟研究范式,并使用先进的眼球追踪技术考察了不同特点的古诗句鉴赏的过程及存在的顿悟机制。实验中,诗句字数、诗
房屋的渗漏水问题不仅影响房屋的外观质量、适用性和耐久性,而且严重的会影响结构的安全性,给业主的生活带来极大不便。文章结合工程实际,归纳了房屋建筑渗漏的主要形式,并分
良好的医患沟通能力是临床医学生成为一名合格医生不可缺少的条件。本文从分析对当前医学生医患沟通能力现状出发,结合加强医学生医患沟通技能培养的必要性和重要性,探讨加强
国际金融危机后,世界经济的发展正面临着一系列深刻的变化:以制造业的数字化、可再生能源为代表的新一轮科技革命与产业变革正在兴起,发达国家纷纷提出重振制造业战略并促进
<正>吉林省妇联围绕大众创业、万众创新,充分挖掘女性优势,相继推出"吉林大姐"家庭服务、"吉林巧姐"手工制作两个品牌项目。特别是2013年以来,省妇联抓住省委省政府大力发展
通过省直管县财政体制改革以激发县域经济发展的活力,是国家推动现代化进程的必然选择,也是新时期解决"三农"问题的根本途径,同时还是解决我国客观存在的多级财政体制效率缺
灯具是人们日常生活、生产劳动中广泛使用的器具。中国古代的灯具肇始于何时尚无定论,从考古发现情况看,可能早到新石器时代。灯具是人类不断改善生产、生活条件的产物,它的
本论文《论古印度佛像影响中国的三次浪潮》,旨在研究中印两国佛教美术传播中的三次浪潮及其具体表县。这三次浪潮,形成于古印度造像高峰时期的贵霜时期、笈多时期、波罗时期