基于进化计算法的高维数据聚类研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:ccmjacky20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对高维数据进行潜在价值的挖掘是目前的一个技术难题,同时也是一个研究热点。高维数据聚类分析是挖掘高维数据的价值的一个重要手段,它在文档分析、新闻自动分类、自动摘要、垃圾邮件识别及过滤、信息过滤以及生物信息学等领域有重要的作用。目前,随着信息科学的发展,在我们获取的数据中,高维数据占的比例越来越大,比如,网络购物产生的交易数据,基因表达数据以及文本数据等。对这些高维数据进行挖掘能获得十分巨大的经济价值以及其它的知识,所以高维数据聚类分析作为一种重要的挖掘手段,具有巨大的研究前景。  和低维数据相比,高维数据在整个空间的分布是稀疏的,这使得对其进行聚类分析变得十分困难。但是一般来说,高维数据的聚类簇在是比较紧凑的分布在该聚类簇的子空间上的,所以如果能找到高维数据的每一个聚类簇所在的子空间,那么对高维数据进行聚类分析就能得到一个比较好的结果。但是因为不同的聚类簇的子空间是不一样不同的相关维组成的,所以寻找聚类簇对应的子空间是十分困难的。通过上面的分析,可以得出:高维数据聚类的难点和关键就是如何找出子空间。  本文通过分析现有的软子空间聚类算法的优缺点,将差分进化算法用于维度权值的求解,从而提升算法的聚类效果;引入多目标聚类的思想,降低算法对聚类类别输的依赖,使得算法的应用范围更广。本文的主要工作为:  1)现有的软子空间聚类算法都是类k-means算法,针对它们比较依赖初始聚类中心,算法不稳定以及维度权值不准确的缺点,提出了基于差分进化的软子空间聚类算法。该聚类算法是在软子空间聚类算法的框架下,引入差分进化优化算法对维度权值进行优化,提升算法的稳定性以及聚类效果。实验表明,该算法在人工数据集、UCI数据集以及癌症基因表达数据上,获取的优于其他软子空间聚类算法的聚类结果。  2)针对现有的软子空间聚类算法都是对一个目标函数进行优化以及需要与先给定准确的类别数等缺点,提出了基于多目标进化算法的软子空间聚类算法。利用多目标优化的理论对聚类的两个目标函数进行优化。然后,用NSGA-II来优化这两个目标函数,得到一组最优解,即非支配解,然后采用半监督的方式从非支配选取一个解,作为聚类算法的输出。在人工数据集、UCI数据集和癌症基因表达数据集上的实验表明,该算法的聚类效果和基于差分进化的软子空间聚类算法相当,但是它不需要预先输入类别数。  3)通过对文本聚类进行分析,发现文本聚类一般来说具有:高维和在子空间分布密集的特点,而子空间聚类恰好适合求解这一问题。本文根据文本聚类的特点,将基于差分进化的软子空间聚类算法(DESSC)应用于文本聚类,并且在实验中取得了较好的结果。  本文得到如下基金资助:教育部新世纪优秀人才支持计划:( NCET-12-0920);陕西省科技新星计划:(No.2014KJXX-45);国家自然科学基金:(Nos.61272279,61001202和61203303);高校基本科研业务费(Nos. K5051302049,K5051302023,K5051302002和 K5051302028)和“111”创新引智计划(No. B07048)。
其他文献
采用非接触式电容传感器、电涡流传感器组合系统获取检测信号 ,利用基于LabVIEW软件平台的计算机实现对塑料薄膜进行在线检测的工作原理 ,整个系统由测试单元、电机驱动单元
在学生们正式进入到课堂学习时,首先接触的课程就是语文和数学,其中语文是所有科目学习的基础,若是在小学刚刚开始接触语文的时候,语文基础就没有打牢,那么对接下来的各种课
在二十一世纪,随着中国综合国力的提高,中国在世界上所占的地位越来越重要,汉语的应用也随之变得越来越广泛.那么,语言的应用就显得尤为重要.学好语文是学好各科的必要前提,
随着新课改制度的进一步改革,小学数学课程教学要以促进学生全面发展为基础,让学生成为课堂的主人,引导学生自主探究学习,培养学生自动探究的能力,促进学生探究式学习.教师要
【摘要】介绍了机构设计实验的内容,提出拼装是机构设计实验的重点和难点,实验过程中要抛开设计“有用论”。拼装前首先要熟悉实验台及其零部件,在拼装过程中,针对构件之间的干涉、构件尺寸的确定提供了一些指导方法。  【关键词】机构设计 拼装 干涉  【基金项目】校精品实验建设项目(JS201405)。  【中图分类号】G642.43 【文献标识码】A 【文章编号】2095-3089(2015)08-023
【摘要】CDIO教学理念是一种能够促进学生主动参与到学习过程中,通过积极进行实践来实现教学目的的教学理念。我们通过文献研究法、问卷调查法、教育实验法与统计法等研究了将CDIO理念应用于艺术类高校《计算机应用基础》的可能性与应用策略,试图为CDIO理念在艺术类高校《计算机应用基础》课程教学中的应用提供一些思路。  【关键词】CDIO理念 艺术类高校 计算机应用基础  【中图分类号】G64 【文献标识
该论文主要研究了光孤子的量子特性:孤子压缩态和孤子脉冲的不同谱分量之间的光子数起伏的相关性,孤子的偏振压缩态以及在量子通信中的应用.在量子领域,初始相干孤子是不稳定
【摘要】课题组通过引入了成绩和试卷分析的方式方法对卫生高职专业基础课教学效果开展测试研究,由此阐述了成绩与试卷分析对监督保障教学质量的重要意义。  【关键词】卫生高职 教学效果测试 研究  【中图分类号】G71 【文献标识码】A 【文章编号】2095-3089(2015)08-0233-02  教育部在2008年颁发的《高等职业院校人才培养工作评估方案》(教高[2008]5号文)中明确提出要“逐步
该文围绕提高矩量法处理电大尺寸电磁问题的速度和效率这一主题开展了研究,所进行的研究工作概括如下:一、在许多电磁问题的矩量法计算中涉及到多重ToeplitZ线性方程组,这类
本文在概述创意的概念和创意在设计中的重要性的基础上,重点分析了在设计教学中的几个案例,指出学生在创意提炼中的不足,从而鼓励学生多做发散性思维。文章最后提出了向传统