论文部分内容阅读
对高维数据进行潜在价值的挖掘是目前的一个技术难题,同时也是一个研究热点。高维数据聚类分析是挖掘高维数据的价值的一个重要手段,它在文档分析、新闻自动分类、自动摘要、垃圾邮件识别及过滤、信息过滤以及生物信息学等领域有重要的作用。目前,随着信息科学的发展,在我们获取的数据中,高维数据占的比例越来越大,比如,网络购物产生的交易数据,基因表达数据以及文本数据等。对这些高维数据进行挖掘能获得十分巨大的经济价值以及其它的知识,所以高维数据聚类分析作为一种重要的挖掘手段,具有巨大的研究前景。 和低维数据相比,高维数据在整个空间的分布是稀疏的,这使得对其进行聚类分析变得十分困难。但是一般来说,高维数据的聚类簇在是比较紧凑的分布在该聚类簇的子空间上的,所以如果能找到高维数据的每一个聚类簇所在的子空间,那么对高维数据进行聚类分析就能得到一个比较好的结果。但是因为不同的聚类簇的子空间是不一样不同的相关维组成的,所以寻找聚类簇对应的子空间是十分困难的。通过上面的分析,可以得出:高维数据聚类的难点和关键就是如何找出子空间。 本文通过分析现有的软子空间聚类算法的优缺点,将差分进化算法用于维度权值的求解,从而提升算法的聚类效果;引入多目标聚类的思想,降低算法对聚类类别输的依赖,使得算法的应用范围更广。本文的主要工作为: 1)现有的软子空间聚类算法都是类k-means算法,针对它们比较依赖初始聚类中心,算法不稳定以及维度权值不准确的缺点,提出了基于差分进化的软子空间聚类算法。该聚类算法是在软子空间聚类算法的框架下,引入差分进化优化算法对维度权值进行优化,提升算法的稳定性以及聚类效果。实验表明,该算法在人工数据集、UCI数据集以及癌症基因表达数据上,获取的优于其他软子空间聚类算法的聚类结果。 2)针对现有的软子空间聚类算法都是对一个目标函数进行优化以及需要与先给定准确的类别数等缺点,提出了基于多目标进化算法的软子空间聚类算法。利用多目标优化的理论对聚类的两个目标函数进行优化。然后,用NSGA-II来优化这两个目标函数,得到一组最优解,即非支配解,然后采用半监督的方式从非支配选取一个解,作为聚类算法的输出。在人工数据集、UCI数据集和癌症基因表达数据集上的实验表明,该算法的聚类效果和基于差分进化的软子空间聚类算法相当,但是它不需要预先输入类别数。 3)通过对文本聚类进行分析,发现文本聚类一般来说具有:高维和在子空间分布密集的特点,而子空间聚类恰好适合求解这一问题。本文根据文本聚类的特点,将基于差分进化的软子空间聚类算法(DESSC)应用于文本聚类,并且在实验中取得了较好的结果。 本文得到如下基金资助:教育部新世纪优秀人才支持计划:( NCET-12-0920);陕西省科技新星计划:(No.2014KJXX-45);国家自然科学基金:(Nos.61272279,61001202和61203303);高校基本科研业务费(Nos. K5051302049,K5051302023,K5051302002和 K5051302028)和“111”创新引智计划(No. B07048)。