论文部分内容阅读
聚类是一种无监督学习方法,能够在没有任何经验信息的条件下发现数据真实分布,这一特性,使得聚类分析备受关注。谱聚类基于图论将聚类问题转化为无向图的图划分问题,相较于传统的聚类算法,可发现任意形状的样本空间分布且其聚类性能优越。但该算法的参数选择依赖于经验值,且聚类结果不稳定。如何使算法能够根据样本的原始分布自适应选取参数并得到稳定的聚类结果成为谱聚类算法研究的关键问题。特征选择是数据预处理的一种重要方法,旨在剔除冗余,降低数据维度。依据是否使用先验信息,将其分为有监督特征选择算法与无监督特征选择算法。在数据爆炸的今天,高维度高噪声的无标记数据比比皆是,因此,无监督特征选择成为现如今特征选择算法的重点。本文针对self-tuning谱聚类算法的参数受离群点影响且依赖于经验值、谱聚类算法的聚类结果受K-means影响而导致聚类结果不稳定问题,提出了完全自适应的谱聚类算法;并针对无监督特征选择算法所选特征子集分类性能不高问题,提出了基于谱聚类的特征选择新算法;最后提出基于谱聚类的针对乳腺癌患者诊断识别问题的新算法。主要创新和工作如下:1.提出完全自适应的谱聚类算法 SC_SD(Spectral Clustering based on Standard Deviation)和 SC_MD(Spectral Clustering based on Mean Distance):通过引入样本/的邻域标准差对 self-tuning 谱聚类算法的局部尺度参数进行改进,以最大程度地避免样本i的局部尺度参数受噪音点影响,进而影响聚类结果;以方差优化初始聚类中心的SD_K-medoids算法代替K-means算法,克服K-means算法的不稳定,发现数据真实分布。UCI数据集和人工数据集实验测试表明,提出的SC_SD和SC_MD算法能完全自适应地发现数据集的真实分布信息,取得更优聚类结果,不受噪音点影响,有很好的伸缩性。尤其SC_MD算法对较大规模数据集有更强的适应性。2.提出了基于谱聚类的无监督特征选择算法FSSC(feature selection based on spectral clustering):针对基因表达数据高维小样本的特点,首先利用谱聚类算法对所有特征进行聚类,将相似的特征聚在一起。然后分别定义特征区分度与特征独立性概念,并以二者之积度量特征重要性,从各特征类簇选择重要的特征代表该类簇,各类簇的代表特征构造最优特征子集。根据所使用谱聚类算法的不同,得到三种无监督特征选择算法,分别命名为FSSC-SD、FSSC-MD和FSSC-ST。以SVM和KNN为分类器,在10个基因数据集上的实验表明,算法FSSC-SD、FSSC-MD和FSSC-ST均能选择到与分类任务强相关且使分类性能稳定的特征子集。3.提出基于谱聚类的乳腺癌患者诊断识别新算法:为分析乳腺癌的关键识别特征子集,提高乳腺癌疾病数据的识别准确率,提出了一种针对乳腺癌患者识别特征发现的算法SDAP(feature selection based on Standard Deviation And Pearson correlation coefficient),该算法基于特征标准差和Pearson相关系数定义特征区分度和特征独立性,并以二者之积度量特征重要性,以此进行特征选择,发现乳腺癌患者的识别特征;然后对只含有少量识别特征的乳腺癌数据样本采用完全自适应的谱聚类算法SC_SD和SC_MD算法进行谱聚类分析。3个乳腺癌数据集实验结果表明SDAP+SC_SD和SDAP+SC_MD方法对乳腺癌患者的识别能够得到较好的结果,说明本文基于谱聚类的乳腺癌患者诊断识别算法能够取得良好的实验结果。