谱聚类算法研究与应用

来源 :陕西师范大学 | 被引量 : 0次 | 上传用户:sdfffasdf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是一种无监督学习方法,能够在没有任何经验信息的条件下发现数据真实分布,这一特性,使得聚类分析备受关注。谱聚类基于图论将聚类问题转化为无向图的图划分问题,相较于传统的聚类算法,可发现任意形状的样本空间分布且其聚类性能优越。但该算法的参数选择依赖于经验值,且聚类结果不稳定。如何使算法能够根据样本的原始分布自适应选取参数并得到稳定的聚类结果成为谱聚类算法研究的关键问题。特征选择是数据预处理的一种重要方法,旨在剔除冗余,降低数据维度。依据是否使用先验信息,将其分为有监督特征选择算法与无监督特征选择算法。在数据爆炸的今天,高维度高噪声的无标记数据比比皆是,因此,无监督特征选择成为现如今特征选择算法的重点。本文针对self-tuning谱聚类算法的参数受离群点影响且依赖于经验值、谱聚类算法的聚类结果受K-means影响而导致聚类结果不稳定问题,提出了完全自适应的谱聚类算法;并针对无监督特征选择算法所选特征子集分类性能不高问题,提出了基于谱聚类的特征选择新算法;最后提出基于谱聚类的针对乳腺癌患者诊断识别问题的新算法。主要创新和工作如下:1.提出完全自适应的谱聚类算法 SC_SD(Spectral Clustering based on Standard Deviation)和 SC_MD(Spectral Clustering based on Mean Distance):通过引入样本/的邻域标准差对 self-tuning 谱聚类算法的局部尺度参数进行改进,以最大程度地避免样本i的局部尺度参数受噪音点影响,进而影响聚类结果;以方差优化初始聚类中心的SD_K-medoids算法代替K-means算法,克服K-means算法的不稳定,发现数据真实分布。UCI数据集和人工数据集实验测试表明,提出的SC_SD和SC_MD算法能完全自适应地发现数据集的真实分布信息,取得更优聚类结果,不受噪音点影响,有很好的伸缩性。尤其SC_MD算法对较大规模数据集有更强的适应性。2.提出了基于谱聚类的无监督特征选择算法FSSC(feature selection based on spectral clustering):针对基因表达数据高维小样本的特点,首先利用谱聚类算法对所有特征进行聚类,将相似的特征聚在一起。然后分别定义特征区分度与特征独立性概念,并以二者之积度量特征重要性,从各特征类簇选择重要的特征代表该类簇,各类簇的代表特征构造最优特征子集。根据所使用谱聚类算法的不同,得到三种无监督特征选择算法,分别命名为FSSC-SD、FSSC-MD和FSSC-ST。以SVM和KNN为分类器,在10个基因数据集上的实验表明,算法FSSC-SD、FSSC-MD和FSSC-ST均能选择到与分类任务强相关且使分类性能稳定的特征子集。3.提出基于谱聚类的乳腺癌患者诊断识别新算法:为分析乳腺癌的关键识别特征子集,提高乳腺癌疾病数据的识别准确率,提出了一种针对乳腺癌患者识别特征发现的算法SDAP(feature selection based on Standard Deviation And Pearson correlation coefficient),该算法基于特征标准差和Pearson相关系数定义特征区分度和特征独立性,并以二者之积度量特征重要性,以此进行特征选择,发现乳腺癌患者的识别特征;然后对只含有少量识别特征的乳腺癌数据样本采用完全自适应的谱聚类算法SC_SD和SC_MD算法进行谱聚类分析。3个乳腺癌数据集实验结果表明SDAP+SC_SD和SDAP+SC_MD方法对乳腺癌患者的识别能够得到较好的结果,说明本文基于谱聚类的乳腺癌患者诊断识别算法能够取得良好的实验结果。
其他文献
联络口译是应用最为广泛的一种口译形式,与会议口译相比,联络口译正式性相对较低,因此也更为灵活。在联络口译过程中,译员处理信息时往往会发挥自身主观能动性。然而,在口译实践中,译员可能会质疑这一做法是否符合译员职业道德。产生质疑的原因在于,传统的译员角色要求译员遵守绝对忠实的原则。而随着口译相关研究的发展,译员逐渐找到了自身作为“人”而非“机器”的角色。在这些角色当中,基于传播学“把关人”理论而出现的
随着现代计算机视觉技术的不断发展和硬件计算能力的不断提高,人脸识别相比于指纹识别等其他生物特征识别技术,由于其非侵扰、高效率、友好性等诸多优势,已广泛应用于电子商
WiFi技术得到广泛应用,除了作为方便的短距离无线通信方式,还可以用来实现神奇的无线感知。近年来,基于商用WiFi设备获取的信道状态信息(Channel State Information,CSI)的各
近年来,SQL注入漏洞一直被国际OWASP(Open Web Application Security Project)组织列为Web应用高危安全漏洞之一。面向SQL注入漏洞检测的恶意数据生成成为学术界和产业界研究
当下,深度学习可解释性是最前沿且重要的科研难题之一。可解释深度学习中许多问题都可以归结为高维概率分布转换,如工程中应用广泛的生成模型、领域自适应等。目前可以计算高
三维场景重建广泛地应用在移动机器人、无人机、无人驾驶、增强现实和虚拟现实等领域,有着重要的科研价值和应用意义。通过视觉同步定位与地图创建(SLAM)来进行三维场景重建
作为改革开放最先进的城市—深圳,经过40年的快速发展,当年的小渔村已成为中国最大的城市之一。因改革开放初期粗犷式发展,之前的城市规划已无法满足现代城市的发展需求,原广
目前主流的3D立体显示技术采用基于双视点图像的的平面立体呈现手段,左右视图中引入的水平视差带来了观看者对于场景深度的体验。然而,随之出现的3D内容观看者的视觉疲劳与舒
区间概念格是最近几年给出概念格结构,它是定义在一个给定的参数区间上的,能巧妙体现确定及不确定性信息的格结构,这种格结构为不确定规则提取的研究奠定了新的基础。以此为
俄罗斯企业收入70%来源于传统产品与服务,20%来源于对传统产品与服务的改善,仅有10%来源于技术创新。虽然近年来随着科技发展,这种情况有所改善,可技术创新带来的收益占比仍