密度峰值聚类的优化及其应用研究

来源 :安徽财经大学 | 被引量 : 0次 | 上传用户:swxylq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着大数据人工智能技术的高速发展,人们的生产生活方式发生了翻天覆地的变化。手机支付、网络直播、视频传播、共享单车、网络购物以及人工智能等已渗入到人们生活的方方面面,成为人们关注的热点问题,而由此产生的数据量也发生了爆炸式地增长。聚类分析,作为数据挖掘技术的重要分支,是统计分析学科中的一项重要技术,也是一种无监督的机器学习方法。其在无任何先验信息的条件下,可以自主探究数据内在的结构信息和相似关系,使得同一类簇内的数据相似性较大,不同类簇的数据差异较大。因此,可以借助聚类分析挖掘出这些海量数据中包含的无组织但有价值的信息,进行相关实验研究,促进社会发展。Alex Rodriguez等人于2014年在Science上提出了一种基于快速搜索和发现密度峰值的聚类算法(Clustering by fast search and find of density peaks,简称DPC)。该算法重新定义了类中心的概念,将数据映射到一个二维空间上(局部密度和最近距离),并在新的空间上进行类中心的识别和类的分组。DPC算法能够快速地发现任意形状数据集的密度峰值点,并能高效地进行样本点的分配和离群点的剔除。该算法自提出以来就在社区发现、图像处理、计算机视觉以及文本处理等领域得到应用,受到了各行各业的广泛认可。然而,随着对DPC算法的深入研究,其也暴露了一些应用上的不足。该算法没有统一的密度度量准则、参数d_c较难直接确定、聚类中心需人工选择、样本分配易导致错分结果连续传递、无法有效处理复杂流形以及密度差异化数据集等等。为获得更好的应用效果,本文提出了两种聚类优化算法,并将新算法运用到电子病历的文本挖掘研究中。首先,针对密度峰值聚类算法在处理密度差异的数据时,无法有效度量位于低密度区域内数据点的密度峰值,错误地将稀疏低密度类簇归类于密集高密度的类簇中。提出了一种基于相对密度优化的密度峰值聚类算法,重新定义了样本点的局部密度和剩余点的分配方式,较好地解决了低密度区域样本的识别问题,扩展了密度峰值聚类的研究方法。其次,针对密度峰值聚类算法在处理多密度型和复杂流形的数据时,无法有效识别类簇中心,错误地将一个类簇分割或是将两个类簇合并。基于密度峰值聚类算法和DBSCAN算法的启发,利用共享近邻重新定义了样本点的局部密度,并借助DBSACN算法核心点和近邻连接的思想进行聚类分析。此外,尝试性地将非参数统计检验用到子类的合并中,提出了一种基于共享近邻和统计检验的聚类算法,有效地弥补了密度峰值聚类无法有效处理复杂流形数据的缺陷。最后,在互联网医疗迅速兴起,医院数字信息化,纸质病历逐渐被丢弃导致积累了海量电子病历的背景下,将经典DPC算法和本文改进算法用到电子病历的文本挖掘中,验证优化算法在文本挖掘聚类分析中的有效性,以期实现对医院积累的电子病历文本数据的分析,发现其中蕴藏的疾病特征以及对应的诊疗模式。实验结果表明,本文在保留DPC算法优点的同时,通过汲取其他算法的优势和统计检验的思想,针对密度可变的数据、结构不规则的数据以及复杂流形的数据,提出的两种密度峰值优化算法很大程度上提高了聚类精度,增强了参数鲁棒性。在电子病历的文本挖掘中,本文优化算法较好地完成了聚类工作,对于提高临床诊疗效率和水平具有重要意义。本文创新之处主要表现在三个方面,第一,针对密度峰值聚类算法在处理密度可变、多密度型和复杂流形的数据时效果不佳,提出了两种密度峰值优化算法,较好地解决了低密度区域和复杂流形数据的问题,扩展了密度峰值聚类的研究方法。第二,由于聚类分析的特殊性与复杂性,缺乏显著性检验,分析过程不够完整。通过汲取其他算法的优势和统计检验的思想,本文尝试性地将非参数检验用于类簇的合并当中,取得了较好的效果,为聚类分析提供了一种新的视角和方法。第三,将改进的算法用到电子病历的文本挖掘中,以期实现对医院积累的电子病历文本数据的分析,发现其中蕴藏的疾病特征以及对应的诊疗模式,对于提高临床诊疗效率和水平具有重要意义。
其他文献
如实作证是证人的法定义务,是诚实信用诉讼原则的表现形式。2015年,我国通过出台司法解释的形式,将证人作证的方式进一步具体化,使证人如实作证的约束力得以加强,这也是我国
当前互联网体系架构中的不足和瓶颈日益突出,很多科学工作者和工业界人士开始关注下一代互联网通讯技术,目前已出现多种新型的网络体系架构,其中命名数据网络被认为是最有前途的项目之一。命名数据网络(Named Data Networking,NDN)解决了当前网络中IP地址不够用的问题,以及数据重复传输等问题,同时也引入了很多新的安全问题。命名数据网络为了提高数据的传输效率,利用路由器缓存数据,数据的安全
本论文以茅台酒为研究对象,研究了其香气物质组成、香韵结构以及关键香气物质间的相互作用效果。采用液液萃取法(LLE)和顶空固相微萃取法(HS-SPME)结合气相色谱嗅闻仪(GCO)和
在信息爆炸的时代,推荐系统扮演着不可或缺的角色,为人们的生活提供了诸多便利。作为人工智能领域重要的研究课题,推荐系统的研究越来越受到学术界和工业界的关注。近年来,随着技术的不断发展,深度学习在计算机视觉、自然语言处理等众多研究领域都取得了突破性进展,也为推荐系统的研究带来了新的机遇。目前,基于深度学习的推荐系统已经成为该领域的研究热点,许多深度推荐模型已经被开发出来,并被证明取得了极大的进步。然而
1977年,台湾教育部门督学徐秉琰来到彰化县秀水乡陕西村,发现陕西村村民是陕籍移民后代的若干证据,从此陕西村村民找到了自己的“根”,旅台陕西同乡也开始来此团聚,建起牌楼和陕西文物馆。继而全台掀起了一股以陕西村为代表连接两岸历史文化联系的“寻根热”。但好景不长,由于两岸关系解冻后其独特性减弱及管理不善,陕西村渐渐遇冷且遭受诸多非议。不过随着近年来陕西省各界的来访及两岸交流趋于热络,陕西村又重焕生机,
随着我国经济的快速发展以及电子商务的兴起,物流业蓬勃发展,物流公司之间竞争越来越激烈。中国物流行业发展迅速但不均衡,其中必然有发展不当之处需要借鉴国外经验,因此了解物流行业的操作过程与管理模式是十分重要的。这也是本实践报告选择物流行业相关材料的初衷。本次实践报告选取的材料来自Operations,Logistics and Supply Chain Management一书。全书共二十八万字,从中
随着我国在运载、能源、国防等领域的快速发展,对具有曲率急变曲面的复杂零件加工精度提出了更高的要求。为保证该类零件极高的加工精度,常采用测量-加工一体化闭环控制策略,
内藤湖南是近代日本中国学的代表学者之一。他在充分理解把握中国历史发展的基础之上,从文化的视角出发,研究中国问题、中日关系,形成了其独特的中国观。甲午中日战争和1899
背景及目的:背景:血清白蛋白(albumin,ALB)作为营养状况最常见的生物标志物,通常与NSCLC(non-small cell lung cancer,NSCLC)患者的预后密切相关。原因是否与对宿主免疫状态的影响有关,尤其是对免疫细胞分布的影响,仍然未知。本研究旨在通过分析影响NSCLC预后的因素及免疫状态与ALB的相关性,明确ALB对NSCLC预后的影响是否与机体免疫状态相关。研究方法:
肠道菌群在动物生长发育过程中发挥了重要作用。通过改变饮食、补充益生菌、粪菌移植等方式干预肠道菌群能够达到调节代谢、促进生长发育或治疗疾病的目的。目前有关于粪菌移