论文部分内容阅读
近年来,随着大数据人工智能技术的高速发展,人们的生产生活方式发生了翻天覆地的变化。手机支付、网络直播、视频传播、共享单车、网络购物以及人工智能等已渗入到人们生活的方方面面,成为人们关注的热点问题,而由此产生的数据量也发生了爆炸式地增长。聚类分析,作为数据挖掘技术的重要分支,是统计分析学科中的一项重要技术,也是一种无监督的机器学习方法。其在无任何先验信息的条件下,可以自主探究数据内在的结构信息和相似关系,使得同一类簇内的数据相似性较大,不同类簇的数据差异较大。因此,可以借助聚类分析挖掘出这些海量数据中包含的无组织但有价值的信息,进行相关实验研究,促进社会发展。Alex Rodriguez等人于2014年在Science上提出了一种基于快速搜索和发现密度峰值的聚类算法(Clustering by fast search and find of density peaks,简称DPC)。该算法重新定义了类中心的概念,将数据映射到一个二维空间上(局部密度和最近距离),并在新的空间上进行类中心的识别和类的分组。DPC算法能够快速地发现任意形状数据集的密度峰值点,并能高效地进行样本点的分配和离群点的剔除。该算法自提出以来就在社区发现、图像处理、计算机视觉以及文本处理等领域得到应用,受到了各行各业的广泛认可。然而,随着对DPC算法的深入研究,其也暴露了一些应用上的不足。该算法没有统一的密度度量准则、参数d_c较难直接确定、聚类中心需人工选择、样本分配易导致错分结果连续传递、无法有效处理复杂流形以及密度差异化数据集等等。为获得更好的应用效果,本文提出了两种聚类优化算法,并将新算法运用到电子病历的文本挖掘研究中。首先,针对密度峰值聚类算法在处理密度差异的数据时,无法有效度量位于低密度区域内数据点的密度峰值,错误地将稀疏低密度类簇归类于密集高密度的类簇中。提出了一种基于相对密度优化的密度峰值聚类算法,重新定义了样本点的局部密度和剩余点的分配方式,较好地解决了低密度区域样本的识别问题,扩展了密度峰值聚类的研究方法。其次,针对密度峰值聚类算法在处理多密度型和复杂流形的数据时,无法有效识别类簇中心,错误地将一个类簇分割或是将两个类簇合并。基于密度峰值聚类算法和DBSCAN算法的启发,利用共享近邻重新定义了样本点的局部密度,并借助DBSACN算法核心点和近邻连接的思想进行聚类分析。此外,尝试性地将非参数统计检验用到子类的合并中,提出了一种基于共享近邻和统计检验的聚类算法,有效地弥补了密度峰值聚类无法有效处理复杂流形数据的缺陷。最后,在互联网医疗迅速兴起,医院数字信息化,纸质病历逐渐被丢弃导致积累了海量电子病历的背景下,将经典DPC算法和本文改进算法用到电子病历的文本挖掘中,验证优化算法在文本挖掘聚类分析中的有效性,以期实现对医院积累的电子病历文本数据的分析,发现其中蕴藏的疾病特征以及对应的诊疗模式。实验结果表明,本文在保留DPC算法优点的同时,通过汲取其他算法的优势和统计检验的思想,针对密度可变的数据、结构不规则的数据以及复杂流形的数据,提出的两种密度峰值优化算法很大程度上提高了聚类精度,增强了参数鲁棒性。在电子病历的文本挖掘中,本文优化算法较好地完成了聚类工作,对于提高临床诊疗效率和水平具有重要意义。本文创新之处主要表现在三个方面,第一,针对密度峰值聚类算法在处理密度可变、多密度型和复杂流形的数据时效果不佳,提出了两种密度峰值优化算法,较好地解决了低密度区域和复杂流形数据的问题,扩展了密度峰值聚类的研究方法。第二,由于聚类分析的特殊性与复杂性,缺乏显著性检验,分析过程不够完整。通过汲取其他算法的优势和统计检验的思想,本文尝试性地将非参数检验用于类簇的合并当中,取得了较好的效果,为聚类分析提供了一种新的视角和方法。第三,将改进的算法用到电子病历的文本挖掘中,以期实现对医院积累的电子病历文本数据的分析,发现其中蕴藏的疾病特征以及对应的诊疗模式,对于提高临床诊疗效率和水平具有重要意义。