论文部分内容阅读
在大数据时代,每一个行业领域都会产生海量的数据,如何从这些数据中挖掘出有效的信息,就成为了我们所面临的巨大挑战。高效的聚类算法不仅是数据挖掘的基础,也是提取有用信息的一种重要手段,更是当前的热点研究课题。2014 年 6 月,一篇题为《Clustering by fast search and find of density peaks》的文章刊登在《Science》杂志,该论文介绍了一种新的聚类算法——密度峰值聚类算法,该算法是一种简洁、高效的聚类算法,已成功应用于多个领域。但是,该算法也存在着以下问题:(1)在计算局部密度时需要根据研究者的经验来确定截断距离;(2)对样本局部密度的计算方法过于简单;(3)对剩余样本点采用的是“一步”分配机制,该机制产生错误分配的几率较高。本文针对密度峰值聚类算法存在的不足之处进行了深入研究,并在此基础上进一步优化改进,具体研究内容和研究结果如下所示:1.提出了物理学优化的密度峰值聚类算法(W-CFSDPC算法)。该算法的主要目的在于尽可能地提高聚类质量。首先,在物理学的启发下,从力学角度重新分析密度峰值聚类算法,使其充分体现出数据自发产生的聚合与离散,并较好地实现不同学科之间的交叉与融合,基本的设计思想就是万事万物之间都是具有一定的相互作用力,不同规模数据集的样本点之间也是具有一定的作用力,根据万有引力定律重新定义计算样本的局部密度,最大限度的考虑样本点所处的周围环境;然后,利用第一宇宙速度的定义,将其改进计算剩余样本点与每一个类簇质心之间的“作用力”,以此将剩余样本点分为必须属于点和可能属于点这两种情况,不同的情况采用不同的分配机制;最后,将本文算法与五种聚类算法逐一进行对比,数值试验结果表明:本文算法是一种良好的聚类算法,不仅能够精准识别类簇质心的位置,而且对剩余样本点的分配也比较准确。2.提出了一种基于最佳邻居方差平衡的密度峰值聚类算法(F-CFSDPC算法)。首先,该算法是在最佳邻居方差平衡方法的启发下,通过研究数据点所处的平衡状态,在此基础上将最佳邻居的思想融入到密度峰值聚类算法中,利用最佳邻居方差平衡方法自适应地确定截断距离,减少人为因素所导致的不确定性;然后,依据数据点的最佳邻居构建树,通过构造树及分解树等操作,达到剩余样本点的快速精准分配;最后,将F-CFSDPC算法与SNN-CFSDPC算法、FKNN-CFSDPC算法、CFSDPC算法等进行实验对比,实验结果表明:F-CFSDPC算法在F-measure和FMI指标上较其余算法都有所提高,聚类质量较优。