论文部分内容阅读
随着计算机技术的发展和数据库技术的成熟,数据挖掘开始走进人们的视野。兴起于上个世纪90年代,经过20多年的不断研究与完善,数据挖掘技术已经形成了一套系统的理论,并开发了一些比较成熟的数据挖掘工具,积累了大量成功的行业案例应用经验。作为数据挖掘的一项主要处理方法和重要研究课题,聚类分析技术也为众多企业和研究机构所熟知。特别是随着互联网的普及,人们的生活方式发生了很大的转变。电子邮件、微博和3G等技术使得人们信息的沟通与交流更多地依赖于网络。我们的日常生活和行为产生了大量的数据,也依赖于其中的部分数据。聚类分析为我们提供了一个方便、安全和可靠的工具,帮助我们进行信息检索、欺诈屏蔽和客观预测等。基于密度的聚类是聚类分析中的一个重要方法,很多学者对其进行了研究并提出了相应的算法,DBSCAN算法是其中的一种经典算法。本文对聚类分析技术进行了详细探讨,分析其在理论和应用上的优劣,并在DBSCAN算法的基础上,引入累积平均密度的概念,提出了一种基于DBSCAN算法的改进方案,并对其进行实验和应用测试,验证其正确性和现实意义。本文对基于密度的聚类方法做了深入细致地研究,主要内容可以概括为以下几个方面:(1)检索和查阅文献,综合了解了数据挖掘的主要概念、基本原理、处理步骤、常用技术和方法以及研究现状和应用情况。详细研究了聚类分析技术,着重介绍了各种聚类方法,并分析和总结了各自的效果和性能。(2)在数据挖掘和聚类分析相关理论的基础上,详细分析了DBSCAN算法的基本思路和存在的不足,并针对其参数敏感性和对簇相连的数据集聚类效果不理想的问题,提出了一种基于累积平均密度的改进算法,采用容纳因子来对簇合并提供依据,从而提高了聚类效果。(3)将改进算法应用到网页正文提取中,提出了一种基于密度聚类的网页正文提取模型。通过网页预处理、数据转换和聚类分析等步骤来实现网页正文提取。并编写了应用程序来对其有效性进行实验验证。研究结果表明,相比于DBSCAN算法,基于累积平均密度的聚类算法,具有一定的参数鲁棒性,并且对簇相连的数据集,能够达到很好的聚类效果。