基于累积平均密度的聚类算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:zhangyan820923
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展和数据库技术的成熟,数据挖掘开始走进人们的视野。兴起于上个世纪90年代,经过20多年的不断研究与完善,数据挖掘技术已经形成了一套系统的理论,并开发了一些比较成熟的数据挖掘工具,积累了大量成功的行业案例应用经验。作为数据挖掘的一项主要处理方法和重要研究课题,聚类分析技术也为众多企业和研究机构所熟知。特别是随着互联网的普及,人们的生活方式发生了很大的转变。电子邮件、微博和3G等技术使得人们信息的沟通与交流更多地依赖于网络。我们的日常生活和行为产生了大量的数据,也依赖于其中的部分数据。聚类分析为我们提供了一个方便、安全和可靠的工具,帮助我们进行信息检索、欺诈屏蔽和客观预测等。基于密度的聚类是聚类分析中的一个重要方法,很多学者对其进行了研究并提出了相应的算法,DBSCAN算法是其中的一种经典算法。本文对聚类分析技术进行了详细探讨,分析其在理论和应用上的优劣,并在DBSCAN算法的基础上,引入累积平均密度的概念,提出了一种基于DBSCAN算法的改进方案,并对其进行实验和应用测试,验证其正确性和现实意义。本文对基于密度的聚类方法做了深入细致地研究,主要内容可以概括为以下几个方面:(1)检索和查阅文献,综合了解了数据挖掘的主要概念、基本原理、处理步骤、常用技术和方法以及研究现状和应用情况。详细研究了聚类分析技术,着重介绍了各种聚类方法,并分析和总结了各自的效果和性能。(2)在数据挖掘和聚类分析相关理论的基础上,详细分析了DBSCAN算法的基本思路和存在的不足,并针对其参数敏感性和对簇相连的数据集聚类效果不理想的问题,提出了一种基于累积平均密度的改进算法,采用容纳因子来对簇合并提供依据,从而提高了聚类效果。(3)将改进算法应用到网页正文提取中,提出了一种基于密度聚类的网页正文提取模型。通过网页预处理、数据转换和聚类分析等步骤来实现网页正文提取。并编写了应用程序来对其有效性进行实验验证。研究结果表明,相比于DBSCAN算法,基于累积平均密度的聚类算法,具有一定的参数鲁棒性,并且对簇相连的数据集,能够达到很好的聚类效果。
其他文献
混杂系统是连续变量动态系统和离散事件动态系统的混合体,而且两者之间相互影响,相互作用。分段非线性系统是指由一组简单的连续动态线性系统模型近似描述原本复杂的非线性系
视觉系统作为水下机器人的设计开发中的一个重要环节,在水下作业中发挥着重要作用。视觉系统可以用来对采集到的水下图像进行处理,其处理结果可以用来引导水下机器人的水下活
在本论文中,我们主要研究了几类非线性双曲抛物耦合的演化方程组解的整体适定性,得到了一些有理论价值的结果。本文共分为六章:   第一章是引言,主要介绍了所研究问题的相关背
目前针对高炉和高炉炉顶煤气余压回收透平发电装置TRT(Top Gas Pressure Recovery Turbine Unit),我国钢铁企业广泛采用各自为政的独立优化控制模式,当矿石成分波动或其他干
随着社会发展和科技进步的需要,服务机器人的应用研究日益受到人们的重视,各式各样的服务机器人已经出现在人们生活的各个领域。服务机器人的智能化水平越来越高,功能也越来
随着进入日新月异的信息科学技术时代,网络视频业务已经成为当前互联网的重要应用之一。视频流媒体被广泛的应用于在线视频,交互式网络电视,移动电视服务。许多设计上的挑战,例如
目前高精密光机电系统在很多领域得到了广泛的应用,由于这些领域的控制精度要求越来越高,这也促进了很多能实现精密控制目的特殊材料的发展,其中压电陶瓷微位移驱动器是近年来发
近些年来,我国社会主义事业飞速发展,工程机械的使用越来越频繁。工程机械中的控制器是整个机械结构的大脑,决定了机械本身的操作性能和安全性能。本文以实际应用项目为背景,
随着互联网中新型应用的不断出现和人们对网络服务需求的不断增加,基于TCP/IP传统互联网架构在移动性、扩展性等方面表现出各种各样的不适应性,尤其是在当前持续增加的以数字媒
船舶在海中安全航行、停靠码头需要有良好的操纵性能。船舶舵机装置是操控船舶航行完成船舶直航、转向功能,是保证船舶安全航行的重要装置,液压舵机作为船舶的动力转向系统是船