论文部分内容阅读
聚类分析是数据挖掘领域中的一项重要内容,也是研究的热点。聚类分析能够发现数据的内在分布,也可以作为数据预处理技术,如离群点检测等。聚类分析被广泛用于信息检索、趋势分析、遥感图像等。本文在深入研究聚类分析中的网格划分及边界点提取问题的基础上,提出加权平均密度和自适应容纳阈值概念。然后以这两个概念为基础,对基于网格的密度聚类算法的网格划分方法、聚类边界点提取方法和算法基本思想加以改进,构造基于网格的加权平均密度自适应聚类算法。本文的主要研究内容如下。(1)阐述了数据挖掘含义;论述了数据挖掘所发现的知识、数据挖掘功能、数据挖掘系统组成及其挖掘过程。在此基础上,讨论了聚类分析的基本含义、应用要求和常用算法。分析了传统网格聚类算法和几种改进网格聚类算法的网格划分方法、算法基本思想和各自的优缺点。(2)根据聚类过程中网格尺度变化方式,提出了将网格划分分为均匀网格划分、边长自适应网格划分和区域自适应网格划分的一种新的网格划分分类方法,分析了这3种网格划分方法各自特点并进行了相互比较;根据聚类过程中两种不同密度计算方式,提出了将边界点提取方法分为窗口延伸法和k-近邻延伸法的一种新的边界点提取分类方法。分析了这2种边界点提取方法各自特点并进行了相互比较。(3)提出了加权平均密度和自适应容纳阈值概念。然后以这两个概念为基础,对基于网格的密度聚类算法的网格划分方法、聚类边界点提取方法和算法基本思想加以改进,构造了基于网格的加权平均密度自适应聚类算法。(4)在构造基于网格的加权平均密度自适应聚类算法的算法步骤的基础上,对该算法进行了实验仿真,包括有效性验证、参数变化对聚类结果具有影响的例证、时间性能测试。然后将改进算法与SCI算法对簇不相连数据集聚类结果及簇相连数据集聚类结果进行了比较,验证了改进算法能降低参数敏感性、提高聚类准确率、提升簇相连数据集聚类的有效性。最后将改进算法应用于入侵检测中,证明了改进算法对网络入侵数据集的聚类有较高的准确率。最后,对本文的工作进行了总结并对今后可能的研究方向进行了展望。