论文部分内容阅读
随着信息产业的快速发展,人们迫切需要将大规模数据转换成有用的信息和知识,获得数据间的内在关系和隐含的信息。数据挖掘正是为了解决这一难题而提出的,它结合了统计学、数据库、人工智能、机器学习等技术,并逐渐成为研究的热点。聚类分析是数据挖掘的一个重要研究领域,它是一种无监督的学习方法,通过一定规则将数据按照定义的相似性划分为若干个类,这些类由许多性质相似的数据点构成的,同一个类中的数据彼此相似,与其它类中的数据相异。聚类融合算法是聚类分析中一个新兴且重要的研究方向。聚类稳定性、准确性和有效性是聚类分析领域中被广泛研究的问题。本文较为系统地分析和研究了聚类融合算法及其在入侵检测方面的应用,藉着分类器组合的思想,提出了一个融合聚类结果的决策机制。首先为了克服传统聚类算法仅在划分某些特定数据集时效果较好的不足和难以确定聚类数的问题,介绍一种基于信息累积的聚类融合算法EA(Data Clustering Using Evidence Accumulation)。然后针对传统聚类算法和信息累积算法的不足,提出基于模糊KNN的聚类融合算法FNCE(ClusteringEnsemble based on the Fuzzy KNN Algorithm),采用对多次运行模糊KNN的结果进行融合的方法,累积单次相似信息形成数据间的相似度,从而降低某些不稳定的聚类结果给整个聚类划分结果带来的影响。该方法降低了单一聚类算法受数据分布形状、数据输入顺序、参数变化等因素的影响,提高聚类的准确度,使聚类结果不易陷入局部最优;同时可以根据数据类与类之间的相似度自动确定合适的聚类数,通过实验分析验证了算法的有效性。入侵检测是计算机安全问题中一个重要的研究课题。由于网络攻击越来越多样化、综合化以及检测环境的多变性,使得用单一聚类方法进行检测受到一定局限,或者不能检测某些未知入侵,或者检测率不高,不能有效检测异常入侵。基于以上聚类融合方法的研究,提出基于聚类融合的异常入侵检测模型FNIDM(AnIntrusion Detection System Based on the FNCE),通过实验分析验证了模型的有效性。