论文部分内容阅读
聚类分析在传统意义上面就是准确的将数据集中的所有点放入到其中一个类中,这就是硬划分。但是模糊性却是存在很多事物的各种属性中的,也就是说事物之间没有明确的判断依据,无法准确的进行事物的划分判断,这个时候模糊聚类就发挥了自己的作用。现在,模糊C均值(fuzzy C-means, FCM)聚类算法是在日常生活中应用最广泛的一种模糊聚类算法。在近些年来数据挖掘方向出现了很多的算法,针对现在社会的数据的爆炸式的增长,这些算法参差不齐,而网络上的各种信息也是每一天都是在与日俱增。在这些算法中FCM也算是一个比较出色的算法,虽然很早就被人们给提出来,并且被人们演化出很多的相关优秀的算法。模糊c均值聚类算法是聚类分析和模糊理论共同发展所诞生的产物。模糊理论(Fuzzy Theory)在模糊集合之上,是进行描绘和分析人类特有的语言的模棱两可的信息。然后来介绍一下聚类分析,聚类就是对事物进行分类,但是根据一些具体的准则进行分类的。在这个分类的过程中是没有经验,没有老师指导,全部依靠事物之间的相似性来进行划分,所以这是一个无监督分类范畴下的。聚类分析就是将事物进行分类在这期间使用数学方法进行实现的。聚类分析主要含有四个方面,包括基于等价关系的聚类方法、图论聚类法和基于目标函数的聚类方法、谱系聚类法。除了基于目标函数的这种的聚类方法之外其他3种方法都不能很好的适应大量数据,所以这也就突出了基于目标函数的现实研究意义。众所周知,在FCM算法和一些FCM算法的改进算法中,是对这个聚类的过程的属性假设其对结果的影响是相同的,这个假设对算法是有比较好的意义。但是在现今的社会,数据量日益庞大,数据的复杂度也是成直线上升。原来对聚类过程的属性的影响假设已经不能适应现今的需求。在如今的高维数据面前,很多的属性其实是一种噪声数据,一种对结果会起到反作用的数据。这种属性也有可能是对结果毫无作用,这些属性我们不能简单的将其假设成为对结果影响相同的属性。因为在数据中不同的属性对聚类的结果有着不同的作用,每个属性有可能有着不同的用途。所以对数据中的属性分析和属性在聚类过程中的影响了解,在现在聚类分析中显得尤为重要。本文主要在模糊c均值聚类的基础上加入权值、半监督点密度和在计算机取证中的应用展开研究。(1)加入权值。在实际的应用中属性值得权值十分重要,本章提出了一种新的模糊c均值聚类算法(New Fuzzy c-means, NFCM)。本算法可以使每个属性的权值计算出来,并能将不是显性的类结构提取出来。(2)加入半监督点密度。每一个团状或者类数据数目相差的比较大的情况下,模糊c均值聚类算法在这个时候就不能很好的处理好,以至于现在出现的半监督学习的FCM算法也是不能很好的处理这个问题。他们不能对数据很好的划分,因为他们是对数据的等划分,这些是半监督学习的模糊c均值聚类算法在这个些方面的缺陷,这就促使FCM算法中加入半监督加权的产生。半监督点密度FCM算法的产生是在前面两种算法的基础上,半监督点密度FCM算法是以数据样本集的点密度加上权值进行计算的,这样就能将模糊FCM算法和半监督学习的FCM算法的弊端,对数据样本进行了等划分进行了改进,这样就能对数据有区别的进行划分。(3)在传统的取证分析中,是从已知的可见的数据中获取有效信息。而计算机取证分析是从海量的各种类型的电子数据中获取有用的信息。这个过程人工是无法很好的完成的,需要借助计算机系统,从中筛选出与计算机犯罪有关的证据数据。本文主要应用基于主成份分析的模糊聚类算法,对电子证据进行有效地聚类以便于更深入分析研究。计算机取证是在应用计算机技术来获取、调查和分析计算机犯罪的技术。