论文部分内容阅读
粗糙集理论是1982年由波兰著名的科学家Z.Pawlak提出来的。它是一种能够有效的处理不精确,不确定性数据的数学工具,并且它还具有不需要任何的先验知识,只依赖于数据集本身等优点。粗糙集理论已成为数据挖掘、机器学习等领域研究热点之一。本文对粗糙集的主要核心问题进行了研究分析和改进,将粗糙集与传统算法加权K近邻(KNN)相结合来解决不确定性问题,并对改进后的粗糙集算法采用UCI数据集进行测试,最后,将其应用于群体异常识别中。主要工作如下:1.粗糙集规则提取。规则提取主要涉及属性值离散化、属性约简和属性值约简三个方面问题。①由于现实生活中的一些实际问题往往都是由连续型的属性组成的,而粗糙集仅适用于离散属性的信息系统。因此,为了将粗糙集能够处理不确定,不精确的问题的能力,以及不需要任何的先验知识,只依赖于数据集本身等优点充分运用到实际问题中,必须对实际问题的连续型属性进行离散化预处理工作。本文分别对基于遗传算法的连续型属性离散化方法和基于粒子群算法的连续型属性离散化方法进行了分析。遗传算法在迭代的过程中,通过选择操作保留上一代优秀个体,并通过变异操作增加种群的多样性,但其易于陷入局部最优解。粒子群算法在迭代的过程中增加了全局部分的考虑,但其收敛速度较快,并且没有保护上一代的优秀个体。基于上述分析,本文提出了基于粒子群和遗传算法相结合的连续型属性离散化方法。②粗糙集属性约简和属性值约简都是粗糙集理论研究的核心问题。本文对基于区分矩阵的属性约简算法和基于信息熵的属性约简算法进行了分析与研究,并分析了各算法存在的局限性。最后,本文对基于二进制区分矩阵属性约简算法进行了改进。③本文针对属性值约简算法主要分析了常犁云,王国胤等人提出的启发式值约简算法,其主要思想是对信息决策表中的条件属性进行逐个考察,根据条件属性的值对信息表的不同影响做出不同标记,针对不同标记作不同处理。本文对该算法提出了可能会存在潜在的问题,并对它做出相应的修改。2.在规则提取过程中,知识库中的规则一般是通过对训练数据集进行学习得到。而训练数据一般是对原始数据进行定量的抽样得到。对于不属于训练数据集,但属于原始数据集的样本来说,粗糙集是无法对它进行正确的分类。为了能够让粗糙集对未学习过的样本正确分类。本文将粗糙集与传统算法加权K近邻(KNN)进行结合,从而进一步提高了粗糙集的正确率。目前粗糙集与其他分类方法相结合也是粗糙集的研究热点之一,其主要分为两个方面:一方面,由于粗糙集可以处理不确定性的问题的能力,然而它仅仅是得到不确定性问题的区域,对该区域的进一步处理还是有赖于其他分类方法。另一方面,对于多维数据分析,其他分类方法效果并不是很好,若借助粗糙集的属性约简的能力,去除不必要的属性,降低原始数据的维数,从而能够提高其他分类方法的效率。本文对粗糙集在测试过程中,存在新样本无法识别的情况进行了分析。并提出了通过属性的重要性计算权值的加权K近邻(KNN)方法来解决。最后,将该改进后的算法用于UCI测试数据库,得到了较好的测试效果。3.将改进后的粗糙集算法应用于群体异常行为识别中,通过提取群体异常行为的特征,并对其进行离散化操作后,得到关于群体异常行为的决策表。再对该决策表进行属性约简和属性值约简,提取决策表的决策规则。最后进行预测,并分析结果。综上所述,本文主要对粗糙集属性离散化问题,提出了基于遗传算法和粒子群算法相结合的属性约简算法;对属性约简和属性值约简算法进行了分析与研究,对现有属性值约简算法提出了可能会存在潜在的问题,并提出了修改方法;粗糙集在测试过程中,针对存在新样本无法识别的情况,提出了通过属性的重要性计算权值的加权K近邻(KNN)方法来解决。最后,将改进后的粗糙集算法应用于群体异常识别中。