基于粗糙集分类算法的研究及应用

来源 :广西师范大学 | 被引量 : 3次 | 上传用户:star010lxl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集理论是1982年由波兰著名的科学家Z.Pawlak提出来的。它是一种能够有效的处理不精确,不确定性数据的数学工具,并且它还具有不需要任何的先验知识,只依赖于数据集本身等优点。粗糙集理论已成为数据挖掘、机器学习等领域研究热点之一。本文对粗糙集的主要核心问题进行了研究分析和改进,将粗糙集与传统算法加权K近邻(KNN)相结合来解决不确定性问题,并对改进后的粗糙集算法采用UCI数据集进行测试,最后,将其应用于群体异常识别中。主要工作如下:1.粗糙集规则提取。规则提取主要涉及属性值离散化、属性约简和属性值约简三个方面问题。①由于现实生活中的一些实际问题往往都是由连续型的属性组成的,而粗糙集仅适用于离散属性的信息系统。因此,为了将粗糙集能够处理不确定,不精确的问题的能力,以及不需要任何的先验知识,只依赖于数据集本身等优点充分运用到实际问题中,必须对实际问题的连续型属性进行离散化预处理工作。本文分别对基于遗传算法的连续型属性离散化方法和基于粒子群算法的连续型属性离散化方法进行了分析。遗传算法在迭代的过程中,通过选择操作保留上一代优秀个体,并通过变异操作增加种群的多样性,但其易于陷入局部最优解。粒子群算法在迭代的过程中增加了全局部分的考虑,但其收敛速度较快,并且没有保护上一代的优秀个体。基于上述分析,本文提出了基于粒子群和遗传算法相结合的连续型属性离散化方法。②粗糙集属性约简和属性值约简都是粗糙集理论研究的核心问题。本文对基于区分矩阵的属性约简算法和基于信息熵的属性约简算法进行了分析与研究,并分析了各算法存在的局限性。最后,本文对基于二进制区分矩阵属性约简算法进行了改进。③本文针对属性值约简算法主要分析了常犁云,王国胤等人提出的启发式值约简算法,其主要思想是对信息决策表中的条件属性进行逐个考察,根据条件属性的值对信息表的不同影响做出不同标记,针对不同标记作不同处理。本文对该算法提出了可能会存在潜在的问题,并对它做出相应的修改。2.在规则提取过程中,知识库中的规则一般是通过对训练数据集进行学习得到。而训练数据一般是对原始数据进行定量的抽样得到。对于不属于训练数据集,但属于原始数据集的样本来说,粗糙集是无法对它进行正确的分类。为了能够让粗糙集对未学习过的样本正确分类。本文将粗糙集与传统算法加权K近邻(KNN)进行结合,从而进一步提高了粗糙集的正确率。目前粗糙集与其他分类方法相结合也是粗糙集的研究热点之一,其主要分为两个方面:一方面,由于粗糙集可以处理不确定性的问题的能力,然而它仅仅是得到不确定性问题的区域,对该区域的进一步处理还是有赖于其他分类方法。另一方面,对于多维数据分析,其他分类方法效果并不是很好,若借助粗糙集的属性约简的能力,去除不必要的属性,降低原始数据的维数,从而能够提高其他分类方法的效率。本文对粗糙集在测试过程中,存在新样本无法识别的情况进行了分析。并提出了通过属性的重要性计算权值的加权K近邻(KNN)方法来解决。最后,将该改进后的算法用于UCI测试数据库,得到了较好的测试效果。3.将改进后的粗糙集算法应用于群体异常行为识别中,通过提取群体异常行为的特征,并对其进行离散化操作后,得到关于群体异常行为的决策表。再对该决策表进行属性约简和属性值约简,提取决策表的决策规则。最后进行预测,并分析结果。综上所述,本文主要对粗糙集属性离散化问题,提出了基于遗传算法和粒子群算法相结合的属性约简算法;对属性约简和属性值约简算法进行了分析与研究,对现有属性值约简算法提出了可能会存在潜在的问题,并提出了修改方法;粗糙集在测试过程中,针对存在新样本无法识别的情况,提出了通过属性的重要性计算权值的加权K近邻(KNN)方法来解决。最后,将改进后的粗糙集算法应用于群体异常识别中。
其他文献
目前,随着社会科技的不断进步,我国的医疗服务行业发展迅速,极大的满足了广大人民群众日益增长的医疗消费需求。在当前信息科技不断进步,无线信息传送网络不断完善的同时,医
近年来聚氨酯行业发展迅猛,国内从事聚氨酯工业的企业已经达到数百家。但在生产控制方面,很多企业仍然采用仪表控制、人工填料方式,所生产产品的质量无法得到保证,生产安全性
ARINC429总线是目前航空电子系统中使用最广泛的串行通信数据总线之一。基于USB接口的ARINC429接口卡,充分利用了USB总线的传输速度快、使用方便、成本低廉和FPGA可配置、使
随着无线通信技术的飞速发展,频谱缺乏已经成为一个非常严重的问题。感知无线电(Cognitive Radio)技术能有效解决频谱紧张的现状。感知无线电技术是无线移动通信领域的一种革
模型预测控制是一种基于模型的先进控制技术。它产生于工业过程控制的实际需要,并在与工业应用的紧密结合中不断发展和进步。相对于其他传统的控制策略,预测控制具有相当大的优
数据挖掘是数据库研究、开发和应用中最活跃的分支之一。近年来出现了一种称为数据流挖掘的新应用,这种应用中的数据是以流的形式产生的,如传感器数据、网页点击流、实时监控
RS码是一类具有很强纠错能力的纠错码,特别是在纠正随机错误和突发错误方面性能优越,因而广泛应用于各类通信系统中,并在卫星通信中起着非常重要的作用。但是由于硬件实现译码器
正交频分复用(OFDM)技术,具有较高的频谱利用率和抗多径干扰性能,在数字通信领域得到了快速的发展。在OFDM技术广泛应用的过程中,过高的峰均功率比(PAPR)问题越来越受到人们
随着科技的发展和人们安全意识的提高,对快速有效的身份鉴别的需求日益迫切。人脸相比于其他人体生物特征具有直接、友好、不具侵犯性等优点,因此人脸图像识别成为身份鉴别的
纸币号码的唯一性可以用来标识纸币的身份,利用嵌入式技术和数字图像识别技术对纸币号码识别系统进行研究,以实现纸币号码的自动识别和对金融流通领域的监管。本文从整体性的