基于不完备信息系统的粗糙集模型的扩展和属性约简算法的研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:mx520ht
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Z.Pawlak于1982年提出来的粗糙集理论是一种描述不完整性和不确定性知识的数学理论工具,该理论已被应用于智能计算技术领域研究中,不仅如此,还被广泛的应用到KDD中的数据挖掘中、文本分类中等各种领域。许多应用领域的数据不仅种类复杂,而且由于各种原因的影响导致数据信息是不完备的,这对于粗糙集的进一步研究也带来了新的挑战。比如,决策粗糙集模型作为一种扩展模型,可以被用来处理多种类型的数据,但是,目前已提出的决策粗糙集模型还未对不完备连续型的数据进行研究;又比如,对于非平衡数据,可以通过边界区域来定义属性重要度,进而在此基础上进行属性约简算法的研究,但是该算法只能处理完备混合信息系统下的非平衡数据,不适合用来处理含有缺省值的非平衡数据。针对所提出的这两个问题,本文在不完备的信息系统基础上,对已提出的粗糙集模型进行改进,并在新的模型下提出相对应的属性约简算法。本文所研究的主要内容大致如下:(1)本文首先针对不完备的连续型数据来进行研究,提出一种新的不完备的邻域决策粗糙集模型。具体过程可被描述为:首先在不完备的连续型数据中引入一个不完备的邻域关系,然后利用该二元关系对传统的决策粗糙集进行重构,一种称之为不完备邻域决策粗糙集的模型被提出,同时基于决策代价原则,文中进一步地提出了最小化决策代价的属性约简算法。最后通过实验表明了所提出的算法具有更高的属性约简性能。(2)本文又针对不完备混合型信息系统下的非平衡数据进行研究,提出一种基于不完备混合型信息系统的非平衡数据属性约简。具体过程可被描述为:文中首先将传统的粗糙集模型进行推广,提出适用于不完备混合型信息系统的粗糙集模型;然后基于数据的非平衡性,根据上下边界区域和类分布的不均匀性定义了一种新的属性重要度;最后在基于区分矩阵的基础上设计出一种非平衡数据的属性约简算法。最后通过实验证明该算法针对不完备非平衡数据的属性约简具有一定有效性和优越性。本文的创新点主要概括如下:(1)提出一种不完备邻域决策粗糙集模型,同时基于决策代价原则,定义了关于该模型的属性约简方法,即先根据贝叶斯决策规则得到对象采取三种行为的决策代价,然后定义出整个决策类在某个属性集下的总决策代价,最后基于最小代价的评估准则下,采用启发式属性约简中的添加式搜索策略进行属性约简。(2)由于目前的信息系统中含有非平衡的数据,根据完备信息系统中处理非平衡数据的方法,提出了一种可将非平衡数据应用到不完备信息系统中的粗糙集模型。此模型结合了邻域容差类和边界区域的定义以及不均匀分布类,定义出新的属性重要度,在区分矩阵的基础上计算出属性约简集。
其他文献
随着我国汽车保有量的不断增加,汽车尾气已经成为大气污染的主要来源。汽车尾气作为城市空气污染和光化学污染的重要原因之一,直接影响人们的身体健康。为了实现对汽车尾气排放的有效治理,制定汽车尾气识别和控制的标准,需要对汽车的尾气进行有效的检测。汽车尾气遥感设备检测对象包含汽车尾气中的CO、CO2、NO、HC以及PM(颗粒物),不同污染气体的检测使用到了不同的检测技术和检测器件,CO、CO2的检测使用的是
电路系统发展面临着运行速度不断加快,电路集成度不断增高,数据吞吐量不断增大的高要求。随之而来的是电路系统的尺寸越来越小,集成电路数目也不断增加,电路板上的组件和走线更加密集。高速电路系统中互连线不合理布局带来了严重的信号完整性(Signal Integrity,SI)问题。组件密集分布放大了电源噪声导致了电源完整性(Power Integrity,PI)问题。怎样在保证系统的SI和PI性能不恶化的
传感器技术作为重要的信息获取手段,被广泛应用于环境保护、机械加工、医疗检测等领域。随着传感器功能的不断丰富,越来越多的新型功能在传感器设计过程中被考虑进去,其中柔性可穿戴和健康检测传感器在近年来得到了广泛关注。探索一种低成本、耐用的可穿戴式传感器和无污染、高效的健康检测传感器已成为当下的研究热点。本文主要研究内容如下:(1)基于湿法纺丝方法制备了PEDOT:PSS纤维,对其微观结构以及制备过程进行
如今人工智能(Artificial Intelligence,AI)发展快速,各个方向都随之出现了极大的变化。尤其是深度学习出现,使得影像相关的方向出现了较大的突破,生物医学图像分割(Biomedical Image Segmentation,BIS)领域也随之迅速发展。但是目前BIS算法到应用依然相差很远,主要问题是分割精度不高、分割算法鲁棒性较差等问题。影响BIS精度的方面有很多,总体可以概括
玉米是我国种植范围最大的农产品之一,玉米的年产量以及品质对种植玉米的农民经济收入有着巨大的影响。随着气象变迁,玉米在栽培过程中通常会出现各种病害,只有尽快发现病害,才能及时地进行快速防控。然而传统的机器学习技术对玉米叶部病害的识别不仅需要人工选择、提取病斑的特征,而且需要耗费一定的时间和财力。不同玉米病害的特征对病害识别的贡献程度有很大差异,人工选择特征的结果往往影响着识别精度,并且人们很难确定哪
传统无线传感器节点采用电池供电,但在一些高危、偏僻的地方,频繁更换电池较为不便,造成运营成本较高。射频能量收集技术可以很好地克服传统方法的弊端,它通过收集环境中的射频能量,转化为直流能量,进而给传感器节点供电。已存在的射频能量收集系统大多受工作带宽和灵敏度的限制,无法收集到更多的能量。本文聚焦于宽带和高灵敏度,设计一款高灵敏度宽带整流器,并设计一款宽带全向天线进行系统测试。本文的主要工作如下:(1
时域有限差分算法(Finite-Difference Time-Domain,FDTD)是电磁研究中极为重要的数值算法。随着电磁研究的深入,FDTD算法的计算规模随之扩大,该算法对计算效率的需求也不断提高。FDTD算法可以通过并行计算和图形处理器(Graphics Processing Unit,GPU)等软硬件方式提高运算效率。其中有些方式采用半精度和单精度计算时效率极高,却不支持双精度计算。此
近年来,随着数字化、网络化的发展和人工智能技术的普遍应用,医疗行业已经积累了大量的数据,相应地建立起了庞大的医学数据库,为医学诊断和信息学深度交叉融合提供了良好的数据基础。胃癌是多见的消化系统疾病之一,手术是目前仅有的能治愈的方法,早期被诊断为胃癌的患者可凭借根治性手术获得较好的预后。然而,进展期胃癌患者要根据癌症分期考虑手术的必要性,再配合化疗或放疗,以延长生存时间。在对胃癌进行预后时,临床医生
物流产业是国家经济发展的基础性产业之一,融合了仓库存储、货运代理、货物运输等相关产业。现代物流的发展需要对这些环节的各个方面进行优化,而运输容器内空间的布局优化是其中相对重要的一环。本文研究了差异容量多容器三维装载问题,在问题中考虑了物品装载的几何约束、容器载重约束、物品的放置约束以及物品“先进后出”约束。并假设了物品都是长方体,且物品质量分布均匀。本文对此的研究内容如下:论文首先给出问题描述及其
粮食是人类赖以生存的物质,是国家的重要战略物资,农业的发展要放在一切经济发展的首要位置。当前国际上各个国家粮食危机频发,我国粮食能在自给自足的情况下保有一定的粮食库存,粮食安全对人民幸福、国家昌盛有着重要影响,直接关乎社会稳定。近年来,我国粮食产量逐年增加,国家对粮食的储存提出了更高的要求,并提出“藏粮于地,藏粮于技”战略。在智能仓储管理系统中,仍然存在测控设备管理不善、监测系统功能不全等问题。为