基于粗糙集的数据约简算法研究与应用

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:weiqiangting
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘,简单地说,就是从庞大的观察数据集中提炼并分析出不能轻易察觉或断言的关系,最后给出一个有用的并且可以理解的结论。粗糙集理论是一种处理模糊和不精确问题的数学工具。众所周知,许多实践问题不能满足现存计算机的求解条件,特别是机器学习、模式识别、人工智能等,这些困难常常使得不能建立描述个体的算法,粗糙集理论及其扩充对于建立此类个体的近似描述,提供了一种精确的数学技术。随着信息化社会的到来和知识经济的发展,信息系统中的信息量积累越来越大,解决信息系统中信息量膨胀问题不仅是信息系统本身的研究课题,而且也是Internet上的重要研究方向。信息系统约简主要是减少信息量,将一些无关或多余的信息剔除,而不影响原有的功能。将约简后的信息重新组合,产生新的决策规则,这些决策规则的前提信息和结论信息可能不同于约简前的任何一条决策规则,但它们能够经过推理而得到相同或相近的结果。本文主要介绍了数据挖掘、粗糙集等相关基本理论及其研究现状:对数据挖掘过程中的核心问题——数据约简,进行了深入分析与探讨;提出了一种基于二叉树结构的信息系统数据约简算法,该算法使得属性约简和属性值约简得以一致计算,缩短了约简时间,对于时间复杂度及空间复杂度也得以进一步降低。最后就算法的实际应用做了一定研究。本文所做的主要工作如下:(1)针对目前的有关约简算法需反复遍历决策表中各个数据项,使得时间复杂度及空间复杂度较高,针对这一现状,我们进行了认真、深入研究。(2)提出了一个主要基于二叉树结构的数据约简方法,包括属性约简与属性值约简等。该方法根据分辨函数的合取式动态建立相应二叉树,借助构造出的二叉树,最终有效地完成数据约简。(3)此外,我们设计了基于二叉树结构的数据约简算法原型系统,在此系统平台上,通过对UCI提供的多个标准测试数据集进行测试,证明该算法的有效性与优越性,并应用到教学评价系统中。
其他文献
排课问题是一个有约束的、多目标的组合优化问题,并且已经被证明是一个NP完全问题。 遗传算法借鉴生物界自然选择和自然遗传机制,使用群体搜索技术,尤其是用于处理传统搜索方
随着Internet技术和移动通信技术的迅速发展及相互渗透,各种功能强大的便携式终端不断涌现,越来越多的的用户希望能在任何地方以更灵活的方法接入Internet,分享Internet提供的丰
分布交互仿真是仿真技术和计算机网络技术相结合的产物,在经历了SIMNET、DIS、ALSP三个发展阶段之后,产生了一种全新的仿真技术框架—HLA,并于2000年成为IEEE标准。其目的是解决
随着中国电力的飞速发展,如何有效的监测电力设备状态,制定维修计划,实现高质量稳定供电已成为供电部门关注的重点。因此,围绕供电部门的迫切需求,国内外开发了种类繁多的电力设备状态检修辅助分析系统,用以监测、分析设备状态,帮助供电部门由“定期检测、定期维护”的周期性检修时代,逐步迈向了根据设备的运行状态和健康状况而执行检修的状态检修时代。现行电力设备状态检修辅助分析系统普遍存在以下缺陷:用户不能设计试验
随着计算机技术、多媒体技术的发展,附带光盘的图书越来越多,带盘图书是图书馆馆藏中新出现的一种复合型文献,对它的分类、编目、管理没有专门的国家标准。在丰富高校馆藏的同时
下一代网络NGN (Next Generation Network)是基于分组技术的网络,能提供多种业务,是适合在分组交换网上提供实时语音和多媒体业务的软交换网络。VoIP(Voice over IP)就是利用
人类的情感从心理学角度上主要指人的心理反应。西方有的学者把情感分为基本的六种:羡慕、爱、恨、欲望、愉快和悲哀。而国内一直流行着“七情六欲”之说,《礼记-礼运》说:“喜
近年来,随着多媒体技术和计算机网络的飞速发展,图像检索技术已逐渐成为一个非常活跃的研究领域。图像检索技术可以分为两类,一种是基于文本的图像检索技术(text-based image re
人脸特征检测在人脸识别,智能人机交互等诸多领域都扮演着重要的角色。为使上肢残疾的人士和计算机之间的交互变得无障碍,本论文提出了一种用摄像头代替传统手动操作鼠标作为
数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动中扮演着越来越重要的角色。随着当前IT技术、电子商务及互联网的快速发展和迅速普及,导致在各个应用领