【摘 要】
:
在现实数据库知识发现过程中,由于数据采集能力有限或数据丢失等原因,使得所面临的数据库往往是不完备的信息系统,即可能存在部分对象的某些属性值未知的情况。空缺数据的处
论文部分内容阅读
在现实数据库知识发现过程中,由于数据采集能力有限或数据丢失等原因,使得所面临的数据库往往是不完备的信息系统,即可能存在部分对象的某些属性值未知的情况。空缺数据的处理非常关键,因为不完备的数据能够使知识挖掘过程陷入混乱,导致不可靠的输出,将严重影响挖掘的效果。粗糙集理论作为一种处理模糊、不确定知识的数学方法,其显著的优点是无需提供所需处理的数据集合之外的任何先验信息,近年来已在知识发现上取得了令人瞩目的研究成果。目前,基于粗糙集理论的不完备信息系统知识发现的理论框架已基本完整,但在具体知识获取的多样性及知识质量的提高方面还需要进一步努力。本文的主要工作就是以粗糙集理论为工具,对知识发现过程中信息不完备问题的处理方法进行研究,以提高知识发现的质量和效率。不完备信息系统的知识发现有两种实现途径:一是采用数据补齐算法对缺失值进行填充,在完备化的信息系统基础上进行知识获取;二是在不改变原不完备信息系统的基础上直接进行知识获取。本文从这两种途径入手,利用粗糙集的方法,提出了两个不完备信息处理的有效算法。首先,分析了目前数据补齐算法存在的缺陷及产生这些缺陷的原因。通过对拓展粗糙集理论模型作进一步的改进,并合理引入分治思想,提出了一种新的数据补齐算法。结合理论分析和实例阐述了算法的有效性,并通过在UCI机器学习数据库中选取的两个数据集上进行实验,验证了该算法不仅能够提高补齐率,而且能显著降低算法复杂性。其次,本文在不改变原不完备信息系统的基础上,分析了现有知识约简算法的局限性,扩展定义了不完备熵概念,与传统粗糙熵结合,对不完备信息系统中的属性重要性进行了定义,并以此作为启发式信息,提出了一种优化的不完备信息系统知识约简算法,与传统方法相比能够找出更优的最小约简。通过理论和实例分析说明了算法的有效性。
其他文献
随着计算机和数字技术的快速发展,数字图像已成为计算机视觉领域的重要存储和视觉信息传递的方式。但在实际成像过程中,由于受客观条件等因素的影响,使得最后获取的图像往往
由于多种原因,高校中的实验教学效果普遍较差,特别是IT行业。教材中的内容-般都落后于实际科学技术的发展,许多在实际工作中应用的技术,无法从教材中学到。由于资金短缺,仪器
近年来,随着Internet的迅速发展,网络安全问题显得日益突出。目前,网络上的攻击方式逐渐呈现出一些新特点,从以前大规模的,无特定目的的网络攻击转为小规模的,针对特定用户和
近年来,随着全球信息化进程不断深化,尤其是计算机网络技术的快速发展,基于Internet的电子商务发展迅猛,引起了产业界和学术界的极大关注。支付作为商务活动的一个重要环节,能否较
中国贸易地图从市场供给与需求相结合的角度对贸易和市场状况进行分析,并把供给与需求两种因素放在同一图表上表现出来,使抽象的贸易和市场分析理论变得直观易懂。应用贸易地
“校园网可信运行保障系统接入控制研究”是北京市科委计划项目“校园网可信运行保障系统研究”的子课题,它是基于可信网络架构思想提出的。校园网可信运行是指通过对校园网
好友推荐算法的研究与应用是关于社会化网络推荐的一个热点问题。传统的好友推荐算法有基于共同好友的推荐和基于物品的协同过滤推荐,虽然两者的性能在特定的情景得到了业界
普适计算自20世纪90年代起至今,已取得了长足的发展。从普适计算的定义可以看出,“随时随地”和“透明”是普适计算的本质要求,这两个本质要求同时都具有动态性和模糊性这两
烟气脱硫系统具有强藕合性、不确定性、非线性和大纯滞后等特征,是过程控制中一种典型的控制对象。通过对烟气脱硫控制系统的研究,可以提供烟气脱硫控制系统在工业过程控制中的理论研究和实际应用指导。本文针对火力发电厂烟气脱硫控制系统的特征以及PKS系统自带的算法库并不能很好的解决所遇到的问题,设计了基于参数自校正的模糊PID控制系统,主要研究内容包括以下几个方面:本文首先介绍了国内烟气脱硫系统控制技术的发展
随着Internet和Web技术的发展,WWW已经发展成为包含多种信息资源、站点遍布全球的巨大动态信息服务网络,为用户提供了一个极具价值的信息。通过Internet和Web技术,人们可以很