【摘 要】
:
随着数据库技术、数据仓库技术的迅速发展,存储的数据急剧增长,传统的数据分析和查询方法已经不能满足人们对隐含在数据中的知识的渴求。知识发现是研究如何快速、准确地从杂
论文部分内容阅读
随着数据库技术、数据仓库技术的迅速发展,存储的数据急剧增长,传统的数据分析和查询方法已经不能满足人们对隐含在数据中的知识的渴求。知识发现是研究如何快速、准确地从杂乱无章的海量数据中挖掘潜在的有利用价值的信息,并用于预测未来的行为。1982年,波兰学者Pawlak.Z提出了粗糙集理论,作为一种新的数据挖掘方法,能在保持分类能力不变的情况下,通过属性约简,达到知识获取并简化知识的目的,成为新的热点研究问题。然而粗糙集的属性约简是一个NP-hard问题,常见的启发式属性约简算法有基于差别矩阵的约简算法、基于属性重要度的约简算法、基于信息熵的约简算法和基于遗传算法的属性约简。本文介绍了两种改进的启发式属性约简算法,其一是改进的差别矩阵DMI算法和属性频率作为重要度相结合的算法,能大幅度降低差别矩阵的计算量;其二是无需求核的基于条件熵的属性约简算法,对于无核属性的决策表,根据每个属性加入约简集之后求其相对于决策属性的条件熵是呈递减特性,从而求得相对约简。通过实例分析了这两种算法的执行过程和可行性,也提出了它们的局限性。为了解决决策表中不相容的数据问题,本文提出了一种新的属性约简算法:首先基于等价类划分的方法,重新划分条件属性相同而决策属性不同的对象归为一个对象,消除不相容的数据后,再通过计算属性集上下近似的方法,求得属性集的边界域率,选取令边界域率最小的属性加入到约简集中,并不断缩小论域,直到为空为止。最后在所得约简集中依次判断每个属性是否是冗余的,从而得到决策表的一个相对约简。分析了算法的时间复杂度,并经过实验数据证明了算法是高效和可行的,对比前面两种算法,在性能上有了较大的提高。并验证了该算法所得的约简一般是最优解或次优解。最后将此算法应用于教学评价系统中,对教学评分数据进行分析得出影响教学质量的主要因素,从而验证了粗糙集属性约简具有应用意义
其他文献
随着云计算技术的不断发展,SaaS(Software as service)作为云计算的三种服务模式之一,正逐渐被人们关注和接受。SaaS凭借其按需租用、不需维护、便于扩展等优势改变了用户使用
多租户SaaS(软件即服务,Software as a service)应用以其按需定制、按需付费、无需维护等特征,逐渐成为云计算时代下主要的软件服务模式。所谓多租户SaaS应用就是单实例多租
随着人们构建的本体的增多以及对本体研究的深入和实际应用需求的增加,本体的应用面临着一些新的问题。一方面是如何准确计算本体中概念之间的相似度;另一方面是如何解决异构
1999年,建立在物品编码、RFID (Radio Frequency IDentification)技术和互联网的基础上,美国Auto-ID中心首先提出了物联网的概念。当RFID与互联网相结合时,一场影响深远的革
在信息技术快速发展的时代,各种企业数据也在爆炸式的增长,如何准确、高效地从中发现有潜在价值的信息是人们一直关注的问题。数据挖掘作为一种数据分析工具,用于在海量数据
“绿色网络”是各类网络系统的发展趋势。无线Mesh网络(Wireless Mesh Network, WMN)作为解决“最后一公里”无线接入的关键技术,与“绿色网络”概念结合,不但可以降低自身能
PaaS(平台即服务)是把运行环境、开发环境等平台资源作为一种服务提供的云计算服务模式。通过PaaS(?)服务,ISV(软件提供商)将遵循规范开发好的应用交付部署到PaaS平台上之后,
随着移动互联网和移动终端的快速发展,人们对娱乐和上网的要求越来越高,平板电脑已经成为人们生活中的重要组成部分。文字输入是上网过程中必要的一环,我们中国有悠久的书写历史
随着计算机技术的高速发展,分布式系统得以广泛应用,然而由于分布式系统本身还不够稳定可靠,再加上环境、人员等外在因素的影响,分布式系统具有很高的故障率,而且一旦出现故
伴随着移动互联网的发展,产生了海量的图像和视频数据,对这些图像和视频数据进行处理与编辑得到了大家的高度重视。最近提出的基于双向相似函数的方法使用双向能量函数来衡量