一种基于相似预测的粗糙集预处理研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:yuntaos
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据挖掘技术的成熟,信息产业的不断涌现,以及互联网的迅速发展,人们日常生活需要的信息量以指数级速度增长。传统的数据分析和查询方法在实际应用中不能满足人们对隐藏在数据背后的潜在知识的迫切需要。粗糙集理论作为新的数学工具,它具有不需要附加任何外界信息或先验知识这一显著特点,逐渐成为了研究知识发现的重要的理论之一。由于经典的粗糙集理论不能处理具有空值或多值的源数据集合,需要经过数据预处理得到适合数据挖掘算法的数据,数据预处理在整个数据挖掘处理步骤占有重要的地位,因此如何有效地进行数据预处理具有非常重要的现实意义。本文在粗糙集数据预处理中对数据直接填补和扩展关系模型的处理方法展开研究。首先研究目前一些主要数据补齐算法所存在缺陷:产生冗余信息系统、需先验属性值分布概率、无稀疏数据处理等。采用协同过滤技术的稀疏数据集处理方法,根据属性和对象相似度计算结果填补稀疏信息表,同时与基于向域的空值填补算法结合,改进得出—种基于相似预测的粗糙集空值估算方法;其次,在相似度计算过程中引入熵和互信息的概念,提出了一种刻画信息表属性特征的二重特征权值,使填补值能够体现出信息表的属性特征并提高填补结果准确度;最后,针对多值和不可填补空值问题引入多值非完备信息系统和存在型非限制容差关系,在属性约简过程中对数据这两个问题进行处理。通过仿真实验验证了本文提出算法的有效性。仿真实验结果表明,在稀疏数据情况下本文改进的算法在准确率和平均误差指标均优于改进前的方法。在属性约简过程中,根据实例验证了处理多值和不可填补空值问题的可行性。
其他文献
近几年,随着网络规模的不断扩大,网络中海量的资源给传统网络应用带来新的挑战。基于网络资源(包括CPU处理、存储、服务等)的不断增多,其组织、获取、分析、处理等操作也逐渐
为了支持海量数据的存储需求,随着存储系统容量的提升,元数据作为描述数据特性和存储位置的结构化信息,其存储需求也急剧增加。分布式存储系统的设计趋势是明确划分出元数据服务
RPC作为分布式系统中广泛使用的组件,对于其带宽利用率、吞吐率以及网络时延的要求越来越高。传统的基于TCP/UDP套接字实现的RPC组件其性能已面临越发严峻的挑战。目前高速In
随着医学成像技术的发展,很多CT设备采用加大X线剂量的方法,以获得更多、更清晰的医学图像信息。然而随着放射卫生学的发展以及公众自我保护意识的增强,人们越来越注意到X线检查
随着科学技术的飞速发展,计算技术、无线通信技术和微电子技术的日益成熟,无线传感器网络的应用领域也越来越广泛。无线传感器网络在应用中存在着多种威胁,如恶意丢包攻击、S
伴随着信息时代的来临,为了加强对信息资源的综合管理,需要对信息资源进行整合,形成一个更综合的信息资源库,用来提高对局部信息资源的共享与利用,这是未来发展的趋势。当前
Web服务具有开放性、跨平台性、松散耦合性、互操作性及高度动态性的特点,这些特点使得Web服务非常容易受到安全性方面的攻击,因而Web服务的发展空间和应用深度在很大程度上
随着基于Hadoop平台的大数据技术不断发展和实践的深入,Hadoop YARN(Yet Anouther Resource Negotiator)资源调度策略在异构集群中的不适用性越发明显。一方面,YARN资源调度
随着信息技术的迅速发展和计算机应用项目的大量推广,网络数据服务中心的数量大量增加。计算机系统的规模也越来越大,其系统性能也不断的提升,计算资源的种类越来越庞杂。在
分类是模式识别及人工智能的重要研究领域,由于分类器的优劣缺乏统一的评价标准,因此寻求提高分类器的准确度和泛化能力成为一个主要的研究方向,为了充分利用不同分类器之间