基于粗糙集的数据挖掘方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:okanyo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,数据呈海量增长,出现了“数据爆炸但知识贫乏”的现象。在这种情形下,数据挖掘作为处理海量数据的工具便应运而生了。目前,数据挖掘中常用的方法和技术有:统计分析方法、决策树、神经网络、遗传算法、模糊集方法、粗糙集理论、可视化技术等等。在诸多方法中,粗糙集理论与方法对于处理复杂的系统不失为一种较为有效的方法。它是继概率论、模糊集、证据理论之后的又一个处理不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的信息。本文首先对数据挖掘和粗糙集理论的基础知识进行了必要的说明。在理论的基础上,在研究数据挖掘的一般过程的基础上,深入分析了基于粗糙集的数据挖掘的过程,并对应用于这些过程的算法进行了研究和分析。经典的粗糙集算法不能有效地适应海量数据的环境,因为算法要求数据常驻内存,而内存的容量是十分有限的,所以粗糙集面临着海量数据集的挑战。本文引入了一种表示分类的结构——类分布链表,它可以通过对原始数据集进行直接分类获得。类分布链表可以看成是建立在海量数据集上的一个索引块,通过它可以方便地对海量数据集进行处理。分析类分布链表的结构和特点,从中发现了计算属性的条件信息熵的简便方法。本文利用类分布链表改进了基于粗糙集的数据挖掘中的数据离散化、属性约简以及属性值约简这一连续过程中的算法。通过正确性和可伸缩性实验的数据表明,改进后的算法在不损失原始的经典粗糙集算法的正确率和识别率的前提下,变得能够处理海量数据,并且通过多步生成类分布链表解决了内存的限制问题,更成倍增大了所能处理的数据量。
其他文献
货币识别是一个模式识别问题,主要包括以下三大部分:数据采集、特征提取和分类器的设计。针对当今货币识别率低等问题,借鉴典型相关分析融合思想和支持向量机的几何解释,利用
随着移动互联网的快速发展、智能移动终端的迅速普及,移动互联网应用领域蓬勃发展,各类移动应用被广大用户所使用。然而由于网络条件和终端硬件处理能力受到限制,移动互联领域对
如今通过将各种设备和系统以及应用程序融合在一起的物联网技术给人们带来了更加便利而且智能化的生活。然而,由于物联网平台的多样化、复杂性以及实时扩展要求,对于网络中节点
随着计算机网络技术和数字媒体技术的迅速发展,网络以其丰富的信息资源、友好的交互性能以及优良的开放性等特点越来越受到人们的青睐。新的通信技术也为传递最新的教学信息
论文研究与分析了个性化信息服务,给出了基于Ajax的用户个性化定制。基于Ajax的用户个性化定制是在Web2.0的基础之上,运用正在兴起的Mashup思想,即聚合多个Web应用后生成一种
传感器、嵌入式计算、分布式信息处理和无线通信四大技术孕育了无线传感器网络(WSN),无线传感器网络是一种全新的信息获取技术,在军事,监控,医疗救护等众多领域中得到了越来越广
本论文研究了分布式核心路由器的体系结构,以及链路聚合技术,设计出分布式高端核心路由器的链路聚合方案,编程实现了链路聚合方案中的各个软件功能模块,并在分布式高端核心路
近十几年来,因特网上的各种信息以呈指数级的速度增长,使得因特网用户想要快速找到其真正所需要的资料信息变得越来越困难。在海量因特网信息带来信息过载和信息迷失问题而人
基于GPRS的学生奶自助服务系统以国家推行的“学生饮用奶计划”为背景,使用自动售奶机来出售牛奶,并通过GPRS网络对自动售奶机进行实时监控,解决人工管理中的成本高、工作量
云计算作为未来计算模式的趋势及新一代信息技术和商业模式变革的核心,受到了越来越多的研究人员和企业的关注,具有广阔的市场发展前景。目前几乎所有IT企业巨头都依据各自的技