粗糙集理论在数据挖掘中若干问题的研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:binfeb91
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,数据呈海量增长,出现了“数据爆炸但知识贫乏”的现象。在这种情形下,数据挖掘作为处理海量数据的工具便应运而生了。目前,数据挖掘中常用的方法和技术有:统计分析方法、决策树、神经网络、遗传算法、模糊集方法、粗糙集理论、可视化技术等等。在诸多方法中,粗糙集理论与方法对于处理复杂系统不失为一种较为有效的方法。粗糙集理论是波兰数学家Z.Pawlak于1982年提出的一种分析不完整、不精确、不确定数据的数据分析理论。将粗糙集理论应用于数据挖掘,具有明显的优越性——无需提供所需处理的数据集合之外的任何先验信息,利用数据集上的等价关系对知识的不确定程度进行度量。恰恰是这一点,使得粗糙集理论在数据挖掘中具有更强的生命力。目前,粗糙集理论广泛应用于数据挖掘的多个方面,比如:属性约简,连续属性离散化,关联规则挖掘等等。本文主要研究粗糙集理论在属性约简和连续属性离散化两个方面的应用。属性约简是粗糙集理论研究的核心问题之一,通过属性约简,删除决策表中不必要的属性,在不丢失决策表基本信息的前提下,简化知识的表示,这正是人们所期望的。粗糙集理论不能直接对连续属性进行处理,而现实中的决策表往往含有连续属性,这是制约粗糙集理论应用的一个重要方面。因此,在数据预处理阶段需要将连续属性离散化。针对粗糙集理论在这两个方面的应用,本文主要做了如下工作:(1)提出了一种通过构造约简树对决策表中的属性进行约简的方法。该方法方便有效、容易被人们理解,在一定程度上降低了属性约简算法的时间复杂度。(2)从逻辑代数的角度出发,定义了可辨布尔矩阵,给出了可辨布尔矩阵的性质,用来简化可辨布尔矩阵的变换,建立了用可辨布尔矩阵和线性逻辑方程组表示的属性约简模型,讨论了该模型的求解方法,给出了线性逻辑方程组有解、有唯一解的充分必要条件。提出了分类系数的概念,给出了一种基于分类系数和线性逻辑方程组的新的高效的属性约简算法。(3)将可辨布尔矩阵和线性逻辑方程组用于连续属性离散化:建立了关于断点集与可辨布尔矩阵的逻辑方程组,在逻辑方程组解的基础上提出了一种新的连续属性离散化算法。(4)将上述提出的属性约简算法和连续属性离散化算法用于数据挖掘过程中,建立了一个基于粗糙集理论的数据挖掘模型。数据挖掘本身及粗糙集理论还有许多问题值得探讨,本论文将二者结合研究肯定还有许多不完善的地方,相关工作还有待进一步研究。
其他文献
“四干”秧田地膜平铺覆盖保温育秧,是在“三干”通气秧田和地膜平铺的基础上二者结合起来的一种简便而有效的早稻育秧方法。它具有易整地、易管理、成秧率高、育出的秧苗白
新闻记者以敏感著称,自然得时时留意新的信息,尤其遇到出乎意料的突发性事件,更要敏捷。今年四月十一日中午十二时五十分,无锡闹市——东门的一家饭店门前,突然落下一大块冰
期刊
期刊
期刊
期刊
期刊
期刊
科技和经济的发展促进了人类社会的高速发展,同时也破坏了生态环境,导致自然资源严重短缺,影响和制约了社会的进一步发展。因此,资源和能源的节约以及循环再使用便得到了人们的高度重视。本文正是以此为背景,展开对再使用产品的研究,探讨如何最大化实现其利用价值。本文从再使用产品和质量判断的基本理论出发,提出再使用产品可分为直接重用和维护后再使用的观点,对再使用产品进行回收级别判断主要通过对其质量进行有效性判断
期刊