论文部分内容阅读
数据挖掘,简单地说,就是从庞大的观察数据集中提炼并分析出不能轻易察觉或断言的关系,最后给出一个有用的并且可以理解的结论。粗糙集理论是一种处理模糊和不精确问题的数学工具。众所周知,许多实践问题不能满足现存计算机的求解条件,特别是机器学习、模式识别、人工智能等,这些困难常常使得不能建立描述个体的算法,粗糙集理论及其扩充对于建立此类个体的近似描述,提供了一种精确的数学技术。随着信息化社会的到来和知识经济的发展,信息系统中的信息量积累越来越大,解决信息系统中信息量膨胀问题不仅是信息系统本身的研究课题,而且也是Internet上的重要研究方向。信息系统约简主要是减少信息量,将一些无关或多余的信息剔除,而不影响原有的功能。将约简后的信息重新组合,产生新的决策规则,这些决策规则的前提信息和结论信息可能不同于约简前的任何一条决策规则,但它们能够经过推理而得到相同或相近的结果。本文主要介绍了数据挖掘、粗糙集等相关基本理论及其研究现状:对数据挖掘过程中的核心问题——数据约简,进行了深入分析与探讨;提出了一种基于二叉树结构的信息系统数据约简算法,该算法使得属性约简和属性值约简得以一致计算,缩短了约简时间,对于时间复杂度及空间复杂度也得以进一步降低。最后就算法的实际应用做了一定研究。本文所做的主要工作如下:(1)针对目前的有关约简算法需反复遍历决策表中各个数据项,使得时间复杂度及空间复杂度较高,针对这一现状,我们进行了认真、深入研究。(2)提出了一个主要基于二叉树结构的数据约简方法,包括属性约简与属性值约简等。该方法根据分辨函数的合取式动态建立相应二叉树,借助构造出的二叉树,最终有效地完成数据约简。(3)此外,我们设计了基于二叉树结构的数据约简算法原型系统,在此系统平台上,通过对UCI提供的多个标准测试数据集进行测试,证明该算法的有效性与优越性,并应用到教学评价系统中。