论文部分内容阅读
随着数据库技术、数据仓库的迅速发展,存储的数据急剧增长,传统的数据分析和查询方法已经不能满足人们对隐含在数据中的知识的渴求。如何快速、准确地从杂乱无章的海量数据中挖掘潜在的有利用价值的信息并用于预测未来的行为,这导致了数据库知识发现领域的出现。与模糊集理论、D-S证据论等不同,粗糙集理论作为一种处理不确定性信息的新型数学工具,能够分析隐藏在数据中的知识而不需要关于数据的任何先验或附加信息,这使得采用粗糙集理论作为研究知识发现的工具具有许多优点。在粗糙集理论中,知识表达系统是用信息表或决策表来表示的。属性约简是用粗糙集进行知识获取时的主要过程之一。通过分析现有相容决策表属性约简算法,找出了计算低效性的根源。新的约简算法从论域的角度出发,采用层次结构,用属性边界域作为度量属性重要性启发函数。该算法使得论域不断缩小的同时,又能选出反映决策表系统特征的重要属性。实验结果表明,该算法保证在分类精度不变的前提下,获得最优或次优的约简属性集。决策规则的生成是约简的主要目的。一般的值约简算法只是针对相容决策表的,并不适用于包含冲突的决策表。为此,引入了可信度和覆盖度两个概念,采用完备决策表局部最小可信度和最小覆盖度作为自适应缺省规则获取算法的阈值,来控制规则生成的数量,从而获得同时满足最小覆盖度的确定性规则和满足最小可信度的可能性规则。实验结果表明,该算法能有效地除去由噪声引起的冗余规则,获得更加简洁的规则集。决策推理是知识获取结果的最终应用。在推理中希望有识别正确率高的推理方法。为此,引入信息论观点,将规则信息量优先原则作为推理策略,通过对比实验,自适应缺省规则集在规则信息量优先原则的推理策略指导下可得到更高的识别正确率。在现实生活中,由于数据测量的误差、对数据理解或获取的限制等原因,有些对象的一部分属性值不可能得到,导致了不完备信息系统的出现。粗糙集理论在不完备信息系统中的应用,是将粗糙集理论进一步推向实用的关键之一,而经典的粗糙集理论对不完备信息系统的处理显得束手无策。为此,在分析研究已有的扩充粗糙集理论模型的基础上,进一步提出基于限制非对称相似关系的扩充粗糙集模型。这种限制非对称相似关系模型吸取了其它扩充关系模型的优点,屏弃了其它扩充模型方法的不足,更加符合现实情况,更适于对不完备信息系统的处理。传统的规则获取算法都是基于数据完备的前提之下的。为了突破这一限定,对于不完备信息系统,将经典的可辨识关系矩阵加以扩充,定义了限制非对称相似关系模型下的可辨识关系矩阵,并采用布尔推理方法,在不改变原始不完备决策表的前提下,直接从不完备决策表中提取规则,且规则不受缺省值的影响,规则的可靠性高。