论文部分内容阅读
粗糙集理论是一种处理含糊和不确定性问题的新型数学工具,已广泛应用于机器学习、决策分析、知识发现、专家系统、决策支持系统、模式识别、模糊控制等领域。目前粗糙集理论在数据库中的应用主要集中在两个方面:一个是数据库中的知识发现(Knowledge Discovery in Database,简称KDD),另一个是粗糙关系数据库模型(Rough Relational Database Model,简称RRDM)。知识约简(又称属性约简)是KDD中粗糙集理论处理的主要问题,现有的基于区分矩阵和区分函数的知识约简算法的时间复杂度一般为O(|A|~2|U|~2),其中|U|是论域U中个体的数目,|A|是属性个数,当数据量很大时,这些算法的可行性就面临巨大挑战,这些算法的低效性在一定程度上也限制了粗糙集理论的广泛应用,因此寻求高效的知识约简算法具有重要的意义。粗糙关系数据库模型(RRDM)是粗糙集理论和经典关系数据库模型相结合的产物,目前国内外学者对RRDM的研究主要集中在粗糙关系操作,粗糙关系查询,粗糙函数依赖,粗糙关系中的信息熵等研究上,但是所有的文献都是就RRDM的某一方面进行论述,并且很多概念定义得不够规范准确,因而如果能从粗糙关系数据结构、粗糙关系操作、粗糙关系完整性约束、粗糙关系规范化四个方面,构建一个完善的粗糙关系数据库的数学模型,必将对今后真正实现并应用推广这个模型,奠定完备坚实的理论基础。本文将研究工作放在:寻求高效可行的知识约简算法方面,和从全局角度对粗糙关系数据库模型给予一个比较完整规范的描述方面,主要创新成果如下:1、提出了一种基于划分加细的新的知识约简定义,并证明了它和经典的基于正区域的知识约简定义等价,利用这个定义求解知识约简能够减少计算量。2、引入了一种一致度来度量决策表中条件属性对决策属性的重要性,以此一致度作为知识约简算法的启发信息以缩小搜索空间,并证明了条件属性的一致度越小,其对决策的重要性就越小,从而说明了以此一致度作为启发信息是合理的。3、在1、2的基础上设计了一种基于划分加细和一致度的启发式知识约简算法,此算法的时间复杂度为O(|C|~2|U|),其中|C|为条件属性个数,|U|为论域U中个体的数目,低于现有的经典知识约简算法,而且计算量较小。4、率先提出了从粗糙关系数据结构、粗糙关系操作、粗糙关系完整性约束、粗糙关系规范化这四个方面,建立一个完整的粗糙关系数据库模型;5、提出了粗糙关系完整性约束,以完善粗糙关系数据库模型对不完全信息的处理能力;6、提出了粗糙关系规范化理论及相应的规范化算法,以解决在粗糙关系数据库逻辑设计中如何构造一个好的数据库模式问题。