论文部分内容阅读
粗糙集理论自上世纪80年代初由Pawlak教授提出以来,发展十分迅速。它作为处理知识模糊性和不确定性的一种重要的数学工具,受到越来越多研究人员的重视,已经在数据挖掘、机器学习、模式识别等领域得到广泛应用,其中属性约简和属性值约简是最重要的一个方面。尽管属性和属性值约简的研究已取得了许多重要的成果,但是仍然存在一些重要问题需要进一步解决,其中约简算法的低效性尤为突出,它限制了粗糙集理论的进一步推广应用。现在,寻找高效的知识约简算法已成为粗糙集理论的一个研究热点。首先,知识和粗集不确定性度量对于属性约简等方面有着重要的应用,而现已度量方法存在某些不合理的地方,故探讨更加合理的度量方法是一个带有基础性的问题。其次,变精度参数是通过不确定性假设引入的,其值的估计方法是值得研究的一个重要问题。还有,寻找更加有效的知识获取方法,特别是动态数据环境下的归纳学习、两类决策系统和大数据集上的知识获取等,有着较大的研究空间。本论文根据这些研究思路,对信息系统中知识的不确定性度量和规则获取问题进行系统研究,取得了一定的成果,对于促进粗糙集理论的发展及其在知识发现等相关领域的应用,有一定的作用和影响。论文的主要贡献及创新如下:(1)对知识和粗集的不确定性进行了深入研究,提出一种基于边界域的模糊熵度量方法,重新定义了知识粗糙熵并修正了粗集粗糙熵的定义。提出边界条件熵的定义,证明了边界条件熵单调性等相关性质。基于边界条件熵,给出属性约简的启发式算法并应用到定性仿真和推理中。讨论了不合适知识表达粒度对不确定性度量的影响,通过引入极大相容块思想,重新度量了基于相容关系的知识和粗集度量问题。(2)讨论了变精度参数值对知识约简的影响。基于决策表相对可辨识性,提出变精度粗糙集模型变精度参数自主式获取和设置的方法。(3)对多决策类信息系统的归纳学习方法进行了深入研究,提出联合决策分辨矩阵及其归纳学习以及动态数据环境下的递增式学习方法。该方法不仅解决了递增式学习问题,而且减少了矩阵空间,避免了经典分辨矩阵和传统决策矩阵中的重复计算。(4)针对常见的两类决策信息系统的规则获取进行了研究。基于等价矩阵,提出联合决策等价矩阵的定义,将条件属性等价矩阵和决策属性等价矩阵合并为一个矩阵,大大提高了规则获取算法效率。基于相容矩阵,通过广义决策函数,提出一种基于广义决策表的联合决策相容矩阵规则获取算法。(5)基于矩阵分块方法,研究了大数据集上规则获取问题。提出基于任意分割策略的规则获取矩阵计算方法,将大数据集转化为多个子系统间的规则获取。分析了基于任意分割策略算法存在的问题,进一步研究了基于决策类分割的大数据集规则获取方法。