论文部分内容阅读
概念漂移是数据流和大数据中关注的热点,也是现实世界中普遍存在的现象。概念漂移作为数据挖掘领域所面临的挑战之一,越来越受到众多学者的广泛关注。在数据流挖掘中关于概念漂移探测的研究有很多,相关的文献几乎都是研究由时间变化引起的概念漂移现象,但概念漂移并不仅仅是由时间变化引起的,还可以是由空间或者条件的变化而引起的。并且缺少研究同一概念(概念簇)不同表达之间的概念漂移。在现实生活中,人们常常用概念来思考和推理,但这些概念很难完全表达其含义,即在不同的时间、不同的空间或不同的条件里,同一概念(概念簇)的含义并不完全相同。因此,如何度量它们之间的区别与联系?如何选择更好的表达?本文将围绕这两个问题进行探讨与研究。粗糙集理论是一种研究不精确、不确定性知识的数学工具,可以从不完备的信息中得出有意义的规律,提取出一些规则。属性约简是粗糙集理论的核心内容之一。在粗糙集理论中,一个数据集往往含有多个属性约简,每一种约简无论对单个概念还是整个数据集来说都是一种表达,人们一般用启发式算法找到其中的一个,再通过实验的方法验证其有效性。面对多个属性约简,人们往往难以区别,缺乏有效的手段选取最优或较优的属性约简。针对上述问题,本文通过构建树形结构来表达和解释单个概念(或概念簇),提出了将质概念漂移和量概念漂移作为探测基于树的概念表达之间概念漂移的标准,研究了同一概念(或概念簇)不同概念内涵(不同条件属性)的性质和概念漂移。通过理论分析和实例表明该方法是有效的。实验结果表明,质概念漂移和量概念漂移作为探测不同条件属性之间概念漂移的标准时,比分类精度更敏感。从认识论的角度来看,本文的结果可以解释为什么采用相同训练集的不同特征选择对相同测试集进行分类时,分类准确率有所不同的原因,也可以解释在现实世界中人与人之间沟通造成概念漂移和误解的原因。再利用概念漂移的度量指标来解决属性约简的选优问题。一个数据集往往含有多个属性约简,使用多种概念漂移的度量指标和信息损失的度量方法比较了同一个知识系统中不同Pawlak约简之间的区别与联系,提出了属性约简重心的概念,并研究其性质。实验结果显示,在众多的属性约简中,离重心最近的属性约简在分类准确率方面具有较大的优势。概念漂移的度量指标和信息损失的度量方法有利于区分不同的属性约简,属性约简的重心有助于在众多的属性约简中选择最优或较优的一个,符合中国古典哲学中庸的思想。