论文部分内容阅读
随着海量规模、类型繁多和动态性数据的急剧产生,现代社会已经迈入大数据时代。在这些不断涌现,急剧改变的数据中,存在着大量不确定、模糊和不一致信息。如何在这些动态不确定数据中进行快速、高效地数据挖掘与知识发现已成为当前信息科学研究的热点课题。粒计算是计算智能领域中模拟人类思维进行复杂问题解决的核心技术之一,为我们提供了一套不确定性复杂问题求解的理论、方法、技术和工具。粗糙集是不确定数据近似处理的一种重要粒计算模型。本文基于粗糙集理论,应用粒计算思想,以增量学习技术为手段,结合聚类集成分析技术,对动态不确定知识发现中的若干关键问题进行了研究,主要取得了以下研究成果:(1)针对双论域信息系统数据对象动态变化时的信息处理问题,提出了基于双论域粗糙集模型的近似集增量更新方法。首先分析了两个论域中数据对象的动态增加和删除,等价类和目标概念的不同更新模式。然后根据两个论域对象的不同更新情况,刻画了基于增量数据对象的双论域粗糙近似集更新原理。最后,设计了双论域信息系统中数据对象增加/删除时,基于双论域粗糙集的近似集增量更新算法。采用推荐系统数据集、UCI公共数据集和人工数据集进行实验评测,验证了算法的有效性。(第3章)(2)针对模糊双论域信息系统多数据对象动态变化的知识获取问题,提出了基于模糊概率双论域粗糙集模型的近似集增量更新方法。首先根据双论域近似空间的动态变化情况,揭示了基于批量式数据对象变化的模糊概率双论域粗糙近似集变化机理。进而设计了双论域信息系统中多数据对象增加/删除时,基于模糊概率双论域粗糙集的近似集增量更新算法。应用推荐系统数据集和人工数据集进行实验评测,验证了算法的有效性。(第4章)(3)针对聚类集成任务中基聚类结果的类别重叠、类别不确定性问题,结合粒计算理论与粗糙集方法提出了一种基于知识粒度和粗糙距离的聚类集成模型。首先,将聚类集成问题抽象为最小粗糙知识粒度距离划分的搜索问题,并设计了粒计算框架下的聚类集成目标函数。接着,引入了新的基于粗糙粒度的距离函数来度量聚类成员距离,并改进了知识粒度的计算方法来度量给定粒的凝聚度。最后,采用分裂型层次聚类方法获得集成结果。采用UCI公共数据集和微软亚洲研究院多媒体图像数据集进行实验评测,验证了算法的有效性。同时,实验结果表明该算法性能与聚类成员的多样性呈弱相关关系。(第5章)(4)针对软聚类方法中部分数据点类簇划分不理想问题,提出了一种结合粗糙集的模糊聚类集成方法。首先,在模糊聚类成员集合基础上,应用粗糙集理论中近似集获取原理将数据点分为三个区域:正域,边界域和负域,对正域中的数据点采用软聚类集成的方法融合得到更为理想的类簇信息。然后,结合机器学习方法中有监督集成学习方法(随机森林),将获得的类簇信息用于构建随机森林分类器,再将该分类器用于边界域数据点类别预测。最后,采用类似的方法从所有已经得到的类簇信息中抽取出新的分类知识,并将其用于负域中数据的类别预测,从而得到最终集成结果。采用UCI公共数据集进行评测,验证了算法的有效性。同时,实验结果表明该算法对聚类成员个数变化不敏感,验证了算法中近似集获取阈值设置的有效性,并且该算法对硬划分聚类成员带来的多样性具有较强抗干扰能力。(第6章)本文的研究工作充分发挥了粒计算与粗糙集理论解决不确定性问题的优势,研究成果不仅有助于促进大数据环境下不确定性数据的动态知识更新,提升对大数据中不确定性数据结构的逼近理解,而且可以为大数据环境中动态不确定性数据的挖掘和知识发现提供新型理论框架和计算方法,并有助于实现更好的数据增值服务和提高人们决策水平,具有重要的理论和实践意义。