论文部分内容阅读
随着信息技术的迅猛发展,数据种类日趋复杂,规模不断增长,形成了大量类型复杂、形式异构的高维海量数据。在诸如社会经济、政治、环境和健康等与人类生产、生活息息相关的领域,数据已成为知识的主要载体。如何挖掘隐藏在海量复杂数据中的重要的信息和知识,已成为人工智能研究领域面临的主要困难之一。数据挖掘正是在人类这种从数据中获取有用知识的迫切需求下产生的,它是一个多学科交叉的研究领域,其主要任务有分类预测、聚类分析、关联分析等。粗糙集理论是数据挖掘领域中的重要方法,其最显著的优点是仅利用数据本身提供的信息,就可以实现分类预测与关联分析等挖掘任务。该理论已经被成功应用在许多科学与工程领域,是当前人工智能理论及其应用领域中的研究热点之一。本文针对粗糙数据分析的关键问题,从邻域粗糙集模型、模糊粗糙集模型、粗糙集理论中的不确定性度量、基于粗糙集的特征选择算法及其评价等方面开展深入系统的研究,获得的主要研究成果和创新概括如下:(1)深入分析了基于邻域关系的信息粒化方法和基于模糊关系的信息粒化方法,建立了邻域信息粒与模糊信息粒的联系;揭示了邻域粗糙集模型、Hu模糊粗糙集模型、Wang模糊粗糙集模型、Dubois模糊粗糙集模型和Radzikowska模糊粗糙集模型之间的关系,为粗糙数据分析中的模型选择提供了理论依据,有助于建立面向数值型数据的统一粗糙集模型。(2)建立了粗糙性度量的公理化定义,给出了随机熵、模糊熵随论域划分的变化机制,揭示了粗糙集理论框架下随机性、模糊性与粗糙性之间内在联系,给出了判别模糊熵能否度量粗糙性的判别方法,提出了基于随机熵和模糊熵的粗糙性度量,为粗糙性的度量提供了约束性理论与可行性方法。(3)构造了Shannon熵和互补熵意义下的区分矩阵,给出了相应的完备属性约简方法,揭示了不同意义下属性约简的相互关系,提出了基于模糊熵的决策表粗糙性度量,设计了保持粗糙度不变的属性约简算法。定义了模糊近似空间中的互补熵,证明了其随模糊划分变化的单调性,给出了基于模糊互补熵的属性约简算法,并将其应用于混合数据的属性约简。(4)给出了整体确信度、整体协调度和整体支持度三个决策性能指标随论域划分的变化机制,分析了正域约简、Shannon熵约简和互补熵约简对决策表决策性能的影响,为针对实际应用选择约简算法提供了理论依据。通过以上系统研究,本文在粗糙数据分析的模型与算法方面取得了系统的研究结果,建立了邻域粗糙集模型与模糊粗糙集模型之间的联系,揭示了粗糙性产生的原因,给出了基于随机熵和模糊熵的粗糙性度量,提出了新的属性约简算法及其评价方法。这些成果丰富和发展了粗糙数据分析理论与方法,为复杂数据处理提供了技术支持。