论文部分内容阅读
随着互联网的快速发展,各个领域的数据量急剧增加。同时,由于数据来源的多样性导致现实世界的数据往往具有不确定性。目前,研究如何从这种大量的、不确定性的数据中获得有用的信息和知识己经成为当前数据挖掘的重要研究课题之一。粗糙集作为一种处理不确定性概念的有效工具,利用信息粒化策略,目标概念可以用上、下近似集两个边界进行描述。但是,经典粗糙集理论作为单一结构化的决策方法对于复杂问题已经不能进行满意求解。粒计算是当前人工智能领域中一种新的概念和计算范式,其采用多层次分解求解模式对大规模复杂问题进行结构化分析,从粒计算的角度来说,处理不同的不确定性问题,需要不同粒度的知识空间对不确定性知识进行描述。由于可以处理具有不确定性的目标概念,粗糙模糊集比经典粗糙集更具有普遍性。在粗糙模糊集模型中,用不同属性集对同一论域进行划分,可以形成不同的知识空间,从而实现对不确定知识的多粒度刻画,实现复杂问题在多粒度知识空间中的自由切换,为求解具有不确定性的复杂问题提供了新思路。
层次商空间结构是一种具有代表性的多粒度知识空间,具有分层递阶特性。对层次商空间结构特征的研究,有助于从多粒度视角研究不确定性知识的度量问题。但是,当前仍缺乏分层递阶的多粒度知识空间的同构描述方法以及在该框架下对不确定性知识的有效度量模型的相关研究。其中,不确定性度量在粒度空间优化、属性约简以及多粒度构造中有着重要的作用。一方面,经典粗糙集的不确定性来自于边界域,但是,对于粗糙模糊集来说,由于其正域和负域中的元素存在不确定性,这导致粗糙模糊集的不确定性不仅来自于边界域,还来自于正域和负域,使得经典粗糙集的不确定性度量模型在粗糙模糊集的多粒度知识空间中不再具有单调性,从而不再适用于粗糙模糊集;另一方面,当前的不确定性度量模型在一些情况下无法准确体现两个不同知识空间刻画同一个模糊概念时的差异性。因此,建立具有强区分能力的不确定性度量模型,成为了刻画不确定性概念的一个关键问题。再者,代价度量是机器学习中的一个重要内容,将代价度量引入粒计算对于不确定性知识的近似描述具有实际意义和应用价值。从三支决策理论和敏感代价的角度,如何在多粒度知识空间中选择最优知识空间对不确定性知识进行刻画仍是值得研究的问题。
针对粗糙集等不确定性知识处理模型理论在解决复杂任务中存在的局限性,本文重点从多粒度知识空间的结构特征以及多粒度知识空间中模糊概念的不确定性度量模型、知识距离度量模型和代价度量模型等方面开展研究,从新的视角发展不确定性知识的度量模型与方法。首先,本文通过建立知识距离度量模型研究了分层递阶的多粒度知识空间的结构特征,并实现了层次商空间的同构描述;在此基础上,结合粗糙模糊集理论,研究了不确定性知识在多粒度知识空间中的不确定性度量问题,揭示了三个决策域的不确定性变化规律,并通过研究模糊概念的知识距离模型实现了用知识距离模型度量不确定性差异的可行方法;通过将代价度量和三支决策理论引入多粒度空间中,对不确定性知识进行近似描述,建立了代价敏感的最优知识空间选择方法。归纳起来,本文开展的主要研究工作具体体现在以下几个方面:
(1)针对层次商空间结构特征的描述问题,构建了知识距离度量模型EMKD,并利用该模型刻画了层次商空间的内部结构及其粒度同构、分类同构、细分同构现象。
提出了基于地球移地距离的知识距离度量模型,利用知识距离分析了层次商空间结构中粒度层次之间的相互关系;研究了不同层次商空间结构之间粒度同构、分类同构和细分同构几种关系,并实现了不同层次商空间结构之间的差异性度量。
(2)针对多粒度空间中模糊概念的不确定性度量问题,提出了基于模糊度的不确定性度量模型,利用该模型度量的不确定性结果随着粒度的细化而单调递减。
通过均值模糊集分析了粗糙模糊集模型,提出了一种基于模糊度的不确定性度量模型,可用于度量模糊概念在知识空间中的不确定性,并揭示了这种不确定性在分层递阶的多粒度知识空间中的变化规律;分析了粗糙模糊集三个域(正域、边界域和负域)的不确定性。为了反映粒度划分信息,在模糊度公式的基础上进一步提出了具有严格单调性的不确定性度量公式,并讨论了相关性质和定理。
(3)针对当前的不确定性度量模型在无法准确体现两个不同知识空间近似模糊概念时的差异性,在EMKD的基础上进一步构建了模糊概念的知识距离模型,实现了对模糊概念近似描述时,度量不同知识空间差异性的可行方法。
进一步考虑了不同知识空间对目标概念的近似描述能力的差异性,提出了一种模糊概念的知识距离度量(简称模糊知识距离),即使两个知识空间对同一个模糊概念刻画时具有相同的不确定性,模糊知识距离仍然可以区分它们对不确定性知识的刻画能力;发现了在层次商空间结构中任意两个知识空间的模糊知识距离等于它们之间的粒度度量或信息度量差异的结论;并讨论了模糊知识距离在知识空间选择、属性约简和多粒度差异性度量中的应用。最后,通过相关实验表明了基于模糊知识距离的属性重要度函数不仅有助于获得更简洁的约简,并且具有更强的鲁棒性,从而验证了模糊知识距离的有效性。
(4)针对如何选择最优代价知识空间对模糊概念进行近似描述的问题,通过建立序贯三支决策粗糙模糊集模型,发现了模糊概念在多粒度知识空间中的决策代价随着粒度细化而单调递减的规律,实现了代价敏感的渐进式最优知识空间选择方法。
从代价度量方面对不确定性概念进行研究,综合考虑了多粒度知识空间中的构建成本和在该结构下的误分类代价。讨论和分析了分层递阶的多粒度知识空间中决策代价的变化规律;研究了模糊概念在多粒度知识空间中测试代价的表达形式,提出代价敏感的渐进式知识空间优化算法。实验结果显示,该算法可以获得约束条件下的当前最优知识空间,并且具有较高的决策质量。
综上所述,基于多粒度计算的思想,本文系统地研究了分层递阶的多粒度知识空间结构框架中模糊概念在的不确定性度量、知识距离度量以及代价度量三个问题。
层次商空间结构是一种具有代表性的多粒度知识空间,具有分层递阶特性。对层次商空间结构特征的研究,有助于从多粒度视角研究不确定性知识的度量问题。但是,当前仍缺乏分层递阶的多粒度知识空间的同构描述方法以及在该框架下对不确定性知识的有效度量模型的相关研究。其中,不确定性度量在粒度空间优化、属性约简以及多粒度构造中有着重要的作用。一方面,经典粗糙集的不确定性来自于边界域,但是,对于粗糙模糊集来说,由于其正域和负域中的元素存在不确定性,这导致粗糙模糊集的不确定性不仅来自于边界域,还来自于正域和负域,使得经典粗糙集的不确定性度量模型在粗糙模糊集的多粒度知识空间中不再具有单调性,从而不再适用于粗糙模糊集;另一方面,当前的不确定性度量模型在一些情况下无法准确体现两个不同知识空间刻画同一个模糊概念时的差异性。因此,建立具有强区分能力的不确定性度量模型,成为了刻画不确定性概念的一个关键问题。再者,代价度量是机器学习中的一个重要内容,将代价度量引入粒计算对于不确定性知识的近似描述具有实际意义和应用价值。从三支决策理论和敏感代价的角度,如何在多粒度知识空间中选择最优知识空间对不确定性知识进行刻画仍是值得研究的问题。
针对粗糙集等不确定性知识处理模型理论在解决复杂任务中存在的局限性,本文重点从多粒度知识空间的结构特征以及多粒度知识空间中模糊概念的不确定性度量模型、知识距离度量模型和代价度量模型等方面开展研究,从新的视角发展不确定性知识的度量模型与方法。首先,本文通过建立知识距离度量模型研究了分层递阶的多粒度知识空间的结构特征,并实现了层次商空间的同构描述;在此基础上,结合粗糙模糊集理论,研究了不确定性知识在多粒度知识空间中的不确定性度量问题,揭示了三个决策域的不确定性变化规律,并通过研究模糊概念的知识距离模型实现了用知识距离模型度量不确定性差异的可行方法;通过将代价度量和三支决策理论引入多粒度空间中,对不确定性知识进行近似描述,建立了代价敏感的最优知识空间选择方法。归纳起来,本文开展的主要研究工作具体体现在以下几个方面:
(1)针对层次商空间结构特征的描述问题,构建了知识距离度量模型EMKD,并利用该模型刻画了层次商空间的内部结构及其粒度同构、分类同构、细分同构现象。
提出了基于地球移地距离的知识距离度量模型,利用知识距离分析了层次商空间结构中粒度层次之间的相互关系;研究了不同层次商空间结构之间粒度同构、分类同构和细分同构几种关系,并实现了不同层次商空间结构之间的差异性度量。
(2)针对多粒度空间中模糊概念的不确定性度量问题,提出了基于模糊度的不确定性度量模型,利用该模型度量的不确定性结果随着粒度的细化而单调递减。
通过均值模糊集分析了粗糙模糊集模型,提出了一种基于模糊度的不确定性度量模型,可用于度量模糊概念在知识空间中的不确定性,并揭示了这种不确定性在分层递阶的多粒度知识空间中的变化规律;分析了粗糙模糊集三个域(正域、边界域和负域)的不确定性。为了反映粒度划分信息,在模糊度公式的基础上进一步提出了具有严格单调性的不确定性度量公式,并讨论了相关性质和定理。
(3)针对当前的不确定性度量模型在无法准确体现两个不同知识空间近似模糊概念时的差异性,在EMKD的基础上进一步构建了模糊概念的知识距离模型,实现了对模糊概念近似描述时,度量不同知识空间差异性的可行方法。
进一步考虑了不同知识空间对目标概念的近似描述能力的差异性,提出了一种模糊概念的知识距离度量(简称模糊知识距离),即使两个知识空间对同一个模糊概念刻画时具有相同的不确定性,模糊知识距离仍然可以区分它们对不确定性知识的刻画能力;发现了在层次商空间结构中任意两个知识空间的模糊知识距离等于它们之间的粒度度量或信息度量差异的结论;并讨论了模糊知识距离在知识空间选择、属性约简和多粒度差异性度量中的应用。最后,通过相关实验表明了基于模糊知识距离的属性重要度函数不仅有助于获得更简洁的约简,并且具有更强的鲁棒性,从而验证了模糊知识距离的有效性。
(4)针对如何选择最优代价知识空间对模糊概念进行近似描述的问题,通过建立序贯三支决策粗糙模糊集模型,发现了模糊概念在多粒度知识空间中的决策代价随着粒度细化而单调递减的规律,实现了代价敏感的渐进式最优知识空间选择方法。
从代价度量方面对不确定性概念进行研究,综合考虑了多粒度知识空间中的构建成本和在该结构下的误分类代价。讨论和分析了分层递阶的多粒度知识空间中决策代价的变化规律;研究了模糊概念在多粒度知识空间中测试代价的表达形式,提出代价敏感的渐进式知识空间优化算法。实验结果显示,该算法可以获得约束条件下的当前最优知识空间,并且具有较高的决策质量。
综上所述,基于多粒度计算的思想,本文系统地研究了分层递阶的多粒度知识空间结构框架中模糊概念在的不确定性度量、知识距离度量以及代价度量三个问题。