论文部分内容阅读
随着信息技术的不断发展,人们获取数据的方式不再单一,如电视、报纸、互联网等,获取数据的周期也在不断减小。面对海量的结构化、非结构化、半结构化的数据,如何快速有效的从中挖掘出潜在的价值是当前的研究热点,同时也是机器学习面临的挑战和机遇。粗糙集理论是Pawlak于1982年提出,并广泛应用于数据挖掘、机器学习、决策分析等领域。形式概念分析(FCA)是由R.Wille于1982年提出的一种知识发现的数学工具,它被广泛应用于数据挖掘,聚类,分类等领域。粗糙集主要应用于不确定性的知识表达,FCA主要是挖掘同类事物与事物所具有的属性之间的内在关系,粗糙集和FCA结合可以挖掘事物与其所具有的属性之间的不确定性关系。在多途径获取信息的时代,从单一的信息源获取的信息往往是模糊或不完备的,因此将多个信息源获取的信息融合起来就显得非常有必要了,融合的目的是将多个信源的信息融合为一个信息量更大的信息体,使得融合有“1+1>2”的效果。本文正是基于FCA的主要特征概念学习和多源模糊概念学习,研究了主要特征和信息融合的数学性质,同时设计了融合算法和模糊概念学习算法,并通过数值实验验证本文所提方法的有效性,本文的主要创新点如下:1.在形式背景中定义a主要特征,并用数学语言阐述了必然特征与似然特征的差别,研究形式背景中基础比率对认知的影响,结合基础比率和a主要特征定义特征与概念之间的可信度,研究了可信度是如何表达拥有某一属性(特征)的对象在属于概念的可信程度,并讨论了可信度与主要特征之间的关系。最后通过案例的计算过程来展示可信度在度量对象的归属问题上比单一的主要特征好,并验证了模型的有效性和可行性。2.条件熵是信息的一种度量方式,基于条件熵的信息融合可以在减少冗余信息的同时提高分类的质量,使得相似类更细,即同一类别的对象之间的差别较小,不同类别之间的差别较大。在融合的基础之上进行模糊概念学习,并根据提出的条件熵融合方法设计了对应的条件熵融合算法,在此基础上设计了基于对象信息和属性信息的两种模糊概念学习算法,然后使用UCI数据集设计了一系列的数值实验,将本所提出的条件熵融合与传统的均值融合进行对比,验证条件熵融合在减少冗余信息的同时提高了分类的质量,而均值融合仅仅是运用统计方法将多源的信息进行均值压缩,不能提高分类的质量。