论文部分内容阅读
机器学习是人工智能的核心研究问题,是计算机获得智能的根本途径。自从20世纪50年代人工智能学科建立以来,人们已经提出了大量的机器学习算法,如决策树、神经网络、支持向量机、K均值聚类及KNN算法等。而实际问题中的真实数据往往具有以下的一个或几个特点:含噪音的、具有缺失数据、数据类别分布不平衡、特征重要程度不同、大数据以及数据含有不确定性等,特别是当前随着计算机技术及通讯网络的迅猛发展,这些问题变得更加突出。为了处理这些不完美的数据,人们提出了许多改进的算法,比如可以集成多个学习器的集成学习系统,能够处理模糊数据的模糊系统,引入权重的加权学习算法,基于高性能进化计算技术的学习算法等。其中加权技术和模糊系统是经常使用的两种技巧,在这两个课题上仍然存在着一些问题值得我们进一步研究,如在学习系统中如何获取“良好”的权重以提高加权学习算法的性能?模糊分类器的性能与其模糊输出向量之间有没有关系?本文在选定的几个学习模型上深入研究了权重的优化模型及模糊分类器的模糊度与其性能的关系,并将改进的差分演化技术引入到权重的学习问题中。具体工作主要包括:首先,提出了基于多进化策略的混合差分演化算法,并将之用于求解加权模糊聚类中的权重;其次,针对更复杂的极速学习机(Extreme learning machine,ELM)中的网络结构及随机参数优化问题,我们将进化策略及参数自适应技术引入前述差分演化算法,提出了一个基于自适应差分演化的2阶段进化ELM算法;随后,在加权模糊规则推理系统中,我们研究了加权模糊规则中的权重与推理系统的泛化能力之间的关系,随后提出了一种基于最大模糊熵的权重精炼方案;最后,在集成学习系统中,我们分析了模糊基分类器输出向量的模糊性与集成系统泛化能力的关系,并通过实验及理论给出了几个有意义的结论,同时对集成学习中基分类器的学习提出了一些实用的建议。基于以上工作,本论文主要贡献可总结为如下几个方面:(1)提出了一种包含多种进化策略的混合差分演化算法并将之用于学习基于相似度的加权模糊聚类中的特征权重。提出的差分演化算法相对于已有算法,其即使用适于全局搜索的策略,也使用适于局部搜索的策略,从而增强了搜索能力,同时算法也没有增加过多额外的计算。(2)提出一种自适应多进化策略混合差分演化算法,该算法通过依次选用多种进化策略以提高搜索能力,同时其可实现进化策略及控制参数的自适应。进一步基于该算法提出了一种ELM网络的2阶段训练方案。该方案分两个阶段分别对ELM的网络隐单元个数及隐单元参数进行优化,即实现了网络结构及随机参数的自动获取及优化,又避免了传统trial-and-error方法的高耗时性以及已有其它进化ELM同时优化隐单元数及随机参数时解空间的超高维、多峰值及冗余性,从而可以自动以较小的网络结构获得与基本ELM相当甚至更好的测试性能。(3)针对加权模糊推理系统,提出了一种基于模糊最大熵原则的权重优化模型。该模型与传统大多数方法最小化训练精度或验证精度不同,其将加权模糊规则中的权重等参数看成变量,然后对于初始获取的一组模糊规则(权重都为1),在模糊规则满足所有已知约束(一般为训练样本的类别分对)的前提下,通过最小化模糊规则推理系统在训练集上的输出模糊熵来学习规则中的权重等参数的值。我们的数值仿真试验也验证了该方法可以很好地避免过拟合问题,从而得到满意的分类器。(4)针对基于一般模糊分类器(或输出为样本属于各个类别隶属度的多类分类器)的集成学习系统,我们首次研究了模糊基分类器的输出不确定性(如模糊性、不可指定性等)与集成分类器的测试精度之间的关系。并得到了几个有意义的结论,如:a)对于带有复杂边界的分类问题,模糊性大的样本比模糊性小的样本更容易被错分;b)距离边界近的样本集与具有较高模糊性的样本集一致,但是难于得到两者之间的映射,该映射基于边界样本的定义;c)若训练准确率可以被接受,带有较高模糊性的分类器对复杂边界问题具有较好的泛化能力能,并对该结论进行了实验验证。