论文部分内容阅读
模式识别是人工智能领域的一个重要研究任务,而分类和聚类是模式识别中的两个重要的研究课题。由于客观世界的多样性,不可能找到一种通用的方法来解决所有的分类与聚类问题,这就给分类与聚类方法的研究带来了很多的挑战与机遇。以ParzenWindow概率密度估计为代表的密度估计方法近年来也受到了研究者的广泛关注。如果能够准确地估计问题领域的数据分布,那无疑将会对领域内的识别任务提供极大的帮助。本文以Parzen Window概率密度估计为基础,从大样本、非平衡数据集、领域自适应等层面对分类与聚类算法进行了相关研究,并深入探讨了这些算法与Parzen Window概率密度估计之间的内在本质联系,本文的创造性研究成果主要有:(1)在Parzen window概率密度估计方法的基础上,提出了一种基于最大化密度差的L2核分类器算法(MDL2KC)。该算法不仅可以保证估计出的两类密度差接近于真实密度差,而且可以使两类的密度差尽可能大,从而进一步提高分类效果。(2)定义了样本和类的相似度线性表示方法。同时,揭示了该相似度表示方法的Parzen Window概率密度估计本质。基于此表示方法,提出了相似度差支持向量机算法(DSSVM)。算法旨在寻求样本与某类相似度的一个最佳线性表示,并从线性表示的稀疏性以及相似度差意义上的间隔最大化角度构造了新的最优化问题。另外,文中证明了该方法等价于中心约束型最小包含球问题,这样就可以通过引入核心集向量机将相似度差支撑向量机扩展为相似度差核支撑向量机DSCVM,从而较好地解决了大数据集的分类问题。(3)基于动力学中的局部同步现象,提出了快速自适应同步聚类方法(FAKCS)。FAKCS首先引入基于压缩集密度估计和中心约束最小包含球技术的快速压缩方法对大规模数据集进行压缩,然后通过使用Davies-Bouldin指标,在压缩集上进行参数自适应的同步聚类,并采用新定义的序列参量来评价局部同步的程度。另外,研究了序列参量和Parzen Window概率密度估计间的联系,从理论上揭示了样本点的局部同步在概率密度意义下的本质。(4)在模糊k-平面聚类算法的基础上,通过引入正交约束提出了正交模糊k-平面聚类算法(OFkPC)。与kPC及FkPC类似,OFkPC仍从原型出发,用k组超平面替代传统的点(类中心)作为聚类原型。同时根据kPC及FkPC的思想,中心超平面是用来尽量区分不同类样本,因此这些超平面法向量构成的矩阵可以用来进行特征降维。(5)提出了投影的最大散度差距离度量用以表示领域分布距离。基于结构风险最小化思想和投影的最大散度差距离度量,进一步提出了散度差支持向量机(DSSVM)这一领域自适应算法。同时在理论上证明了所提算法在目标领域上的置信风险可控,因而具有较好的泛化能力。(6)为了解决非平衡数据集下的领域自适应问题,在充分考虑源领域样本类信息的基础上,定义了基于类分布的投影的最大均值差距离度量(PMMDDMCD),同时基于结构风险最小化模型,提出了基于类分布的领域自适应支持向量机(CDASVM)。并将其拓展为可处理多源问题的多源领域自适应支持向量机MSCDASVM。通过理论推导可以发现,PMMDDMCD本质上是一个基于Parzen Window概率密度估计的领域间概率分布差距离度量,且其包含了类信息,故更适用于度量非平衡数据集的分布距离。