基于Parzen Window估计的分类与聚类方法及应用研究

来源 :江南大学 | 被引量 : 3次 | 上传用户:AFI123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式识别是人工智能领域的一个重要研究任务,而分类和聚类是模式识别中的两个重要的研究课题。由于客观世界的多样性,不可能找到一种通用的方法来解决所有的分类与聚类问题,这就给分类与聚类方法的研究带来了很多的挑战与机遇。以ParzenWindow概率密度估计为代表的密度估计方法近年来也受到了研究者的广泛关注。如果能够准确地估计问题领域的数据分布,那无疑将会对领域内的识别任务提供极大的帮助。本文以Parzen Window概率密度估计为基础,从大样本、非平衡数据集、领域自适应等层面对分类与聚类算法进行了相关研究,并深入探讨了这些算法与Parzen Window概率密度估计之间的内在本质联系,本文的创造性研究成果主要有:(1)在Parzen window概率密度估计方法的基础上,提出了一种基于最大化密度差的L2核分类器算法(MDL2KC)。该算法不仅可以保证估计出的两类密度差接近于真实密度差,而且可以使两类的密度差尽可能大,从而进一步提高分类效果。(2)定义了样本和类的相似度线性表示方法。同时,揭示了该相似度表示方法的Parzen Window概率密度估计本质。基于此表示方法,提出了相似度差支持向量机算法(DSSVM)。算法旨在寻求样本与某类相似度的一个最佳线性表示,并从线性表示的稀疏性以及相似度差意义上的间隔最大化角度构造了新的最优化问题。另外,文中证明了该方法等价于中心约束型最小包含球问题,这样就可以通过引入核心集向量机将相似度差支撑向量机扩展为相似度差核支撑向量机DSCVM,从而较好地解决了大数据集的分类问题。(3)基于动力学中的局部同步现象,提出了快速自适应同步聚类方法(FAKCS)。FAKCS首先引入基于压缩集密度估计和中心约束最小包含球技术的快速压缩方法对大规模数据集进行压缩,然后通过使用Davies-Bouldin指标,在压缩集上进行参数自适应的同步聚类,并采用新定义的序列参量来评价局部同步的程度。另外,研究了序列参量和Parzen Window概率密度估计间的联系,从理论上揭示了样本点的局部同步在概率密度意义下的本质。(4)在模糊k-平面聚类算法的基础上,通过引入正交约束提出了正交模糊k-平面聚类算法(OFkPC)。与kPC及FkPC类似,OFkPC仍从原型出发,用k组超平面替代传统的点(类中心)作为聚类原型。同时根据kPC及FkPC的思想,中心超平面是用来尽量区分不同类样本,因此这些超平面法向量构成的矩阵可以用来进行特征降维。(5)提出了投影的最大散度差距离度量用以表示领域分布距离。基于结构风险最小化思想和投影的最大散度差距离度量,进一步提出了散度差支持向量机(DSSVM)这一领域自适应算法。同时在理论上证明了所提算法在目标领域上的置信风险可控,因而具有较好的泛化能力。(6)为了解决非平衡数据集下的领域自适应问题,在充分考虑源领域样本类信息的基础上,定义了基于类分布的投影的最大均值差距离度量(PMMDDMCD),同时基于结构风险最小化模型,提出了基于类分布的领域自适应支持向量机(CDASVM)。并将其拓展为可处理多源问题的多源领域自适应支持向量机MSCDASVM。通过理论推导可以发现,PMMDDMCD本质上是一个基于Parzen Window概率密度估计的领域间概率分布差距离度量,且其包含了类信息,故更适用于度量非平衡数据集的分布距离。
其他文献
随着XML应用的不断扩展,XML已经成为互联网上信息描述和信息交换的事实标准。XML数据是一种半结构化数据,它的特点是拥有不规则、可变的结构。作为一种新兴的数据格式,如何对
目的探讨精神分裂症护理门诊对精神分裂症患者康复和生活质量的影响。方法将250例出院的精神分裂症患者随机分为研究组和对照组,2组均予以利培酮维持治疗。研究组在此基础上
目的:观察奥沙利铂联合5-氟尿嘧啶化疗治疗大肠癌的不良反应护理。方法:对60例大肠癌应用奥沙利铂联合5-氟尿嘧啶化疗。结果:治疗过程中均出现不同程度的不良反应,如:感觉迟钝、
环境问题是人们近年来的热议话题,环境会计是我国的一门新兴学科,同时也作为解决环境问题的一种有效工具。对环境会计开展更深层次的研究的前提,必然是建立在理论基础的支持
目的:为防范和解决民营医院医疗纠纷提出相关建议。方法通过对重庆市主城区35所民营医院医务科工作人员的咨询与交流,分析各医院2011~2012年间医务科医疗投诉备案资料,利用 Excel
以中国经济增长和产业结构的事实经验为研究对象,利用中国1978—2017年数据,考察产业结构和经济增长之间的短期波动和长期均衡的拉动作用。研究发现,我国经济进入新常态阶段,
目前,在新疆地区实施现代学徒制的高校微乎其微。我校印刷技术专业遵循基本规律,结合实际情况,因地制宜,率先在招生招工、工学结合、产教融合、导师建设、课程体系、学籍和教
<正> 根据农一师目前水稻主栽品种几年来的高产分析,要使水稻获得千斤以上的高产,必须建立一个高光效、高积累的群体,使穗、粒、重得到协调发展,形成最佳的穗粒结构,以达到高
多视场景异常目标描述是在多视场景中对发生异常的目标进行描述,是计算机视觉领域内一个具有挑战性的课题。研究多视场景异常目标描述具有重要的学术价值和广阔的应用前景,对
随着数字媒体艺术的不断发展,VR技术不再只是简单的表述艺术的一种技术手段,VR艺术是伴随着虚拟现实时代的来临而产生的心的艺术美学逻辑,通过新的技术手段带来了更深刻的艺